polito.it
Politecnico di Torino (logo)

Studio ed integrazione di algoritmi OCR basati su reti neurali per applicazioni industriali = Study and integration of OCR algorithms based on neural networks for industrial applications

Giorgio Bonessa

Studio ed integrazione di algoritmi OCR basati su reti neurali per applicazioni industriali = Study and integration of OCR algorithms based on neural networks for industrial applications.

Rel. Bartolomeo Montrucchio. Politecnico di Torino, Corso di laurea magistrale in Ingegneria Informatica (Computer Engineering), 2025

[img] PDF (Tesi_di_laurea) - Tesi
Accesso riservato a: Solo utenti staff fino al 25 Luglio 2028 (data di embargo).
Licenza: Creative Commons Attribution Non-commercial No Derivatives.

Download (19MB)
Abstract:

Il lavoro di tesi illustra lo studio, l’integrazione e la valutazione di algoritmi OCR (Optical Character Recognition) basati su reti neurali, condotta in collaborazione con SPEA S.p.A. Per il constesto applicativo industriale, l’analisi ha favorito un approccio modulare e scalabile, mantenendo separati i processi di (1) localizzazione e (2) riconoscimento del testo di cui si compone un motore OCR. Dopo una rassegna letteraria su entrambi i temi sono stati selezionati approcci rivolti al deep learning, senza mai sviluppare una soluzione end-to-end bensì una pipeline di sviluppo in grado di rispondere efficaciemente anche a scenari applicativi futuri dell’a- zienda. Un ruolo fondamentale nella pipeline è stato ricoperto dalla generazione sintetica di dati a supporto dell’addestramento dei modelli per mezzo di un’applicazione svilup- pata ad hoc nel corso della tesi. La sintesi artificiale di dati ha attinto da varie tecniche di augmentation e domain adaptation esaminate nell’efficacia di migliorare le prestazioni nei vari compiti. (1) La localizzazione del testo si è incentrata sull’addestramento di un modello YO- LOv8 per il rilevamento di regioni testuali. Inoltre, l’addestramento per immagini sinte- tiche ha verificato l’efficacia nell’imposizione di bias favoreli al task (come maggiori bias sulla forma e minori bias sulle texture) (2) Il riconoscimento del testo si è fondata sul framework Tesseract, cha a sua volta si basa su reti neurali Long Short-Term Memory, realizzando il fine-tuning di un modello pre-addestrato. La fase di verifica dimostra l’efficacia dei metodi sviluppati per alcuni casi studio dell’azienda, ma soprattutto presenta per ognuno una dimostrazione pratica nella confi- gurazione dei vari strumenti messi a punto per la pipeline di sviluppo (che sia il fine-tuning di Tesseract, l’addestramento di YOLO o la sintesi di dati artificiali).

Relatori: Bartolomeo Montrucchio
Anno accademico: 2024/25
Tipo di pubblicazione: Elettronica
Numero di pagine: 76
Soggetti:
Corso di laurea: Corso di laurea magistrale in Ingegneria Informatica (Computer Engineering)
Classe di laurea: Nuovo ordinamento > Laurea magistrale > LM-32 - INGEGNERIA INFORMATICA
Ente in cotutela: CENTRALE SUPELEC (FRANCIA)
Aziende collaboratrici: Spea SpA
URI: http://webthesis.biblio.polito.it/id/eprint/36368
Modifica (riservato agli operatori) Modifica (riservato agli operatori)