polito.it
Politecnico di Torino (logo)

APPLICAZIONE DI ALGORITMI DI DEEP LEARNING PER LA CLASSIFICAZIONE DI ANAGRAFICHE SANITARIE TRAMITE NATURAL LANGUAGE PROCESSING = DEEP LEARNING ALGORITHMS FOR THE CLASSIFICATION OF MEDICAL RECORDS THROUGH NATURAL LANGUAGE PROCESSING

Christian De Gennaro

APPLICAZIONE DI ALGORITMI DI DEEP LEARNING PER LA CLASSIFICAZIONE DI ANAGRAFICHE SANITARIE TRAMITE NATURAL LANGUAGE PROCESSING = DEEP LEARNING ALGORITHMS FOR THE CLASSIFICATION OF MEDICAL RECORDS THROUGH NATURAL LANGUAGE PROCESSING.

Rel. Gabriella Balestra, Susanna Pavanelli. Politecnico di Torino, Corso di laurea magistrale in Ingegneria Biomedica, 2023

Abstract:

Il lavoro di tesi è stato svolto nel contesto del progetto "A.Li.Sa" presso l'azienda K.P.M.G. Advisory S.p.A. Lo scopo di tale progetto è la creazione di un impianto anagrafico unico del Sistema Amministrativo Contabile Unico delle Aziende Sociosanitarie ed IRCCS della Regione Liguria per quanto riguarda i prodotti e servizi. Otto aziende sanitarie sono coinvolte nel progetto, tra cui cinque aziende sanitarie locali liguri, l'azienda ospedaliera “San Martino” e l'IRCCS “Istituto Pediatrico Gaslini”. La metodologia che ha condotto all’aggiornamento dell’anagrafica unica regionale è stata strutturata attraverso le seguenti macro-fasi: 1)??Suddivisione delle anagrafiche aziendali in cinque categorie: farmaci, dispositivi medici, altri beni sanitari, beni non sanitari e servizi; 2)??Trasposizione delle vecchie anagrafiche: processo di adeguamento delle vecchie anagrafiche agli standard di codifica del nuovo sistema; 3)??Bonifica delle anagrafiche: fase di pulizia e integrazione dei dati mancanti; 4)??Riconduzione di prodotti analoghi: fase in cui prodotti identici con codifiche diverse vengono ricondotti ad un unico “prodotto master"; 5)??Adeguamento dell'impianto anagrafico alle nuove alberature regionali delle Classi Merceologiche e del nuovo Piano dei Conti: ad ogni prodotto presente in anagrafica viene associata una nuova classe merceologica. Il lavoro svolto fa riferimento alla fase di associazione dei prodotti di tipo sanitario, in particolare è stato utilizzato un algoritmo di deep learning basato su una rete neurale convoluzionale per implementare un text classifier. Questo approccio è stato adottato per analizzare le stringhe di descrizione delle anagrafiche e classificarle opportunamente. Il dataset utilizzato proviene da un’estrazione del software AREAS®, impiegato dalle aziende. Al fine di migliorare la qualità dei raw data del dataset e selezionare le caratteristiche più rilevanti per il problema in esame, sono state eseguite diverse operazioni. In particolare, è stata condotta una fase feature selection, seguita da un processo di data cleaning e integrazione. Alla fine di tali processi di elaborazione, sono stati ottenuti due dataset distinti: uno contenente le informazioni relative ai dispositivi medici e l'altro contenente le informazioni sui farmaci. Il pre-processing è un'importante attività per la classificazione del testo nell'elaborazione del linguaggio naturale. In questa fase si lavora sulle stringhe di descrizione delle anagrafiche e si effettuano le seguenti operazioni: •??Normalizzazione •??Rimozione del rumore •??Tokenizzazione Successivamente i tokens ottenuti vengono sottoposti ad un processo di encoding, ovvero una trasformazione delle informazioni testuali in una rappresentazione numerica. Questa rappresentazione numerica consente ai modelli di machine learning di elaborare i dati testuali che altrimenti sono in forma di testo non strutturato. Viene quindi determinata l'architettura della rete neurale convoluzionale, progettata appositamente per ottimizzare le prestazioni nel contesto della classificazione di testi. La struttura della rete è la seguente: •??Layer di input •??Embedding Layer •??Layer di convoluzione •??Layer di concatenazione •??Fully connected layer •??Softmax layer •??Output layer Infine, si procede con la fase di train e test della rete creata e se ne valutano le performance andando a calcolare accuracy, perclass accuracy, precision, F1-score.

Relatori: Gabriella Balestra, Susanna Pavanelli
Anno accademico: 2022/23
Tipo di pubblicazione: Elettronica
Numero di pagine: 90
Informazioni aggiuntive: Tesi secretata. Fulltext non presente
Soggetti:
Corso di laurea: Corso di laurea magistrale in Ingegneria Biomedica
Classe di laurea: Nuovo ordinamento > Laurea magistrale > LM-21 - INGEGNERIA BIOMEDICA
Aziende collaboratrici: KPMG Advisory SpA
URI: http://webthesis.biblio.polito.it/id/eprint/27852
Modifica (riservato agli operatori) Modifica (riservato agli operatori)