polito.it
Politecnico di Torino (logo)

Automatic contradiction detection in clinical trial proposal documents

Laurentiu Aurelian Apostol

Automatic contradiction detection in clinical trial proposal documents.

Rel. Paolo Garza, Luca Anselma. Politecnico di Torino, Corso di laurea magistrale in Data Science And Engineering, 2024

[img]
Preview
PDF (Tesi_di_laurea) - Tesi
Licenza: Creative Commons Attribution Non-commercial No Derivatives.

Download (1MB) | Preview
Abstract:

Questa tesi riguarda il rilevamento automatizzato di incongruenze nei documenti di proposta di trial clinici, concentrandosi specificamente sulle contraddizioni tra tabelle e testo a loro associato. Il lavoro è motivato dal collo di bottiglia rappresentato dal processo di approvazione dei trial clinici, dove incongruenze nei documenti possono portare a respingimenti e richieste di correzione, aumentando notevolmente i tempi di approvazione. Operando entro i limiti imposti da un dataset ristretto, file non in formato “machine readable”, risorse computazionali contenute e un dominio specializzato, il risultato di questo progetto è una pipeline per il rilevamento delle contraddizioni tra tabelle e testo. Il sistema combina elaborazione OCR con l'intervento manuale, utilizza regole predefinite ed embedding semantici per l'identificazione del testo rilevante per ogni tabella e impiega una prompt chain per la classificazione delle contraddizioni. Per affrontare la scarsità di esempi contraddittori, è stato sviluppato un processo di generazione di dati sintetici, creando versioni modificate di coppie tabella-testo non contraddittorie già presenti nel dataset. Sebbene i risultati iniziali degli esperimenti di classificazione presentino numerose difficoltà interpretative, essi tuttavia forniscono indicazioni incoraggianti per sviluppi futuri. Questo progetto evidenzia in particolare come l'aumento del volume di testo per singolo data point aumenti significativamente la complessità del task rispetto a dataset più semplici formati da coppie frase-tabella, dataset che sono la norma in questo e simili ambiti del campo NLP. Questo lavoro può auspicabilmente rappresentare un primo prototipo per lo sviluppo di strumenti pratici al fine di assistere gli esperti del settore nelle fasi iniziali di una proposta di trial clinico.

Relatori: Paolo Garza, Luca Anselma
Anno accademico: 2024/25
Tipo di pubblicazione: Elettronica
Numero di pagine: 60
Soggetti:
Corso di laurea: Corso di laurea magistrale in Data Science And Engineering
Classe di laurea: Nuovo ordinamento > Laurea magistrale > LM-32 - INGEGNERIA INFORMATICA
Aziende collaboratrici: UNIVERSITA' DEGLI STUDI DI TORINO
URI: http://webthesis.biblio.polito.it/id/eprint/34009
Modifica (riservato agli operatori) Modifica (riservato agli operatori)