polito.it
Politecnico di Torino (logo)

Integrazione di un Large Language Model e di un Data Catalog in un Data Quality Framework = Large Language Model and Data Catalog integration into a Data Quality Framework

Davide Giovanni Freni

Integrazione di un Large Language Model e di un Data Catalog in un Data Quality Framework = Large Language Model and Data Catalog integration into a Data Quality Framework.

Rel. Paolo Garza. Politecnico di Torino, Corso di laurea magistrale in Ingegneria Informatica (Computer Engineering), 2025

Abstract:

La presente tesi di laurea si concentra sull'integrazione di tecnologie negli ambiti della Data Engineering e della Generative AI al fine di migliorare l’usabilità e, più in generale, la user experience di AlerTable, un framework proprietario progettato per semplificare e automatizzare l’intero flusso di gestione del processo di Data Quality. In particolare, il lavoro svolto si articola in tre principali interventi, ciascuno volto a migliorare AlerTable sotto specifici punti di vista. Il primo intervento effettuato riguarda l’integrazione di un Large Language Model (LLM), nello specifico Claude V2 usato tramite Amazon Bedrock, con l'obiettivo di migliorare la comprensibilità degli output generati da un algoritmo di anomaly detection preesistente. Ciò ha reso i check e gli alert prodotti da uno degli engine di Data Quality di AlerTable più "parlanti", andando a facilitare l'interpretazione di eventuali anomalie anche per utenti meno esperti, privi di conoscenze in linguaggi di interrogazione di database relazionali come SQL. Successivamente, l'attenzione si è spostata su Unity Catalog, un data catalog open source rilasciato a giugno 2024, con l’obiettivo di centralizzare la gestione dei dati e migliorare l’organizzazione dei metadati in AlerTable. L’intento iniziale era sostituire i molteplici connettori esistenti (come Amazon Athena e MySQL) con un’unica sorgente centralizzata, così da migliorare l’organizzazione e la fruibilità delle risorse dati, oltre che snellire la fase di import di un data source. Tuttavia, è emerso che lo strumento, nelle sue funzionalità correnti, non offriva i benefici attesi per AlerTable. Infine, è stato implementato un sistema per la creazione automatica di dashboard su Grafana, utilizzando le API esposte da Grafana stesso e il modello Claude V2 tramite Amazon Bedrock. Partendo dai log estratti da una data pipeline ETL simulata con tre job Spark su AWS Glue, si generano automaticamente delle dashboard (e le corrispondenti query) in accordo al tipo di visualizzazione più appropriato (time series, istogramma, ecc.) per la rappresentazione dei dati in analisi. Come si può intuire, questo stesso approccio, validato inizialmente su dei log come caso di studio, può essere esteso a diversi dataset, adattandosi a scenari applicativi più ampi come ad esempio i log di AlerTable. Questa soluzione consente anche agli utenti meno esperti di poter creare dashboard e interpretare i propri dati con facilità, contribuendo significativamente al miglioramento della user experience. L’insieme di queste integrazioni dimostra come l’uso di modelli di linguaggio avanzati e di strumenti che ottimizzano la gestione di dati e metadati possa supportare in modo efficace un processo complesso e articolato come quello della Data Quality. La tesi si conclude con una riflessione sui risultati raggiunti, soffermandosi sugli obiettivi pratici del progetto e sulle possibili direzioni per futuri sviluppi.

Relatori: Paolo Garza
Anno accademico: 2024/25
Tipo di pubblicazione: Elettronica
Numero di pagine: 92
Informazioni aggiuntive: Tesi secretata. Fulltext non presente
Soggetti:
Corso di laurea: Corso di laurea magistrale in Ingegneria Informatica (Computer Engineering)
Classe di laurea: Nuovo ordinamento > Laurea magistrale > LM-32 - INGEGNERIA INFORMATICA
Aziende collaboratrici: DATA Reply S.r.l. con Unico Socio
URI: http://webthesis.biblio.polito.it/id/eprint/35352
Modifica (riservato agli operatori) Modifica (riservato agli operatori)