polito.it
Politecnico di Torino (logo)

Approccio ibrido per la classificazione gerarchica automatica di oggetti di contratti della pubblica amministrazione italiana = Hierarchic automatic classification of Italian public administration procurement contracts through hybrid approach

Domenico Flavio Amato

Approccio ibrido per la classificazione gerarchica automatica di oggetti di contratti della pubblica amministrazione italiana = Hierarchic automatic classification of Italian public administration procurement contracts through hybrid approach.

Rel. Antonio Vetro', Juan Carlos De Martin, Davide Allavena. Politecnico di Torino, Corso di laurea magistrale in Ingegneria Informatica (Computer Engineering), 2022

[img]
Preview
PDF (Tesi_di_laurea) - Tesi
Licenza: Creative Commons Attribution Non-commercial No Derivatives.

Download (2MB) | Preview
Abstract:

Lo scopo di questa tesi è di classificare i contratti della pubblica amministrazione italiana tramite un approccio ibrido. Questo lavoro si è svolto presso Synapta, azienda torinese che classifica gli appalti pubblici per offrire uno strumento di business intelligence, ContrattiPubblici.org, un software as a service. Due leggi obbligano gli enti pubblici a pubblicare i dati riguardanti i loro contratti in un formato leggibile dalle macchine e non proprietario. Questi dati prendono il nome di Open Government Data (OGD), può farvi accesso chiunque senza autenticazione e possono essere usati per scopi diversi da quelli per cui sono stati pubblicati. Per permettere alle aziende di utilizzare questo strumento, ai contratti è associato il codice CPV: una tassonomia sviluppata dall’UE per identificare le categorie merceologiche di appartenenza dei contratti pubblici. È un albero gerarchico. Dato che non è richiesto negli schemi di pubblicazione, solo il 12% dei contratti è provvisto di codice CPV. Sono stati usati due approcci per la classificazione. In prima istanza è stato creato un sistema di regole basato su regular expression e alcuni filtri accessori. Le regex cercano una sottostringa all’interno dell’oggetto del contratto; sono stati aggiunti ulteriori filtri. A tale scopo è stato necessario analizzare la distribuzione del mercato e i contratti delle classi da analizzare. Si è scelto questo approccio perché il classificatore machine learning scarta alcuni contratti. In questo modo è possibile identificare l’oggetto del contratto e assegnargli un codice CPV. Viene classificato il 2% dei contratti con il 98% di accuratezza su un export di 430 mila contratti. Quindi è stato processato da un classificatore random forest un export di 500 mila contratti. Random forest è un ensemble di alberi di decisione, ogni albero esprime in uscita la probabilità che un dato oggetto appartenga a quella classe. Il classificatore creato con questo lavoro è posto in cascata a un classificatore già in produzione che assegna al contratto il codice CPV di primo livello. Quindi il nuovo classificatore assegna la classe CPV di secondo o terzo livello. Ci si fida di quanto prodotto dal classificatore a valle e si discrimina tra le classi di livelli inferiori. Il proposito di questa nuova fase di classificazione è di migliorare la trasparenza negli appalti pubblici ed effettuare analisi di mercato basate sui contratti classificati: sarebbe possibile utilizzare filtri più granulari, ad esempio. Osservando le prestazioni del classificatore di primo livello per classe, è stato notato che quelle maggiormente rappresentate vengono classificate in modo più accurato. Questa osservazione è stata estesa alle classi inferiori, così è stata impostata una soglia minima per eliminare le classi meno rappresentate. Per fare questo è stata considerata anche la distribuzione del mercato. È stato effettuato uno split 70/20/10 sul dataset. Lo scopo della classificazione non è di classificare tutti i contratti, ma di classificare con un’accuratezza elevata, aumentando la precisione e riducendo il numero di falsi positivi. Perciò ci sono state diverse esecuzioni con differenti valori di soglia. La precisione più alta, il 92%, viene ottenuta con il valore di soglia uguale a 0,6. Viene classificato l’81% dei contratti con il 90% di accuratezza. Con la soglia a 0,8 la precisione è del 91%; il 58% dei contratti viene classificato con il 93% di accuratezza.

Relatori: Antonio Vetro', Juan Carlos De Martin, Davide Allavena
Anno accademico: 2021/22
Tipo di pubblicazione: Elettronica
Numero di pagine: 97
Soggetti:
Corso di laurea: Corso di laurea magistrale in Ingegneria Informatica (Computer Engineering)
Classe di laurea: Nuovo ordinamento > Laurea magistrale > LM-32 - INGEGNERIA INFORMATICA
Aziende collaboratrici: Synapta Srl
URI: http://webthesis.biblio.polito.it/id/eprint/22580
Modifica (riservato agli operatori) Modifica (riservato agli operatori)