polito.it
Politecnico di Torino (logo)

Identificazione e studio di misure di bias dei dati nei sistemi automatici di decisione = Identification and study of data bias measures in automatic decision making systems

Cecilia Ruggiero

Identificazione e studio di misure di bias dei dati nei sistemi automatici di decisione = Identification and study of data bias measures in automatic decision making systems.

Rel. Antonio Vetro'. Politecnico di Torino, Corso di laurea magistrale in Ingegneria Informatica (Computer Engineering), 2020

[img]
Preview
PDF (Tesi_di_laurea) - Tesi
Licenza: Creative Commons Attribution Non-commercial No Derivatives.

Download (3MB) | Preview
Abstract:

Bias dei dati e propagazione nei sistemi automatici di decisione: misurazione e tecniche di mitigazione Ai giorni d’oggi è sempre più diffusa all’interno dei processi decisionali la presenza di sistemi di decisione automatica basati sui dati. Essi vengono utilizzati per prendere scelte anche in ambiti significativi come quello giudiziario o occupazionale. L’accrescere dell’utilizzo di questi sistemi pone una crescente preoccupazione per il loro potenziale impatto discriminatorio. In particolare, i sistemi di apprendimento automatico addestrati su dati sbilanciati, corrono il rischio di perpetuare tali stereotipi presenti all’interno della società. Una delle sfide centrali è quella di determinare in un primo momento se i modelli utilizzati mostrano pregiudizi discriminatori ma in seconda istanza quello di cercare di evitare questo comportamento anomalo. I problemi di equità e di discriminazione sorgono soprattutto a causa di serie di dati sproporzionati. Ciò è dovuto dal fatto che questi algoritmi cercano modelli comuni nei dati di input per adattarsi correttamente a nuovi dati mai visti in precedenza tratti dalla stessa distribuzione utilizzata per creare il modello.  I dati ti training quindi risultano essere uno degli anelli chiave per il giusto addestramento. Se quindi insiemi di dati sproporzionati portano a risultati anomali l’obiettivo è quello di trovare delle metriche in grado di far porre l’attenzione sull’utilizzo di un training dataset equo, oppure di rilevare quando non lo è . La ricerca di metriche già note in letteratura da applicare ai dataset si è sviluppata tra un indice di eterogeneità (indice di Gini), due indici di diversità (indice di Shannon e Simpson) e un indice di entropia (indice di Theil). Come dataset applicativo per il caso d’uso la scelta è ricaduta su un dataset già oggetto di studi ovvero quello utilizzato nell’algoritmo Compas. I dati contengono variabili utilizzate per assegnare un punteggio di recidività agli imputati, insieme ai loro risultati entro 2 anni dalla decisione, per oltre 10.000 imputati penali nella Broward County, Florida. Per riuscire a focalizzare l’attenzione su singoli elementi e vederne le variazioni di comportamento degli indici ho scelto di utilizzare altri due dataset creati ad hoc sulla falsa riga dell’originale variandone il numero di classi dell’attributo sensibile preso in esame e le sue frequenze così da limitare al minimo i cambiamenti e riuscire ad individuare gli elementi che maggiormente influiscono gli indici utilizzati. In questo ambito, riuscire ad agire in anticipo rispetto al manifestarsi di un problema, permette di evitare l’insorgere di  comportamenti discriminatori che in quanto tali violano i diritti fondamentali dell’uomo.

Relatori: Antonio Vetro'
Anno accademico: 2019/20
Tipo di pubblicazione: Elettronica
Numero di pagine: 63
Soggetti:
Corso di laurea: Corso di laurea magistrale in Ingegneria Informatica (Computer Engineering)
Classe di laurea: Nuovo ordinamento > Laurea magistrale > LM-32 - INGEGNERIA INFORMATICA
Aziende collaboratrici: NON SPECIFICATO
URI: http://webthesis.biblio.polito.it/id/eprint/15364
Modifica (riservato agli operatori) Modifica (riservato agli operatori)