Danilo Cazzolla
Analysis of Spark and other SQL technologies on top of Hadoop with respect to performance and integration level into Hadoop.
Rel. Paolo Garza. Politecnico di Torino, Corso di laurea magistrale in Ingegneria Informatica (Computer Engineering), 2018
Abstract
Con questo lavoro si vogliono affrontare 2 problemi riguardanti l’elaborazione di una gran mole di dati al fine di poter rendere quest’ultima più agevole e performante al momento dell’utilizzo. Nella prima parte si affronta il problema del trasferimento di dati tra due database. Il database di destinazione (SAP HanaVora) risulta essere particolarmente performante nelle analisi di grandi moli di dati in quanto dispone di un buon livello di scalabilità. I due sistemi presentano alcune discrepanze nella rappresentazione dei dati pertanto il primo problema affrontato riguarda la verifica di compatibilità dei tipi di dato così da evitare inconsistenze di dati a trasferimento avvenuto.
Il problema è stato affrontato sviluppando uno script Scala che effettua il parsing delle query di backup esportate dal DB di partenza (SAP S/4Hana)
Relatori
Anno Accademico
Tipo di pubblicazione
Numero di pagine
Informazioni aggiuntive
Corso di laurea
Classe di laurea
Ente in cotutela
URI
![]() |
Modifica (riservato agli operatori) |
