Danilo Cazzolla
Analysis of Spark and other SQL technologies on top of Hadoop with respect to performance and integration level into Hadoop.
Rel. Paolo Garza. Politecnico di Torino, Master of science program in Computer Engineering, 2018
Abstract
Con questo lavoro si vogliono affrontare 2 problemi riguardanti l’elaborazione di una gran mole di dati al fine di poter rendere quest’ultima più agevole e performante al momento dell’utilizzo. Nella prima parte si affronta il problema del trasferimento di dati tra due database. Il database di destinazione (SAP HanaVora) risulta essere particolarmente performante nelle analisi di grandi moli di dati in quanto dispone di un buon livello di scalabilità. I due sistemi presentano alcune discrepanze nella rappresentazione dei dati pertanto il primo problema affrontato riguarda la verifica di compatibilità dei tipi di dato così da evitare inconsistenze di dati a trasferimento avvenuto.
Il problema è stato affrontato sviluppando uno script Scala che effettua il parsing delle query di backup esportate dal DB di partenza (SAP S/4Hana)
Relators
Academic year
Publication type
Number of Pages
Additional Information
Course of studies
Classe di laurea
Ente in cotutela
URI
![]() |
Modify record (reserved for operators) |
