Analysis of Spark and other SQL technologies on top of Hadoop with respect to performance and integration level into Hadoop

Danilo Cazzolla

Analysis of Spark and other SQL technologies on top of Hadoop with respect to performance and integration level into Hadoop.

Rel. Paolo Garza. Politecnico di Torino, Corso di laurea magistrale in Ingegneria Informatica (Computer Engineering), 2018

Abstract

Con questo lavoro si vogliono aﬀrontare 2 problemi riguardanti l’elaborazione di una gran mole di dati al ﬁne di poter rendere quest’ultima più agevole e performante al momento dell’utilizzo. Nella prima parte si aﬀronta il problema del trasferimento di dati tra due database. Il database di destinazione (SAP HanaVora) risulta essere particolarmente performante nelle analisi di grandi moli di dati in quanto dispone di un buon livello di scalabilità. I due sistemi presentano alcune discrepanze nella rappresentazione dei dati pertanto il primo problema aﬀrontato riguarda la veriﬁca di compatibilità dei tipi di dato così da evitare inconsistenze di dati a trasferimento avvenuto.

Il problema è stato aﬀrontato sviluppando uno script Scala che eﬀettua il parsing delle query di backup esportate dal DB di partenza (SAP S/4Hana)