Realizzazione di uno strumento per la ricerca delle opportunità di caching in Spark = Development of a Spark cache opportunity research tool

Dario Patti

Realizzazione di uno strumento per la ricerca delle opportunità di caching in Spark = Development of a Spark cache opportunity research tool.

Rel. Paolo Garza. Politecnico di Torino, Corso di laurea magistrale in Ingegneria Informatica (Computer Engineering), 2021

Abstract

Da diversi anni assistiamo ad un aumento esponenziale della quantità e della varietà dei dati che le nuove tecnologie sono in grado di generare. Elaborare e analizzare una tale mole di informazioni diventa sempre più difficile e, per questo motivo, risulta fondamentale l’implementazione di soluzioni e strumenti di supporto che ci consentano di valorizzare e sfruttare al meglio questo flusso continuo di dati. Tra questi, Apache Spark è senza dubbio uno dei principali framework di riferimento nell’ambito dei Big Data. Questa piattaforma utilizza un sistema di elaborazione distribuita dei dati che gli permette di sfruttare le risorse di un cluster per svolgere quei compiti che una singola macchina non sarebbe in grado di portare a termine.

Il suo successo è dovuto ad un processo di computazione, concettualmente diverso da quello implementato dalle altre principali piattaforme del settore, basato sul concetto di elaborazione dei dati in-memory, allo scopo di sfruttare al massimo le prestazioni della memoria usata sulle macchine, diversamente dai modelli che prevedono numerosi e continui accessi ai dischi fisici