Analisi e valutazione della piattaforma Spark


Autoria(s): Gatto, Lorenzo
Contribuinte(s)

Golfarelli, Matteo

Data(s)

16/07/2015

Resumo

Negli ultimi anni i dati, la loro gestione e gli strumenti per la loro analisi hanno subito una trasformazione. Si è visto un notevole aumento dei dati raccolti dagli utenti, che si aggira tra il 40 e il 60 percento annuo, grazie ad applicazioni web, sensori, ecc.. Ciò ha fatto nascere il termine Big Data, con il quale ci si riferisce a dataset talmente grandi che non sono gestibili da sistemi tradizionali, come DBMS relazionali in esecuzione su una singola macchina. Infatti, quando la dimensione di un dataset supera pochi terabyte, si è obbligati ad utilizzare un sistema distribuito, in cui i dati sono partizionati su più macchine. Per gestire i Big Data sono state create tecnologie che riescono ad usare la potenza computazionale e la capacità di memorizzazione di un cluster, con un incremento prestazionale proporzionale al numero di macchine presenti sullo stesso. Il più utilizzato di questi sistemi è Hadoop, che offre un sistema per la memorizzazione e l’analisi distribuita dei dati. Grazie alla ridondanza dei dati ed a sofisticati algoritmi, Hadoop riesce a funzionare anche in caso di fallimento di uno o più macchine del cluster, in modo trasparente all’utente. Su Hadoop si possono eseguire diverse applicazioni, tra cui MapReduce, Hive e Apache Spark. É su quest’ultima applicazione, nata per il data processing, che è maggiormente incentrato il progetto di tesi. Un modulo di Spark, chiamato Spark SQL, verrà posto in confronto ad Hive nella velocità e nella flessibilità nell’eseguire interrogazioni su database memorizzati sul filesystem distribuito di Hadoop.

Formato

application/pdf

Identificador

http://amslaurea.unibo.it/8876/1/gatto_lorenzo_tesi.pdf

Gatto, Lorenzo (2015) Analisi e valutazione della piattaforma Spark. [Laurea], Università di Bologna, Corso di Studio in Ingegneria e scienze informatiche [L-DM270] - Cesena <http://amslaurea.unibo.it/view/cds/CDS8615/>

Relação

http://amslaurea.unibo.it/8876/

Direitos

info:eu-repo/semantics/openAccess

Palavras-Chave #Big data, Spark, Hadoop #scuola :: 843899 :: Scienze #cds :: 8615 :: Ingegneria e scienze informatiche [L-DM270] - Cesena #indirizzo :: 978 :: Curriculum ingegneria informatica #sessione :: prima
Tipo

PeerReviewed