Analisi e valutazione della piattaforma Spark
Contribuinte(s) |
Golfarelli, Matteo |
---|---|
Data(s) |
16/07/2015
|
Resumo |
Negli ultimi anni i dati, la loro gestione e gli strumenti per la loro analisi hanno subito una trasformazione. Si è visto un notevole aumento dei dati raccolti dagli utenti, che si aggira tra il 40 e il 60 percento annuo, grazie ad applicazioni web, sensori, ecc.. Ciò ha fatto nascere il termine Big Data, con il quale ci si riferisce a dataset talmente grandi che non sono gestibili da sistemi tradizionali, come DBMS relazionali in esecuzione su una singola macchina. Infatti, quando la dimensione di un dataset supera pochi terabyte, si è obbligati ad utilizzare un sistema distribuito, in cui i dati sono partizionati su più macchine. Per gestire i Big Data sono state create tecnologie che riescono ad usare la potenza computazionale e la capacità di memorizzazione di un cluster, con un incremento prestazionale proporzionale al numero di macchine presenti sullo stesso. Il più utilizzato di questi sistemi è Hadoop, che offre un sistema per la memorizzazione e l’analisi distribuita dei dati. Grazie alla ridondanza dei dati ed a sofisticati algoritmi, Hadoop riesce a funzionare anche in caso di fallimento di uno o più macchine del cluster, in modo trasparente all’utente. Su Hadoop si possono eseguire diverse applicazioni, tra cui MapReduce, Hive e Apache Spark. É su quest’ultima applicazione, nata per il data processing, che è maggiormente incentrato il progetto di tesi. Un modulo di Spark, chiamato Spark SQL, verrà posto in confronto ad Hive nella velocità e nella flessibilità nell’eseguire interrogazioni su database memorizzati sul filesystem distribuito di Hadoop. |
Formato |
application/pdf |
Identificador |
http://amslaurea.unibo.it/8876/1/gatto_lorenzo_tesi.pdf Gatto, Lorenzo (2015) Analisi e valutazione della piattaforma Spark. [Laurea], Università di Bologna, Corso di Studio in Ingegneria e scienze informatiche [L-DM270] - Cesena <http://amslaurea.unibo.it/view/cds/CDS8615/> |
Relação |
http://amslaurea.unibo.it/8876/ |
Direitos |
info:eu-repo/semantics/openAccess |
Palavras-Chave | #Big data, Spark, Hadoop #scuola :: 843899 :: Scienze #cds :: 8615 :: Ingegneria e scienze informatiche [L-DM270] - Cesena #indirizzo :: 978 :: Curriculum ingegneria informatica #sessione :: prima |
Tipo |
PeerReviewed |