6 resultados para HDFS bottleneck
em AMS Tesi di Laurea - Alm@DL - Università di Bologna
Resumo:
Il presente elaborato ha come oggetto l’analisi delle prestazioni e il porting di un sistema di SBI sulla distribuzione Hadoop di Cloudera. Nello specifico è stato fatto un porting dei dati del progetto WebPolEU. Successivamente si sono confrontate le prestazioni del query engine Impala con quelle di ElasticSearch che, diversamente da Oracle, sfrutta la stessa componente hardware (cluster).
Resumo:
Negli ultimi anni la biologia ha fatto ricorso in misura sempre maggiore all’informatica per affrontare analisi complesse che prevedono l’utilizzo di grandi quantità di dati. Fra le scienze biologiche che prevedono l’elaborazione di una mole di dati notevole c’è la genomica, una branca della biologia molecolare che si occupa dello studio di struttura, contenuto, funzione ed evoluzione del genoma degli organismi viventi. I sistemi di data warehouse sono una tecnologia informatica che ben si adatta a supportare determinati tipi di analisi in ambito genomico perché consentono di effettuare analisi esplorative e dinamiche, analisi che si rivelano utili quando si vogliono ricavare informazioni di sintesi a partire da una grande quantità di dati e quando si vogliono esplorare prospettive e livelli di dettaglio diversi. Il lavoro di tesi si colloca all’interno di un progetto più ampio riguardante la progettazione di un data warehouse in ambito genomico. Le analisi effettuate hanno portato alla scoperta di dipendenze funzionali e di conseguenza alla definizione di una gerarchia nei dati. Attraverso l’inserimento di tale gerarchia in un modello multidimensionale relativo ai dati genomici sarà possibile ampliare il raggio delle analisi da poter eseguire sul data warehouse introducendo un contenuto informativo ulteriore riguardante le caratteristiche dei pazienti. I passi effettuati in questo lavoro di tesi sono stati prima di tutto il caricamento e filtraggio dei dati. Il fulcro del lavoro di tesi è stata l’implementazione di un algoritmo per la scoperta di dipendenze funzionali con lo scopo di ricavare dai dati una gerarchia. Nell’ultima fase del lavoro di tesi si è inserita la gerarchia ricavata all’interno di un modello multidimensionale preesistente. L’intero lavoro di tesi è stato svolto attraverso l’utilizzo di Apache Spark e Apache Hadoop.
Resumo:
In the Massive IoT vision, millions of devices need to be connected to the Internet through a wireless access technology. However, current IoT-focused standards are not fully prepared for this future. In this thesis, a novel approach to Non-Orthogonal techniques for Random Access, which is the main bottleneck in high density systems, is proposed. First, the most popular wireless access standards are presented, with a focus on Narrowband-IoT. Then, the Random Access procedure as implemented in NB-IoT is analyzed. The Non-Orthogonal Random Access technique is presented next, along with two potential algorithms for the detection of non-orthogonal preambles. Finally, the performance of the proposed solutions are obtained through numerical simulations.
Resumo:
The decomposition of Feynman integrals into a basis of independent master integrals is an essential ingredient of high-precision theoretical predictions, that often represents a major bottleneck when processes with a high number of loops and legs are involved. In this thesis we present a new algorithm for the decomposition of Feynman integrals into master integrals with the formalism of intersection theory. Intersection theory is a novel approach that allows to decompose Feynman integrals into master integrals via projections, based on a scalar product between Feynman integrals called intersection number. We propose a new purely rational algorithm for the calculation of intersection numbers of differential $n-$forms that avoids the presence of algebraic extensions. We show how expansions around non-rational poles, which are a bottleneck of existing algorithms for intersection numbers, can be avoided by performing an expansion in series around a rational polynomial irreducible over $\mathbb{Q}$, that we refer to as $p(z)-$adic expansion. The algorithm we developed has been implemented and tested on several diagrams, both at one and two loops.
Resumo:
Nel mondo dell’industria, la produzione senza sprechi costituisce fonte di vantaggio competitivo. Per questo, molte aziende cercano di efficientare i propri processi attraverso gli strumenti della Lean Manufacturing. L’obiettivo di questa tesi è proprio quello di trovare una soluzione per la minimizzazione degli sprechi all’interno del contesto aziendale in cui sono stato inserito come tirocinante. In primis, si cercherà di descrivere in modo dettagliato l’azienda pressa la quale si è svolta l’attività di tirocinio. Successivamente verrà illustrato lo stato AS-IS dell’azienda insieme alle problematiche che sta fronteggiando in questo momento. Dopo la descrizione del problema all’interno del contesto aziendale, si analizzeranno i dati presi direttamente sul campo di lavoro. A seguire, dopo l’approvazione da parte del top management della soluzione migliorativa trovata, avverrà la descrizione dello stato TO-BE. In conclusione, verranno messi a confronto i dati dello stato AS-IS con quelli del TO-BE per costruire il dato aggregato dell’attività svolta in azienda. Questo riassume brevemente il lavoro di tesi svolto in azienda, che ha permesso di ridurre di qualche punto percentuale i fermi macchina e di efficientare il sistema produttivo.
Resumo:
The recording and processing of voice data raises increasing privacy concerns for users and service providers. One way to address these issues is to move processing on the edge device closer to the recording so that potentially identifiable information is not transmitted over the internet. However, this is often not possible due to hardware limitations. An interesting alternative is the development of voice anonymization techniques that remove individual speakers characteristics while preserving linguistic and acoustic information in the data. In this work, a state-of-the-art approach to sequence-to-sequence speech conversion, ini- tially based on x-vectors and bottleneck features for automatic speech recognition, is explored to disentangle the two acoustic information using different pre-trained speech and speakers representation. Furthermore, different strategies for selecting target speech representations are analyzed. Results on public datasets in terms of equal error rate and word error rate show that good privacy is achieved with limited impact on converted speech quality relative to the original method.