9 resultados para elasticsearch
Resumo:
Presentation at Open Repositories 2014, Helsinki, Finland, June 9-13, 2014
Resumo:
Il presente elaborato ha come oggetto la progettazione e lo sviluppo di una soluzione Elasticsearch come piattaforma di analisi in un contesto di Social Business Intelligence. L’elaborato si inserisce all’interno di un progetto del Business Intelligence Group dell’Università di Bologna, incentrato sul monitoraggio delle discussioni online sul tema politico nel periodo delle elezioni europee del 2014.
Resumo:
Negli ultimi anni, a causa degli enormi progressi dell’informatica e della sempre crescente quantità di dati generati, si è sentito sempre più il bisogno di trovare nuove tecniche, approcci e algoritmi per la ricerca dei dati. Infatti, la quantità di informazioni da memorizzare è diventata tale che ormai si sente sempre più spesso parlare di "Big Data". Questo nuovo scenario ha reso sempre più inefficaci gli approcci tradizionali alla ricerca di dati. Recentemente sono state quindi proposte nuove tecniche di ricerca, come ad esempio le ricerche Nearest Neighbor. In questo elaborato sono analizzate le prestazioni della ricerca di vicini in uno spazio vettoriale utilizzando come sistema di data storage Elasticsearch su un’infrastruttura cloud. In particolare, sono stati analizzati e messi a confronto i tempi di ricerca delle ricerche Nearest Neighbor esatte e approssimate, valutando anche la perdita di precisione nel caso di ricerche approssimate, utilizzando due diverse metriche di distanza: la similarità coseno e il prodotto scalare.
Resumo:
Vivim, cada cop més, en un món tecnològic, on la vida diària es comparteix a les xarxes socials quasi sense adonar-nos-en. En aquest context, es generen quantitats ingents d'informació que, un cop tractades, poden ésser útils en estudis ben diversos com són la detecció de terratrèmols o la detecció prematura d'una epidèmia. En relació a aquest últim, el virus de la grip és un greu problema de salut pública ja que es destinen part dels recursos sanitaris durant un període de temps considerable i disminueix la productivitat laboral dels afectats que la pateixen. Davant d'aquesta situació, es planteja la realització d'un sistema de Business Intelligence que analitzi les dades extretes dels tweets de la plataforma Twitter en relació a les hospitalitzacions produïdes a un hospital de Catalunya, per tal de tenir un anàlisi predictiu de l'aparició d'un brot d'aquestes característiques. El treball va més enllà al emprar una tecnologia no convencional per la implementació del sistema BI. S'escull la dupla Elasticsearch i Kibana per tal d'aconseguir un sistema robust, distribuït, escalable i, sobretot, totalment personalitzable. Després d'un estudi d'aquestes dos solucions, incloent els plugins de monitoratge i càrrega de dades, s'ha elaborat un data warehouse complet i un quadre de comandament introductori. Es deixa, per futures línies de treball, l'anàlisi profund de les dades i la conseqüent extracció d'uns resultats que ens ajudin a predir amb una major antelació l'aparició d'un nou brot del virus de la grip.
Resumo:
Realització d'un sistema de Business Intelligence que analitzi les dades extretes dels tweets de la plataforma Twitter en relació a les hospitalitzacions produïdes a un hospital de Catalunya, per tal de tenir una anàlisi predictiva de l'aparició d'un brot de grip. El treball va més enllà a l'emprar una tecnologia no convencional per la implementació del sistema BI. S'escull la dupla ElasticSearch i Kibana per tal d'aconseguir un sistema robust, distribuït, escalable i, sobretot, totalment personalitzable. Després d'un estudi d'aquestes dos solucions, incloent els plugins de monitoratge i càrrega de dades, s'ha elaborat un data warehouse complet i un quadre de comandament introductori.
Resumo:
Il presente elaborato ha come oggetto l’analisi delle prestazioni e il porting di un sistema di SBI sulla distribuzione Hadoop di Cloudera. Nello specifico è stato fatto un porting dei dati del progetto WebPolEU. Successivamente si sono confrontate le prestazioni del query engine Impala con quelle di ElasticSearch che, diversamente da Oracle, sfrutta la stessa componente hardware (cluster).
Resumo:
Questo progetto di tesi è lo sviluppo di un sistema distribuito di acquisizione e visualizzazione interattiva di dati. Tale sistema è utilizzato al CERN (Organizzazione Europea per la Ricerca Nucleare) al fine di raccogliere i dati relativi al funzionamento dell'LHC (Large Hadron Collider, infrastruttura ove avvengono la maggior parte degli esperimenti condotti al CERN) e renderli disponibili al pubblico in tempo reale tramite una dashboard web user-friendly. L'infrastruttura sviluppata è basata su di un prototipo progettato ed implementato al CERN nel 2013. Questo prototipo è nato perché, dato che negli ultimi anni il CERN è diventato sempre più popolare presso il grande pubblico, si è sentita la necessità di rendere disponibili in tempo reale, ad un numero sempre maggiore di utenti esterni allo staff tecnico-scientifico, i dati relativi agli esperimenti effettuati e all'andamento dell'LHC. Le problematiche da affrontare per realizzare ciò riguardano sia i produttori dei dati, ovvero i dispositivi dell'LHC, sia i consumatori degli stessi, ovvero i client che vogliono accedere ai dati. Da un lato, i dispositivi di cui vogliamo esporre i dati sono sistemi critici che non devono essere sovraccaricati di richieste, che risiedono in una rete protetta ad accesso limitato ed utilizzano protocolli di comunicazione e formati dati eterogenei. Dall'altro lato, è necessario che l'accesso ai dati da parte degli utenti possa avvenire tramite un'interfaccia web (o dashboard web) ricca, interattiva, ma contemporaneamente semplice e leggera, fruibile anche da dispositivi mobili. Il sistema da noi sviluppato apporta miglioramenti significativi rispetto alle soluzioni precedentemente proposte per affrontare i problemi suddetti. In particolare presenta un'interfaccia utente costituita da diversi widget configurabili, riuitilizzabili che permettono di esportare i dati sia presentati graficamente sia in formato "machine readable". Un'alta novità introdotta è l'architettura dell'infrastruttura da noi sviluppata. Essa, dato che è basata su Hazelcast, è un'infrastruttura distribuita modulare e scalabile orizzontalmente. È infatti possibile inserire o rimuovere agenti per interfacciarsi con i dispositivi dell'LHC e web server per interfacciarsi con gli utenti in modo del tutto trasparente al sistema. Oltre a queste nuove funzionalità e possbilità, il nostro sistema, come si può leggere nella trattazione, fornisce molteplici spunti per interessanti sviluppi futuri.
Resumo:
This thesis is the result of a project whose objective has been to develop and deploy a dashboard for sentiment analysis of football in Twitter based on web components and D3.js. To do so, a visualisation server has been developed in order to present the data obtained from Twitter and analysed with Senpy. This visualisation server has been developed with Polymer web components and D3.js. Data mining has been done with a pipeline between Twitter, Senpy and ElasticSearch. Luigi have been used in this process because helps building complex pipelines of batch jobs, so it has analysed all tweets and stored them in ElasticSearch. To continue, D3.js has been used to create interactive widgets that make data easily accessible, this widgets will allow the user to interact with them and �filter the most interesting data for him. Polymer web components have been used to make this dashboard according to Google's material design and be able to show dynamic data in widgets. As a result, this project will allow an extensive analysis of the social network, pointing out the influence of players and teams and the emotions and sentiments that emerge in a lapse of time.
Resumo:
El objetivo del TFG es ejectuar y documentar el proceso de actualizaci on de un sistema software real de car acter empresarial, perteneciente a la empresa dedicada a las transacciones de divisas Foreign Exchange Solutions SL. El sistema est a implementado en Python 2.7 usando el framework de desarrollo r apido de aplicaciones web Django que, comenzando por su versi on 1.3.1, terminar a al nal del proyecto en la versi on 1.4.10, lo que nos llevar a a tener que actualizar todas las librer as relacionadas, adem as de mejorar la calidad del c odigo e incluso cambiar la estructura del proyecto, prestando adem as especial atenci on a la pruebas unitarias y de regresi on para comprobar el correcto funcionamiento del sistema a lo largo del desarrollo. Todo esto con el n de conseguir las nuevas funcionalidades y caracter sticas que una versi on m as nueva nos ofrece, adem as de mejorar la calidad de la aplicaci on -aumentar la reutilizaci on del c odigo y reducir futuros errores gracias a un c odigo m as sencillo y legible-, aumentar el rendimiento, y obtener una buena cobertura de pruebas. Usaremos adem as la metodolog a agil Scrum, el SGBD PostgreSQL, adem as de otras herramientas como Solr, ElasticSearch, Redis, Celery o Mercurial para el control de versiones.