133 resultados para multistore,dataspace,NoSQL,GPSJ,schemaless,OLAP
Resumo:
Sistemas de tomada de decisão baseados em Data Warehouse (DW) estão sendo cada dia mais utilizados por grandes empresas e organizações. O modelo multidimensional de organização dos dados utilizado por estes sistemas, juntamente com as técnicas de processamento analítico on-line (OLAP), permitem análises complexas sobre o histórico dos negócios através de uma simples e intuitiva interface de consulta. Apesar dos DWs armazenarem dados históricos por natureza, as estruturas de organização e classificação destes dados, chamadas de dimensões, não possuem a rigor uma representação temporal, refletindo somente a estrutura corrente. Para um sistema destinado à análise de dados, a falta do histórico das dimensões impossibilita consultas sobre o ambiente real de contextualização dos dados passados. Além disso, as alterações dos esquemas multidimensionais precisam ser assistidas e gerenciadas por um modelo de evolução, de forma a garantir a consistência e integridade do modelo multidimensional sem a perda de informações relevantes. Neste trabalho são apresentadas dezessete operações de alteração de esquema e sete operações de alteração de instâncias para modelos multidimensionais de DW. Um modelo de versões, baseado na associação de intervalos de validade aos esquemas e instâncias, é proposto para o gerenciamento dessas operações. Todo o histórico de definições e de dados do DW é mantido por esse modelo, permitindo análises completas dos dados passados e da evolução do DW. Além de suportar consultas históricas sobre as definições e as instâncias do DW, o modelo também permite a manutenção de mais de um esquema ativo simultaneamente. Isto é, dois ou mais esquemas podem continuar a ter seus dados atualizados periodicamente, permitindo assim que as aplicações possam consultar dados recentes utilizando diferentes versões de esquema.
Resumo:
Online geographic-databases have been growing increasingly as they have become a crucial source of information for both social networks and safety-critical systems. Since the quality of such applications is largely related to the richness and completeness of their data, it becomes imperative to develop adaptable and persistent storage systems, able to make use of several sources of information as well as enabling the fastest possible response from them. This work will create a shared and extensible geographic model, able to retrieve and store information from the major spatial sources available. A geographic-based system also has very high requirements in terms of scalability, computational power and domain complexity, causing several difficulties for a traditional relational database as the number of results increases. NoSQL systems provide valuable advantages for this scenario, in particular graph databases which are capable of modeling vast amounts of inter-connected data while providing a very substantial increase of performance for several spatial requests, such as finding shortestpath routes and performing relationship lookups with high concurrency. In this work, we will analyze the current state of geographic information systems and develop a unified geographic model, named GeoPlace Explorer (GE). GE is able to import and store spatial data from several online sources at a symbolic level in both a relational and a graph databases, where several stress tests were performed in order to find the advantages and disadvantages of each database paradigm.
Resumo:
Current commercial and academic OLAP tools do not process XML data that contains XLink. Aiming at overcoming this issue, this paper proposes an analytical system composed by LMDQL, an analytical query language. Also, the XLDM metamodel is given to model cubes of XML documents with XLink and to deal with syntactic, semantic and structural heterogeneities commonly found in XML documents. As current W3C query languages for navigating in XML documents do not support XLink, XLPath is discussed in this article to provide features for the LMDQL query processing. A prototype system enabling the analytical processing of XML documents that use XLink is also detailed. This prototype includes a driver, named sql2xquery, which performs the mapping of SQL queries into XQuery. To validate the proposed system, a case study and its performance evaluation are presented to analyze the impact of analytical processing over XML/XLink documents.
Resumo:
[ES] Uno de los cinco componentes de la arquitectura triskel, una base de datos NoSQL que trata de dar solución al problema de Big data de la web semántica, el gran número de identificadores de recursos que se necesitarían debido al creciente número de sitios web, concretamente el motor de gestión de ejecución de patrones basados en tripletas y en la tecnología RDF. Se encarga de recoger la petición de consulta por parte del intérprete, analizar los patrones que intervienen en la consulta en busca de dependencias explotables entre ellos, y así poder realizar la consulta con mayor rapidez además de ir resolviendo los diferentes patrones contra el almacenamiento, un TripleStore, y devolver el resultado de la petición en una tabla.
Resumo:
[ES] SPARQL Interpreter es uno de los cinco componentes de la Arquitectura Triskel, una arquitectura de software para una base de datos NoSQL que intenta aportar una solución al problema de Big Data en la web semántica. Este componente da solución al problema de la comunicación entre el lenguaje y el motor, interpretando las consultas que se realicen contra el almacenamiento en lenguaje SPARQL y generando una estructura de datos que los componentes inferiores puedan leer y ejecutar.
Resumo:
L’elaborazione di questa tesi è stata svolta con l’ausilio di strumenti di Business Intelligence. In particolare, si è dapprima alimentato un data warehouse territoriale, in cui sono stati inseriti, dopo averli elaborati, i dati messi a disposizione dagli osservatori territoriali nazionali e dall’azienda Geofor spa. A partire da questi, sono stati prodotti degli indicatori statistici e dei report, utili per evidenziare andamenti e trend di crescita di alcuni particolari indici. Il principale strumento utilizzato è StatPortal, un portale Web di Business Intelligence OLAP per la realizzazione di Data warehouse territoriali. L’argomento sarà approfondito nel capitolo sette, dedicato agli strumenti utilizzati, ma in breve, questo sistema consente di raccogliere, catalogare e condividere informazione statistica e geostatistica, nonché di produrre indicatori e reportistica. Il lavoro è organizzato come segue: inizialmente c’è una prima parte di definizione e classificazione dei rifiuti che ha l’obiettivo di permettere al lettore di inquadrare il tema e prendere coscienza del problema. Successivamente, è stata sviluppata una parte più storica, con una rapida analisi temporale per comprendere il “tipping point”, cioè il momento in cui i rifiuti hanno iniziato a essere percepiti come un problema per la comunità, concludendo con un accenno agli scenari attuali e futuri. In seguito, si è indirizzata l’attenzione sul panorama italiano, europeo e mondiale citando alcuni interessanti e originali esempi di efficienza nella gestione dei rifiuti, che potrebbero servire da spunto per qualche stakeholder nazionale. Si è poi introdotta quella che è la normativa vigente, sottolineando quali sono gli obiettivi che impone ed entro quali tempi dovranno essere raggiunti, elencando quindi i principi fondamentali del D.lgs.152/2006 e del D.lgs 36/2003. Continuando su questo filo logico, si è voluto introdurre al lettore, la questione dei Rifiuti Solidi Urbani (RSU) nel Comune di Pisa. Sono stati definiti: lo stato dell’arte dell’igiene urbana pisana, i sistemi implementati nella città con i vari pregi e difetti e quali sono state le azioni pratiche messe in atto dall’Amministrazione per far fronte al tema. Il capitolo sei rappresenta uno dei due punti focali dell’intero lavoro: il Rapporto sullo Stato dell’Ambiente della città di Pisa in tema di rifiuti urbani. Qui saranno analizzati i vari indici e report prodotti ad hoc con lo strumento Statportal appena menzionato, con lo scopo di segnalare evidenze e obiettivi dell’Amministrazione. Nel settimo capitolo si analizza la fase di progettazione del Data Warehouse. Sono elencati i passi fondamentali nella costruzione di un DW dimensionale, esponendone in primo luogo la specifica dei requisiti del progetto ed elencando per ognuno di essi le dimensioni, le misure e le aggregazioni relative. In seguito saranno descritti nel dettaglio la fase di progettazione concettuale e lo schema logico. In ultimo, sarà presentato l’altro punto focale di questa tesi, nonché la parte più interattiva: un portale web creato appositamente per il Comune con l’obiettivo di coinvolgere ed aiutare i cittadini nel conferimento dei rifiuti da loro prodotti. Si tratta di una sorta di manuale interattivo per individuare come eseguire una corretta differenziazione dei rifiuti. Lo scopo primario è quello di fare chiarezza alle utenze nella differenziazione, il che, in maniera complementare, dovrebbe incrementare la qualità del rifiuto raccolto, minimizzando i conferimenti errati. L’obiettivo principale di questo lavoro resta quindi il monitoraggio e l’analisi delle tecniche e dei processi di gestione dei rifiuti nel Comune di Pisa. Analogamente si vuole coinvolgere e suscitare l’interesse del maggior numero di persone possibile al tema della sostenibilità ambientale, rendendo consapevole il lettore che il primo passo verso un mondo più sostenibile spetta in primis a Noi che quotidianamente acquistiamo, consumiamo ed infine gettiamo via i residui senza troppo preoccuparci. Il fatto che anche in Italia, si stia sviluppando un senso civico e una forte responsabilizzazione verso l’ambiente da parte dei cittadini, fa ben sperare. Questo perché si è riusciti a imprimere il concetto che le soluzioni si ottengano impegnandosi in prima persona. E’ alla nostra comunità che si affida il dovere di non compromettere l’esistenza delle generazioni future, incaricandola del compito di ristabilire un equilibrio, ormai precario, tra umanità e ambiente, se non altro perché, come recita un vecchio proverbio Navajo: “il mondo non lo abbiamo in eredità dai nostri padri ma lo abbiamo in prestito dai nostri figli”.
Resumo:
In the last few years, a new generation of Business Intelligence (BI) tools called BI 2.0 has emerged to meet the new and ambitious requirements of business users. BI 2.0 not only introduces brand new topics, but in some cases it re-examines past challenges according to new perspectives depending on the market changes and needs. In this context, the term pervasive BI has gained increasing interest as an innovative and forward-looking perspective. This thesis investigates three different aspects of pervasive BI: personalization, timeliness, and integration. Personalization refers to the capacity of BI tools to customize the query result according to the user who takes advantage of it, facilitating the fruition of BI information by different type of users (e.g., front-line employees, suppliers, customers, or business partners). In this direction, the thesis proposes a model for On-Line Analytical Process (OLAP) query personalization to reduce the query result to the most relevant information for the specific user. Timeliness refers to the timely provision of business information for decision-making. In this direction, this thesis defines a new Data Warehuose (DW) methodology, Four-Wheel-Drive (4WD), that combines traditional development approaches with agile methods; the aim is to accelerate the project development and reduce the software costs, so as to decrease the number of DW project failures and favour the BI tool penetration even in small and medium companies. Integration refers to the ability of BI tools to allow users to access information anywhere it can be found, by using the device they prefer. To this end, this thesis proposes Business Intelligence Network (BIN), a peer-to-peer data warehousing architecture, where a user can formulate an OLAP query on its own system and retrieve relevant information from both its local system and the DWs of the net, preserving its autonomy and independency.
Resumo:
L’ultimo decennio ha visto un radicale cambiamento del mercato informatico, con la nascita di un numero sempre maggiore di applicazioni rivolte all’interazione tra utenti. In particolar modo, l’avvento dei social network ha incrementato notevolmente le possibilità di creare e condividere contenuti sul web, generando volumi di dati sempre maggiori, nell’ordine di petabyte e superiori. La gestione di tali quantità di dati ha portato alla nascita di soluzioni non relazionali appositamente progettate, dette NoSQL. Lo scopo di questo documento è quello di illustrare come i sistemi NoSQL, nello specifico caso di MongoDB, cerchino di sopperire alle difficoltà d’utilizzo dei database relazionali in un contesto largamente distribuito. Effettuata l'analisi delle principali funzionalità messe a disposizione da MongoDB, si illustreranno le caratteristiche di un prototipo di applicazione appositamente progettato che sfrutti una capacità peculiare di MongoDB quale la ricerca full-text. In ultima analisi si fornirà uno studio delle prestazioni di tale soluzione in un ambiente basato su cluster, evidenziandone il guadagno prestazionale.
Resumo:
Lo scopo di questa tesi è presentare un progetto per la realizzazione di una piattaforma DBAAS per il database Jackrabbit. Per piattaforma DBAAS si intende un sistema in grado di offrire ai clienti un database su richiesta (DataBase As A Service), e di amministrare automaticamente i database per conto dei clienti. Il progetto viene realizzato in un primo momento tramite un prototipo della piattaforma, in cui vengono effettuati test intensivi per controllare ogni funzionalità della piattaforma. Il prototipo viene sviluppato in un singolo host, nel quale è possibile simulare tutte le operazioni base della piattaforma DBAAS, come se fosse il sistema finale. In un secondo momento, il progetto sarà realizzato nella sua versione finale, con tutto l'hardware necessario a garantire un servizio ottimale. Questa tesi contiene la base per realizzare il sistema finale, che può essere realizzato in modi diversi a seconda delle scelte che farà il progettista. Ad esempio, è possibile comprare tutto l'hardware necessario e implementare la piattaforma DBAAS in-house, oppure si può scegliere di affidare tutta la gestione hardware ad un servizio di hosting.
Resumo:
L’obiettivo di questa tesi è approfondire le competenze sulle funzionalità sviluppate nei sistemi SCADA/EMS presenti sul mercato, così da conoscerne le potenzialità offerte: tutte le conoscenze acquisite servono a progettare uno strumento di analisi dati flessibile e interattivo, con il quale è possibile svolgere analisi non proponibili con le altre soluzioni analizzate. La progettazione dello strumento di analisi dei dati è orientata a definire un modello multidimensionale per la rappresentazione delle informazioni: il percorso di progettazione richiede di individuare le informazioni d’interesse per l’utente, così da poterle reintrodurre in fase di progettazione della nuova base dati. L’infrastruttura finale di questa nuova funzionalità si concretizza in un data warehouse: tutte le informazioni di analisi sono memorizzare su una base dati diversa da quella di On.Energy, evitando di correlare le prestazione dei due diversi sottosistemi. L’utilizzo di un data warehouse pone le basi per realizzare analisi su lunghi periodi temporali: tutte le tipologie di interrogazione dati comprendono un enorme quantità d’informazioni, esattamente in linea con le caratteristiche delle interrogazioni OLAP
Resumo:
Panoramica delle caratteristiche dei database NoSQL, con dettaglio su MongoDB: filosofia di progettazione, modello dei dati, indicizzazione, algoritmo Map-Reduce e gestione della memoria.
Resumo:
Analisi di prestazioni di un database costruito con MongoDB e uno con Mysql residenti su due macchine virtuali uguali configurate appositamente per i test di inserimento, interrogazione e eliminazione.
Resumo:
E' stata effettuata l'analisi del sistema HIVE su piattaforma Hadoop (installato su un cluster) e sfruttando il benchmark TPC-H ne sono stati valutati i tempi di esecuzione delle query modificando la size del database e il formato di memorizzazione dei file: si è utilizzato il formato standard (AVRO) di tipo sequenziale e il formato PARQUET che memorizza i dati per colonna invece che per riga.
Resumo:
Il presente elaborato ha come oggetto la progettazione e lo sviluppo di una soluzione Elasticsearch come piattaforma di analisi in un contesto di Social Business Intelligence. L’elaborato si inserisce all’interno di un progetto del Business Intelligence Group dell’Università di Bologna, incentrato sul monitoraggio delle discussioni online sul tema politico nel periodo delle elezioni europee del 2014.