133 resultados para multistore,dataspace,NoSQL,GPSJ,schemaless,OLAP
Resumo:
I big data sono caratterizzati dalle ben note 4v: volume, velocità, veracità e varietà. Quest'ultima risulta di importanza critica nei sistemi schema-less, dove il concetto di schema non è rigido. In questo contesto rientrano i database NoSQL, i quali offrono modelli dati diversi dal classico modello dati relazionale, ovvero: documentale, wide-column, grafo e key-value. Si parla di multistore quando ci si riferisce all'uso di database con modelli dati diversi che vengono esposti con un'unica interfaccia di interrogazione, sia per sfruttare caratteristiche di un modello dati che per le maggiori performance dei database NoSQL in contesti distribuiti. Fare analisi sui dati all'interno di un multistore risulta molto più complesso: i dati devono essere integrati e va ripristinata la consistenza. A questo scopo nasce la necessità di approcci più soft, chiamati pay-as-you-go: l'integrazione è leggera e incrementale, aggira la complessità degli approcci di integrazione tradizionali e restituisce risposte best-effort o approssimative. Seguendo tale filosofia, nasce il concetto di dataspace come rappresentazione logica e di alto livello dei dataset disponibili. Obiettivo di questo lavoro tesi è studiare, progettare e realizzare una modalità di interrogazione delle sorgenti dati eterogenee in contesto multistore con l'intento di fare analisi situazionali, considerando le problematiche di varietà e appoggiandosi all'integrazione fornita dal dataspace. Lo scopo finale è di sviluppare un prototipo che esponga un'interfaccia per interrogare il dataspace con la semantica GPSJ, ovvero la classe di query più comune nelle applicazioni OLAP. Un'interrogazione nel dataspace dovrà essere tradotta in una serie di interrogazioni nelle sorgenti e, attraverso un livello middleware, i risultati parziali dovranno essere integrati tra loro in modo che il risultato dell'interrogazione sia corretto e allo stesso tempo completo.
Resumo:
Em muitos casos o desenvolvimento de soluções recorrendo a data warehouses é pensado para funcionar de forma autónoma e não numa perspectiva cooperativa. Este facto leva a que existam alguns problemas quando é necessário integrar diferentes data marts de forma a construir uma solução integrada que possa facilitar o acesso á informação. A solução proposta passa pelo desenvolvimento de um servidor de baixo acoplamento que permite integrar diferentes datas marts heterogéneos, utilizando o protocolo padrão XMLA. O mesmo não possui qualquer informação presente nos múltiplos data marts a integrar. Este servidor apenas possui meta-informação que permite saber quais são as dimensões concordantes entre os diferentes data marts, possibilitando assim a realização de operações de drill-across entre as diversas fontes de dados. Com esta solução é possível a existência um elevado grau de descomprometimento entre o servidor de integração e os repositórios de informação, sendo apenas necessário que o servidor saiba de que forma os dados estão relacionados. Este servidor é constituído por diferentes módulos. De entre eles realça-se o módulo que permite gerar múltiplas interrogações, para cada um dos data marts, a partir de uma única interrogação. O mesmo módulo permite posteriormente juntar o resultado das interrogações a todos os data marts numa única resposta. Para realizar a prova da viabilidade da solução, foram desenvolvidos dois data marts que possuem dimensões concordantes. Cada um deles foi colocado em servidores de diferentes fornecedores. Ao ser colocado cada um dos data marts em dois servidores de fornecedores diferentes, é possível demonstrar também que a solução funciona com diferentes servidores. Para tornar possível a interrogação do servidor de integração, foi desenvolvida uma aplicação cliente que permite que o utilizador possa, ao ir adicionando e removendo dimensões, saber quais os dados que são ou não compatíveis.
Resumo:
Na atualidade, existe uma quantidade de dados criados diariamente que ultrapassam em muito as mais otimistas espectativas estabelecidas na década anterior. Estes dados têm origens bastante diversas e apresentam-se sobre várias formas. Este novo conceito que dá pelo nome de Big Data está a colocar novos e rebuscados desafios ao seu armazenamento, tratamento e manipulação. Os tradicionais sistemas de armazenamento não se apresentam como a solução indicada para este problema. Estes desafios são alguns dos mais analisados e dissertados temas informáticos do momento. Várias tecnologias têm emergido com esta nova era, das quais se salienta um novo paradigma de armazenamento, o movimento NoSQL. Esta nova filosofia de armazenamento visa responder às necessidades de armazenamento e processamento destes volumosos e heterogéneos dados. Os armazéns de dados são um dos componentes mais importantes do âmbito Business Intelligence e são, maioritariamente, utilizados como uma ferramenta de apoio aos processos de tomada decisão, levados a cabo no dia-a-dia de uma organização. A sua componente histórica implica que grandes volumes de dados sejam armazenados, tratados e analisados tendo por base os seus repositórios. Algumas organizações começam a ter problemas para gerir e armazenar estes grandes volumes de informação. Esse facto deve-se, em grande parte, à estrutura de armazenamento que lhes serve de base. Os sistemas de gestão de bases de dados relacionais são, há algumas décadas, considerados como o método primordial de armazenamento de informação num armazém de dados. De facto, estes sistemas começam a não se mostrar capazes de armazenar e gerir os dados operacionais das organizações, sendo consequentemente cada vez menos recomendada a sua utilização em armazéns de dados. É intrinsecamente interessante o pensamento de que as bases de dados relacionais começam a perder a luta contra o volume de dados, numa altura em que um novo paradigma de armazenamento surge, exatamente com o intuito de dominar o grande volume inerente aos dados Big Data. Ainda é mais interessante o pensamento de que, possivelmente, estes novos sistemas NoSQL podem trazer vantagens para o mundo dos armazéns de dados. Assim, neste trabalho de mestrado, irá ser estudada a viabilidade e as implicações da adoção de bases de dados NoSQL, no contexto de armazéns de dados, em comparação com a abordagem tradicional, implementada sobre sistemas relacionais. Para alcançar esta tarefa, vários estudos foram operados tendo por base o sistema relacional SQL Server 2014 e os sistemas NoSQL, MongoDB e Cassandra. Várias etapas do processo de desenho e implementação de um armazém de dados foram comparadas entre os três sistemas, sendo que três armazéns de dados distintos foram criados tendo por base cada um dos sistemas. Toda a investigação realizada neste trabalho culmina no confronto da performance de consultas, realizadas nos três sistemas.
Resumo:
Com o advento da invenção do modelo relacional em 1970 por E.F.Codd, a forma como a informação era gerida numa base de dados foi totalmente revolucionada. Migrou‐se de sistemas hierárquicos baseados em ficheiros para uma base de dados relacional com tabelas relações e registos que simplificou em muito a gestão da informação e levou muitas empresas a adotarem este modelo. O que E.F.Codd não previu foi o facto de que cada vez mais a informação que uma base de dados teria de armazenar fosse de proporções gigantescas, nem que as solicitações às bases de dados fossem da mesma ordem. Tudo isto veio a acontecer com a difusão da internet que veio ligar todas as pessoas de qualquer parte do mundo que tivessem um computador. Com o número de adesões à internet a crescer, o número de sites que nela eram criados também cresceu (e ainda cresce exponencialmente). Os motores de busca que antigamente indexavam alguns sites por dia, atualmente indexam uns milhões de sites por segundo e, mais recentemente as redes sociais também estão a lidar com quantidades gigantescas de informação. Tanto os motores de busca como as redes sociais chegaram à conclusão que uma base de dados relacional não chega para gerir a enorme quantidade de informação que ambos produzem e como tal, foi necessário encontrar uma solução. Essa solução é NoSQL e é o assunto que esta tese vai tratar. O presente documento visa definir e apresentar o problema que as bases de dados relacionais têm quando lidam com grandes volumes de dados, introduzir os limites do modelo relacional que só até há bem pouco tempo começaram a ser evidenciados com o surgimento de movimentos, como o BigData, com o crescente número de sites que surgem por dia e com o elevado número de utilizadores das redes sociais. Será também ilustrada a solução adotada até ao momento pelos grandes consumidores de dados de elevado volume, como o Google e o Facebook, enunciando as suas características vantagens, desvantagens e os demais conceitos ligados ao modelo NoSQL. A presente tese tenciona ainda demonstrar que o modelo NoSQL é uma realidade usada em algumas empresas e quais as principias mudanças a nível programático e as boas práticas delas resultantes que o modelo NoSQL traz. Por fim esta tese termina com a explicação de que NoSQL é uma forma de implementar a persistência de uma aplicação que se inclui no novo modelo de persistência da informação.
Resumo:
O aumento da quantidade de dados gerados que se tem verificado nos últimos anos e a que se tem vindo a dar o nome de Big Data levou a que a tecnologia relacional começasse a demonstrar algumas fragilidades no seu armazenamento e manuseamento o que levou ao aparecimento das bases de dados NoSQL. Estas estão divididas por quatro tipos distintos nomeadamente chave/valor, documentos, grafos e famílias de colunas. Este artigo é focado nas bases de dados do tipo column-based e nele serão analisados os dois sistemas deste tipo considerados mais relevantes: Cassandra e HBase.
Resumo:
We are living in the era of Big Data. A time which is characterized by the continuous creation of vast amounts of data, originated from different sources, and with different formats. First, with the rise of the social networks and, more recently, with the advent of the Internet of Things (IoT), in which everyone and (eventually) everything is linked to the Internet, data with enormous potential for organizations is being continuously generated. In order to be more competitive, organizations want to access and explore all the richness that is present in those data. Indeed, Big Data is only as valuable as the insights organizations gather from it to make better decisions, which is the main goal of Business Intelligence. In this paper we describe an experiment in which data obtained from a NoSQL data source (database technology explicitly developed to deal with the specificities of Big Data) is used to feed a Business Intelligence solution.
Resumo:
Dissertação de mestrado integrado em Engenharia e Gestão de Sistemas de Informação
Resumo:
Dissertação de mestrado integrado em Engenharia e Gestão de Sistemas de Informação
Resumo:
Inspired by the relational algebra of data processing, this paper addresses the foundations of data analytical processing from a linear algebra perspective. The paper investigates, in particular, how aggregation operations such as cross tabulations and data cubes essential to quantitative analysis of data can be expressed solely in terms of matrix multiplication, transposition and the Khatri–Rao variant of the Kronecker product. The approach offers a basis for deriving an algebraic theory of data consolidation, handling the quantitative as well as qualitative sides of data science in a natural, elegant and typed way. It also shows potential for parallel analytical processing, as the parallelization theory of such matrix operations is well acknowledged.
Resumo:
Das Thema dieser Arbeit orientiert sich am Bedarf des Umweltbundesamtes, die Stoffdatenbank GSBL weiter zu entwickeln, die Speichersrtuktur der GSBL zu moderniesieren und die Möglichkeit seiner Nutzung für verschiedene Anwendergruppen zu verbessern. Die heutige Datenhaltunf´g basiert auf einer relationalen Speicherung und wird transponiert gelöst.Transponierung in Bezug auf eine relationale Speicherung bedeutet, dass Spalten und Zeilen einer Tabelle getauscht werden. Die Tabelle mit GSBL-Daten ist derart gesataltet, dass die Eigenschaften der chemischen Stoffe als Zeilenbezeichnungen statt als Spaltenüberschriften aufgefasst werden, wie es üblich bei einer relationalen Speicherung ist. In dieser Arbeit wird ein Überblick über verschiedene Datenmodelle, ihre Vorteile und Nachteile im Hinblick auf die spezielle Problematik der Stoffdatenbanken gegeben. Die Eigenschaften von MongoDB werden in Bezug auf eine konkrete Problemstellung getestet und bewertet. Diese Arbeit soll in Bezug auf eine mögliche Portierung des GSBL (oder ähnlicher Stoffdatenbanken) zu NoSQL eine Hilfe zur Verfügung stellen.
Resumo:
Els sistemes OLAP són solucions molt utilitzades actualment en el camp de la intel·ligència empresarial (Business Intelligence). Sovint els sistemes que construeixen aquest tipus de solucions son massa complexos, difícils d'instal·lar i configurar o massa costosos. El present Treball de Fi de Carrera ofereix una solució informàtica que facilita la implementació d'aquest tipus de sistemes, presentant una aplicació molt configurable que pot generar cubs de diferents sistemes gestors de bases de dades i que per tant es pot adaptar a diferents entorns empresarials. L'aplicació s'ha desenvolupat en plataforma .NET.
Resumo:
En aquest projecte es realitza una comparativa de rendiment i utilització entre els diferents models de bases de dades orientades a columnes mitjançant la construcció i explotació d'un cub OLAP utilitzant la suite de BI Pentaho.