999 resultados para Data warehouses inductivas
Resumo:
* Supported partially by the Bulgarian National Science Fund under Grant MM-1405/2004
Resumo:
The use of secondary data in health care research has become a very important issue over the past few years. Data from the treatment context are being used for evaluation of medical data for external quality assurance, as well as to answer medical questions in the form of registers and research databases. Additionally, the establishment of electronic clinical systems like data warehouses provides new opportunities for the secondary use of clinical data. Because health data is among the most sensitive information about an individual, the data must be safeguarded from disclosure.
Resumo:
The process of building Data Warehouses (DW) is well known with well defined stages but at the same time, mostly carried out manually by IT people in conjunction with business people. Web Warehouses (WW) are DW whose data sources are taken from the web. We define a flexible WW, which can be configured accordingly to different domains, through the selection of the web sources and the definition of data processing characteristics. A Business Process Management (BPM) System allows modeling and executing Business Processes (BPs) providing support for the automation of processes. To support the process of building flexible WW we propose a two BPs level: a configuration process to support the selection of web sources and the definition of schemas and mappings, and a feeding process which takes the defined configuration and loads the data into the WW. In this paper we present a proof of concept of both processes, with focus on the configuration process and the defined data.
Resumo:
Em muitos casos o desenvolvimento de soluções recorrendo a data warehouses é pensado para funcionar de forma autónoma e não numa perspectiva cooperativa. Este facto leva a que existam alguns problemas quando é necessário integrar diferentes data marts de forma a construir uma solução integrada que possa facilitar o acesso á informação. A solução proposta passa pelo desenvolvimento de um servidor de baixo acoplamento que permite integrar diferentes datas marts heterogéneos, utilizando o protocolo padrão XMLA. O mesmo não possui qualquer informação presente nos múltiplos data marts a integrar. Este servidor apenas possui meta-informação que permite saber quais são as dimensões concordantes entre os diferentes data marts, possibilitando assim a realização de operações de drill-across entre as diversas fontes de dados. Com esta solução é possível a existência um elevado grau de descomprometimento entre o servidor de integração e os repositórios de informação, sendo apenas necessário que o servidor saiba de que forma os dados estão relacionados. Este servidor é constituído por diferentes módulos. De entre eles realça-se o módulo que permite gerar múltiplas interrogações, para cada um dos data marts, a partir de uma única interrogação. O mesmo módulo permite posteriormente juntar o resultado das interrogações a todos os data marts numa única resposta. Para realizar a prova da viabilidade da solução, foram desenvolvidos dois data marts que possuem dimensões concordantes. Cada um deles foi colocado em servidores de diferentes fornecedores. Ao ser colocado cada um dos data marts em dois servidores de fornecedores diferentes, é possível demonstrar também que a solução funciona com diferentes servidores. Para tornar possível a interrogação do servidor de integração, foi desenvolvida uma aplicação cliente que permite que o utilizador possa, ao ir adicionando e removendo dimensões, saber quais os dados que são ou não compatíveis.
Resumo:
Na atualidade, existe uma quantidade de dados criados diariamente que ultrapassam em muito as mais otimistas espectativas estabelecidas na década anterior. Estes dados têm origens bastante diversas e apresentam-se sobre várias formas. Este novo conceito que dá pelo nome de Big Data está a colocar novos e rebuscados desafios ao seu armazenamento, tratamento e manipulação. Os tradicionais sistemas de armazenamento não se apresentam como a solução indicada para este problema. Estes desafios são alguns dos mais analisados e dissertados temas informáticos do momento. Várias tecnologias têm emergido com esta nova era, das quais se salienta um novo paradigma de armazenamento, o movimento NoSQL. Esta nova filosofia de armazenamento visa responder às necessidades de armazenamento e processamento destes volumosos e heterogéneos dados. Os armazéns de dados são um dos componentes mais importantes do âmbito Business Intelligence e são, maioritariamente, utilizados como uma ferramenta de apoio aos processos de tomada decisão, levados a cabo no dia-a-dia de uma organização. A sua componente histórica implica que grandes volumes de dados sejam armazenados, tratados e analisados tendo por base os seus repositórios. Algumas organizações começam a ter problemas para gerir e armazenar estes grandes volumes de informação. Esse facto deve-se, em grande parte, à estrutura de armazenamento que lhes serve de base. Os sistemas de gestão de bases de dados relacionais são, há algumas décadas, considerados como o método primordial de armazenamento de informação num armazém de dados. De facto, estes sistemas começam a não se mostrar capazes de armazenar e gerir os dados operacionais das organizações, sendo consequentemente cada vez menos recomendada a sua utilização em armazéns de dados. É intrinsecamente interessante o pensamento de que as bases de dados relacionais começam a perder a luta contra o volume de dados, numa altura em que um novo paradigma de armazenamento surge, exatamente com o intuito de dominar o grande volume inerente aos dados Big Data. Ainda é mais interessante o pensamento de que, possivelmente, estes novos sistemas NoSQL podem trazer vantagens para o mundo dos armazéns de dados. Assim, neste trabalho de mestrado, irá ser estudada a viabilidade e as implicações da adoção de bases de dados NoSQL, no contexto de armazéns de dados, em comparação com a abordagem tradicional, implementada sobre sistemas relacionais. Para alcançar esta tarefa, vários estudos foram operados tendo por base o sistema relacional SQL Server 2014 e os sistemas NoSQL, MongoDB e Cassandra. Várias etapas do processo de desenho e implementação de um armazém de dados foram comparadas entre os três sistemas, sendo que três armazéns de dados distintos foram criados tendo por base cada um dos sistemas. Toda a investigação realizada neste trabalho culmina no confronto da performance de consultas, realizadas nos três sistemas.
Resumo:
É possível assistir nos dias de hoje, a um processo tecnológico evolutivo acentuado por toda a parte do globo. No caso das empresas, quer as pequenas, médias ou de grandes dimensões, estão cada vez mais dependentes dos sistemas informatizados para realizar os seus processos de negócio, e consequentemente à geração de informação referente aos negócios e onde, muitas das vezes, os dados não têm qualquer relacionamento entre si. A maioria dos sistemas convencionais informáticos não são projetados para gerir e armazenar informações estratégicas, impossibilitando assim que esta sirva de apoio como recurso estratégico. Portanto, as decisões são tomadas com base na experiência dos administradores, quando poderiam serem baseadas em factos históricos armazenados pelos diversos sistemas. Genericamente, as organizações possuem muitos dados, mas na maioria dos casos extraem pouca informação, o que é um problema em termos de mercados competitivos. Como as organizações procuram evoluir e superar a concorrência nas tomadas de decisão, surge neste contexto o termo Business Intelligence(BI). A GisGeo Information Systems é uma empresa que desenvolve software baseado em SIG (sistemas de informação geográfica) recorrendo a uma filosofia de ferramentas open-source. O seu principal produto baseia-se na localização geográfica dos vários tipos de viaturas, na recolha de dados, e consequentemente a sua análise (quilómetros percorridos, duração de uma viagem entre dois pontos definidos, consumo de combustível, etc.). Neste âmbito surge o tema deste projeto que tem objetivo de dar uma perspetiva diferente aos dados existentes, cruzando os conceitos BI com o sistema implementado na empresa de acordo com a sua filosofia. Neste projeto são abordados alguns dos conceitos mais importantes adjacentes a BI como, por exemplo, modelo dimensional, data Warehouse, o processo ETL e OLAP, seguindo a metodologia de Ralph Kimball. São também estudadas algumas das principais ferramentas open-source existentes no mercado, assim como quais as suas vantagens/desvantagens relativamente entre elas. Em conclusão, é então apresentada a solução desenvolvida de acordo com os critérios enumerados pela empresa como prova de conceito da aplicabilidade da área Business Intelligence ao ramo de Sistemas de informação Geográfica (SIG), recorrendo a uma ferramenta open-source que suporte visualização dos dados através de dashboards.
Resumo:
Business Intelligence (BI) can be seen as a method that gathers information and data from information systems in order to help companies to be more accurate in their decision-making process. Traditionally BI systems were associated with the use of Data Warehouses (DW). The prime purpose of DW is to serve as a repository that stores all the relevant information required for making the correct decision. The necessity to integrate streaming data became crucial with the need to improve the efficiency and effectiveness of the decision process. In primary and secondary education, there is a lack of BI solutions. Due to the schools reality the main purpose of this study is to provide a Pervasive BI solution able to monitoring the schools and student data anywhere and anytime in real-time as well as disseminating the information through ubiquitous devices. The first task consisted in gathering data regarding the different choices made by the student since his enrolment in a certain school year until the end of it. Thereafter a dimensional model was developed in order to be possible building a BI platform. This paper presents the dimensional model, a set of pre-defined indicators, the Pervasive Business Intelligence characteristics and the prototype designed. The main contribution of this study was to offer to the schools a tool that could help them to make accurate decisions in real-time. Data dissemination was achieved through a localized application that can be accessed anywhere and anytime.
Resumo:
Aquest projecte neix de la necessitat de la nostra empresa client de controlar la gestió del manteniment de tots els equips que té instal·lats en 32 centres i del qual s'encarreguen diverses empreses de serveis especialitzades. Així, per una banda, es tracta de fer l'anàlisi i disseny de la base de dades operacional, els scripts de creació necessaris per a crear la base de dades e implementar els procediments mitjançant els quals es gestionarà i accedirà a la informació de la base de dades. I per una altra banda, es tracta de fer l'anàlisi, disseny e implementació d'un magatzem de dades, per tal de poder explotar la informació per a la presa de decisions.
Resumo:
Bases de dades i magatzems de dades: disseny i implementació d'una base de dades relacional per al manteniment d'aparells d'una empresa.
Resumo:
Es comença parlant dels sistemes d'informació per a anar a parar al món dels ERP i, especialment, a un dels més importants a escala mundial, el SAP R/3. Després s'explica què són els DataWarehouses o magatzems de dades, com es creen i quines aplicacions tenen. Finalment, s'analitza i es planifica un cas pràctic: una empresa canvia d'ERP corporatiu per passar a SAP R/3 i, per tant, ha de canviar i adaptar el seu sistema EIS.
Resumo:
En aquest treball es realitzarà l'estudi dels Magatzems de dades amb un cas pràctic en l' àmbit de la industria cinematogràfica concretament estarà centrat en els premis atorgats per a diferents festivals. La informació dels premis s'ha lliurat en format Excel y representa diversos festivals.
Resumo:
Tietokoneiden tallennuskapasiteetin ja sekä tietokoneiden että verkkojen nopeuden kasvaessa myös käyttäjien odotukset kasvavat. Tietoa talletetaan yhä enemmän ja näistä tiedoista laaditaan yhä monimutkaisempia raportteja. Raporttien monimutkaisuuden kasvaessa niiden tarvitseman tiedon keräämiseen kuluva aika ei kuitenkaan saisi oleellisesti kasvaa. Tämän työn tarkoituksena on tutkia ja parantaa kansainvälisen metsäteollisuusyrityksen myynnin ja logistiikan järjestelmän raportointitietokannan tehokkuutta etenkin raporttien tietojen keräämiseen kuluvalla ajalla mitattuna. Työssä keskitytään kartoittamaan nykyisen järjestelmän pullonkauloja ja pyritään parantamaan järjestelmän suorituskykyä. Tulevaisuudessa suorituskykyä tarvitaan kuitenkin lisää, joten työssä tarkastellaan myös nykyisen, yleiskäyttöisen tietokannan, korvaamista erityisesti raportointia varten suunnitellulla tietokannalla. Työn tuloksena järjestelmän raporttien tietojen keräämiseen kuluvaa aikaa pystyttiin pienentämään ja pahimmat pullonkaulat selvittämään. Käyttäjämäärän kasvaessa tietokannan suorituskyvyn rajat tulevat kuitenkin pian vastaan. Tietokanta joudutaan tulevaisuudessa vaihtamaan erityisesti raportointitietokannaksi suunniteltuun.
Resumo:
Tämän diplomityö käsittelee UPM-Kymmenen paperitoimialoilla käynnissä olevaa Chain 2000 –projektin toteutusta uuden markkinan integroinnin aikana SAP –toiminnanohjausjärjestelmään yhden paperitehtaan näkökulmasta. Koska tehdasjärjestelmän kaikkien osa-alueiden integraatio on erittäin vaativa ja pitkäkestoinen prosessi, keskittyy tämä työ yhden markkinan integraatioon. Tavoitteena on suunnitella, toteuttaa ja testata tässä integroinnissa tarvittavat järjestelmämuutokset ja kuvata integroinnissa käytettäviä työkaluja, toimintamalleja ja prosesseja. Samalla kerrotaan tämän vaativan projektin mukanaan tuomia ongelmia ja ratkaisuja yhden paperitehtaan kannalta. Työssä esitellään erilaisia keinoja ja työkaluja varsinkin IT -projektien hallinnointiin ja toteuttamiseen sekä käydään läpi ohjelmistotestaaminen, ERP -järjestelmät ja tietovarastot. Työ tuo esille miten haastavaa globaalin IT –projektin toteuttaminen on. Tarkastelun tuloksena huomataan, että standardityökalujen käyttö aiheuttaa ongelmia erikoistilanteissa ja väärä informaatio tuo yritykselle ylimääräisiä kustannuksia. Projektin myötä toimintojen toteutuksen painotus ja samalla vastuu tiedon oikeellisuudesta siirtyy jatkuvasti tehtaalle päin. Integraatiotestaamisesta ja tarvittavista muutoksista on diplomityön aikana selviydytty kiitettävästi, mutta täysi varmuus kaikkien integraatioon osallistuvien järjestelmien toimivuudesta saadaan vasta itse käyttöönotossa kesällä 2004. Ylläpito käyttöönoton jälkeen vaatii myös resursseja.
Resumo:
Tutkielman tarkoituksena on tutkia case -organisaationa toimivan Tiehallinnon kahden tietovaraston, kuntotietorekisterin ja tiesääjärjestelmän tietojen laatua ja arvoa sekä selvittää, mitkä ominaisuudet näihin vaikuttavat ja miten nämä koetaan tällä hetkellä. Näiden ominaisuuksien tunnistaminen auttaa organisaatiota parantamaan tietovarastoidensa tietojen laatua, joka taas lisää niistä saatavaa arvoa. Tutkimus- ja tiedonkeruumenetelminä käytetään kvalitatiivista teemahaastattelua sekä kvantitatiivista web-pohjaista kyselylomaketta. Tutkimuksessa saatiin kuva kohdeorganisaation tietovarastojen tietojen koetusta laadusta ja arvosta ja siitä mistä nämä koostuvat. Tietovaraston tietojen laatuun ja arvoon vaikuttivat selvästi eri laatuominaisuudet. Tietovarastoilla on laatuominaisuuksia, joita käyttäjät pitävät tärkeinä ja joiden he kokevat korkealaatuisina tuottavan heille hyötyä. Tietovaraston käyttäjien työtehtävät, odotukset ja tarpeet määrittävät koetun laadun tason. Tietovaraston tietojen arvo muodostuu käyttäjän kokeman hyödyn ja laadun perusteella. Tietovaraston tietojen laatuominaisuuksiin, kuten esimerkiksi käytettävyyteen, virheettömyyteen ja saatavuuteen pystytään vaikuttamaan, koska nämä ovat kiinteästi tietovaraston tekniseen toteutukseen liittyviä tekijöitä. Tietovarastojen tietojen hyötyyn ja sen kautta koettuun arvoon ei pystytä suoraan vaikuttamaan, muuten kuin laatuominaisuuksia parantamalla.
Resumo:
Tietovarastoissa moniulotteinen tietomalli on tehokkain tapa esittää tietoa päätöksentekijöille. Sen toimivuus on hyväksi havaittu monissa eri liiketoimintaympäristöissä. Tehdasympäristöissä on tuhansia mittalaitteita, joista jokainen mittaa uniikkia valmistusprosessiin liittyvää piirrettä. Tässä työssä kehitettiin tietovarasto tehdasmittausten varastointiin käyttäen moniulotteista tietomallia. Havaittiin, että moniulotteisella mallilla tehdasmittaukset voidaan tallentaa joustavalla tavalla ja esittää käyttäjälle mielekkäässä muodossa. Moniulotteinen malli antaa myös erinomaiset keinot tiedon ryhmittelyyn ja vertailuun. Sillä ei kuitenkaan saada vastaavanlaisia hyötyjä kuin klassisissa kaupanalan tietovarastointi esimerkeissä, koska eri mittaukset ovat keskenään hyvin erilaisia. Vaikka mittaukset eivät olekaan aina vertailtavissa tai summattavissa keskenään, saadaan ne moniulotteisella mallilla tallennettua ja luokiteltua loogisesti siten, että käyttäjän on helppo löytää tarvitsemansa tieto. Lisäksi yleisesti tunnettu ja paljon käytetty tietovaraston suunnittelumalli takaa sen, että markkinoilta on saatavissa työkaluja tietovaraston käyttöön. Tietokannan toteutus tehtiin vapaasti levitettävän MySQLtiedonhallintajärjestelmän avulla. Sitä ei ole suunniteltu pääasiassa tietovarastokäyttöön, mutta halpa lisenssi ja hyvä skaalautuvuus tekevät siitä mielenkiintoisen vaihtoehdon. Sitä onkin käytetty luultua enemmän tietovarastoinnissa ja myös monien nimekkäiden organisaatioiden toimesta. Myös tässä työssä todettiin, että MySQL tarjoaa riittävät välineet tietovaraston kehittämiseen.