958 resultados para Data Warehouse
Resumo:
Oggi piu' che mai e' fondamentale essere in grado di estrarre informazioni rilevanti e conoscenza dal grande numero di dati che ci possono arrivare da svariati contesti, come database collegati a satelliti e sensori automatici, repository generati dagli utenti e data warehouse di grandi compagnie. Una delle sfide attuali riguarda lo sviluppo di tecniche di data mining per la gestione dell’incertezza. L’obiettivo di questa tesi e' di estendere le attuali tecniche di gestione dell’incertezza, in particolare riguardanti la classificazione tramite alberi decisionali, in maniera tale da poter gestire incertezza anche sull’attributo di classe.
Resumo:
L’elaborazione di questa tesi è stata svolta con l’ausilio di strumenti di Business Intelligence. In particolare, si è dapprima alimentato un data warehouse territoriale, in cui sono stati inseriti, dopo averli elaborati, i dati messi a disposizione dagli osservatori territoriali nazionali e dall’azienda Geofor spa. A partire da questi, sono stati prodotti degli indicatori statistici e dei report, utili per evidenziare andamenti e trend di crescita di alcuni particolari indici. Il principale strumento utilizzato è StatPortal, un portale Web di Business Intelligence OLAP per la realizzazione di Data warehouse territoriali. L’argomento sarà approfondito nel capitolo sette, dedicato agli strumenti utilizzati, ma in breve, questo sistema consente di raccogliere, catalogare e condividere informazione statistica e geostatistica, nonché di produrre indicatori e reportistica. Il lavoro è organizzato come segue: inizialmente c’è una prima parte di definizione e classificazione dei rifiuti che ha l’obiettivo di permettere al lettore di inquadrare il tema e prendere coscienza del problema. Successivamente, è stata sviluppata una parte più storica, con una rapida analisi temporale per comprendere il “tipping point”, cioè il momento in cui i rifiuti hanno iniziato a essere percepiti come un problema per la comunità, concludendo con un accenno agli scenari attuali e futuri. In seguito, si è indirizzata l’attenzione sul panorama italiano, europeo e mondiale citando alcuni interessanti e originali esempi di efficienza nella gestione dei rifiuti, che potrebbero servire da spunto per qualche stakeholder nazionale. Si è poi introdotta quella che è la normativa vigente, sottolineando quali sono gli obiettivi che impone ed entro quali tempi dovranno essere raggiunti, elencando quindi i principi fondamentali del D.lgs.152/2006 e del D.lgs 36/2003. Continuando su questo filo logico, si è voluto introdurre al lettore, la questione dei Rifiuti Solidi Urbani (RSU) nel Comune di Pisa. Sono stati definiti: lo stato dell’arte dell’igiene urbana pisana, i sistemi implementati nella città con i vari pregi e difetti e quali sono state le azioni pratiche messe in atto dall’Amministrazione per far fronte al tema. Il capitolo sei rappresenta uno dei due punti focali dell’intero lavoro: il Rapporto sullo Stato dell’Ambiente della città di Pisa in tema di rifiuti urbani. Qui saranno analizzati i vari indici e report prodotti ad hoc con lo strumento Statportal appena menzionato, con lo scopo di segnalare evidenze e obiettivi dell’Amministrazione. Nel settimo capitolo si analizza la fase di progettazione del Data Warehouse. Sono elencati i passi fondamentali nella costruzione di un DW dimensionale, esponendone in primo luogo la specifica dei requisiti del progetto ed elencando per ognuno di essi le dimensioni, le misure e le aggregazioni relative. In seguito saranno descritti nel dettaglio la fase di progettazione concettuale e lo schema logico. In ultimo, sarà presentato l’altro punto focale di questa tesi, nonché la parte più interattiva: un portale web creato appositamente per il Comune con l’obiettivo di coinvolgere ed aiutare i cittadini nel conferimento dei rifiuti da loro prodotti. Si tratta di una sorta di manuale interattivo per individuare come eseguire una corretta differenziazione dei rifiuti. Lo scopo primario è quello di fare chiarezza alle utenze nella differenziazione, il che, in maniera complementare, dovrebbe incrementare la qualità del rifiuto raccolto, minimizzando i conferimenti errati. L’obiettivo principale di questo lavoro resta quindi il monitoraggio e l’analisi delle tecniche e dei processi di gestione dei rifiuti nel Comune di Pisa. Analogamente si vuole coinvolgere e suscitare l’interesse del maggior numero di persone possibile al tema della sostenibilità ambientale, rendendo consapevole il lettore che il primo passo verso un mondo più sostenibile spetta in primis a Noi che quotidianamente acquistiamo, consumiamo ed infine gettiamo via i residui senza troppo preoccuparci. Il fatto che anche in Italia, si stia sviluppando un senso civico e una forte responsabilizzazione verso l’ambiente da parte dei cittadini, fa ben sperare. Questo perché si è riusciti a imprimere il concetto che le soluzioni si ottengano impegnandosi in prima persona. E’ alla nostra comunità che si affida il dovere di non compromettere l’esistenza delle generazioni future, incaricandola del compito di ristabilire un equilibrio, ormai precario, tra umanità e ambiente, se non altro perché, come recita un vecchio proverbio Navajo: “il mondo non lo abbiamo in eredità dai nostri padri ma lo abbiamo in prestito dai nostri figli”.
Resumo:
L’obiettivo di questa tesi è approfondire le competenze sulle funzionalità sviluppate nei sistemi SCADA/EMS presenti sul mercato, così da conoscerne le potenzialità offerte: tutte le conoscenze acquisite servono a progettare uno strumento di analisi dati flessibile e interattivo, con il quale è possibile svolgere analisi non proponibili con le altre soluzioni analizzate. La progettazione dello strumento di analisi dei dati è orientata a definire un modello multidimensionale per la rappresentazione delle informazioni: il percorso di progettazione richiede di individuare le informazioni d’interesse per l’utente, così da poterle reintrodurre in fase di progettazione della nuova base dati. L’infrastruttura finale di questa nuova funzionalità si concretizza in un data warehouse: tutte le informazioni di analisi sono memorizzare su una base dati diversa da quella di On.Energy, evitando di correlare le prestazione dei due diversi sottosistemi. L’utilizzo di un data warehouse pone le basi per realizzare analisi su lunghi periodi temporali: tutte le tipologie di interrogazione dati comprendono un enorme quantità d’informazioni, esattamente in linea con le caratteristiche delle interrogazioni OLAP
Resumo:
L’obiettivo della tesi, sviluppata presso l’azienda Onit Group s.r.l., è stato quello di realizzare un sistema d’analisi what-if che consenta di effettuare valutazioni economiche in maniera rapida, precisa, ed in totale autonomia. L’applicativo sviluppato, richiesto dalla direzione commerciale dall’azienda Orogel, ha il compito di assegnare percentuali di premio agli acquisti effettuati dai clienti su determinate famiglie di vendita. Il programma è il primo progetto di tipo data entry sviluppato nel reparto di Business Unit Data Warehouse e Business Intelligence di Onit e offre una duplice utilità. Da un lato semplifica la gestione dell’assegnamento dei premi annuali che ogni anno sono rinegoziati, su cui l’utente della direzione commerciale può fare delle stime sulla base dei premi definiti l’anno precedente. D’altra parte rendere la direzione commerciale di Orogel più autonoma offrendo all’utenza un unico ambiente su cui muoversi.
Resumo:
Nel lavoro di tesi è stato studiato il problema del tuning di un data warehouse, in particolare la tecnica maggiormente utilizzata in ambito aziendale, ovvero la creazione degli aggregati. Inoltre, è stato progettato e implementato uno strumento che generi automaticamente l'insieme di viste che meglio risolve il carico di lavoro basato sulle analisi di business più frequenti su quella specifica base di dati.
Resumo:
Companion animals closely share their domestic environment with people and have the potential to, act as sources of zoonotic diseases. They also have the potential to be sentinels of infectious and noninfectious, diseases. With the exception of rabies, there has been minimal ongoing surveillance of, companion animals in Canada. We developed customized data extraction software, the University of, Calgary Data Extraction Program (UCDEP), to automatically extract and warehouse the electronic, medical records (EMR) from participating private veterinary practices to make them available for, disease surveillance and knowledge creation for evidence-based practice. It was not possible to build, generic data extraction software; the UCDEP required customization to meet the specific software, capabilities of the veterinary practices. The UCDEP, tailored to the participating veterinary practices', management software, was capable of extracting data from the EMR with greater than 99%, completeness and accuracy. The experiences of the people developing and using the UCDEP and the, quality of the extracted data were evaluated. The electronic medical record data stored in the data, warehouse may be a valuable resource for surveillance and evidence-based medical research.
Resumo:
Large amounts of animal health care data are present in veterinary electronic medical records (EMR) and they present an opportunity for companion animal disease surveillance. Veterinary patient records are largely in free-text without clinical coding or fixed vocabulary. Text-mining, a computer and information technology application, is needed to identify cases of interest and to add structure to the otherwise unstructured data. In this study EMR's were extracted from veterinary management programs of 12 participating veterinary practices and stored in a data warehouse. Using commercially available text-mining software (WordStat™), we developed a categorization dictionary that could be used to automatically classify and extract enteric syndrome cases from the warehoused electronic medical records. The diagnostic accuracy of the text-miner for retrieving cases of enteric syndrome was measured against human reviewers who independently categorized a random sample of 2500 cases as enteric syndrome positive or negative. Compared to the reviewers, the text-miner retrieved cases with enteric signs with a sensitivity of 87.6% (95%CI, 80.4-92.9%) and a specificity of 99.3% (95%CI, 98.9-99.6%). Automatic and accurate detection of enteric syndrome cases provides an opportunity for community surveillance of enteric pathogens in companion animals.
Resumo:
The software Pan2Applic is a tool to convert files or folders of files (ascii/tab-separated data files with or without metaheader), downloaded from PANGAEA via the search engine or the data warehouse to formats as used by applications, e.g. for visualization or further processing. It may also be used to convert files or zip-archives as downloaded from CD-ROM data collections, published in the WDC-MARE Reports series. Pan2Applic is distributed as freeware for the operating systems Microsoft Windows, Apple OS X and Linux.
Resumo:
Durante los últimos años, el imparable crecimiento de fuentes de datos biomédicas, propiciado por el desarrollo de técnicas de generación de datos masivos (principalmente en el campo de la genómica) y la expansión de tecnologías para la comunicación y compartición de información ha propiciado que la investigación biomédica haya pasado a basarse de forma casi exclusiva en el análisis distribuido de información y en la búsqueda de relaciones entre diferentes fuentes de datos. Esto resulta una tarea compleja debido a la heterogeneidad entre las fuentes de datos empleadas (ya sea por el uso de diferentes formatos, tecnologías, o modelizaciones de dominios). Existen trabajos que tienen como objetivo la homogeneización de estas con el fin de conseguir que la información se muestre de forma integrada, como si fuera una única base de datos. Sin embargo no existe ningún trabajo que automatice de forma completa este proceso de integración semántica. Existen dos enfoques principales para dar solución al problema de integración de fuentes heterogéneas de datos: Centralizado y Distribuido. Ambos enfoques requieren de una traducción de datos de un modelo a otro. Para realizar esta tarea se emplean formalizaciones de las relaciones semánticas entre los modelos subyacentes y el modelo central. Estas formalizaciones se denominan comúnmente anotaciones. Las anotaciones de bases de datos, en el contexto de la integración semántica de la información, consisten en definir relaciones entre términos de igual significado, para posibilitar la traducción automática de la información. Dependiendo del problema en el que se esté trabajando, estas relaciones serán entre conceptos individuales o entre conjuntos enteros de conceptos (vistas). El trabajo aquí expuesto se centra en estas últimas. El proyecto europeo p-medicine (FP7-ICT-2009-270089) se basa en el enfoque centralizado y hace uso de anotaciones basadas en vistas y cuyas bases de datos están modeladas en RDF. Los datos extraídos de las diferentes fuentes son traducidos e integrados en un Data Warehouse. Dentro de la plataforma de p-medicine, el Grupo de Informática Biomédica (GIB) de la Universidad Politécnica de Madrid, en el cuál realicé mi trabajo, proporciona una herramienta para la generación de las necesarias anotaciones de las bases de datos RDF. Esta herramienta, denominada Ontology Annotator ofrece la posibilidad de generar de manera manual anotaciones basadas en vistas. Sin embargo, aunque esta herramienta muestra las fuentes de datos a anotar de manera gráfica, la gran mayoría de usuarios encuentran difícil el manejo de la herramienta , y pierden demasiado tiempo en el proceso de anotación. Es por ello que surge la necesidad de desarrollar una herramienta más avanzada, que sea capaz de asistir al usuario en el proceso de anotar bases de datos en p-medicine. El objetivo es automatizar los procesos más complejos de la anotación y presentar de forma natural y entendible la información relativa a las anotaciones de bases de datos RDF. Esta herramienta ha sido denominada Ontology Annotator Assistant, y el trabajo aquí expuesto describe el proceso de diseño y desarrollo, así como algunos algoritmos innovadores que han sido creados por el autor del trabajo para su correcto funcionamiento. Esta herramienta ofrece funcionalidades no existentes previamente en ninguna otra herramienta del área de la anotación automática e integración semántica de bases de datos. ---ABSTRACT---Over the last years, the unstoppable growth of biomedical data sources, mainly thanks to the development of massive data generation techniques (specially in the genomics field) and the rise of the communication and information sharing technologies, lead to the fact that biomedical research has come to rely almost exclusively on the analysis of distributed information and in finding relationships between different data sources. This is a complex task due to the heterogeneity of the sources used (either by the use of different formats, technologies or domain modeling). There are some research proyects that aim homogenization of these sources in order to retrieve information in an integrated way, as if it were a single database. However there is still now work to automate completely this process of semantic integration. There are two main approaches with the purpouse of integrating heterogeneous data sources: Centralized and Distributed. Both approches involve making translation from one model to another. To perform this task there is a need of using formalization of the semantic relationships between the underlying models and the main model. These formalizations are also calles annotations. In the context of semantic integration of the information, data base annotations consist on defining relations between concepts or words with the same meaning, so the automatic translation can be performed. Depending on the task, the ralationships can be between individuals or between whole sets of concepts (views). This paper focuses on the latter. The European project p-medicine (FP7-ICT-2009-270089) is based on the centralized approach. It uses view based annotations and RDF modeled databases. The data retireved from different data sources is translated and joined into a Data Warehouse. Within the p-medicine platform, the Biomedical Informatics Group (GIB) of the Polytechnic University of Madrid, in which I worked, provides a software to create annotations for the RDF sources. This tool, called Ontology Annotator, is used to create annotations manually. However, although Ontology Annotator displays the data sources graphically, most of the users find it difficult to use this software, thus they spend too much time to complete the task. For this reason there is a need to develop a more advanced tool, which would be able to help the user in the task of annotating p-medicine databases. The aim is automating the most complex processes of the annotation and display the information clearly and easy understanding. This software is called Ontology Annotater Assistant and this book describes the process of design and development of it. as well as some innovative algorithms that were designed by the author of the work. This tool provides features that no other software in the field of automatic annotation can provide.
Resumo:
In the smart building control industry, creating a platform to integrate different communication protocols and ease the interaction between users and devices is becoming increasingly important. BATMP is a platform designed to achieve this goal. In this paper, the authors describe a novel mechanism for information exchange, which introduces a new concept, Parameter, and uses it as the common object among all the BATMP components: Gateway Manager, Technology Manager, Application Manager, Model Manager and Data Warehouse. Parameter is an object which represents a physical magnitude and contains the information about its presentation, available actions, access type, etc. Each component of BATMP has a copy of the parameters. In the Technology Manager, three drivers for different communication protocols, KNX, CoAP and Modbus, are implemented to convert devices into parameters. In the Gateway Manager, users can control the parameters directly or by defining a scenario. In the Application Manager, the applications can subscribe to parameters and decide the values of parameters by negotiating. Finally, a Negotiator is implemented in the Model Manager to notify other components about the changes taking place in any component. By applying this mechanism, BATMP ensures the simultaneous and concurrent communication among users, applications and devices.
Resumo:
El avance tecnológico de los últimos años ha aumentado la necesidad de guardar enormes cantidades de datos de forma masiva, llegando a una situación de desorden en el proceso de almacenamiento de datos, a su desactualización y a complicar su análisis. Esta situación causó un gran interés para las organizaciones en la búsqueda de un enfoque para obtener información relevante de estos grandes almacenes de datos. Surge así lo que se define como inteligencia de negocio, un conjunto de herramientas, procedimientos y estrategias para llevar a cabo la “extracción de conocimiento”, término con el que se refiere comúnmente a la extracción de información útil para la propia organización. Concretamente en este proyecto, se ha utilizado el enfoque Knowledge Discovery in Databases (KDD), que permite lograr la identificación de patrones y un manejo eficiente de las anomalías que puedan aparecer en una red de comunicaciones. Este enfoque comprende desde la selección de los datos primarios hasta su análisis final para la determinación de patrones. El núcleo de todo el enfoque KDD es la minería de datos, que contiene la tecnología necesaria para la identificación de los patrones mencionados y la extracción de conocimiento. Para ello, se utilizará la herramienta RapidMiner en su versión libre y gratuita, debido a que es más completa y de manejo más sencillo que otras herramientas como KNIME o WEKA. La gestión de una red engloba todo el proceso de despliegue y mantenimiento. Es en este procedimiento donde se recogen y monitorizan todas las anomalías ocasionadas en la red, las cuales pueden almacenarse en un repositorio. El objetivo de este proyecto es realizar un planteamiento teórico y varios experimentos que permitan identificar patrones en registros de anomalías de red. Se ha estudiado el repositorio de MAWI Lab, en el que se han almacenado anomalías diarias. Se trata de buscar indicios característicos anuales detectando patrones. Los diferentes experimentos y procedimientos de este estudio pretenden demostrar la utilidad de la inteligencia de negocio a la hora de extraer información a partir de un almacén de datos masivo, para su posterior análisis o futuros estudios. ABSTRACT. The technological progresses in the recent years required to store a big amount of information in repositories. This information is often in disorder, outdated and needs a complex analysis. This situation has caused a relevant interest in investigating methodologies to obtain important information from these huge data stores. Business intelligence was born as a set of tools, procedures and strategies to implement the "knowledge extraction". Specifically in this project, Knowledge Discovery in Databases (KDD) approach has been used. KDD is one of the most important processes of business intelligence to achieve the identification of patterns and the efficient management of the anomalies in a communications network. This approach includes all necessary stages from the selection of the raw data until the analysis to determine the patterns. The core process of the whole KDD approach is the Data Mining process, which analyzes the information needed to identify the patterns and to extract the knowledge. In this project we use the RapidMiner tool to carry out the Data Mining process, because this tool has more features and is easier to use than other tools like WEKA or KNIME. Network management includes the deployment, supervision and maintenance tasks. Network management process is where all anomalies are collected, monitored, and can be stored in a repository. The goal of this project is to construct a theoretical approach, to implement a prototype and to carry out several experiments that allow identifying patterns in some anomalies records. MAWI Lab repository has been selected to be studied, which contains daily anomalies. The different experiments show the utility of the business intelligence to extract information from big data warehouse.
Resumo:
Este trabalho teve por objetivo o desenvolvimento de uma proposta de um modelo de sistema de apoio à decisão em vendas e sua aplicação. O levantamento sobre o perfil das vendas no mercado corporativo - de empresas-para-empresas, as técnicas de vendas, informações necessárias para a realização de uma venda eficiente, tal qual o controle das ações e resultados dos vendedores com a ajuda de relatórios, tudo isso aliado às tecnologias de data warehouse, data mart, OLAP foram essenciais na elaboração de uma proposta de modelo genérico e sua implantação. Esse modelo genérico foi aplicado levando-se em conta uma editora de listas e guias telefônicos hipotética, e foi construído buscando-se suprir os profissionais de vendas com informações que poderão melhorar a efetividade de suas vendas e dar-lhes maior conhecimento sobre seus produtos, clientes, usuários de listas e o mercado como um todo, além de suprir os gerentes de uma ferramenta rápida e confiável de auxílio à análise e coordenação dos esforços de vendas. A possibilidade de visualização rápida, confiável e personalizada das diversas informações permitidas por esse sistema, tal qual o êxito em responder às perguntas de pesquisas apresentadas no trabalho, comprova que essa aplicação poderá ser útil à empresa e em específico aos profissionais de vendas e gerentes tomadores de decisão.
Resumo:
From the Introduction. The main focus of this study is to examine whether the euro has been an economic, monetary, fiscal, and social stabilizer for the Eurozone. In order to do this, the underpinnings of the euro are analysed, and the requirements and benchmarks that have to be achieved, maintained, and respected are tested against the data found in three major statistics data sources: the European Central Bank’s Statistics Data Warehouse (http://sdw.ecb.europa.eu/), Economagic (www.economagic.com), and E-signal. The purpose of this work is to analyse if the euro was a stabilizing factor from its inception to the break of the financial crisis in summer 2008 in the European Union. To answer this question, this study analyses a number of indexes to understand the impact of the euro in three markets: (1) the foreign exchange market, (2) the stock market, and the Crude Oil and commodities markets, (3) the money market.