972 resultados para Data Warehouse Hadoop Spark GMQL HDFS YARN MapReduce genomica bioinformatica dipendenze funzionali


Relevância:

100.00% 100.00%

Publicador:

Resumo:

“La Business Intelligence per il monitoraggio delle vendite: il caso Ducati Motor Holding”. L’obiettivo di questa tesi è quello di illustrare cos’è la Business Intelligence e di mostrare i cambiamenti verificatisi in Ducati Motor Holding, in seguito alla sua adozione, in termini di realizzazione di report e dashboard per il monitoraggio delle vendite. L’elaborato inizia con una panoramica generale sulla storia e gli utilizzi della Business Intelligence nella quale vengono toccati i principali fondamenti teorici: Data Warehouse, data mining, analisi what-if, rappresentazione multidimensionale dei dati, costruzione del team di BI eccetera. Si proseguirà mediante un focus sui Big Data convogliando l’attenzione sul loro utilizzo e utilità nel settore dell’automotive (inteso nella sua accezione più generica e cioè non solo come mercato delle auto, ma anche delle moto), portando in questo modo ad un naturale collegamento con la realtà Ducati. Si apre così una breve overview sull’azienda descrivendone la storia, la struttura commerciale attraverso la quale vengono gestite le vendite e la gamma dei prodotti. Dal quarto capitolo si entra nel vivo dell’argomento: la Business Intelligence in Ducati. Si inizia descrivendo le fasi che hanno fino ad ora caratterizzato il progetto di Business Analytics (il cui obiettivo è per l'appunto introdurre la BI i azienda) per poi concentrarsi, a livello prima teorico e poi pratico, sul reporting sales e cioè sulla reportistica basata sul monitoraggio delle vendite.

Relevância:

100.00% 100.00%

Publicador:

Resumo:

El desarrollo de los Sistemas de Información Gerencial basados en tecnologías de Data Warehouse y Herramientas Olap, es relativamente reciente y, por lo tanto, no existe una propuesta metodológica universalmente válida y aceptada como tal, porla comunidad académica. El presente artículo expone una propuesta metodológica para la realización del diseño de una bodega de datos, que utiliza como eje articulador la identificación de las necesidades de información por parte de la gerencia, para el soporte de los procesos de control y de toma de decisiones.El método propuesto está compuesto de ocho pasos agrupados en tres fases. La primera fase comprende la identificación de las necesidades de información gerencial, desde la perspectivadel negocio. La segunda fase comprende todas las actividades relacionadas con la elaboración de un modelo lógico-conceptual de la estructura de la bodega de datos. La tercera fase incluye los pasos para realizar el diseño físico de la estructura de la bodega de datos.

Relevância:

100.00% 100.00%

Publicador:

Resumo:

The process of building Data Warehouses (DW) is well known with well defined stages but at the same time, mostly carried out manually by IT people in conjunction with business people. Web Warehouses (WW) are DW whose data sources are taken from the web. We define a flexible WW, which can be configured accordingly to different domains, through the selection of the web sources and the definition of data processing characteristics. A Business Process Management (BPM) System allows modeling and executing Business Processes (BPs) providing support for the automation of processes. To support the process of building flexible WW we propose a two BPs level: a configuration process to support the selection of web sources and the definition of schemas and mappings, and a feeding process which takes the defined configuration and loads the data into the WW. In this paper we present a proof of concept of both processes, with focus on the configuration process and the defined data.

Relevância:

100.00% 100.00%

Publicador:

Resumo:

Actualmente, o SIS depara-se com problemas relativos à normalização e qualidade de dados, interoperabilidade entre instituições e inexistência de sistemas que suportem e agilizem o processo da decisão estratégica no sector. Numa primeira fase, este trabalho caracteriza e clarifica o papel das diversas instituições que colaboram com o MS, a forma como é gerida a informação e o conhecimento e os pressupostos do PNS enquanto documento agregador de indicadores que permitem avaliar o estado da saúde em Portugal. Com base na caracterização do sector e na importância orientadora do PNS, apresenta-se uma metodologia que organiza e desenvolve um modelo de metadados, baseados nos indicadores para a saúde, presentes no PNS. A sua importância para o sector é evidente uma vez que permite servir de suporte ao futuro desenvolvimento de aplicações estratégicas de apoio à decisão, salvaguardando a implementação e a divulgação do PNS e dos seus indicadores. ABSTRACT; Currently, the SIS comes across with problems related with normalization and quality of data, cooperation between institutions and the inexistence of systems that support and speed the process of strategical decisions in the sector. ln a first phase, this work characterizes and simplifies the role of each institution that collaborates with MS, the form as it is managed the information and the knowledge and the fundamentals of PNS, as a document witch aggregates pointers that allow the evaluation of the state of health in Portugal. On the basis of this characterization and the orienting importance of PNS, this work demonstrates a metadata methodology that organizes and develops a model, based on health pointers, indicated in PNS. Its importance for the sector is evident because it can support future developments of strategical applications, safeguarding the implementation and the analysis of PNS and its pointers.

Relevância:

100.00% 100.00%

Publicador:

Resumo:

El volumen de datos en bibliotecas ha aumentado enormemente en los últimos años, así como también la complejidad de sus fuentes y formatos de información, dificultando su gestión y acceso, especialmente como apoyo en la toma de decisiones. Sabiendo que una buena gestión de bibliotecas involucra la integración de indicadores estratégicos, la implementación de un Data Warehouse (DW), que gestione adecuadamente tal cantidad de información, así como su compleja mezcla de fuentes de datos, se convierte en una alternativa interesante a considerar. El artículo describe el diseño e implementación de un sistema de soporte de decisiones (DSS) basado en técnicas de DW para la biblioteca de la Universidad de Cuenca. Para esto, el estudio utiliza una metodología holística, propuesto por Siguenza-Guzman et al. (2014) para la evaluación integral de bibliotecas. Dicha metodología evalúa la colección y los servicios, incorporando importantes elementos para la gestión de bibliotecas, tales como: el desempeño de los servicios, el control de calidad, el uso de la colección y la interacción con el usuario. A partir de este análisis, se propone una arquitectura de DW que integra, procesa y almacena los datos. Finalmente, estos datos almacenados son analizados y visualizados a través de herramientas de procesamiento analítico en línea (OLAP). Las pruebas iniciales de implementación confirman la viabilidad y eficacia del enfoque propuesto, al integrar con éxito múltiples y heterogéneas fuentes y formatos de datos, facilitando que los directores de bibliotecas generen informes personalizados, e incluso permitiendo madurar los procesos transaccionales que diariamente se llevan a cabo.

Relevância:

100.00% 100.00%

Publicador:

Resumo:

Libraries since their inception 4000 years ago have been in a process of constant change. Although, changes were in slow motion for centuries, in the last decades, academic libraries have been continuously striving to adapt their services to the ever-changing user needs of students and academic staff. In addition, e-content revolution, technological advances, and ever-shrinking budgets have obliged libraries to efficiently allocate their limited resources among collection and services. Unfortunately, this resource allocation is a complex process due to the diversity of data sources and formats required to be analyzed prior to decision-making, as well as the lack of efficient integration methods. The main purpose of this study is to develop an integrated model that supports libraries in making optimal budgeting and resource allocation decisions among their services and collection by means of a holistic analysis. To this end, a combination of several methodologies and structured approaches is conducted. Firstly, a holistic structure and the required toolset to holistically assess academic libraries are proposed to collect and organize the data from an economic point of view. A four-pronged theoretical framework is used in which the library system and collection are analyzed from the perspective of users and internal stakeholders. The first quadrant corresponds to the internal perspective of the library system that is to analyze the library performance, and costs incurred and resources consumed by library services. The second quadrant evaluates the external perspective of the library system; user’s perception about services quality is judged in this quadrant. The third quadrant analyses the external perspective of the library collection that is to evaluate the impact of the current library collection on its users. Eventually, the fourth quadrant evaluates the internal perspective of the library collection; the usage patterns followed to manipulate the library collection are analyzed. With a complete framework for data collection, these data coming from multiple sources and therefore with different formats, need to be integrated and stored in an adequate scheme for decision support. A data warehousing approach is secondly designed and implemented to integrate, process, and store the holistic-based collected data. Ultimately, strategic data stored in the data warehouse are analyzed and implemented for different purposes including the following: 1) Data visualization and reporting is proposed to allow library managers to publish library indicators in a simple and quick manner by using online reporting tools. 2) Sophisticated data analysis is recommended through the use of data mining tools; three data mining techniques are examined in this research study: regression, clustering and classification. These data mining techniques have been applied to the case study in the following manner: predicting the future investment in library development; finding clusters of users that share common interests and similar profiles, but belong to different faculties; and predicting library factors that affect student academic performance by analyzing possible correlations of library usage and academic performance. 3) Input for optimization models, early experiences of developing an optimal resource allocation model to distribute resources among the different processes of a library system are documented in this study. Specifically, the problem of allocating funds for digital collection among divisions of an academic library is addressed. An optimization model for the problem is defined with the objective of maximizing the usage of the digital collection over-all library divisions subject to a single collection budget. By proposing this holistic approach, the research study contributes to knowledge by providing an integrated solution to assist library managers to make economic decisions based on an “as realistic as possible” perspective of the library situation.

Relevância:

100.00% 100.00%

Publicador:

Resumo:

Dissertação de Mestrado, Direção e Gestão Hoteleira, Escola Superior de Gestão, Hotelaria e Turismo, Universidade do Algarve, 2016

Relevância:

100.00% 100.00%

Publicador:

Resumo:

Nos dias de hoje o acesso à informação por parte das empresas é vital para o bom desempenho das suas funções. As empresas de telecomunicações não fogem à regra, a sua posição no mercado está dependente das decisões que são tomadas com base na avaliação dessa informação. Para suportar os processos de apoio à decisão é coerente recorrer-se a Data Warehouses que permitem integrar informação de diversas fontes, verificando a sua qualidade, actualização e coerência, organizando-a para um fácil acesso e consulta de vários pontos de vista. Numa empresa de telecomunicações móvel, um Data Mart geográfico baseado na informação de tráfego da companhia que pode identificar as localizações preferenciais dos utilizadores na rede é muito importante porque fornece indicadores muito úteis para o departamento de marketing e negócio da empresa de maneira a que se saiba onde e como actuar para permitir que esta se desenvolva e ganhe vantagem no mercado. ABSTRACT: Today the access to information by enterprises is vital for the company’s performance. Telecommunications companies are no exception. Their position in the market is dependent on the decisions that are taken based on the evaluation of such information. To support the decision making process Data Warehouse is today an extremely useful tool; it integrates information from different sources, checking on its validity, quality and update, coherence, organizing it for an easy access and search from various perspectives. ln a mobile telecommunications company a geographical Data Mart-based traffic information that can identify the preferential locations of users on the network is very important It provides useful indicators to the Department of Marketing and Business there by allowing you to know where and how to act and boosting the development of the company.

Relevância:

100.00% 100.00%

Publicador:

Resumo:

L'obiettivo di ciascuna azienda privata, piccola o grande che sia, è quello di ottenere utili attraverso la commercializzazione di beni o servizi. Per raggiungere ciò, la base da cui si parte è sempre una corretta organizzazione della struttura e dei processi aziendali. Questi ultimi, per poter raggiungere i risultati attesi, hanno bisogno costantemente di informazioni. All'interno di un'impresa la parte che si occupa della gestione di informazioni e processi viene chiamata Sistema Informativo (SI). Questo progetto di tesi nasce dall'esigenza di un'azienda privata in ambito utility di analizzare il proprio Sistema Informativo con il duplice scopo di effettuare una diagnosi dell'attuale e progettare una possibile soluzione ottimale. Andando nello specifico, il progetto è stato suddiviso in due parti: la prima comprende tutta la fase di analisi del SI con la relativa diagnosi, mentre la seconda, ben più verticale, tratta la progettazione e prototipazione di un Data Mart per la gestione delle informazioni all'interno dell'azienda.

Relevância:

100.00% 100.00%

Publicador:

Resumo:

The idea of Grid Computing originated in the nineties and found its concrete applications in contexts like the SETI@home project where a lot of computers (offered by volunteers) cooperated, performing distributed computations, inside the Grid environment analyzing radio signals trying to find extraterrestrial life. The Grid was composed of traditional personal computers but, with the emergence of the first mobile devices like Personal Digital Assistants (PDAs), researchers started theorizing the inclusion of mobile devices into Grid Computing; although impressive theoretical work was done, the idea was discarded due to the limitations (mainly technological) of mobile devices available at the time. Decades have passed, and now mobile devices are extremely more performant and numerous than before, leaving a great amount of resources available on mobile devices, such as smartphones and tablets, untapped. Here we propose a solution for performing distributed computations over a Grid Computing environment that utilizes both desktop and mobile devices, exploiting the resources from day-to-day mobile users that alternatively would end up unused. The work starts with an introduction on what Grid Computing is, the evolution of mobile devices, the idea of integrating such devices into the Grid and how to convince device owners to participate in the Grid. Then, the tone becomes more technical, starting with an explanation on how Grid Computing actually works, followed by the technical challenges of integrating mobile devices into the Grid. Next, the model, which constitutes the solution offered by this study, is explained, followed by a chapter regarding the realization of a prototype that proves the feasibility of distributed computations over a Grid composed by both mobile and desktop devices. To conclude future developments and ideas to improve this project are presented.

Relevância:

50.00% 50.00%

Publicador:

Resumo:

Il presente elaborato ha come oggetto la progettazione e lo sviluppo di una soluzione Hadoop per il Calcolo di Big Data Analytics. Nell'ambito del progetto di monitoraggio dei bottle cooler, le necessità emerse dall'elaborazione di dati in continua crescita, ha richiesto lo sviluppo di una soluzione in grado di sostituire le tradizionali tecniche di ETL, non pi�ù su�fficienti per l'elaborazione di Big Data. L'obiettivo del presente elaborato consiste nel valutare e confrontare le perfomance di elaborazione ottenute, da un lato, dal flusso di ETL tradizionale, e dall'altro dalla soluzione Hadoop implementata sulla base del framework MapReduce.

Relevância:

50.00% 50.00%

Publicador:

Resumo:

Negli ultimi anni i dati, la loro gestione e gli strumenti per la loro analisi hanno subito una trasformazione. Si è visto un notevole aumento dei dati raccolti dagli utenti, che si aggira tra il 40 e il 60 percento annuo, grazie ad applicazioni web, sensori, ecc.. Ciò ha fatto nascere il termine Big Data, con il quale ci si riferisce a dataset talmente grandi che non sono gestibili da sistemi tradizionali, come DBMS relazionali in esecuzione su una singola macchina. Infatti, quando la dimensione di un dataset supera pochi terabyte, si è obbligati ad utilizzare un sistema distribuito, in cui i dati sono partizionati su più macchine. Per gestire i Big Data sono state create tecnologie che riescono ad usare la potenza computazionale e la capacità di memorizzazione di un cluster, con un incremento prestazionale proporzionale al numero di macchine presenti sullo stesso. Il più utilizzato di questi sistemi è Hadoop, che offre un sistema per la memorizzazione e l’analisi distribuita dei dati. Grazie alla ridondanza dei dati ed a sofisticati algoritmi, Hadoop riesce a funzionare anche in caso di fallimento di uno o più macchine del cluster, in modo trasparente all’utente. Su Hadoop si possono eseguire diverse applicazioni, tra cui MapReduce, Hive e Apache Spark. É su quest’ultima applicazione, nata per il data processing, che è maggiormente incentrato il progetto di tesi. Un modulo di Spark, chiamato Spark SQL, verrà posto in confronto ad Hive nella velocità e nella flessibilità nell’eseguire interrogazioni su database memorizzati sul filesystem distribuito di Hadoop.

Relevância:

50.00% 50.00%

Publicador:

Resumo:

Debido al gran incremento de datos digitales que ha tenido lugar en los últimos años, ha surgido un nuevo paradigma de computación paralela para el procesamiento eficiente de grandes volúmenes de datos. Muchos de los sistemas basados en este paradigma, también llamados sistemas de computación intensiva de datos, siguen el modelo de programación de Google MapReduce. La principal ventaja de los sistemas MapReduce es que se basan en la idea de enviar la computación donde residen los datos, tratando de proporcionar escalabilidad y eficiencia. En escenarios libres de fallo, estos sistemas generalmente logran buenos resultados. Sin embargo, la mayoría de escenarios donde se utilizan, se caracterizan por la existencia de fallos. Por tanto, estas plataformas suelen incorporar características de tolerancia a fallos y fiabilidad. Por otro lado, es reconocido que las mejoras en confiabilidad vienen asociadas a costes adicionales en recursos. Esto es razonable y los proveedores que ofrecen este tipo de infraestructuras son conscientes de ello. No obstante, no todos los enfoques proporcionan la misma solución de compromiso entre las capacidades de tolerancia a fallo (o de manera general, las capacidades de fiabilidad) y su coste. Esta tesis ha tratado la problemática de la coexistencia entre fiabilidad y eficiencia de los recursos en los sistemas basados en el paradigma MapReduce, a través de metodologías que introducen el mínimo coste, garantizando un nivel adecuado de fiabilidad. Para lograr esto, se ha propuesto: (i) la formalización de una abstracción de detección de fallos; (ii) una solución alternativa a los puntos únicos de fallo de estas plataformas, y, finalmente, (iii) un nuevo sistema de asignación de recursos basado en retroalimentación a nivel de contenedores. Estas contribuciones genéricas han sido evaluadas tomando como referencia la arquitectura Hadoop YARN, que, hoy en día, es la plataforma de referencia en la comunidad de los sistemas de computación intensiva de datos. En la tesis se demuestra cómo todas las contribuciones de la misma superan a Hadoop YARN tanto en fiabilidad como en eficiencia de los recursos utilizados. ABSTRACT Due to the increase of huge data volumes, a new parallel computing paradigm to process big data in an efficient way has arisen. Many of these systems, called dataintensive computing systems, follow the Google MapReduce programming model. The main advantage of these systems is based on the idea of sending the computation where the data resides, trying to provide scalability and efficiency. In failure-free scenarios, these frameworks usually achieve good results. However, these ones are not realistic scenarios. Consequently, these frameworks exhibit some fault tolerance and dependability techniques as built-in features. On the other hand, dependability improvements are known to imply additional resource costs. This is reasonable and providers offering these infrastructures are aware of this. Nevertheless, not all the approaches provide the same tradeoff between fault tolerant capabilities (or more generally, reliability capabilities) and cost. In this thesis, we have addressed the coexistence between reliability and resource efficiency in MapReduce-based systems, looking for methodologies that introduce the minimal cost and guarantee an appropriate level of reliability. In order to achieve this, we have proposed: (i) a formalization of a failure detector abstraction; (ii) an alternative solution to single points of failure of these frameworks, and finally (iii) a novel feedback-based resource allocation system at the container level. Finally, our generic contributions have been instantiated for the Hadoop YARN architecture, which is the state-of-the-art framework in the data-intensive computing systems community nowadays. The thesis demonstrates how all our approaches outperform Hadoop YARN in terms of reliability and resource efficiency.