25 resultados para Data sources detection


Relevância:

90.00% 90.00%

Publicador:

Resumo:

This paper presents the SmartClean tool. The purpose of this tool is to detect and correct the data quality problems (DQPs). Compared with existing tools, SmartClean has the following main advantage: the user does not need to specify the execution sequence of the data cleaning operations. For that, an execution sequence was developed. The problems are manipulated (i.e., detected and corrected) following that sequence. The sequence also supports the incremental execution of the operations. In this paper, the underlying architecture of the tool is presented and its components are described in detail. The tool's validity and, consequently, of the architecture is demonstrated through the presentation of a case study. Although SmartClean has cleaning capabilities in all other levels, in this paper are only described those related with the attribute value level.

Relevância:

90.00% 90.00%

Publicador:

Resumo:

Esta dissertação incide sobre a problemática da construção de um data warehouse para a empresa AdClick que opera na área de marketing digital. O marketing digital é um tipo de marketing que utiliza os meios de comunicação digital, com a mesma finalidade do método tradicional que se traduz na divulgação de bens, negócios e serviços e a angariação de novos clientes. Existem diversas estratégias de marketing digital tendo em vista atingir tais objetivos, destacando-se o tráfego orgânico e tráfego pago. Onde o tráfego orgânico é caracterizado pelo desenvolvimento de ações de marketing que não envolvem quaisquer custos inerentes à divulgação e/ou angariação de potenciais clientes. Por sua vez o tráfego pago manifesta-se pela necessidade de investimento em campanhas capazes de impulsionar e atrair novos clientes. Inicialmente é feita uma abordagem do estado da arte sobre business intelligence e data warehousing, e apresentadas as suas principais vantagens as empresas. Os sistemas business intelligence são necessários, porque atualmente as empresas detêm elevados volumes de dados ricos em informação, que só serão devidamente explorados fazendo uso das potencialidades destes sistemas. Nesse sentido, o primeiro passo no desenvolvimento de um sistema business intelligence é concentrar todos os dados num sistema único integrado e capaz de dar apoio na tomada de decisões. É então aqui que encontramos a construção do data warehouse como o sistema único e ideal para este tipo de requisitos. Nesta dissertação foi elaborado o levantamento das fontes de dados que irão abastecer o data warehouse e iniciada a contextualização dos processos de negócio existentes na empresa. Após este momento deu-se início à construção do data warehouse, criação das dimensões e tabelas de factos e definição dos processos de extração e carregamento dos dados para o data warehouse. Assim como a criação das diversas views. Relativamente ao impacto que esta dissertação atingiu destacam-se as diversas vantagem a nível empresarial que a empresa parceira neste trabalho retira com a implementação do data warehouse e os processos de ETL para carregamento de todas as fontes de informação. Sendo que algumas vantagens são a centralização da informação, mais flexibilidade para os gestores na forma como acedem à informação. O tratamento dos dados de forma a ser possível a extração de informação a partir dos mesmos.

Relevância:

80.00% 80.00%

Publicador:

Resumo:

This paper describes the development and the implementation of a multi-agent system for integrated diagnosis of power transformers. The system is divided in layers which contain a number of agents performing different functions. The social ability and cooperation between the agents lead to the final diagnosis and to other relevant conclusions through integrating various monitoring technologies, diagnostic methods and data sources, such as the dissolved gas analysis.

Relevância:

80.00% 80.00%

Publicador:

Resumo:

Tecnologias da Web Semântica como RDF, OWL e SPARQL sofreram nos últimos anos um forte crescimento e aceitação. Projectos como a DBPedia e Open Street Map começam a evidenciar o verdadeiro potencial da Linked Open Data. No entanto os motores de pesquisa semânticos ainda estão atrasados neste crescendo de tecnologias semânticas. As soluções disponíveis baseiam-se mais em recursos de processamento de linguagem natural. Ferramentas poderosas da Web Semântica como ontologias, motores de inferência e linguagens de pesquisa semântica não são ainda comuns. Adicionalmente a esta realidade, existem certas dificuldades na implementação de um Motor de Pesquisa Semântico. Conforme demonstrado nesta dissertação, é necessária uma arquitectura federada de forma a aproveitar todo o potencial da Linked Open Data. No entanto um sistema federado nesse ambiente apresenta problemas de performance que devem ser resolvidos através de cooperação entre fontes de dados. O standard actual de linguagem de pesquisa na Web Semântica, o SPARQL, não oferece um mecanismo para cooperação entre fontes de dados. Esta dissertação propõe uma arquitectura federada que contém mecanismos que permitem cooperação entre fontes de dados. Aborda o problema da performance propondo um índice gerido de forma centralizada assim como mapeamentos entre os modelos de dados de cada fonte de dados. A arquitectura proposta é modular, permitindo um crescimento de repositórios e funcionalidades simples e de forma descentralizada, à semelhança da Linked Open Data e da própria World Wide Web. Esta arquitectura trabalha com pesquisas por termos em linguagem natural e também com inquéritos formais em linguagem SPARQL. No entanto os repositórios considerados contêm apenas dados em formato RDF. Esta dissertação baseia-se em múltiplas ontologias partilhadas e interligadas.

Relevância:

80.00% 80.00%

Publicador:

Resumo:

A quantidade e variedade de conteúdos multimédia actualmente disponíveis cons- tituem um desafio para os utilizadores dado que o espaço de procura e escolha de fontes e conteúdos excede o tempo e a capacidade de processamento dos utilizado- res. Este problema da selecção, em função do perfil do utilizador, de informação em grandes conjuntos heterogéneos de dados é complexo e requer ferramentas específicas. Os Sistemas de Recomendação surgem neste contexto e são capazes de sugerir ao utilizador itens que se coadunam com os seus gostos, interesses ou necessidades, i.e., o seu perfil, recorrendo a metodologias de inteligência artificial. O principal objectivo desta tese é demonstrar que é possível recomendar em tempo útil conteúdos multimédia a partir do perfil pessoal e social do utilizador, recorrendo exclusivamente a fontes públicas e heterogéneas de dados. Neste sen- tido, concebeu-se e desenvolveu-se um Sistema de Recomendação de conteúdos multimédia baseado no conteúdo, i.e., nas características dos itens, no historial e preferências pessoais e nas interacções sociais do utilizador. Os conteúdos mul- timédia recomendados, i.e., os itens sugeridos ao utilizador, são provenientes da estação televisiva britânica, British Broadcasting Corporation (BBC), e estão classificados de acordo com as categorias dos programas da BBC. O perfil do utilizador é construído levando em conta o historial, o contexto, as preferências pessoais e as actividades sociais. O YouTube é a fonte do histo- rial pessoal utilizada, permitindo simular a principal fonte deste tipo de dados - a Set-Top Box (STB). O historial do utilizador é constituído pelo conjunto de vídeos YouTube e programas da BBC vistos pelo utilizador. O conteúdo dos vídeos do YouTube está classificado segundo as categorias de vídeo do próprio YouTube, sendo efectuado o mapeamento para as categorias dos programas da BBC. A informação social, que é proveniente das redes sociais Facebook e Twit- ter, é recolhida através da plataforma Beancounter. As actividades sociais do utilizador obtidas são filtradas para extrair os filmes e séries que são, por sua vez, enriquecidos semanticamente através do recurso a repositórios abertos de dados interligados. Neste caso, os filmes e séries são classificados através dos géneros da IMDb e, posteriormente, mapeados para as categorias de programas da BBC. Por último, a informação do contexto e das preferências explícitas, através da classificação dos itens recomendados, do utilizador são também contempladas. O sistema desenvolvido efectua recomendações em tempo real baseado nas actividades das redes sociais Facebook e Twitter, no historial de vídeos Youtube e de programas da BBC vistos e preferências explícitas. Foram realizados testes com cinco utilizadores e o tempo médio de resposta do sistema para criar o conjunto inicial de recomendações foi 30 s. As recomendações personalizadas são geradas e actualizadas mediante pedido expresso do utilizador.

Relevância:

80.00% 80.00%

Publicador:

Resumo:

Atualmente as redes sociais fazem parte do dia a dia das pessoas, sendo que para muitas delas essas plataformas tornaram-se imprescindíveis. Quer seja por mera curiosidade ou por uma necessidade imperiosa de partilhar com o mundo as suas ideias ou pensamentos, a verdade é que as pessoas utilizam cada vez mais as redes sociais. O trabalho descrito neste documento pretende explorar uma dessas redes sociais, o Twitter, mais propriamente através do estudo das suas tendências do momento ou trending topics que são expressões referidas pelos utilizadores a uma taxa superior em comparação com outras. São descritas algumas das características do Twitter e dos recursos disponíveis para programadores. Para além do estudo detalhado do Twitter, são extraídos dados de diversas fontes, destacando-se o próprio Twitter, mas também outras plataformas e jornais online. Posteriormente é feita a análise desses dados através da verificação da evolução das tendências ao longo do tempo nos diversos locais em estudo e ainda através do cruzamento de dados das várias fontes de dados, com análise dos resultados obtidos. Na análise efetuada são analisadas as tendências considerando algumas métricas, a sua globalidade, a relação das tendências com tópicos dos jornais online e ainda a sua periodicidade.

Relevância:

80.00% 80.00%

Publicador:

Resumo:

A evolução tecnológica das últimas décadas na área das Tecnologias da Informação e Comunicação (TIC) contribuiu para a proliferação de fontes de informação e de sistemas de partilha de recursos. As diversas redes sociais são um exemplo paradigmático de sistemas de partilha tanto de informação como de recursos (e.g. audiovisuais). Essa abundância crescente de recursos e fontes aumenta a importância de sistemas capazes de recomendar em tempo útil recursos personalizados, tendo por base o perfil e o contexto do utilizador. O objetivo deste projeto é partilhar e recomendar locais, artigos e vídeos em função do contexto do utilizador assim como proporcionar uma experiência mais rica de reprodução dos vídeos partilhados, simulando as condições de gravação dos vídeos. Este sistema teve como inspiração dois projetos anteriormente desenvolvidos de partilha e recomendação de locais, artigos e vídeos turísticos em função da localização do utilizador. O sistema desenvolvido consiste numa aplicação distribuída composta por um módulo cliente Android, que inclui a interface com o utilizador e o consumo direto de serviços externos de suporte, e um módulo servidor que controla o acesso à base de dados central e inclui o serviço de recomendação baseado no contexto do utilizador. A comunicação entre os módulos cliente e servidor utiliza um protocolo do nível de aplicação dedicado. As recomendações geradas pelo sistema têm por base o perfil de utilizador, informação contextual (posição do utilizador, data e hora atual e velocidade atual do utilizador) e podem ser geradas a pedido do utilizador ou automaticamente, caso sejam encontrados pontos de interesse de grande relevância para o utilizador. Os pontos de interesse recomendados são apresentados com recurso ao Google Maps, incluindo o período de funcionamento, artigos complementares e a reprodução imersiva dos vídeos relacionados. Essa imersão tem em consideração as condições meteorológicas, temporais e espaciais aquando da gravação do vídeo.

Relevância:

80.00% 80.00%

Publicador:

Resumo:

Este estudo insere-se no âmbito da Geometria e pretende compreender a influência dos recursos didáticos utilizados no reconhecimento de propriedades e relações geométricas em figuras planas. De acordo com o objetivo do estudo formulamos duas questões orientadoras que se articulam entre si. - Que fragilidades apresentam os alunos, no reconhecimento de propriedades geométricas em figuras planas? - Que contributos resultam da utilização de materiais manipuláveis, na visualização espacial e investigação de propriedades geométricas? Com este estudo pretendemos reunir informação que contribua para aprofundar o conhecimento sobre o raciocínio geométrico dos alunos. Em termos metodológicos segue um método de investigação misto, com recolha de informação qualitativa de natureza interpretativa e quantitativa, na modalidade de estudo de caso. A recolha de dados foi realizada numa turma de 4.º ano do ensino básico onde foi desenvolvida a experiência didática. A informação recolhida resultou da observação direta e as fontes dos dados foram as produções dos alunos, as notas de campo, registos fotográficos, vídeo e áudio. A docente assumiu o papel de investigadora e orientadora das tarefas propostas aos alunos tendo estes desempenhado um papel ativo na construção do seu próprio conhecimento. Os resultados obtidos permitem evidenciar as fragilidades dos alunos no reconhecimento de propriedades geométricas de figuras planas em diferentes posições. Destacam ainda os contributos da utilização da Mira e do Tangram, no estudo da simetria e no desenvolvimento da visualização espacial para a concretização de aprendizagens concretas, motivadoras e significativas.

Relevância:

80.00% 80.00%

Publicador:

Resumo:

Context-aware recommendation of personalised tourism resources is possible because of personal mobile devices and powerful data filtering algorithms. The devices contribute with computing capabilities, on board sensors, ubiquitous Internet access and continuous user monitoring, whereas the filtering algorithms provide the ability to match the profile (interests and the context) of the tourist against a large knowledge bases of tourism resources. While, in terms of technology, personal mobile devices can gather user-related information, including the user context and access multiple data sources, the creation and maintenance of an updated knowledge base of tourism-related resources requires a collaborative approach due to the heterogeneity, volume and dynamic nature of the resources. The current PhD thesis aims to contribute to the solution of this problem by adopting a Crowdsourcing approach for the collaborative maintenance of the knowledge base of resources, Trust and Reputation for the validation of uploaded resources as well as publishers, Big Data for user profiling and context-aware filtering algorithms for the personalised recommendation of tourism resources.

Relevância:

30.00% 30.00%

Publicador:

Resumo:

The emergence of new business models, namely, the establishment of partnerships between organizations, the chance that companies have of adding existing data on the web, especially in the semantic web, to their information, led to the emphasis on some problems existing in databases, particularly related to data quality. Poor data can result in loss of competitiveness of the organizations holding these data, and may even lead to their disappearance, since many of their decision-making processes are based on these data. For this reason, data cleaning is essential. Current approaches to solve these problems are closely linked to database schemas and specific domains. In order that data cleaning can be used in different repositories, it is necessary for computer systems to understand these data, i.e., an associated semantic is needed. The solution presented in this paper includes the use of ontologies: (i) for the specification of data cleaning operations and, (ii) as a way of solving the semantic heterogeneity problems of data stored in different sources. With data cleaning operations defined at a conceptual level and existing mappings between domain ontologies and an ontology that results from a database, they may be instantiated and proposed to the expert/specialist to be executed over that database, thus enabling their interoperability.

Relevância:

30.00% 30.00%

Publicador:

Resumo:

Ibuprofen is amongst the most worldwide consumed pharmaceuticals. The present work presents the first data in the occurrence of ibuprofen in Portuguese surface waters, focusing in the north area of the country, which is one of the most densely populated areas of Portugal. Analysis of ibuprofen is based on pre-concentration of the analyte with solid phase extraction and subsequent determination with liquid chromatography coupled to fluorescence detection. A total of 42 water samples, including surface waters, landfill leachates,Wastewater Treatment Plant (WWTP), and hospital effluents, were analyzed in order to evaluate the occurrence of ibuprofen in the north of Portugal. In general, the highest concentrations were found in the river mouths and in the estuarine zone. The maximum concentrations found were 48,720 ngL−1 in the landfill leachate, 3,868 ngL−1 in hospital effluent, 616 ngL−1 in WWTP effluent, and 723 ngL−1 in surface waters (Lima river). Environmental risk assessment was evaluated and at the measured concentrations only landfill leachates reveal potential ecotoxicological risk for aquatic organisms. Owing to a high consumption rate of ibuprofen among Portuguese population, as prescribed and nonprescribed medicine, the importance of hospitals, WWTPs, and landfills as sources of entrance of pharmaceuticals in the environment was pointed out. Landfill leachates showed the highest contribution for ibuprofen mass loading into surface waters. On the basis of our findings, more studies are needed as an attempt to assess more vulnerable areas.

Relevância:

30.00% 30.00%

Publicador:

Resumo:

This study aimed to characterize air pollution and the associated carcinogenic risks of polycyclic aromatic hydrocarbon (PAHs) at an urban site, to identify possible emission sources of PAHs using several statistical methodologies, and to analyze the influence of other air pollutants and meteorological variables on PAH concentrations.The air quality and meteorological data were collected in Oporto, the second largest city of Portugal. Eighteen PAHs (the 16 PAHs considered by United States Environment Protection Agency (USEPA) as priority pollutants, dibenzo[a,l]pyrene, and benzo[j]fluoranthene) were collected daily for 24 h in air (gas phase and in particles) during 40 consecutive days in November and December 2008 by constant low-flow samplers and using polytetrafluoroethylene (PTFE) membrane filters for particulate (PM10 and PM2.5 bound) PAHs and pre-cleaned polyurethane foam plugs for gaseous compounds. The other monitored air pollutants were SO2, PM10, NO2, CO, and O3; the meteorological variables were temperature, relative humidity, wind speed, total precipitation, and solar radiation. Benzo[a]pyrene reached a mean concentration of 2.02 ngm−3, surpassing the EU annual limit value. The target carcinogenic risks were equal than the health-based guideline level set by USEPA (10−6) at the studied site, with the cancer risks of eight PAHs reaching senior levels of 9.98×10−7 in PM10 and 1.06×10−6 in air. The applied statistical methods, correlation matrix, cluster analysis, and principal component analysis, were in agreement in the grouping of the PAHs. The groups were formed according to their chemical structure (number of rings), phase distribution, and emission sources. PAH diagnostic ratios were also calculated to evaluate the main emission sources. Diesel vehicular emissions were the major source of PAHs at the studied site. Besides that source, emissions from residential heating and oil refinery were identified to contribute to PAH levels at the respective area. Additionally, principal component regression indicated that SO2, NO2, PM10, CO, and solar radiation had positive correlation with PAHs concentrations, while O3, temperature, relative humidity, and wind speed were negatively correlated.

Relevância:

30.00% 30.00%

Publicador:

Resumo:

The goal of the this paper is to show that the DGPS data Internet service we designed and developed provides campus-wide real time access to Differential GPS (DGPS) data and, thus, supports precise outdoor navigation. First we describe the developed distributed system in terms of architecture (a three tier client/server application), services provided (real time DGPS data transportation from remote DGPS sources and campus wide data dissemination) and transmission modes implemented (raw and frame mode over TCP and UDP). Then we present and discuss the results obtained and, finally, we draw some conclusions.

Relevância:

30.00% 30.00%

Publicador:

Resumo:

It has been shown that in reality at least two general scenarios of data structuring are possible: (a) a self-similar (SS) scenario when the measured data form an SS structure and (b) a quasi-periodic (QP) scenario when the repeated (strongly correlated) data form random sequences that are almost periodic with respect to each other. In the second case it becomes possible to describe their behavior and express a part of their randomness quantitatively in terms of the deterministic amplitude–frequency response belonging to the generalized Prony spectrum. This possibility allows us to re-examine the conventional concept of measurements and opens a new way for the description of a wide set of different data. In particular, it concerns different complex systems when the ‘best-fit’ model pretending to be the description of the data measured is absent but the barest necessity of description of these data in terms of the reduced number of quantitative parameters exists. The possibilities of the proposed approach and detection algorithm of the QP processes were demonstrated on actual data: spectroscopic data recorded for pure water and acoustic data for a test hole. The suggested methodology allows revising the accepted classification of different incommensurable and self-affine spatial structures and finding accurate interpretation of the generalized Prony spectroscopy that includes the Fourier spectroscopy as a partial case.

Relevância:

30.00% 30.00%

Publicador:

Resumo:

Recent studies of mobile Web trends show a continuous explosion of mobile-friendly content. However, the increasing number and heterogeneity of mobile devices poses several challenges for Web programmers who want to automatically get the delivery context and adapt the content to mobile devices. In this process, the devices detection phase assumes an important role where an inaccurate detection could result in a poor mobile experience for the enduser. In this paper we compare the most promising approaches for mobile device detection. Based on this study, we present an architecture for a system to detect and deliver uniform m-Learning content to students in a Higher School. We focus mainly on the devices capabilities repository manageable and accessible through an API. We detail the structure of the capabilities XML Schema that formalizes the data within the devices capabilities XML repository and the REST Web Service API for selecting the correspondent devices capabilities data according to a specific request. Finally, we validate our approach by presenting the access and usage statistics of the mobile web interface of the proposed system such as hits and new visitors, mobile platforms, average time on site and rejection rate.