84 resultados para Data Extraction
em Instituto Politécnico do Porto, Portugal
Resumo:
The study of electricity markets operation has been gaining an increasing importance in the last years, as result of the new challenges that the restructuring process produced. Currently, lots of information concerning electricity markets is available, as market operators provide, after a period of confidentiality, data regarding market proposals and transactions. These data can be used as source of knowledge to define realistic scenarios, which are essential for understanding and forecast electricity markets behavior. The development of tools able to extract, transform, store and dynamically update data, is of great importance to go a step further into the comprehension of electricity markets and of the behaviour of the involved entities. In this paper an adaptable tool capable of downloading, parsing and storing data from market operators’ websites is presented, assuring constant updating and reliability of the stored data.
Resumo:
Electricity markets worldwide suffered profound transformations. The privatization of previously nationally owned systems; the deregulation of privately owned systems that were regulated; and the strong interconnection of national systems, are some examples of such transformations [1, 2]. In general, competitive environments, as is the case of electricity markets, require good decision-support tools to assist players in their decisions. Relevant research is being undertaken in this field, namely concerning player modeling and simulation, strategic bidding and decision-support.
Resumo:
Esta dissertação apresenta uma proposta de sistema capaz de preencher a lacuna entre documentos legislativos em formato PDF e documentos legislativos em formato aberto. O objetivo principal é mapear o conhecimento presente nesses documentos de maneira a representar essa coleção como informação interligada. O sistema é composto por vários componentes responsáveis pela execução de três fases propostas: extração de dados, organização de conhecimento, acesso à informação. A primeira fase propõe uma abordagem à extração de estrutura, texto e entidades de documentos PDF de maneira a obter a informação desejada, de acordo com a parametrização do utilizador. Esta abordagem usa dois métodos de extração diferentes, de acordo com as duas fases de processamento de documentos – análise de documento e compreensão de documento. O critério utilizado para agrupar objetos de texto é a fonte usada nos objetos de texto de acordo com a sua definição no código de fonte (Content Stream) do PDF. A abordagem está dividida em três partes: análise de documento, compreensão de documento e conjunção. A primeira parte da abordagem trata da extração de segmentos de texto, adotando uma abordagem geométrica. O resultado é uma lista de linhas do texto do documento; a segunda parte trata de agrupar os objetos de texto de acordo com o critério estipulado, produzindo um documento XML com o resultado dessa extração; a terceira e última fase junta os resultados das duas fases anteriores e aplica regras estruturais e lógicas no sentido de obter o documento XML final. A segunda fase propõe uma ontologia no domínio legal capaz de organizar a informação extraída pelo processo de extração da primeira fase. Também é responsável pelo processo de indexação do texto dos documentos. A ontologia proposta apresenta três características: pequena, interoperável e partilhável. A primeira característica está relacionada com o facto da ontologia não estar focada na descrição pormenorizada dos conceitos presentes, propondo uma descrição mais abstrata das entidades presentes; a segunda característica é incorporada devido à necessidade de interoperabilidade com outras ontologias do domínio legal, mas também com as ontologias padrão que são utilizadas geralmente; a terceira característica é definida no sentido de permitir que o conhecimento traduzido, segundo a ontologia proposta, seja independente de vários fatores, tais como o país, a língua ou a jurisdição. A terceira fase corresponde a uma resposta à questão do acesso e reutilização do conhecimento por utilizadores externos ao sistema através do desenvolvimento dum Web Service. Este componente permite o acesso à informação através da disponibilização de um grupo de recursos disponíveis a atores externos que desejem aceder à informação. O Web Service desenvolvido utiliza a arquitetura REST. Uma aplicação móvel Android também foi desenvolvida de maneira a providenciar visualizações dos pedidos de informação. O resultado final é então o desenvolvimento de um sistema capaz de transformar coleções de documentos em formato PDF para coleções em formato aberto de maneira a permitir o acesso e reutilização por outros utilizadores. Este sistema responde diretamente às questões da comunidade de dados abertos e de Governos, que possuem muitas coleções deste tipo, para as quais não existe a capacidade de raciocinar sobre a informação contida, e transformá-la em dados que os cidadãos e os profissionais possam visualizar e utilizar.
Resumo:
Esta dissertação incide sobre a problemática da construção de um data warehouse para a empresa AdClick que opera na área de marketing digital. O marketing digital é um tipo de marketing que utiliza os meios de comunicação digital, com a mesma finalidade do método tradicional que se traduz na divulgação de bens, negócios e serviços e a angariação de novos clientes. Existem diversas estratégias de marketing digital tendo em vista atingir tais objetivos, destacando-se o tráfego orgânico e tráfego pago. Onde o tráfego orgânico é caracterizado pelo desenvolvimento de ações de marketing que não envolvem quaisquer custos inerentes à divulgação e/ou angariação de potenciais clientes. Por sua vez o tráfego pago manifesta-se pela necessidade de investimento em campanhas capazes de impulsionar e atrair novos clientes. Inicialmente é feita uma abordagem do estado da arte sobre business intelligence e data warehousing, e apresentadas as suas principais vantagens as empresas. Os sistemas business intelligence são necessários, porque atualmente as empresas detêm elevados volumes de dados ricos em informação, que só serão devidamente explorados fazendo uso das potencialidades destes sistemas. Nesse sentido, o primeiro passo no desenvolvimento de um sistema business intelligence é concentrar todos os dados num sistema único integrado e capaz de dar apoio na tomada de decisões. É então aqui que encontramos a construção do data warehouse como o sistema único e ideal para este tipo de requisitos. Nesta dissertação foi elaborado o levantamento das fontes de dados que irão abastecer o data warehouse e iniciada a contextualização dos processos de negócio existentes na empresa. Após este momento deu-se início à construção do data warehouse, criação das dimensões e tabelas de factos e definição dos processos de extração e carregamento dos dados para o data warehouse. Assim como a criação das diversas views. Relativamente ao impacto que esta dissertação atingiu destacam-se as diversas vantagem a nível empresarial que a empresa parceira neste trabalho retira com a implementação do data warehouse e os processos de ETL para carregamento de todas as fontes de informação. Sendo que algumas vantagens são a centralização da informação, mais flexibilidade para os gestores na forma como acedem à informação. O tratamento dos dados de forma a ser possível a extração de informação a partir dos mesmos.
Resumo:
Introdução: Programas de self-management têm como objectivo habilitar os pacientes com estratégias necessárias para levar a cabo procedimentos específicos para a patologia. A última revisão sistemática sobre selfmanagament em DPOC foi realizada em 2007, concluindo-se que ainda não era possível fornecer dados claros e suficientes acerca de recomendações sobre a estrutura e conteúdo de programas de self-managament na DPOC. A presente revisão tem o intuito de complementar a análise da revisão anterior, numa tentativa de inferir a influência do ensino do self-management na DPOC. Objectivos: verificar a influência dos programas de self-management na DPOC, em diversos indicadores relacionados com o estado de saúde do paciente e na sua utilização dos serviços de saúde. Estratégia de busca: pesquisa efectuada nas bases de dados PubMed e Cochrane Collaboration (01/01/2007 – 31/08/2010). Palavras-chave: selfmanagement education, self-management program, COPD e pulmonary rehabilitation. Critérios de Selecção: estudos randomizados sobre programas de selfmanagement na DPOC. Extracção e Análise dos Dados: 2 investigadores realizaram, independentemente, a avaliação e extracção de dados de cada artigo. Resultados: foram considerados 4 estudos randomizados em selfmanagement na DPOC nos quais se verificaram benefícios destes programas em diversas variáveis: qualidade de vida a curto e médio prazo, utilização dos diferentes recursos de saúde, adesões a medicação de rotina, controle das exacerbações e diminuição da sintomatologia. Parece não ocorrer alteração na função pulmonar e no uso de medicação de emergência, sendo inconclusivo o seu efeito na capacidade de realização de exercício. Conclusões: programas de self-management aparentam ter impacto positivo na qualidade de vida, recurso a serviços de saúde, adesão à medicação, planos de acção e níveis de conhecimento da DPOC. Discrepâncias nos critérios de selecção das amostras utilizadas, períodos de seguimento desiguais, consistência das variáveis mensuradas, condicionam a informação disponibilizada sobre este assunto.
Resumo:
Contexto: a bronquiolite aguda é a principal patologia a afectar a criança nos primeiros 2 anos de vida, a fisioterapia respiratória é uma intervenção terapêutica utilizada com a intenção de melhorar o curso desta doença mantendo-se a incerteza sobre a sua eficácia. Objectivo: determinar a eficácia e segurança da fisioterapia respiratória em crianças com menos de 2 anos com bronquiolite aguda. Fontes de Informação: Medline (1966 a Agosto 2010), EMBASE(1990 a Agosto 2010), Pedro e Lilacs (1982 a Agosto 2010). Outra fonte de informação incluiu a bibliografia dos estudos obtidos. Selecção de estudos: estudos experimentais comparando a fisioterapia respiratória com cuidados habituais, em crianças com menos de 2 anos e bronquiolite aguda, em ventilação espontânea, em qualquer contexto. Estudos pré-experimentais ou observacionais com os mesmos participantes e intervenções foram admitidos complementarmente aos experimentais. Extracção de dados e análise: um investigador extraiu os dados dos artigos obtidos e avaliou o risco de viés. A eficácia e segurança da fisioterapia respiratória foram determinadas pelos seguintes outcomes: duração do internamento hospitalar ou do evento, variação de scores de severidade clínica, saturação periférica e suplementação de oxigénio, recidivas, recurso a antibióticos e efeitos deletérios ou deterioração clínica reportada. Síntese de dados: 6 estudos experimentais foram admitidos. As suas amostras provinham de criança internadas em hospital. As técnicas de fisioterapia respiratória foram comparadas com cuidados habituais. Nenhum estudo evidenciou melhoria dos outcomes de interesse na comparação entre grupos, excepto avaliações de curta duração da saturação periférica de oxigénio e scores de severidade clínica. 1 estudo reportou uma percentagem significativamente maior no grupo submetido a fisioterapia respiratória de crianças que vomitaram, tiveram uma desestabilização respiratória transitória, e na percepção de stress da criança pelos cuidadores. São relatadas ainda fracturas costais a causa de fisioterapia respiratória. Limitações: o risco de viés era alto em 2 estudos, baixo num estudo e indeterminado nos restantes. Conclusões: aparentemente a fisioterapia respiratória não é eficaz e pode produzir efeitos deletérios importantes, mas a evidência é pobre, carecendo de novos estudos.
Resumo:
The main purpose of this work was the development of procedures for the simulation of atmospheric ows over complex terrain, using OpenFOAM. For this aim, tools and procedures were developed apart from this code for the preprocessing and data extraction, which were thereafter applied in the simulation of a real case. For the generation of the computational domain, a systematic method able to translate the terrain elevation model to a native OpenFOAM format (blockMeshDict) was developed. The outcome was a structured mesh, in which the user has the ability to de ne the number of control volumes and its dimensions. With this procedure, the di culties of case set up and the high computation computational e ort reported in literature associated to the use of snappyHexMesh, the OpenFOAM resource explored until then for the accomplishment of this task, were considered to be overwhelmed. Developed procedures for the generation of boundary conditions allowed for the automatic creation of idealized inlet vertical pro les, de nition of wall functions boundary conditions and the calculation of internal eld rst guesses for the iterative solution process, having as input experimental data supplied by the user. The applicability of the generated boundary conditions was limited to the simulation of turbulent, steady-state, incompressible and neutrally strati ed atmospheric ows, always recurring to RaNS (Reynolds-averaged Navier-Stokes) models. For the modelling of terrain roughness, the developed procedure allowed to the user the de nition of idealized conditions, like an uniform aerodynamic roughness length or making its value variable as a function of topography characteristic values, or the using of real site data, and it was complemented by the development of techniques for the visual inspection of generated roughness maps. The absence and the non inclusion of a forest canopy model limited the applicability of this procedure to low aerodynamic roughness lengths. The developed tools and procedures were then applied in the simulation of a neutrally strati ed atmospheric ow over the Askervein hill. In the performed simulations was evaluated the solution sensibility to di erent convection schemes, mesh dimensions, ground roughness and formulations of the k - ε and k - ω models. When compared to experimental data, calculated values showed a good agreement of speed-up in hill top and lee side, with a relative error of less than 10% at a height of 10 m above ground level. Turbulent kinetic energy was considered to be well simulated in the hill windward and hill top, and grossly predicted in the lee side, where a zone of ow separation was also identi ed. Despite the need of more work to evaluate the importance of the downstream recirculation zone in the quality of gathered results, the agreement between the calculated and experimental values and the OpenFOAM sensibility to the tested parameters were considered to be generally in line with the simulations presented in the reviewed bibliographic sources.
Resumo:
Atualmente as redes sociais fazem parte do dia a dia das pessoas, sendo que para muitas delas essas plataformas tornaram-se imprescindíveis. Quer seja por mera curiosidade ou por uma necessidade imperiosa de partilhar com o mundo as suas ideias ou pensamentos, a verdade é que as pessoas utilizam cada vez mais as redes sociais. O trabalho descrito neste documento pretende explorar uma dessas redes sociais, o Twitter, mais propriamente através do estudo das suas tendências do momento ou trending topics que são expressões referidas pelos utilizadores a uma taxa superior em comparação com outras. São descritas algumas das características do Twitter e dos recursos disponíveis para programadores. Para além do estudo detalhado do Twitter, são extraídos dados de diversas fontes, destacando-se o próprio Twitter, mas também outras plataformas e jornais online. Posteriormente é feita a análise desses dados através da verificação da evolução das tendências ao longo do tempo nos diversos locais em estudo e ainda através do cruzamento de dados das várias fontes de dados, com análise dos resultados obtidos. Na análise efetuada são analisadas as tendências considerando algumas métricas, a sua globalidade, a relação das tendências com tópicos dos jornais online e ainda a sua periodicidade.
Resumo:
O âmbito deste trabalho envolve o teste do modelo BIM numa obra em construção pela Mota-Engil – Engenharia, na extração experimental de peças desenhadas de preparação e apoio à execução de obra. No capítulo 1 deste relatório são definidos o âmbito e os objetivos deste trabalho, é feito um enquadramento histórico do tema e abordados conceitos e atividades da preparação de obra, na sua forma tradicional. O estado do conhecimento da preparação de obras e mais em concreto da tecnologia BIM a nível nacional e internacional é abordado no capítulo 2. Nesse sentido procura-se definir os conceitos principais inerentes a esta nova metodologia, que passa por identificar e caraterizar a tecnologia envolvida e o seu nível de desenvolvimento. Com suporte em casos práticos de preparação de obra na sua forma tradicional, identificados e desenvolvidos no capítulo 3, foi compilado um processo tipo de peças desenhadas de suporte identificadas e caracterizadas no capítulo 4, frequentes e comuns à execução de diversos tipos de obras de edifícios. Assente na compilação baseada em casos práticos e no estudo do projeto de execução da empreitada que sustenta o presente trabalho, com base no qual o modelo BIM foi concebido, identificou-se um conjunto de peças desenhadas de preparação e apoio à execução dos trabalhos, em 2D, a extrair do modelo. No capítulo 5, é feita uma descrição do modo como foi estudado o projeto da obra, com evidência para os fatores mais relevantes, especificando os desenhos a extrair. Suportada pelo programa de modelação ArchiCAD, a extração do conjunto de desenhos identificados anteriormente foi conseguida com recurso às funcionalidades disponíveis no software, que permite a criação de desenhos 2D atualizáveis ou não automaticamente a partir do modelo. Qualquer alteração introduzida no modelo virtual é automaticamente atualizada nos desenhos bidimensionais, caso o utilizador assim o pretenda. Ao longo desse trabalho foram detetados e analisados os condicionalismos inerentes ao processo de extração, referidos no capítulo 6, para estabelecimento de regras de modelação padrão a adotar em futuras empreitadas, que possam simplificar a obtenção dos elementos desenhados de preparação necessários à sua execução. No ponto 6.3 são identificadas melhorias a introduzir no modelo. Em conclusão no capítulo 7 são abordadas especificidades do setor da construção que sustentam e evidenciam cada vez mais a necessidade de utilizar as novas tecnologias com vista à adoção de práticas e ferramentas padrão de apoio à execução de obras. Sendo a tecnologia BIM, transversal a todo o setor, a sua utilização com regras padrão na conceção dos modelos e na extração de dados, potencia a otimização dos custos, do tempo, dos recursos e da qualidade final de um empreendimento, ao longo de todo o seu ciclo de vida, para além de apoiar com elevada fiabilidade as tomadas de decisão ao longo desse período. A tecnologia BIM, possibilita a antevisão do edifício a construir com um elevado grau de pormenor, com todas as vantagens que daí advêm.
Resumo:
With the electricity market liberalization, distribution and retail companies are looking for better market strategies based on adequate information upon the consumption patterns of its electricity customers. In this environment all consumers are free to choose their electricity supplier. A fair insight on the customer´s behaviour will permit the definition of specific contract aspects based on the different consumption patterns. In this paper Data Mining (DM) techniques are applied to electricity consumption data from a utility client’s database. To form the different customer´s classes, and find a set of representative consumption patterns, we have used the Two-Step algorithm which is a hierarchical clustering algorithm. Each consumer class will be represented by its load profile resulting from the clustering operation. Next, to characterize each consumer class a classification model will be constructed with the C5.0 classification algorithm.
Resumo:
Adhesive bonding is nowadays a serious candidate to replace methods such as fastening or riveting, because of attractive mechanical properties. As a result, adhesives are being increasingly used in industries such as the automotive, aerospace and construction. Thus, it is highly important to predict the strength of bonded joints to assess the feasibility of joining during the fabrication process of components (e.g. due to complex geometries) or for repairing purposes. This work studies the tensile behaviour of adhesive joints between aluminium adherends considering different values of adherend thickness (h) and the double-cantilever beam (DCB) test. The experimental work consists of the definition of the tensile fracture toughness (GIC) for the different joint configurations. A conventional fracture characterization method was used, together with a J-integral approach, that take into account the plasticity effects occurring in the adhesive layer. An optical measurement method is used for the evaluation of crack tip opening and adherends rotation at the crack tip during the test, supported by a Matlab® sub-routine for the automated extraction of these quantities. As output of this work, a comparative evaluation between bonded systems with different values of adherend thickness is carried out and complete fracture data is provided in tension for the subsequent strength prediction of joints with identical conditions.
Resumo:
More than ever, there is an increase of the number of decision support methods and computer aided diagnostic systems applied to various areas of medicine. In breast cancer research, many works have been done in order to reduce false-positives when used as a double reading method. In this study, we aimed to present a set of data mining techniques that were applied to approach a decision support system in the area of breast cancer diagnosis. This method is geared to assist clinical practice in identifying mammographic findings such as microcalcifications, masses and even normal tissues, in order to avoid misdiagnosis. In this work a reliable database was used, with 410 images from about 115 patients, containing previous reviews performed by radiologists as microcalcifications, masses and also normal tissue findings. Throughout this work, two feature extraction techniques were used: the gray level co-occurrence matrix and the gray level run length matrix. For classification purposes, we considered various scenarios according to different distinct patterns of injuries and several classifiers in order to distinguish the best performance in each case described. The many classifiers used were Naïve Bayes, Support Vector Machines, k-nearest Neighbors and Decision Trees (J48 and Random Forests). The results in distinguishing mammographic findings revealed great percentages of PPV and very good accuracy values. Furthermore, it also presented other related results of classification of breast density and BI-RADS® scale. The best predictive method found for all tested groups was the Random Forest classifier, and the best performance has been achieved through the distinction of microcalcifications. The conclusions based on the several tested scenarios represent a new perspective in breast cancer diagnosis using data mining techniques.
Resumo:
XXXIII Simpósio Brasileiro de Redes de Computadores e Sistemas Distribuídos (SBRC 2015). 15 to 19, May, 2015, III Workshop de Comunicação em Sistemas Embarcados Críticos. Vitória, Brasil.
Resumo:
The vision of the Internet of Things (IoT) includes large and dense deployment of interconnected smart sensing and monitoring devices. This vast deployment necessitates collection and processing of large volume of measurement data. However, collecting all the measured data from individual devices on such a scale may be impractical and time consuming. Moreover, processing these measurements requires complex algorithms to extract useful information. Thus, it becomes imperative to devise distributed information processing mechanisms that identify application-specific features in a timely manner and with a low overhead. In this article, we present a feature extraction mechanism for dense networks that takes advantage of dominance-based medium access control (MAC) protocols to (i) efficiently obtain global extrema of the sensed quantities, (ii) extract local extrema, and (iii) detect the boundaries of events, by using simple transforms that nodes employ on their local data. We extend our results for a large dense network with multiple broadcast domains (MBD). We discuss and compare two approaches for addressing the challenges with MBD and we show through extensive evaluations that our proposed distributed MBD approach is fast and efficient at retrieving the most valuable measurements, independent of the number sensor nodes in the network.
Resumo:
O sector do turismo é uma área francamente em crescimento em Portugal e que tem desenvolvido a sua divulgação e estratégia de marketing. Contudo, apenas se prende com indicadores de desempenho e de oferta instalada (número de quartos, hotéis, voos, estadias), deixando os indicadores estatísticos em segundo plano. De acordo com o “ Travel & tourism Competitiveness Report 2013”, do World Economic Forum, classifica Portugal em 72º lugar no que respeita à qualidade e cobertura da informação estatística, disponível para o sector do Turismo. Refira-se que Espanha ocupa o 3º lugar. Uma estratégia de mercado, sem base analítica, que sustente um quadro de orientações específico e objetivo, com relevante conhecimento dos mercados alvo, dificilmente é compreensível ou até mesmo materializável. A implementação de uma estrutura de Business Intelligence que permita a realização de um levantamento e tratamento de dados que possibilite relacionar e sustentar os resultados obtidos no sector do turismo revela-se fundamental e crucial, para que sejam criadas estratégias de mercado. Essas estratégias são realizadas a partir da informação dos turistas que nos visitam, e dos potenciais turistas, para que possam ser cativados no futuro. A análise das características e dos padrões comportamentais dos turistas permite definir perfis distintos e assim detetar as tendências de mercado, de forma a promover a oferta dos produtos e serviços mais adequados. O conhecimento obtido permite, por um lado criar e disponibilizar os produtos mais atrativos para oferecer aos turistas e por outro informá-los, de uma forma direcionada, da existência desses produtos. Assim, a associação de uma recomendação personalizada que, com base no conhecimento de perfis do turista proceda ao aconselhamento dos melhores produtos, revela-se como uma ferramenta essencial na captação e expansão de mercado.