31 resultados para mIneração de dados
em Instituto Politécnico do Porto, Portugal
Resumo:
A descoberta de conhecimento em dados hoje em dia é um ponto forte para as empresas. Atualmente a CardMobili não dispõe de qualquer sistema de mineração de dados, sendo a existência deste uma mais-valia para as suas operações de marketing diárias, nomeadamente no lançamento de cupões a um grupo restrito de clientes com uma elevada probabilidade que os mesmos os utilizem. Para isso foi analisada a base de dados da aplicação tentando extrair o maior número de dados e aplicadas as transformações necessárias para posteriormente serem processados pelos algoritmos de mineração de dados. Durante a etapa de mineração de dados foram aplicadas as técnicas de associação e classificação, sendo que os melhores resultados foram obtidos com técnicas de associação. Desta maneira pretende-se que os resultados obtidos auxiliem o decisor na sua tomada de decisões.
Resumo:
A procura de padrões nos dados de modo a formar grupos é conhecida como aglomeração de dados ou clustering, sendo uma das tarefas mais realizadas em mineração de dados e reconhecimento de padrões. Nesta dissertação é abordado o conceito de entropia e são usados algoritmos com critérios entrópicos para fazer clustering em dados biomédicos. O uso da entropia para efetuar clustering é relativamente recente e surge numa tentativa da utilização da capacidade que a entropia possui de extrair da distribuição dos dados informação de ordem superior, para usá-la como o critério na formação de grupos (clusters) ou então para complementar/melhorar algoritmos existentes, numa busca de obtenção de melhores resultados. Alguns trabalhos envolvendo o uso de algoritmos baseados em critérios entrópicos demonstraram resultados positivos na análise de dados reais. Neste trabalho, exploraram-se alguns algoritmos baseados em critérios entrópicos e a sua aplicabilidade a dados biomédicos, numa tentativa de avaliar a adequação destes algoritmos a este tipo de dados. Os resultados dos algoritmos testados são comparados com os obtidos por outros algoritmos mais “convencionais" como o k-médias, os algoritmos de spectral clustering e um algoritmo baseado em densidade.
Resumo:
Perante a evolução constante da Internet, a sua utilização é quase obrigatória. Através da web, é possível conferir extractos bancários, fazer compras em países longínquos, pagar serviços sem sair de casa, entre muitos outros. Há inúmeras alternativas de utilização desta rede. Ao se tornar tão útil e próxima das pessoas, estas começaram também a ganhar mais conhecimentos informáticos. Na Internet, estão também publicados vários guias para intrusão ilícita em sistemas, assim como manuais para outras práticas criminosas. Este tipo de informação, aliado à crescente capacidade informática do utilizador, teve como resultado uma alteração nos paradigmas de segurança informática actual. Actualmente, em segurança informática a preocupação com o hardware é menor, sendo o principal objectivo a salvaguarda dos dados e continuidade dos serviços. Isto deve-se fundamentalmente à dependência das organizações nos seus dados digitais e, cada vez mais, dos serviços que disponibilizam online. Dada a mudança dos perigos e do que se pretende proteger, também os mecanismos de segurança devem ser alterados. Torna-se necessário conhecer o atacante, podendo prever o que o motiva e o que pretende atacar. Neste contexto, propôs-se a implementação de sistemas de registo de tentativas de acesso ilícitas em cinco instituições de ensino superior e posterior análise da informação recolhida com auxílio de técnicas de data mining (mineração de dados). Esta solução é pouco utilizada com este intuito em investigação, pelo que foi necessário procurar analogias com outras áreas de aplicação para recolher documentação relevante para a sua implementação. A solução resultante revelou-se eficaz, tendo levado ao desenvolvimento de uma aplicação de fusão de logs das aplicações Honeyd e Snort (responsável também pelo seu tratamento, preparação e disponibilização num ficheiro Comma Separated Values (CSV), acrescentando conhecimento sobre o que se pode obter estatisticamente e revelando características úteis e previamente desconhecidas dos atacantes. Este conhecimento pode ser utilizado por um administrador de sistemas para melhorar o desempenho dos seus mecanismos de segurança, tais como firewalls e Intrusion Detection Systems (IDS).
Resumo:
Harnessing idle PCs CPU cycles, storage space and other resources of networked computers to collaborative are mainly fixated on for all major grid computing research projects. Most of the university computers labs are occupied with the high puissant desktop PC nowadays. It is plausible to notice that most of the time machines are lying idle or wasting their computing power without utilizing in felicitous ways. However, for intricate quandaries and for analyzing astronomically immense amounts of data, sizably voluminous computational resources are required. For such quandaries, one may run the analysis algorithms in very puissant and expensive computers, which reduces the number of users that can afford such data analysis tasks. Instead of utilizing single expensive machines, distributed computing systems, offers the possibility of utilizing a set of much less expensive machines to do the same task. BOINC and Condor projects have been prosperously utilized for solving authentic scientific research works around the world at a low cost. In this work the main goal is to explore both distributed computing to implement, Condor and BOINC, and utilize their potency to harness the ideal PCs resources for the academic researchers to utilize in their research work. In this thesis, Data mining tasks have been performed in implementation of several machine learning algorithms on the distributed computing environment.
Resumo:
A tese desenvolvida tem como foco fornecer os meios necessários para extrair conhecimento contidos no histórico académico da instituição transformando a informação em algo simples e de fácil leitura para qualquer utilizador. Com o progresso da sociedade, as escolas recebem milhares de alunos todos os anos que terão de ser orientados e monitorizados pelos dirigentes das instituições académicas de forma a garantir programas eficientes e adequados para o progresso educacional de todos os alunos. Atribuir a um docente a responsabilidade de actuar segundo o historial académico dos seus alunos não é plausível uma vez que um aluno consegue produzir milhares de registos para análise. O paradigma de mineração de dados na educação surge com a necessidade de otimizar os recursos disponíveis expondo conclusões que não se encontram visiveis sem uma análise acentuada e cuidada. Este paradigma expõe de forma clara e sucinta os dados estatísticos analisados por computador oferecendo a possibilidade de melhorar as lacunas na qualidade de ensino das instituições. Esta dissertação detalha o desenvolvimento de uma ferramente de inteligência de negócio capaz de, através de mineração de dados, analisar e apresentar conclusões pertinentes de forma legível ao utilizador.
Resumo:
A classificação automática de sons urbanos é importante para o monitoramento ambiental. Este trabalho apresenta uma nova metodologia para classificar sons urbanos, que se baseia na descoberta de padrões frequentes (motifs) nos sinais sonoros e utiliza-los como atributos para a classificação. Para extrair os motifs é utilizado um método de descoberta multi-resolução baseada em SAX. Para a classificação são usadas árvores de decisão e SVMs. Esta nova metodologia é comparada com outra bastante utilizada baseada em MFCC. Para a realização de experiências foi utilizado o dataset UrbanSound disponível publicamente. Realizadas as experiências, foi possível concluir que os atributos motif são melhores que os MFCC a discriminar sons com timbres semelhantes e que os melhores resultados são conseguidos com ambos os tipos de atributos combinados. Neste trabalho foi também desenvolvida uma aplicação móvel para Android que permite utilizar os métodos de classificação desenvolvidos num contexto de vida real e expandir o dataset.
Resumo:
Atualmente, são geradas enormes quantidades de dados que, na maior parte das vezes, não são devidamente analisados. Como tal, existe um fosso cada vez mais significativo entre os dados existentes e a quantidade de dados que é realmente analisada. Esta situação verifica-se com grande frequência na área da saúde. De forma a combater este problema foram criadas técnicas que permitem efetuar uma análise de grandes massas de dados, retirando padrões e conhecimento intrínseco dos dados. A área da saúde é um exemplo de uma área que cria enormes quantidades de dados diariamente, mas que na maior parte das vezes não é retirado conhecimento proveitoso dos mesmos. Este novo conhecimento poderia ajudar os profissionais de saúde a obter resposta para vários problemas. Esta dissertação pretende apresentar todo o processo de descoberta de conhecimento: análise dos dados, preparação dos dados, escolha dos atributos e dos algoritmos, aplicação de técnicas de mineração de dados (classificação, segmentação e regras de associação), escolha dos algoritmos (C5.0, CHAID, Kohonen, TwoSteps, K-means, Apriori) e avaliação dos modelos criados. O projeto baseia-se na metodologia CRISP-DM e foi desenvolvido com a ferramenta Clementine 12.0. O principal intuito deste projeto é retirar padrões e perfis de dadores que possam vir a contrair determinadas doenças (anemia, doenças renais, hepatite, entre outras) ou quais as doenças ou valores anormais de componentes sanguíneos que podem ser comuns entre os dadores.
Resumo:
A tese desenvolvida tem como foco fornecer os meios necessários para extrair conhecimento contidos no histórico académico da instituição transformando a informação em algo simples e de fácil leitura para qualquer utilizador. Com o progresso da sociedade, as escolas recebem milhares de alunos todos os anos que terão de ser orientados e monitorizados pelos dirigentes das instituições académicas de forma a garantir programas eficientes e adequados para o progresso educacional de todos os alunos. Atribuir a um docente a responsabilidade de actuar segundo o historial académico dos seus alunos não é plausível uma vez que um aluno consegue produzir milhares de registos para análise. O paradigma de mineração de dados na educação surge com a necessidade de otimizar os recursos disponíveis expondo conclusões que não se encontram visiveis sem uma análise acentuada e cuidada. Este paradigma expõe de forma clara e sucinta os dados estatísticos analisados por computador oferecendo a possibilidade de melhorar as lacunas na qualidade de ensino das instituições. Esta dissertação detalha o desenvolvimento de uma ferramente de inteligência de negócio capaz de, através de mineração de dados, analisar e apresentar conclusões pertinentes de forma legível ao utilizador.
Resumo:
Na presente dissertação pretendemos averiguar da pertinência prática do actual modelo de protecção de dados clínicos, ou seja, se nele está devidamente consagrada a autonomia e a individualidade do utente; pretendemos ainda perceber a tendência evolutiva do sistema português de protecção de dados clínicos, nomeadamente a sua capacidade de inovação e adaptação aos sistemas internacionais, respeitando o nosso ordenamento jurídico. Concretamente, pretendemos perceber de que forma esta informação estará protegida, bem como até onde os utentes estarão consciencializados dos perigos que enfrentam. Embora este seja um problema mundial, o facto é que a Gestão do Sistema de Protecção de Dados Pessoais e Clínicos suscita polémica e interpretações diferentes, dada a sensibilidade ética do tema, a integridade humana. Além deste facto, estamos perante uma problemática que irá sempre envolver vários interesses e consequentemente um confronto de posições. Este trabalho procura ilustrar de que forma se lida com a gestão de dados pessoais no nosso país, de que modo se harmonizam os diferentes interesses e perspectivas, que prioridades se encontram na orientação governamental nesta matéria, quais as penalizações para os eventuais incumpridores e qual o futuro possível dos dados pessoais em saúde, tendo como objectivo comum uma eficácia e sustentabilidade dos mecanismos utilizados. Vamos encontrar interesses divergentes, compromissos permissivos ou restritivos de tratamento de dados, tendências que suportam interesses privados e públicos que se vão concretizar em escolhas eficientes de gestão de dados. Esta diversidade de comportamentos vai ser objecto de estudo e análise neste trabalho, procurando aferir das vantagens e desvantagens de um sistema de informação em saúde: universal com a população coberta, e integrado a fim de compartilhar informações de todos os pacientes, de todas as unidades de prestação de cuidados de saúde.
Resumo:
Neste artigo apresenta-se a ferramenta SmartClean, destinada à detecção e correcção de problemas de qualidade dos dados. Comparativamente às ferramentas actualmente existentes, o SmartClean possui a mais-valia de não obrigar a que a sequência de execução das operações seja especificada pelo utilizador. Para tal, foi concebida uma sequência segundo a qual os problemas são manipulados (i.e., detectados e corrigidos). A existência da sequência suporta ainda a execução incremental das operações. No artigo, a arquitectura subjacente à ferramenta é exposta, sendo detalhados os seus componentes. A validade da ferramenta e, consequentemente, da arquitectura é comprovada através da apresentação do caso de estudo efectuado. Apesar do SmartClean possuir potencialidades de limpeza de dados noutros níveis (e.g., relação), no artigo apenas são descritas as relativas ao nível do valor individual do atributo.
Resumo:
O surgimento de novos modelos de negócio, nomeadamente o estabelecimento de parcerias entre organizações, a possibilidade de as empresas poderem adicionar informação existente na web, em especial na web semânjtica, à informação de que dispõem, levou ao acentuar de alguns problemas já existentes nas bases de dados, nomeadamente no que respeita a problemas de qualidade de dados. Dados de má qualidade podem levar à perda de competitividade das organizações que os detêm, podendo inclusive levar ao seu desaparecimento, uma vez que muitas das suas tomadas de decisão são baseadas nestes dados. Por este motivo torna-se relevante a limpeza de dados que é um processo automático de detecção e eventual correção dos problemas de qualidade de dados, tais como registos duplicados, dados incompletos, e/ou inconsistentes. As abordagens atualmente existentes para solucionar estes problemas, encontram-se muito ligadas ao esquema das bases de dados e a domínios específicos. Para que as operações de limpeza de dados possam ser utilizadas em diferentes repositórios, torna-se necessário o entendimento, por parte dos sistemas computacionais, desses mesmos dados, ou seja, é necessária uma semântica associada. A solução apresentada passa pelo uso de ontologias, como forma de representação das operações de limpeza, para solucionar os problemas de heterogeneidade semântica, quer ao nível dos dados existentes nos diversos repositórios, quer ao nível da especificação das operações de limpeza. Estando as operações de limpeza definidas ao nível conceptual e existindo mapeamentos entre as ontologias de domínio e a ontologia associada a uma qualquer base de dados, aquelas poderão ser instanciadas e propostas ao utilizador para serem executadas sobre essa base de dados, permitindo assim a sua interoperabilidade.
Resumo:
Nos dias de hoje, com a informatização dos sistemas de informação, as organizações, a nível mundial, são capazes de armazenar todo o tipo de informação por elas gerada. Esta informação é cada vez mais complexa, podendo conter dados de produção, de consumo, de facturação, etc. Sem desprezar o resto da informação produzida, pode dizer-se que os dados administrativos assumem uma relevância especial na gestão dessas organizações. É sobre estes dados que as organizações baseiam todas as tomadas de decisão que definem o seu futuro num ambiente competitivo. Associados a toda a complexidade da informação gerada, estão os problemas de qualidade de dados, muitas vezes desprezados, mas que podem influenciar negativamente as medidas adoptadas e os objectivos traçados. Este capítulo procura, acima de tudo, chamar a atenção para este tipo de problemas, referenciando algumas das suas implicações no âmbito hospitalar. Como resultado, este capítulo apresenta uma sistematização dos vários erros possíveis de constar neste tipo de bases de dados administrativas, contribuindo com alguns exemplos encontrados durante um estudo de qualidade de dados.
Resumo:
Mestrado em Engenharia Informática
Resumo:
Mestrado em Engenharia Electrotécnica e de Computadores
Resumo:
O presente trabalho apresenta os resultados dos estudos geotécnicos e de uma base de dados da zona ribeirinha de Vila Nova de Gaia, com o objectivo de compreender melhor os aspectos geotécnicos em ambiente urbano numa área sensível com um registo histórico de instabilidade de taludes rochosos. Além disso, os escassos estudos científicos recentes de natureza geológica e geotécnica em Vila Nova de Gaia justificam o estudo exploratório da geotecnia urbana da zona ribeirinha de Vila Nova de Gaia. A importância de Vila Nova de Gaia como a terceira maior cidade portuguesa e como centro de intensa actividade económica e cultural despoleta uma constante necessidade de expansão. O aumento da densidade populacional acarreta a realização de projectos complexos de engenharia, utilizando o subsolo para a construção e, com frequência, em terrenos com características geotécnicas desfavoráveis. As cidades de Vila Nova de Gaia e do Porto foram sendo edificadas ao longo de encostas numa plataforma litoral caracterizada por uma vasta área aplanada, inclinando ligeiramente para Oeste. Esta plataforma foi cortada pelo Rio Douro num vale encaixado de vertentes abruptas, nas quais se localizam as zonas ribeirinhas das duas cidades. Este trabalho envolveu, inicialmente, uma caracterização topográfica, morfoestrutural, geotectónica e geomecânica da área de estudo e, numa fase posterior, o desenvolvimento duma base de dados geotécnica. Todos os dados geológicos e geotécnicos locais e os estudos geotécnicos levados a cabo in situ pelas diversas empresas e instituições foram representados cartograficamente numa base apoiada pelos Sistemas de Informação Geográfica (SIG). Esta metodologia inter‐disciplinar foi de grande valor para um melhor conhecimento dos riscos geológico‐geotécnicos ao longo das margens do Rio Douro. De facto, a cartografia geotécnica da zona ribeirinha de Vila Nova de Gaia deve constituir uma ferramenta importante para uma previsão mais rigorosa de futuras instabilidades de taludes e um bom instrumento para a gestão do espaço urbano.