28 resultados para Limpeza de dados

em Instituto Politécnico do Porto, Portugal


Relevância:

100.00% 100.00%

Publicador:

Resumo:

O surgimento de novos modelos de negócio, nomeadamente o estabelecimento de parcerias entre organizações, a possibilidade de as empresas poderem adicionar informação existente na web, em especial na web semânjtica, à informação de que dispõem, levou ao acentuar de alguns problemas já existentes nas bases de dados, nomeadamente no que respeita a problemas de qualidade de dados. Dados de má qualidade podem levar à perda de competitividade das organizações que os detêm, podendo inclusive levar ao seu desaparecimento, uma vez que muitas das suas tomadas de decisão são baseadas nestes dados. Por este motivo torna-se relevante a limpeza de dados que é um processo automático de detecção e eventual correção dos problemas de qualidade de dados, tais como registos duplicados, dados incompletos, e/ou inconsistentes. As abordagens atualmente existentes para solucionar estes problemas, encontram-se muito ligadas ao esquema das bases de dados e a domínios específicos. Para que as operações de limpeza de dados possam ser utilizadas em diferentes repositórios, torna-se necessário o entendimento, por parte dos sistemas computacionais, desses mesmos dados, ou seja, é necessária uma semântica associada. A solução apresentada passa pelo uso de ontologias, como forma de representação das operações de limpeza, para solucionar os problemas de heterogeneidade semântica, quer ao nível dos dados existentes nos diversos repositórios, quer ao nível da especificação das operações de limpeza. Estando as operações de limpeza definidas ao nível conceptual e existindo mapeamentos entre as ontologias de domínio e a ontologia associada a uma qualquer base de dados, aquelas poderão ser instanciadas e propostas ao utilizador para serem executadas sobre essa base de dados, permitindo assim a sua interoperabilidade.

Relevância:

80.00% 80.00%

Publicador:

Resumo:

Neste artigo apresenta-se a ferramenta SmartClean, destinada à detecção e correcção de problemas de qualidade dos dados. Comparativamente às ferramentas actualmente existentes, o SmartClean possui a mais-valia de não obrigar a que a sequência de execução das operações seja especificada pelo utilizador. Para tal, foi concebida uma sequência segundo a qual os problemas são manipulados (i.e., detectados e corrigidos). A existência da sequência suporta ainda a execução incremental das operações. No artigo, a arquitectura subjacente à ferramenta é exposta, sendo detalhados os seus componentes. A validade da ferramenta e, consequentemente, da arquitectura é comprovada através da apresentação do caso de estudo efectuado. Apesar do SmartClean possuir potencialidades de limpeza de dados noutros níveis (e.g., relação), no artigo apenas são descritas as relativas ao nível do valor individual do atributo.

Relevância:

70.00% 70.00%

Publicador:

Resumo:

Nos dias de hoje, com a informatização dos sistemas de informação, as organizações, a nível mundial, são capazes de armazenar todo o tipo de informação por elas gerada. Esta informação é cada vez mais complexa, podendo conter dados de produção, de consumo, de facturação, etc. Sem desprezar o resto da informação produzida, pode dizer-se que os dados administrativos assumem uma relevância especial na gestão dessas organizações. É sobre estes dados que as organizações baseiam todas as tomadas de decisão que definem o seu futuro num ambiente competitivo. Associados a toda a complexidade da informação gerada, estão os problemas de qualidade de dados, muitas vezes desprezados, mas que podem influenciar negativamente as medidas adoptadas e os objectivos traçados. Este capítulo procura, acima de tudo, chamar a atenção para este tipo de problemas, referenciando algumas das suas implicações no âmbito hospitalar. Como resultado, este capítulo apresenta uma sistematização dos vários erros possíveis de constar neste tipo de bases de dados administrativas, contribuindo com alguns exemplos encontrados durante um estudo de qualidade de dados.

Relevância:

60.00% 60.00%

Publicador:

Resumo:

This paper presents the SmartClean tool. The purpose of this tool is to detect and correct the data quality problems (DQPs). Compared with existing tools, SmartClean has the following main advantage: the user does not need to specify the execution sequence of the data cleaning operations. For that, an execution sequence was developed. The problems are manipulated (i.e., detected and corrected) following that sequence. The sequence also supports the incremental execution of the operations. In this paper, the underlying architecture of the tool is presented and its components are described in detail. The tool's validity and, consequently, of the architecture is demonstrated through the presentation of a case study. Although SmartClean has cleaning capabilities in all other levels, in this paper are only described those related with the attribute value level.

Relevância:

20.00% 20.00%

Publicador:

Resumo:

Nos últimos anos verificou-se uma alteração das condições e modo de funcionamento de empresas e instituições, privadas e públicas, muitas delas através da introdução de novas ferramentas de gestão. De entre elas, podemos destacar o outsourcing, que apesar de não ser um fenómeno actual, é ainda em Portugal uma ferramenta recente e pouco explorada, que pode contribuir de forma decisiva para a modernização, flexibilidade e competitividade das empresas. O presente estudo pretende abordar a contratação de serviços externos nos serviços de saúde públicos, também conhecido como outsourcing, mediante uma análise prática da realidade de uma instituição hospitalar com sete serviços em regime de outsourcing, com recolha dos dados durante o triénio 2008-2010. No Serviço de Urgência durante 2010 o principal prestador recebeu mais 104,28% acima do valor referência/hora, no Serviço de Oftalmologia no ano de 2010 o prestador recebeu um valor superior em 24,91%, no Serviço de Limpeza, Higiene e Conforto é pago ao prestador durante o ano de 2010 um valor superior em 13,85%, no Serviço de Vigilância e Segurança o prestador recebeu durante o ano de 2010 um valor superior em 27,5%, caso a instituição hospitalar optasse por contratar, para os serviços atrás referidos, profissionais para o quadro de pessoal. Ainda em relação ao Serviço de Urgência foi pago mais 21,38% acima do valor de referência publicado por Despacho governamental. Em relação aos Serviços de Lavandaria e de Tratamento de Resíduos Sólidos, não foi possível recolher os dados necessários que pudessem levar a uma conclusão válida sobre os custos pagos pela instituição hospitalar. Pode-se concluir que a contratação de prestadores externos, para os serviços de saúde, essenciais e não essenciais, em regime de outsourcing, revela-se na maioria dos casos analisados a opção menos económica, com custos bastantes elevados.

Relevância:

20.00% 20.00%

Publicador:

Resumo:

Na presente dissertação pretendemos averiguar da pertinência prática do actual modelo de protecção de dados clínicos, ou seja, se nele está devidamente consagrada a autonomia e a individualidade do utente; pretendemos ainda perceber a tendência evolutiva do sistema português de protecção de dados clínicos, nomeadamente a sua capacidade de inovação e adaptação aos sistemas internacionais, respeitando o nosso ordenamento jurídico. Concretamente, pretendemos perceber de que forma esta informação estará protegida, bem como até onde os utentes estarão consciencializados dos perigos que enfrentam. Embora este seja um problema mundial, o facto é que a Gestão do Sistema de Protecção de Dados Pessoais e Clínicos suscita polémica e interpretações diferentes, dada a sensibilidade ética do tema, a integridade humana. Além deste facto, estamos perante uma problemática que irá sempre envolver vários interesses e consequentemente um confronto de posições. Este trabalho procura ilustrar de que forma se lida com a gestão de dados pessoais no nosso país, de que modo se harmonizam os diferentes interesses e perspectivas, que prioridades se encontram na orientação governamental nesta matéria, quais as penalizações para os eventuais incumpridores e qual o futuro possível dos dados pessoais em saúde, tendo como objectivo comum uma eficácia e sustentabilidade dos mecanismos utilizados. Vamos encontrar interesses divergentes, compromissos permissivos ou restritivos de tratamento de dados, tendências que suportam interesses privados e públicos que se vão concretizar em escolhas eficientes de gestão de dados. Esta diversidade de comportamentos vai ser objecto de estudo e análise neste trabalho, procurando aferir das vantagens e desvantagens de um sistema de informação em saúde: universal com a população coberta, e integrado a fim de compartilhar informações de todos os pacientes, de todas as unidades de prestação de cuidados de saúde.

Relevância:

20.00% 20.00%

Publicador:

Resumo:

Mestrado em Engenharia Informática

Relevância:

20.00% 20.00%

Publicador:

Resumo:

Mestrado em Engenharia Electrotécnica e de Computadores

Relevância:

20.00% 20.00%

Publicador:

Resumo:

O presente trabalho apresenta os resultados dos estudos geotécnicos e de uma base de dados da zona ribeirinha de Vila Nova de Gaia, com o objectivo de compreender melhor os aspectos geotécnicos em ambiente urbano numa área sensível com um registo histórico de instabilidade de taludes rochosos. Além disso, os escassos estudos científicos recentes de natureza geológica e geotécnica em Vila Nova de Gaia justificam o estudo exploratório da geotecnia urbana da zona ribeirinha de Vila Nova de Gaia. A importância de Vila Nova de Gaia como a terceira maior cidade portuguesa e como centro de intensa actividade económica e cultural despoleta uma constante necessidade de expansão. O aumento da densidade populacional acarreta a realização de projectos complexos de engenharia, utilizando o subsolo para a construção e, com frequência, em terrenos com características geotécnicas desfavoráveis. As cidades de Vila Nova de Gaia e do Porto foram sendo edificadas ao longo de encostas numa plataforma litoral caracterizada por uma vasta área aplanada, inclinando ligeiramente para Oeste. Esta plataforma foi cortada pelo Rio Douro num vale encaixado de vertentes abruptas, nas quais se localizam as zonas ribeirinhas das duas cidades. Este trabalho envolveu, inicialmente, uma caracterização topográfica, morfoestrutural, geotectónica e geomecânica da área de estudo e, numa fase posterior, o desenvolvimento duma base de dados geotécnica. Todos os dados geológicos e geotécnicos locais e os estudos geotécnicos levados a cabo in situ pelas diversas empresas e instituições foram representados cartograficamente numa base apoiada pelos Sistemas de Informação Geográfica (SIG). Esta metodologia inter‐disciplinar foi de grande valor para um melhor conhecimento dos riscos geológico‐geotécnicos ao longo das margens do Rio Douro. De facto, a cartografia geotécnica da zona ribeirinha de Vila Nova de Gaia deve constituir uma ferramenta importante para uma previsão mais rigorosa de futuras instabilidades de taludes e um bom instrumento para a gestão do espaço urbano.

Relevância:

20.00% 20.00%

Publicador:

Resumo:

Neste trabalho propus-me realizar um Sistema de Aquisição de Dados em Tempo Real via Porta Paralela. Para atingir com sucesso este objectivo, foi realizado um levantamento bibliográfico sobre sistemas operativos de tempo real, salientando e exemplificando quais foram marcos mais importantes ao longo da sua evolução. Este levantamento permitiu perceber o porquê da proliferação destes sistemas face aos custos que envolvem, em função da sua aplicação, bem como as dificuldades, científicas e tecnológicas, que os investigadores foram tendo, e que foram ultrapassando com sucesso. Para que Linux se comporte como um sistema de tempo real, é necessário configura-lo e adicionar um patch, como por exemplo o RTAI ou ADEOS. Como existem vários tipos de soluções que permitem aplicar as características inerentes aos sistemas de tempo real ao Linux, foi realizado um estudo, acompanhado de exemplos, sobre o tipo de arquitecturas de kernel mais utilizadas para o fazer. Nos sistemas operativos de tempo real existem determinados serviços, funcionalidades e restrições que os distinguem dos sistemas operativos de uso comum. Tendo em conta o objectivo do trabalho, e apoiado em exemplos, fizemos um pequeno estudo onde descrevemos, entre outros, o funcionamento escalonador, e os conceitos de latência e tempo de resposta. Mostramos que há apenas dois tipos de sistemas de tempo real o ‘hard’ que tem restrições temporais rígidas e o ‘soft’ que engloba as restrições temporais firmes e suaves. As tarefas foram classificadas em função dos tipos de eventos que as despoletam, e evidenciando as suas principais características. O sistema de tempo real eleito para criar o sistema de aquisição de dados via porta paralela foi o RTAI/Linux. Para melhor percebermos o seu comportamento, estudamos os serviços e funções do RTAI. Foi dada especial atenção, aos serviços de comunicação entre tarefas e processos (memória partilhada e FIFOs), aos serviços de escalonamento (tipos de escalonadores e tarefas) e atendimento de interrupções (serviço de rotina de interrupção - ISR). O estudo destes serviços levou às opções tomadas quanto ao método de comunicação entre tarefas e serviços, bem como ao tipo de tarefa a utilizar (esporádica ou periódica). Como neste trabalho, o meio físico de comunicação entre o meio ambiente externo e o hardware utilizado é a porta paralela, também tivemos necessidade de perceber como funciona este interface. Nomeadamente os registos de configuração da porta paralela. Assim, foi possível configura-lo ao nível de hardware (BIOS) e software (módulo do kernel) atendendo aos objectivos do presente trabalho, e optimizando a utilização da porta paralela, nomeadamente, aumentando o número de bits disponíveis para a leitura de dados. No desenvolvimento da tarefa de hard real-time, foram tidas em atenção as várias considerações atrás referenciadas. Foi desenvolvida uma tarefa do tipo esporádica, pois era pretendido, ler dados pela porta paralela apenas quando houvesse necessidade (interrupção), ou seja, quando houvesse dados disponíveis para ler. Desenvolvemos também uma aplicação para permitir visualizar os dados recolhidos via porta paralela. A comunicação entre a tarefa e a aplicação é assegurada através de memória partilhada, pois garantindo a consistência de dados, a comunicação entre processos do Linux e as tarefas de tempo real (RTAI) que correm ao nível do kernel torna-se muito simples. Para puder avaliar o desempenho do sistema desenvolvido, foi criada uma tarefa de soft real-time cujos tempos de resposta foram comparados com os da tarefa de hard real-time. As respostas temporais obtidas através do analisador lógico em conjunto com gráficos elaborados a partir destes dados, mostram e comprovam, os benefícios do sistema de aquisição de dados em tempo real via porta paralela, usando uma tarefa de hard real-time.

Relevância:

20.00% 20.00%

Publicador:

Resumo:

Introdução Actualmente, as mensagens electrónicas são consideradas um importante meio de comunicação. As mensagens electrónicas – vulgarmente conhecidas como emails – são utilizadas fácil e frequentemente para enviar e receber o mais variado tipo de informação. O seu uso tem diversos fins gerando diariamente um grande número de mensagens e, consequentemente um enorme volume de informação. Este grande volume de informação requer uma constante manipulação das mensagens de forma a manter o conjunto organizado. Tipicamente esta manipulação consiste em organizar as mensagens numa taxonomia. A taxonomia adoptada reflecte os interesses e as preferências particulares do utilizador. Motivação A organização manual de emails é uma actividade morosa e que consome tempo. A optimização deste processo através da implementação de um método automático, tende a melhorar a satisfação do utilizador. Cada vez mais existe a necessidade de encontrar novas soluções para a manipulação de conteúdo digital poupando esforços e custos ao utilizador; esta necessidade, concretamente no âmbito da manipulação de emails, motivou a realização deste trabalho. Hipótese O objectivo principal deste projecto consiste em permitir a organização ad-hoc de emails com um esforço reduzido por parte do utilizador. A metodologia proposta visa organizar os emails num conjunto de categorias, disjuntas, que reflectem as preferências do utilizador. A principal finalidade deste processo é produzir uma organização onde as mensagens sejam classificadas em classes apropriadas requerendo o mínimo número esforço possível por parte do utilizador. Para alcançar os objectivos estipulados, este projecto recorre a técnicas de mineração de texto, em especial categorização automática de texto, e aprendizagem activa. Para reduzir a necessidade de inquirir o utilizador – para etiquetar exemplos de acordo com as categorias desejadas – foi utilizado o algoritmo d-confidence. Processo de organização automática de emails O processo de organizar automaticamente emails é desenvolvido em três fases distintas: indexação, classificação e avaliação. Na primeira fase, fase de indexação, os emails passam por um processo transformativo de limpeza que visa essencialmente gerar uma representação dos emails adequada ao processamento automático. A segunda fase é a fase de classificação. Esta fase recorre ao conjunto de dados resultantes da fase anterior para produzir um modelo de classificação, aplicando-o posteriormente a novos emails. Partindo de uma matriz onde são representados emails, termos e os seus respectivos pesos, e um conjunto de exemplos classificados manualmente, um classificador é gerado a partir de um processo de aprendizagem. O classificador obtido é então aplicado ao conjunto de emails e a classificação de todos os emails é alcançada. O processo de classificação é feito com base num classificador de máquinas de vectores de suporte recorrendo ao algoritmo de aprendizagem activa d-confidence. O algoritmo d-confidence tem como objectivo propor ao utilizador os exemplos mais significativos para etiquetagem. Ao identificar os emails com informação mais relevante para o processo de aprendizagem, diminui-se o número de iterações e consequentemente o esforço exigido por parte dos utilizadores. A terceira e última fase é a fase de avaliação. Nesta fase a performance do processo de classificação e a eficiência do algoritmo d-confidence são avaliadas. O método de avaliação adoptado é o método de validação cruzada denominado 10-fold cross validation. Conclusões O processo de organização automática de emails foi desenvolvido com sucesso, a performance do classificador gerado e do algoritmo d-confidence foi relativamente boa. Em média as categorias apresentam taxas de erro relativamente baixas, a não ser as classes mais genéricas. O esforço exigido pelo utilizador foi reduzido, já que com a utilização do algoritmo d-confidence obteve-se uma taxa de erro próxima do valor final, mesmo com um número de casos etiquetados abaixo daquele que é requerido por um método supervisionado. É importante salientar, que além do processo automático de organização de emails, este projecto foi uma excelente oportunidade para adquirir conhecimento consistente sobre mineração de texto e sobre os processos de classificação automática e recuperação de informação. O estudo de áreas tão interessantes despertou novos interesses que consistem em verdadeiros desafios futuros.

Relevância:

20.00% 20.00%

Publicador:

Resumo:

Com a crescente geração, armazenamento e disseminação da informação nos últimos anos, o anterior problema de falta de informação transformou-se num problema de extracção do conhecimento útil a partir da informação disponível. As representações visuais da informação abstracta têm sido utilizadas para auxiliar a interpretação os dados e para revelar padrões de outra forma escondidos. A visualização de informação procura aumentar a cognição humana aproveitando as capacidades visuais humanas, de forma a tornar perceptível a informação abstracta, fornecendo os meios necessários para que um humano possa absorver quantidades crescentes de informação, com as suas capacidades de percepção. O objectivo das técnicas de agrupamento de dados consiste na divisão de um conjunto de dados em vários grupos, em que dados semelhantes são colocados no mesmo grupo e dados dissemelhantes em grupos diferentes. Mais especificamente, o agrupamento de dados com restrições tem o intuito de incorporar conhecimento a priori no processo de agrupamento de dados, com o objectivo de aumentar a qualidade do agrupamento de dados e, simultaneamente, encontrar soluções apropriadas a tarefas e interesses específicos. Nesta dissertação é estudado a abordagem de Agrupamento de Dados Visual Interactivo que permite ao utilizador, através da interacção com uma representação visual da informação, incorporar o seu conhecimento prévio acerca do domínio de dados, de forma a influenciar o agrupamento resultante para satisfazer os seus objectivos. Esta abordagem combina e estende técnicas de visualização interactiva de informação, desenho de grafos de forças direccionadas e agrupamento de dados com restrições. Com o propósito de avaliar o desempenho de diferentes estratégias de interacção com o utilizador, são efectuados estudos comparativos utilizando conjuntos de dados sintéticos e reais.

Relevância:

20.00% 20.00%

Publicador:

Resumo:

A descoberta de conhecimento em dados hoje em dia é um ponto forte para as empresas. Atualmente a CardMobili não dispõe de qualquer sistema de mineração de dados, sendo a existência deste uma mais-valia para as suas operações de marketing diárias, nomeadamente no lançamento de cupões a um grupo restrito de clientes com uma elevada probabilidade que os mesmos os utilizem. Para isso foi analisada a base de dados da aplicação tentando extrair o maior número de dados e aplicadas as transformações necessárias para posteriormente serem processados pelos algoritmos de mineração de dados. Durante a etapa de mineração de dados foram aplicadas as técnicas de associação e classificação, sendo que os melhores resultados foram obtidos com técnicas de associação. Desta maneira pretende-se que os resultados obtidos auxiliem o decisor na sua tomada de decisões.

Relevância:

20.00% 20.00%

Publicador:

Resumo:

Nos últimos anos, o avanço da tecnologia e a miniaturização de diversos componentes de electrónica associados a novos conceitos têm permitido nascer novas ideias e projectos, que até há alguns anos não passariam de ficção científica. Talvez o exemplo mais acabado seja actualmente o smartphone, um pequeno bloco de hardware e software, com capacidade de processamento que ultrapassa várias vezes o dos computadores com uma dúzia de anos. Estas capacidades têm sido utilizadas em comunicações, blocos de notas, agendas e até entretenimento. No entanto, podem ser reutilizadas para ajudar a resolver algumas limitações/constrangimentos da actualidade. Dentro destes destacam-se a gestão de recursos escassos. Com efeito, o consumo de energia eléctrica tem aumentado como consequência directa do desenvolvimento global e aumento do número de aparelhos eléctricos. Uma percentagem significativa de energia eléctrica tem sido produzida através de recursos não-renováveis de energia. No entanto, a dependência energética, associada à subida de preços e a redução das emissões de gases do efeito estufa, estimula o desenvolvimento de novas soluções que permitam lidar com esta situação. O desempenho energético por sua vez depende não só das características da estrutura, mas também do comportamento do utilizador. O desempenho energético dos edifícios é muito importante, uma vez que os respectivos consumos são responsáveis por mais de metade do total da energia produzida. Desta forma, a fim de alcançar um melhor desempenho é importante não só considerar o desempenho de estrutura, mas também monitorizar o comportamento do utilizador. Esta última questão coloca várias limitações, uma vez que depende muito do tipo de utilizador. Um dos conceitos actuais emergentes são as chamadas redes de sensores sem fio. Com esta tecnologia, pequenos módulos podem ser desenvolvidos com muitas possibilidades de conectividade, com elevado poder de processamento e com grande autonomia, sem serem excessivamente caros. Isto proporciona os meios para implementar vários dispositivos em toda a instalação, para recolher uma variedade de dados, sendo posteriormente armazenados num servidor. Os blocos fundamentais da infra-estrutura de sensores do projecto foram concebidos na Evoleo Technologies em simultâneo com o decorrer do estágio. Estes blocos recolhem dados específicos na instalação, e periodicamente enviam para o servidor central os valores recolhidos, onde são armazenados e colocados à disposição do utilizador. Os dados recolhidos podem então ser apresentados ao utilizador, proporcionando um registo de consumo de energia associado a um dado período de tempo. Uma vez que todos os dados são armazenados no servidor, podem ser efectuados estudos para determinar o uso típico, possíveis problemas em aparelhos, a qualidade da energia eléctrica, etc., permitindo determinar onde a energia está a ser eventualmente desperdiçada e fornecendo dados ao utilizador para que este possa proceder a alterações, tendo por base dados recolhidos num dado período. O objectivo principal deste trabalho passa por estabelecer a ligação entre o nível máquina e o nível de utilizador, isto é, uma plataforma de interacção entre dispositivos e administrador da instalação. Fornecer os dados de uma forma fácil e sem necessidade de instalação de software específico em cada dispositivo que se pretenda utilizar para monitorizar foi uma das principais preocupações das fases de concepção do projecto.

Relevância:

20.00% 20.00%

Publicador:

Resumo:

A procura de padrões nos dados de modo a formar grupos é conhecida como aglomeração de dados ou clustering, sendo uma das tarefas mais realizadas em mineração de dados e reconhecimento de padrões. Nesta dissertação é abordado o conceito de entropia e são usados algoritmos com critérios entrópicos para fazer clustering em dados biomédicos. O uso da entropia para efetuar clustering é relativamente recente e surge numa tentativa da utilização da capacidade que a entropia possui de extrair da distribuição dos dados informação de ordem superior, para usá-la como o critério na formação de grupos (clusters) ou então para complementar/melhorar algoritmos existentes, numa busca de obtenção de melhores resultados. Alguns trabalhos envolvendo o uso de algoritmos baseados em critérios entrópicos demonstraram resultados positivos na análise de dados reais. Neste trabalho, exploraram-se alguns algoritmos baseados em critérios entrópicos e a sua aplicabilidade a dados biomédicos, numa tentativa de avaliar a adequação destes algoritmos a este tipo de dados. Os resultados dos algoritmos testados são comparados com os obtidos por outros algoritmos mais “convencionais" como o k-médias, os algoritmos de spectral clustering e um algoritmo baseado em densidade.