997 resultados para Limpeza de dados
Resumo:
O surgimento de novos modelos de negócio, nomeadamente o estabelecimento de parcerias entre organizações, a possibilidade de as empresas poderem adicionar informação existente na web, em especial na web semânjtica, à informação de que dispõem, levou ao acentuar de alguns problemas já existentes nas bases de dados, nomeadamente no que respeita a problemas de qualidade de dados. Dados de má qualidade podem levar à perda de competitividade das organizações que os detêm, podendo inclusive levar ao seu desaparecimento, uma vez que muitas das suas tomadas de decisão são baseadas nestes dados. Por este motivo torna-se relevante a limpeza de dados que é um processo automático de detecção e eventual correção dos problemas de qualidade de dados, tais como registos duplicados, dados incompletos, e/ou inconsistentes. As abordagens atualmente existentes para solucionar estes problemas, encontram-se muito ligadas ao esquema das bases de dados e a domínios específicos. Para que as operações de limpeza de dados possam ser utilizadas em diferentes repositórios, torna-se necessário o entendimento, por parte dos sistemas computacionais, desses mesmos dados, ou seja, é necessária uma semântica associada. A solução apresentada passa pelo uso de ontologias, como forma de representação das operações de limpeza, para solucionar os problemas de heterogeneidade semântica, quer ao nível dos dados existentes nos diversos repositórios, quer ao nível da especificação das operações de limpeza. Estando as operações de limpeza definidas ao nível conceptual e existindo mapeamentos entre as ontologias de domínio e a ontologia associada a uma qualquer base de dados, aquelas poderão ser instanciadas e propostas ao utilizador para serem executadas sobre essa base de dados, permitindo assim a sua interoperabilidade.
Resumo:
Pós-graduação em Ciência da Computação - IBILCE
Resumo:
Neste artigo apresenta-se a ferramenta SmartClean, destinada à detecção e correcção de problemas de qualidade dos dados. Comparativamente às ferramentas actualmente existentes, o SmartClean possui a mais-valia de não obrigar a que a sequência de execução das operações seja especificada pelo utilizador. Para tal, foi concebida uma sequência segundo a qual os problemas são manipulados (i.e., detectados e corrigidos). A existência da sequência suporta ainda a execução incremental das operações. No artigo, a arquitectura subjacente à ferramenta é exposta, sendo detalhados os seus componentes. A validade da ferramenta e, consequentemente, da arquitectura é comprovada através da apresentação do caso de estudo efectuado. Apesar do SmartClean possuir potencialidades de limpeza de dados noutros níveis (e.g., relação), no artigo apenas são descritas as relativas ao nível do valor individual do atributo.
Resumo:
Nos dias de hoje, com a informatização dos sistemas de informação, as organizações, a nível mundial, são capazes de armazenar todo o tipo de informação por elas gerada. Esta informação é cada vez mais complexa, podendo conter dados de produção, de consumo, de facturação, etc. Sem desprezar o resto da informação produzida, pode dizer-se que os dados administrativos assumem uma relevância especial na gestão dessas organizações. É sobre estes dados que as organizações baseiam todas as tomadas de decisão que definem o seu futuro num ambiente competitivo. Associados a toda a complexidade da informação gerada, estão os problemas de qualidade de dados, muitas vezes desprezados, mas que podem influenciar negativamente as medidas adoptadas e os objectivos traçados. Este capítulo procura, acima de tudo, chamar a atenção para este tipo de problemas, referenciando algumas das suas implicações no âmbito hospitalar. Como resultado, este capítulo apresenta uma sistematização dos vários erros possíveis de constar neste tipo de bases de dados administrativas, contribuindo com alguns exemplos encontrados durante um estudo de qualidade de dados.
Resumo:
Pós-graduação em Ciência da Computação - IBILCE
Resumo:
This paper presents the SmartClean tool. The purpose of this tool is to detect and correct the data quality problems (DQPs). Compared with existing tools, SmartClean has the following main advantage: the user does not need to specify the execution sequence of the data cleaning operations. For that, an execution sequence was developed. The problems are manipulated (i.e., detected and corrected) following that sequence. The sequence also supports the incremental execution of the operations. In this paper, the underlying architecture of the tool is presented and its components are described in detail. The tool's validity and, consequently, of the architecture is demonstrated through the presentation of a case study. Although SmartClean has cleaning capabilities in all other levels, in this paper are only described those related with the attribute value level.
Resumo:
A gerência da informação em estudos multicêntricos de grande porte requer uma abordagem especializada. O Estudo Longitudinal da Saúde do Adulto (ELSA-Brasil) criou um Centro de Dados para delinear e gerenciar seu sistema de dados. O objetivo do artigo foi descrever os passos envolvidos, incluindo os métodos de entrada, transmissão e gerência de informações. Foi desenvolvido um sistema web que permitiu, de forma segura e confidencial, a entrada online, verificação e edição, bem como incorporação de dados coletados em papel. Além disso, foi implantado e personalizado um sistema de armazenamento e comunicação de imagens (Picture Arquiving and Communication System) para ecocardiografia e retinografia que armazena as imagens recebidas dos Centros de Investigação e as torna acessíveis nos Centros de Leitura. Finalmente, foram desenvolvidos processos de extração e limpeza de dados para criação de bases de dados em formatos que permitam análises em múltiplos pacotes estatísticos.
Resumo:
Pós-graduação em Ciência da Computação - IBILCE
Resumo:
Coordenação de Aperfeiçoamento de Pessoal de Nível Superior (CAPES)
Resumo:
Universidade Estadual de Campinas . Faculdade de Educação Física
Resumo:
A Descoberta de Conhecimento em Banco de Dados (DCBD) é uma nova área de pesquisa que envolve o processo de extração de conhecimento útil implícito em grandes bases de dados. Existem várias metodologias para a realização de um processo de DCBD cuja essência consiste basicamente nas fases de entendimento do domínio do problema, pré-processamento, mineração de dados e pós-processamento. Na literatura sobre o assunto existem muitos trabalhos a respeito de mineração de dados, porém pouco se encontra sobre o processo de pré-processamento. Assim, o objetivo deste trabalho consiste no estudo do pré-processamento, já que é a fase que consome a maior parte do tempo e esforço de todo o processo de DCBD pois envolve operações de entendimento, seleção, limpeza e transformação de dados. Muitas vezes, essas operações precisam ser repetidas de modo a aprimorar a qualidade dos dados e, conseqüentemente, melhorar também a acurácia e eficiência do processo de mineração. A estrutura do trabalho abrange cinco capítulos. Inicialmente, apresenta-se a introdução e motivação para trabalho, juntamente com os objetivos e a metodologia utilizada. No segundo capítulo são abordadas metodologias para o processo de DCBD destacando-se CRISP-DM e a proposta por Fayyad, Piatetsky-Shapiro e Smyth. No terceiro capítulo são apresentadas as sub-fases da fase de pré-processamento contemplando-se entendimento, seleção, limpeza e transformação de dados, bem como os principais métodos e técnicas relacionados às mesmas. Já no quarto capítulo são descritos os experimentos realizados sobre uma base de dados real. Finalmente, no quinto capítulo são apresentadas as considerações finais sobre pré-processamento no processo de DCBD, apontando as dificuldades encontradas na prática, contribuições do presente trabalho e pretensões da continuidade do mesmo. Considera-se como principais contribuições deste trabalho a apresentação de métodos e técnicas de pré-processamento existentes, a comprovação da importância da interatividade com o especialista do domínio ao longo de todo o processo de DCBD, mas principalmente nas tomadas de decisões da fase de pré-processamento, bem como as sugestões de como realizar um pré-processamento sobre uma base de dados real.
Resumo:
Oil spills in marine environments represent immediate environmental impacts of large magnitude. For that reason the Environmental Sensitivity to Oil Maps constitute a major instrument for planning actions of containment and cleanup. For both the Environmental Sensitivity Maps always need to be updated, to have an appropriate scale and to represent accurately the coastal areas. In this context, this thesis presents a methodology for collecting and processing remote sensing data for the purpose of updating the territorial basis of thematic maps of Environmental Sensitivity to Oil. To ensure greater applicability of the methodology, sensors with complementary characteristics, which provide their data at a low financial cost, were selected and tested. To test the methodology, an area located on the northern coast of the Northeast of Brazil was chosen. The results showed that the products of ASTER data and image hybrid sensor PALSAR + CCD and HRC + CCD, have a great potential to be used as a source of cartographic information on projects that seek to update the Environmental Sensitivity Maps of Oil
Resumo:
The area between Galinhos and São Bento do Norte beaches, located in the northern coast of the Rio Grande do Norte State is submitted to intense and constant processes of littoral and aeolian transport, causing erosion, alterations in the sediments balance and modifications in the shoreline. Beyond these natural factors, the human interference is huge in the surroundings due to the Guamaré Petroliferous Pole nearby, the greater terrestrial oil producing in Brazil. Before all these characteristics had been organized MAMBMARE and MARPETRO projects with the main objective to execute the geo-environmental monitoring of coastal areas on the northern portion of RN. There is a bulky amount of database from the study area such as geologic and geophysical multitemporal data, hydrodynamic measurements, remote sensing multitemporal images, thematic maps, among others; it is of extreme importance to elaborate a Geographic Database (GD), one of the main components of a Geographic Information System (GIS), to store this amount of information, allowing the access to researchers and users. The first part of this work consisted to elaborate a GD to store the data of the area between Galinhos and São Bento do Norte cities. The main goal was to use the potentiality of the GIS as a tool to support decisions in the environmental monitoring of this region, a valuable target for oil exploration, salt companies and shrimp farms. The collected data was stored as a virtual library to assist men decisions from the results presented as digital thematic maps, tables and reports, useful as source of data in the preventive planning and as guidelines to the future research themes both on regional and local context. The second stage of this work consisted on elaborate the Oil-Spill Environmental Sensitivity Maps. These maps based on the Environmental Sensitivity Index Maps to Oil Spill developed by the Ministry of Environment are cartographic products that supply full information to the decision making, contingency planning and assessment in case of an oil spilling incident in any area. They represent the sensitivity of the areas related to oil spilling, through basic data such as geology, geomorphology, oceanographic, social-economic and biology. Some parameters, as hydrodynamic data, sampling data, coastal type, declivity of the beach face, types of resources in risk (biologic, economic, human or cultural) and the land use of the area are some of the essential information used on the environmental sensitivity maps elaboration. Thus using the available data were possible to develop sensitivity maps of the study area on different dates (June/2000 and December/2000) and to perceive that there was a difference on the sensitivity index generated. The area on December presented more sensible to the oil than the June one because hydrodynamic data (wave and tide energy) allowed a faster natural cleaning on June. The use of the GIS on sensitivity maps showed to be a powerful tool, since it was possible to manipulate geographic data with correctness and to elaborate more accurate maps with a higher level of detail to the study area. This presented an medium index (3 to 4) to the long shore and a high index (10) to the mangrove areas highly vulnerable to oil spill
Resumo:
Coordenação de Aperfeiçoamento de Pessoal de Nível Superior (CAPES)
Resumo:
Conselho Nacional de Desenvolvimento Científico e Tecnológico (CNPq)