999 resultados para Bases de dados distribuídas


Relevância:

90.00% 90.00%

Publicador:

Resumo:

The use of clustering methods for the discovery of cancer subtypes has drawn a great deal of attention in the scientific community. While bioinformaticians have proposed new clustering methods that take advantage of characteristics of the gene expression data, the medical community has a preference for using classic clustering methods. There have been no studies thus far performing a large-scale evaluation of different clustering methods in this context. This work presents the first large-scale analysis of seven different clustering methods and four proximity measures for the analysis of 35 cancer gene expression data sets. Results reveal that the finite mixture of Gaussians, followed closely by k-means, exhibited the best performance in terms of recovering the true structure of the data sets. These methods also exhibited, on average, the smallest difference between the actual number of classes in the data sets and the best number of clusters as indicated by our validation criteria. Furthermore, hierarchical methods, which have been widely used by the medical community, exhibited a poorer recovery performance than that of the other methods evaluated. Moreover, as a stable basis for the assessment and comparison of different clustering methods for cancer gene expression data, this study provides a common group of data sets (benchmark data sets) to be shared among researchers and used for comparisons with new methods

Relevância:

90.00% 90.00%

Publicador:

Resumo:

Symbolic Data Analysis (SDA) main aims to provide tools for reducing large databases to extract knowledge and provide techniques to describe the unit of such data in complex units, as such, interval or histogram. The objective of this work is to extend classical clustering methods for symbolic interval data based on interval-based distance. The main advantage of using an interval-based distance for interval-based data lies on the fact that it preserves the underlying imprecision on intervals which is usually lost when real-valued distances are applied. This work includes an approach allow existing indices to be adapted to interval context. The proposed methods with interval-based distances are compared with distances punctual existing literature through experiments with simulated data and real data interval

Relevância:

90.00% 90.00%

Publicador:

Resumo:

Pós-graduação em Ciência da Computação - IBILCE

Relevância:

90.00% 90.00%

Publicador:

Resumo:

Conselho Nacional de Desenvolvimento Científico e Tecnológico (CNPq)

Relevância:

90.00% 90.00%

Publicador:

Resumo:

Pós-graduação em Odontologia Preventiva e Social - FOA

Relevância:

90.00% 90.00%

Publicador:

Resumo:

Pós-graduação em Ciência da Computação - IBILCE

Relevância:

90.00% 90.00%

Publicador:

Resumo:

Conselho Nacional de Desenvolvimento Científico e Tecnológico (CNPq)

Relevância:

90.00% 90.00%

Publicador:

Resumo:

Pós-graduação em Agronomia (Energia na Agricultura) - FCA

Relevância:

90.00% 90.00%

Publicador:

Resumo:

O atual modelo do setor elétrico brasileiro permite igualdade de condições a todos os agentes e reduz o papel do Estado no setor. Esse modelo obriga as empresas do setor a melhorarem cada vez mais a qualidade de seu produto e, como requisito para este objetivo, devem fazer uso mais efetivo da enorme quantidade de dados operacionais que são armazenados em bancos de dados, provenientes da operação dos seus sistemas elétricos e que tem nas Usinas Hidrelétricas (UHE) a sua principal fonte de geração de energia. Uma das principais ferramentas para gerenciamento dessas usinas são os sistemas de Supervisão, Controle e Aquisição de Dados (Supervisory Control And Data Acquisition - SCADA). Assim, a imensa quantidade de dados acumulados nos bancos de dados pelos sistemas SCADA, muito provavelmente contendo informações relevantes, deve ser tratada para descobrir relações e padrões e assim ajudar na compreensão de muitos aspectos operacionais importantes e avaliar o desempenho dos sistemas elétricos de potência. O processo de Descoberta de Conhecimento em Banco de Dados (Knowledge Discovery in Database - KDD) é o processo de identificar, em grandes conjuntos de dados, padrões que sejam válidos, novos, úteis e compreensíveis, para melhorar o entendimento de um problema ou um procedimento de tomada de decisão. A Mineração de Dados (ou Data Mining) é o passo dentro do KDD que permite extrair informações úteis em grandes bases de dados. Neste cenário, o presente trabalho se propõe a realizar experimentos de mineração de dados nos dados gerados por sistemas SCADA em UHE, a fim de produzir informações relevantes para auxiliar no planejamento, operação, manutenção e segurança das hidrelétricas e na implantação da cultura da mineração de dados aplicada a estas usinas.

Relevância:

90.00% 90.00%

Publicador:

Resumo:

Durante o processo de extração do conhecimento em bases de dados, alguns problemas podem ser encontrados como por exemplo, a ausência de determinada instância de um atributo. A ocorrência de tal problemática pode causar efeitos danosos nos resultados finais do processo, pois afeta diretamente a qualidade dos dados a ser submetido a um algoritmo de aprendizado de máquina. Na literatura, diversas propostas são apresentadas a fim de contornar tal dano, dentre eles está a de imputação de dados, a qual estima um valor plausível para substituir o ausente. Seguindo essa área de solução para o problema de valores ausentes, diversos trabalhos foram analisados e algumas observações foram realizadas como, a pouca utilização de bases sintéticas que simulem os principais mecanismos de ausência de dados e uma recente tendência a utilização de algoritmos bio-inspirados como tratamento do problema. Com base nesse cenário, esta dissertação apresenta um método de imputação de dados baseado em otimização por enxame de partículas, pouco explorado na área, e o aplica para o tratamento de bases sinteticamente geradas, as quais consideram os principais mecanismos de ausência de dados, MAR, MCAR e NMAR. Os resultados obtidos ao comprar diferentes configurações do método à outros dois conhecidos na área (KNNImpute e SVMImpute) são promissores para sua utilização na área de tratamento de valores ausentes uma vez que alcançou os melhores valores na maioria dos experimentos realizados.

Relevância:

90.00% 90.00%

Publicador:

Resumo:

Pós-graduação em Odontologia Preventiva e Social - FOA

Relevância:

90.00% 90.00%

Publicador:

Resumo:

Pós-graduação em Ciência da Computação - IBILCE

Relevância:

90.00% 90.00%

Publicador:

Resumo:

Neste artigo é apresentada uma abordagem para aumentar a eficácia das Redes Neurais Artificiais de Funções de Base Radial utilizando um algoritmo de agrupamento de dados via Floresta de Caminhos Ótimos. Algumas técnicas comumente empregadas para essa tarefa, como o conhecido k-médias, requerem um determinado número de classes/agrupamentos prévio à sua execução. Embora o número de classes seja conhecido em problemas supervisionados, o número real de agrupamentos é difícil de ser encontrado, dado que uma classe pode ser representada por mais de um agrupamento. Experimentos em nove bases de dados, em conjunto com análises estatísticas, demonstraram que o classificador por Floresta de Caminhos Ótimos possui um melhor desempenho que a técnica k-médias, bem como encontra as médias das distribuições Gaussianas em posições muito similares às encontradas por este último. Entretanto, o classificador por Floresta de Caminhos Ótimos possui um custo computacional maior, dado que a sua etapa de treinamento é mais custosa que a da técnica k-médias.

Relevância:

90.00% 90.00%

Publicador:

Resumo:

This study is based on the mapping of occurrences associated with social vulnerability and natural risks, which refer to the resilience of populations and territories, regarding natural hazards associated with the functioning of natural systems (eg, earthquakes, flood, mass movements). According to UNISDR (2014), the state of São Paulo is a reference in working with Urban Resilience and Disaster in the Resilient Cities Campaign (2014), considering the high investment in Risk Areas Mapping and Public Education Campaigns implemented by the Civil Defense. Thus, this study aims to mapping the occurrence of events related to Tree Falls, Erosion, Landslides, Irregular Housing, Rocky Blocks Falls, Wall Falls, Unroofing and Irregular Construction, attended by the Civil Defense in the city of Santos, São Paulo State, from 2011 to 2014. Thereafter, correlated analyzes to the Environmental Vulnerabilities were generated. The Environmental Vulnerability databases used in this dissertation compose the results of the CNPQ Project - Environmental Vulnerability Mapping of the State of Sao Paulo - Brazil: a methodological contribution of Freitas (2013) and Bortolettoet al (2014), with information collected from the 2010 Census (IBGE, 2010), on a census sectors scale. The adopted methodological procedure involves document analysis followed by data integration in Geographic Information System, through algorithms analysis and mapscrossing.The results obtained in Maps of Social and Environmental Vulnerability Occurrences presented areas of High or Very High Vulnerability. The main variables obtained with such characteristics are Irregular Housing, Landslides and Rocky Blocks Falls, which was associated with hilly terrain formations, with slopes above 30%. To the areas of Medium, Low and Very Low Vulnerability were associated the variables Tree Falls, Wall Falls, Erosion, Unroofing and Irregular Construction, which are spatially distributed without an...