Análise de Agrupamentos Com Base na Teoria da Informação: Uma Abordagem Representativa


Autoria(s): Araújo, Daniel Sabino Amorim de
Contribuinte(s)

Dória Neto, Adrião Duarte

CPF:04634747405

http://lattes.cnpq.br/4744754780165354

CPF:10749896434

http://lattes.cnpq.br/1987295209521433

Martins, Allan de Medeiros

CPF:01979076448

http://lattes.cnpq.br/4402694969508077

Melo, Jorge Dantas de

CPF:09463097449

http://lattes.cnpq.br/7325007451912598

Canuto, Anne Magaly de Paula

CPF:66487099449

http://buscatextual.cnpq.br/buscatextual/visualizacv.do?id=K4790093J8

Braga, Antonio de Padua

CPF:47907754615

http://lattes.cnpq.br/1130012055294645

Vellasco, Marley Maria Bernardes Rebuzzi

CPF:75758385700

http://lattes.cnpq.br/8265116967095452

Data(s)

17/12/2014

14/05/2013

17/12/2014

18/03/2013

Resumo

Currently, one of the biggest challenges for the field of data mining is to perform cluster analysis on complex data. Several techniques have been proposed but, in general, they can only achieve good results within specific areas providing no consensus of what would be the best way to group this kind of data. In general, these techniques fail due to non-realistic assumptions about the true probability distribution of the data. Based on this, this thesis proposes a new measure based on Cross Information Potential that uses representative points of the dataset and statistics extracted directly from data to measure the interaction between groups. The proposed approach allows us to use all advantages of this information-theoretic descriptor and solves the limitations imposed on it by its own nature. From this, two cost functions and three algorithms have been proposed to perform cluster analysis. As the use of Information Theory captures the relationship between different patterns, regardless of assumptions about the nature of this relationship, the proposed approach was able to achieve a better performance than the main algorithms in literature. These results apply to the context of synthetic data designed to test the algorithms in specific situations and to real data extracted from problems of different fields

Coordenação de Aperfeiçoamento de Pessoal de Nível Superior

Atualmente, um dos maiores desafios para o campo de mineração de dados é realizar a análise de agrupamentos em dados complexos. Até o momento, diversas técnicas foram propostas mas, em geral, elas só conseguem atingir bons resultados dentro de domínios específicos, não permitindo, dessa maneira, que exista um consenso de qual seria a melhor forma para agrupar dados. Essas técnicas costumam falhar por fazer suposições nem sempre realistas sobre a distribuição de probabilidade que modela os dados. Com base nisso, o trabalho proposto neste documento cria uma nova medida baseada no Potencial de Informação Cruzado que utiliza pontos representativos do conjunto de dados e a estatística extraída diretamente deles para medir a interação entre grupos. A abordagem proposta permite usar todas as vantagens desse descritor de informação e contorna as limitações impostas a ele pela sua própria forma de funcionamento. A partir disso, duas funções custo de otimização e três algoritmos foram construídos para realizar a análise de agrupamentos. Como o uso de Teoria da Informação permite capturar a relação entre diferentes padrões, independentemente de suposições sobre a natureza dessa relação, a abordagem proposta foi capaz de obter um desempenho superior aos principais algoritmos citados na literatura. Esses resultados valem tanto para o contexto de dados sintéticos desenvolvidos para testar os algoritmos em situações específicas quanto em dados extraídos de problemas reais de diferentes naturezas

Formato

application/pdf

Identificador

ARAÚJO, Daniel Sabino Amorim de. Análise de Agrupamentos Com Base na Teoria da Informação: Uma Abordagem Representativa. 2013. 197 f. Tese (Doutorado em Automação e Sistemas; Engenharia de Computação; Telecomunicações) - Universidade Federal do Rio Grande do Norte, Natal, 2013.

http://repositorio.ufrn.br:8080/jspui/handle/123456789/15208

Idioma(s)

por

Publicador

Universidade Federal do Rio Grande do Norte

BR

UFRN

Programa de Pós-Graduação em Engenharia Elétrica

Automação e Sistemas; Engenharia de Computação; Telecomunicações

Direitos

Acesso Aberto

Palavras-Chave #Análise de agrupamentos. Teoria da Informação. Entropia. Potencial de Informação Cruzado. Dados Complexos #Cluster Analysis. Information Theory. Entropy. Cross Information Potential. Complex Data #CNPQ::ENGENHARIAS::ENGENHARIA ELETRICA
Tipo

Tese