Análise de Agrupamentos Com Base na Teoria da Informação: Uma Abordagem Representativa
Contribuinte(s) |
Dória Neto, Adrião Duarte CPF:04634747405 http://lattes.cnpq.br/4744754780165354 CPF:10749896434 http://lattes.cnpq.br/1987295209521433 Martins, Allan de Medeiros CPF:01979076448 http://lattes.cnpq.br/4402694969508077 Melo, Jorge Dantas de CPF:09463097449 http://lattes.cnpq.br/7325007451912598 Canuto, Anne Magaly de Paula CPF:66487099449 http://buscatextual.cnpq.br/buscatextual/visualizacv.do?id=K4790093J8 Braga, Antonio de Padua CPF:47907754615 http://lattes.cnpq.br/1130012055294645 Vellasco, Marley Maria Bernardes Rebuzzi CPF:75758385700 http://lattes.cnpq.br/8265116967095452 |
---|---|
Data(s) |
17/12/2014
14/05/2013
17/12/2014
18/03/2013
|
Resumo |
Currently, one of the biggest challenges for the field of data mining is to perform cluster analysis on complex data. Several techniques have been proposed but, in general, they can only achieve good results within specific areas providing no consensus of what would be the best way to group this kind of data. In general, these techniques fail due to non-realistic assumptions about the true probability distribution of the data. Based on this, this thesis proposes a new measure based on Cross Information Potential that uses representative points of the dataset and statistics extracted directly from data to measure the interaction between groups. The proposed approach allows us to use all advantages of this information-theoretic descriptor and solves the limitations imposed on it by its own nature. From this, two cost functions and three algorithms have been proposed to perform cluster analysis. As the use of Information Theory captures the relationship between different patterns, regardless of assumptions about the nature of this relationship, the proposed approach was able to achieve a better performance than the main algorithms in literature. These results apply to the context of synthetic data designed to test the algorithms in specific situations and to real data extracted from problems of different fields Coordenação de Aperfeiçoamento de Pessoal de Nível Superior Atualmente, um dos maiores desafios para o campo de mineração de dados é realizar a análise de agrupamentos em dados complexos. Até o momento, diversas técnicas foram propostas mas, em geral, elas só conseguem atingir bons resultados dentro de domínios específicos, não permitindo, dessa maneira, que exista um consenso de qual seria a melhor forma para agrupar dados. Essas técnicas costumam falhar por fazer suposições nem sempre realistas sobre a distribuição de probabilidade que modela os dados. Com base nisso, o trabalho proposto neste documento cria uma nova medida baseada no Potencial de Informação Cruzado que utiliza pontos representativos do conjunto de dados e a estatística extraída diretamente deles para medir a interação entre grupos. A abordagem proposta permite usar todas as vantagens desse descritor de informação e contorna as limitações impostas a ele pela sua própria forma de funcionamento. A partir disso, duas funções custo de otimização e três algoritmos foram construídos para realizar a análise de agrupamentos. Como o uso de Teoria da Informação permite capturar a relação entre diferentes padrões, independentemente de suposições sobre a natureza dessa relação, a abordagem proposta foi capaz de obter um desempenho superior aos principais algoritmos citados na literatura. Esses resultados valem tanto para o contexto de dados sintéticos desenvolvidos para testar os algoritmos em situações específicas quanto em dados extraídos de problemas reais de diferentes naturezas |
Formato |
application/pdf |
Identificador |
ARAÚJO, Daniel Sabino Amorim de. Análise de Agrupamentos Com Base na Teoria da Informação: Uma Abordagem Representativa. 2013. 197 f. Tese (Doutorado em Automação e Sistemas; Engenharia de Computação; Telecomunicações) - Universidade Federal do Rio Grande do Norte, Natal, 2013. http://repositorio.ufrn.br:8080/jspui/handle/123456789/15208 |
Idioma(s) |
por |
Publicador |
Universidade Federal do Rio Grande do Norte BR UFRN Programa de Pós-Graduação em Engenharia Elétrica Automação e Sistemas; Engenharia de Computação; Telecomunicações |
Direitos |
Acesso Aberto |
Palavras-Chave | #Análise de agrupamentos. Teoria da Informação. Entropia. Potencial de Informação Cruzado. Dados Complexos #Cluster Analysis. Information Theory. Entropy. Cross Information Potential. Complex Data #CNPQ::ENGENHARIAS::ENGENHARIA ELETRICA |
Tipo |
Tese |