Modelo de mineração de dados em bases de dados acadêmicas


Autoria(s): Silva, Renan Monteiro da
Contribuinte(s)

Sousa Júnior, Rafael Timóteo de

Data(s)

26/05/2016

26/05/2016

26/05/2016

12/04/2016

Resumo

Dissertação (mestrado)—Universidade de Brasília, Faculdade de Tecnologia, Departamento de Engenharia Elétrica, 2016.

No campo das comunidades de pesquisa existe uma série de bases de dados que proveem informações interessantes sobre publicações resultantes da pesquisa, incluindo títulos de artigos, autores, palavras-chave, citações, índices, veículos de publicação (revistas, livros, conferências e os tipos de eventos mais importantes) e assim por diante. Exemplos de tais bases de dados são Google Scholar, CiteSeerX, DBLP, Microsoft Academic, Thomson Reuters Web of Science, entre outros. No entanto, essas bases de dados globais ainda carecem de serviços que possam ser usados na procura por comunidades ou agrupamentos. Uma comunidade pode ser definida como um grupo de entidades, nesse caso autores e/ou universidades, que compartilham atributos ou relacionamentos semelhantes. Neste trabalho é proposto um modelo de mineração e análise das informações contidas nessas bases de dados acadêmicas. A análise dessas informações apresentadas nos resultados visa à descoberta das universidades, autores e assuntos mais significativos dentro do contexto dos dados minerados. Para isso foi feito um estudo de caso utilizando as informações contidas nas bases de dados do CiteSeerX e do DBLP como ponto de partida para a criação de um modelo genérico com o objetivo de ser aplicável a qualquer base de dados acadêmica. No estudo de caso é feita uma extensa mineração nas bases de dados do CiteSeerX e do DBLP, a partir dessa etapa é feita a migração e tratamento dos dados originais obtidos para o modelo genérico proposto neste trabalho. Com o modelo preenchido são aplicados os algoritmos e instruções para geração dos resultados que são subdivididos em três diferentes categorias: clusters, rankings e comunidades de relacionamento. A partir dos resultados são investigadas as tendências atuais na colaboração entre autores e institutos educacionais usando as bases de dados do CiteSeerX e do DBLP. Com a obtenção das informações disponíveis foram construídos várias comunidades e agrupamentos usando as técnicas de clusterização existentes. _______________________________________________________________________________________________ ABSTRACT

In the field of the research community, several databases such as Google Scholar, CiteSeerX, DBP, Microsoft Academic, Thomson Reuter´s Web of Science among others provide interesting information about authors, citations, indexes, most relevant venues types and so on. However, those global databases have limitations, especially in finding communities or clusters. A community can be defined as a group of entities, in this case authors and/or universities that share similar properties or relations. In this work, it is proposed a model of data mining and analysis of the obtained information in these academics databases. The analysis of the presented information in the results aims the discovery of the universities, authors and subjects most significant inside the context of the mined data. Thus a study case was realized using the CiteSeerX database as the start point for creating a generic model in order to be applied in any academic database. In the study case an extensive data mining was performed in the CiteSeerX database, as well as the migration and treatment of the original data obtained for the generic model proposed in this work. With the model data filled the proposed algorithms and the code instructions were applied for the generation of the results which are subdivided in three different categories: clusters, rankings and relationship communities. From the results, the work is validated by showing the current trends in the collaboration between authors and educational institutes, using the CiteSeerX dataset. By mining the available information, several communities and clusters are revealed using the proposed techniques.

Identificador

SILVA, Renan Monteiro da. Modelo de mineração de dados em bases de dados acadêmicas. 2016. xii, 97 f., il. Dissertação (Mestrado em Engenharia Elétrica)—Universidade de Brasília, Brasília, 2016.

http://repositorio.unb.br/handle/10482/20410

Idioma(s)

por

Direitos

Open Access

A concessão da licença deste item refere-se ao termo de autorização impresso assinado pelo autor com as seguintes condições: Na qualidade de titular dos direitos de autor da publicação, autorizo a Universidade de Brasília e o IBICT a disponibilizar por meio dos sites www.bce.unb.br, www.ibict.br, http://hercules.vtls.com/cgi-bin/ndltd/chameleon?lng=pt&skin=ndltd sem ressarcimento dos direitos autorais, de acordo com a Lei nº 9610/98, o texto integral da obra disponibilizada, conforme permissões assinaladas, para fins de leitura, impressão e/ou download, a título de divulgação da produção científica brasileira, a partir desta data.

Palavras-Chave #Sistemas distribuídos #Mineração de dados (Computação) #Bases de dados #Aprendizagem de máquina #Algoritmos de computador
Tipo

Dissertação / Dissertation