Modelo de representação de texto mais adequado à classificação
Contribuinte(s) |
Escudeiro, Nuno |
---|---|
Data(s) |
16/09/2013
16/09/2013
2010
|
Resumo |
Mestrado em Engenharia Informática A área de text mining, mais especificamente a classificação de texto, é alvo de muito trabalho e avanços nos últimos anos. Esta área tornou-se cada vez mais importante com a evolução da tecnologia e assume grande relevância na actual sociedade de informação. Um dos problemas ainda presente nesta área baseia-se na classificação de texto para categorias que representam conceitos muito próximos e difíceis de distinguir quando se considera o modelo tradicional do “saco de palavras” (bag-of-word). Estes problemas surgem sobretudo quando se classifica texto referente a um mesmo tema, como por exemplo: respostas em texto livre dadas por alunos ao responder a perguntas abertas, comentários a um mesmo filme, etc. Neste trabalho, é apresentado um estudo sobre todo o processo de classificação de texto que permite avaliar as tarefas e fases mais importantes para a definição de uma metodologia útil para o problema enunciado. A abordagem adoptada neste trabalho baseou-se na ideia de que os resultados da classificação podem melhorar caso se considerem representações de texto mais elaboradas que o simples modelo bag-of-words. Foram então criados diversos modelos de representação dos documentos - envolvendo os modelos de bag-of-words, NGrams e Pos-Tag - todos eles baseados em diversas combinações de tarefas de pré-processamento. Os classificadores usados para a classificação dos documentos foram o support vector machine e k-nearest neighbour. Por fim, para a avaliação da classificação foi aplicada a técnica de validação cruzada para reduzir a variabilidade das estimativas das medidas de desempenho analisadas (abrangência e precisão). Foi possível concluir que os modelos de representação que parecem mais adequados, para a resolução do problema proposto, são os modelos bag-of-words construídos com base em nomes. E, que os classificadores support vector machine apresentam melhor desempenho que o classificadores k-nearest neighbour. The Text Mining area, specifically the text classification is the subject of recent research advances. This area has become increasingly important with the evolution of technology and is highly relevant in today's information society. One of the problems still present in this area is based on the text classification into categories that represent concepts very close and difficult to distinguish when one considers the traditional model of "bag of words”. These problems arise especially when classifying text referring to the same theme, for example: free text responses given by students to answer open questions, comments to the same movie, etc. In this work, we present a study on the whole process of text classification that allows to assess the tasks and the most important stages for the definition of a useful approach to the problem stated. The approach adopted in this study was based on the idea that classification results may improve when considering more elaborated text representations than the simple bag-of-words model. Afterwards we created several representation models of documents involving bag-of-words models, NGrams and POS-tags. All of them were based on various combinations of pre-processing tasks that is considered one of the most important stages of classification. The classifiers used for document classification were the support vector machine and k-nearest neighbor. Finally, we applied crossvalidation to estimate classification performance measures (precision and recall). We concluded that the representation models that seem most appropriate for solving the proposed problem are the bag-of-words models based on names. Furthermore, it was also conclude that the support vector machine classifiers outperform the k-nearest neighbor classifiers. |
Identificador | |
Idioma(s) |
por |
Publicador |
Instituto Politécnico do Porto. Instituto Superior de Engenharia do Porto |
Direitos |
openAccess |
Palavras-Chave | #Classificação de texto #Modelo de representação |
Tipo |
masterThesis |