Learning techniques for automatic email message tagging
Contribuinte(s) |
Ferreira, Artur Jorge Lourenço, André Ribeiro |
---|---|
Data(s) |
23/02/2012
23/02/2012
01/11/2011
|
Resumo |
A organização automática de mensagens de correio electrónico é um desafio actual na área da aprendizagem automática. O número excessivo de mensagens afecta cada vez mais utilizadores, especialmente os que usam o correio electrónico como ferramenta de comunicação e trabalho. Esta tese aborda o problema da organização automática de mensagens de correio electrónico propondo uma solução que tem como objectivo a etiquetagem automática de mensagens. A etiquetagem automática é feita com recurso às pastas de correio electrónico anteriormente criadas pelos utilizadores, tratando-as como etiquetas, e à sugestão de múltiplas etiquetas para cada mensagem (top-N). São estudadas várias técnicas de aprendizagem e os vários campos que compõe uma mensagem de correio electrónico são analisados de forma a determinar a sua adequação como elementos de classificação. O foco deste trabalho recai sobre os campos textuais (o assunto e o corpo das mensagens), estudando-se diferentes formas de representação, selecção de características e algoritmos de classificação. É ainda efectuada a avaliação dos campos de participantes através de algoritmos de classificação que os representam usando o modelo vectorial ou como um grafo. Os vários campos são combinados para classificação utilizando a técnica de combinação de classificadores Votação por Maioria. Os testes são efectuados com um subconjunto de mensagens de correio electrónico da Enron e um conjunto de dados privados disponibilizados pelo Institute for Systems and Technologies of Information, Control and Communication (INSTICC). Estes conjuntos são analisados de forma a perceber as características dos dados. A avaliação do sistema é realizada através da percentagem de acerto dos classificadores. Os resultados obtidos apresentam melhorias significativas em comparação com os trabalhos relacionados. Automatic organization of email messages is still a challenge in machine learning. The problema of “email overload”, coined in 1998 by Whittaker et al, is presently affecting enterprise and power users. This thesis addresses automatic email organization by proposing a solution based on supervised learning algorithms that automatically labels email messages with tags. We approach tagging using previously created user-folders as tags and top-N ranking classifier output. Learning techniques are reviewed and the different fields of an email message are analyzed for their suitability for classification. Special attention is given to the textual fields (subject and body), by studying and testing different representations, different feature selection methods and several classification algorithms. The participant fields are analyzed and evaluated using classification algorithms that work with the vector-space model and a graph based representation. The diferente email fields are combined for classification using the classifier combination technique of Majority Voting. Experiments are done on a subset of the Enron Corpus and on a private data set from the Institute for Systems and Technologies of Information, Control and Communication (INSTICC). The data sets are extensively analyzed in order to understand the characteristics of the data. The evaluation of the system, using accuracy, shows great promise, with the experimental results presenting a significant improvement over related works. |
Identificador |
Tam, Tony - Learning techniques for automatic email message tagging. Lisboa: Instituto Superior de Engenharia de Lisboa, 2011. Dissertação de mestrado. |
Idioma(s) |
eng |
Direitos |
openAccess |
Palavras-Chave | #Aprendizagem automática #Classificação #Etiquetagem #Mensagens de correio electrónico #Categorização de texto #Machine learning #Text classification #Email tagging #Email foldering #Text categorization #Supervised learning |
Tipo |
masterThesis |