Modelo de data mining para detecção de tumores em exames de rastreio


Autoria(s): Santos, Vitor Nuno Patrocínio dos
Data(s)

25/02/2014

25/02/2014

01/09/2013

Resumo

Dissertação para obtenção do grau de Mestre em Engenharia Informática

O cancro da mama é uma das formas de cancro mais comum nas mulheres em todo o mundo. É actualmente o cancro, com excepção do cancro da pele, de maior incidência nas mulheres. A taxa de mortalidade que lhe está associada pode ser reduzida se a detecção ocorrer num estágio precoce da doença, normalmente, através de exames de rastreio designados por mamografias. Existem algumas ferramentas que digitalizam esses exames e extraem algumas características que depois de tratadas, permitem ajudar os especialistas a classificar os pacientes como doentes de cancro ou não. O objectivo deste trabalho é partir dessas características, construir e descrever um modelo de Data Mining para detecção do cancro da mama. É expectável que o modelo seja capaz de classificar correctamente todos os pacientes com cancro e, tenha um número reduzido de falsos positivos para evitar a realização de exames de diagnóstico invasivos em pacientes saudáveis. Os dados provenientes de exames médicos contêm diversos desafios, dada a dimensão e características dos dados, pelo que se torna necessário adoptar diversas técnicas de redução do conjunto e posteriormente avaliar o seu impacto nos resultados. São usadas diversas técnicas de selecção de atributos e balanceamento dos dados. São ainda comparados diversos algoritmos de aprendizagem, provenientes de diferentes famílias. É analisado e avaliado, o seu desempenho, face às diversas técnicas usadas na redução da dimensão dos dados. São usados meta-algoritmos como o ensemble, criado a partir da combinação de vários algoritmos base, tendo como objectivo a optimização da classificação. Os resultados obtidos por combinação destas técnicas são então comparados e avaliados. Verifica-se que alguns algoritmos cumprem os objectivos propostos Também se mostra que o uso de PCA incrementa substancialmente a prestação do Naive Bayes ao contrário do Random Forest onde o desempenho é significativamente penalizado. O balanceamento também tem impacto na classificação embora menos significativo. Um estudo de parametrização dos algoritmos analisados será um trabalho a desenvolver no futuro.

Abstract: Breast cancer is one of the most common cancer in women worldwide. Nowadays, breast cancer is a type of cancer with higher incidence in women, excluding skin cancer. The mortality rate can be reduced if detection occurs at an earlier stage of disease, generally by means of screening tests known as mammograms. There are some tools in the market that digitize these exams, extract the features of the images and make that available to experts after treatment, helping them to classify the patients as cancer patients or not. The aim of this work is to construct and describe a data mining model for the detection of breast cancer, based on these features. It is expected that the model will be able to correctly classify all patients with cancer and reduce the number of false positives, avoiding invasive diagnostic tests in healthy patients. Data from medical exams contain many challenges, given the size and characteristics of the data, which makes it necessary to adopt several techniques to reduce the data set and then evaluate their impact on the results. Several techniques are used for feature selection and balancing the data. There is also a comparison of different learning algorithms from different families. Is analyzed and evaluated its performance considering the various techniques used to reduce the size of data. Ensembles are used to combine several basic algorithms, with the aim to optimize the classification process. The results obtained by combining these techniques are then compared and evaluated. It turns out that some algorithms meet their objectives. It is also shown that the use of PCA increases substantially the performance of Naive Bayes, unlike Random Forest where the performance is greatly penalized. The balancing also has impact on the classification, although that impact is less significant A study of parametrization of the studied algorithms shall be made in a future work.

Identificador

SANTOS, Vitor Nuno Patrocínio dos Santos - Modelo da data mining para detecção de tumores em exames de rastreio. Lisboa: Instituto Superior de Engenharia de Lisboa, 2013. Dissertação de mestrado.

http://hdl.handle.net/10400.21/3243

 201226049

Idioma(s)

por

Direitos

openAccess

Palavras-Chave #Data mining #Cancro da mama #Breast cancer #Selecção de atributos #Feature selection #Balanceamento de dados #Principal componente analysis #Classificaçao
Tipo

masterThesis

Publicador

Instituto Superior de Engenharia de Lisboa