Development of computational tools for the integrated analysis of DNA microarray data with applications in cancer research


Autoria(s): Valente, Eduardo
Contribuinte(s)

Rocha, Miguel

Reis, R. M.

Data(s)

07/07/2015

Resumo

The MAP-i Doctoral Program of the Universities of Minho, Aveiro and Porto

DNA microarrays are one of the most used technologies for gene expression measurement. However, there are several distinct microarray platforms, from different manufacturers, each with its own measurement protocol, resulting in data that can hardly be compared or directly integrated. Data integration from multiple sources aims to improve the assertiveness of statistical tests and predictive modeling, reducing the data dimensionality problem. This work intends to establish a basis for the integration of gene expression measurements from several manufacturers, a problem that can be addressed at different levels. The reannotation process, will be addressed, representing a cornerstone of multi-platform integration. The proposed approach is based on a reannotation from probesets to transcripts, preserving valuable information for further analysis. This work will provide both the methods for this integration process, as well as computational tools to achieve these goals. World Health Organization ranks astrocytomas, brain tumors, in four grades, being the fourth grade the most aggressive. Glioblastoma, the fourth grade tumor, is one of the most severe human diseases that almost inevitability leads to death. Physicians address the classification in grades through direct inspection. In this context, there is a need for good automatic predictors of tumor grade, which are not affected by human misclassification errors and that can be made with less invasive diagnostic tools. Gene expression data from glial tumors will be used as case studies, considering data from Agilent, Affymetrix and Illumina platforms. This data will be used to perform the stages involved in the process of selecting a good tumor grade predictor. In this work, the information integration from heterogeneous platforms is highlighted, evidencing the particularities of choosing approaches working at gene, transcript or probeset levels. Distinct machine learning algorithms and integration methods are tested, analyzing their ability to produce a good set of predictors for tumor grade.

Os microarrays de ADN são uma das tecnologias mais utilizadas para a medição de expressão de genes. No entanto, existem várias plataformas distintas, de diferentes fabricantes, cada um com seu próprio protocolo de medição, resultando em dados que não podem ser diretamente comparados ou integrados. A integração de dados de múltiplas fontes visa melhorar a assertividade de testes estatísticos e modelação preditiva, reduzindo o problema da dimensionalidade dos dados. Este trabalho visa estabelecer uma base para a integração de medições de expressão de genes de vários fabricantes, um problema que tem diferentes níveis de abordagem. Será abordado o processo de re-anotação, uma pedra angular da integração multiplataforma. A abordagem proposta baseia-se na re-anotação de sondas para transcritos, preservando informação valiosa para análise posterior. A Organização Mundial da Saúde classifica os astrocitomas, tumores cerebrais, em quatro graus, sendo o grau quatro o mais agressivo. O glioblastoma, um astrocitoma de grau quatro, é uma das mais graves doenças humanas que quase inevitabilidade conduz à morte. Os médicos efetuam a classificação do tumor através de inspeção direta com métodos invasivos ou quando o paciente já está morto. Existe uma necessidade de bons indicadores de grau do tumor, que não sejam afetados por erro humano de classificação e que possam ser feitos com ferramentas de diagnóstico menos invasivas. Serão utilizados dados de expressão de genes de células da glia como caso de estudo, considerando-se dados de plataformas Agilent, Affymetrix e Illumina. Estes dados serão utilizados para executar as etapas envolvidas no processo de seleção de um bom modelo para previsão do grau do tumor. Neste trabalho, é destacada a integração de informações a partir de plataformas heterogéneas, evidenciando as particularidades de escolher abordagens a nível de genes, transcritos ou sondas. Serão testados diferentes algoritmos de aprendizagem de máquina e diferentes métodos de integração, analisando a sua capacidade de produzir um bom conjunto de modelos para prever o grau do tumor.

Identificador

http://hdl.handle.net/1822/38666

101399499

Idioma(s)

eng

Direitos

info:eu-repo/semantics/openAccess

Tipo

info:eu-repo/semantics/doctoralThesis