Analysis of RNA-seq data from the interaction of Coffea spp. - Colletotrichum kahawae


Autoria(s): Fino, Joana Rita Vieira
Contribuinte(s)

Paulo, Octávio, 1963-

Castro, Dora Cristina Vicente Batista Lyon de, 1969-

Data(s)

26/08/2014

29/07/2016

2014

Resumo

Tese de mestrado em Bioinformática e Biologia Computacional (Bioinformática), apresentada à Universidade de Lisboa, através da Faculdade de Ciências, 2014

O café e um dos produtos mais comercializados no mundo, com extrema importância económica e social, influenciando milhões de pessoas que dependem direta ou indiretamente desta industria. No entanto, a cultura do café e extremamente afetada por agentes patogénicos, nomeadamente fungos. Colletotrichum kahawae Waller and Bridge e um desses agentes, sendo responsável pela antracnose dos frutos verdes do cafeeiro, conhecida como “Coffee Berry Disease”. Esta doença afeta a espécie Coffea arabica L., a espécie de maior importância no mercado, apresentando os maiores volumes de produção. Atualmente, a antracnose dos frutos verdes do cafeeiro incide sobretudo em zonas de alta altitude, encontrando-se confinada ao continente africano. Contudo tal não significa que não se possa dispersar para outras zonas de cultivo onde as condições de desenvolvimento, tanto para a planta como para o fungo, sejam favoráveis. Foram desenvolvidas várias estratégias de melhoramento para o combate a doença, levando ao desenvolvimento de algumas variedades resistentes no Quénia. Apesar de já serem atualmente conhecidos vários genótipos com um caracter de resistência a esta doença, as bases genéticas e moleculares da mesma são ainda desconhecidas. Com o intuito de compreender as bases subjacentes ao processo de resistência, recorreu-se a sequenciação comparativa do transcriptoma de dois genótipos de cafeeiro, um susceptível (Caturra) e outro resistente (Catimor 88) durante as primeiras horas de interacção de C. kahawae, através da plataforma Illumina. A análise destes dados visou a identificação de genes diferencialmente expressos, envolvidos na resistência da planta a doença. Os dados desta sequenciação foram previamente analisados pela empresa ARK genomics (UK), embora utilizando softwares e parâmetros padronizados, normalmente aplicados para todo o tipo de analises deste género, desde bactérias a plantas. Com o objetivo de melhorar e aprofundar a analise, foi desenvolvida uma nova analise customizada, que aqui se apresenta, em comparação com a analise anterior. Varias ferramentas e abordagens foram aplicadas nesta nova analise, tendo em conta a inexistência de um genoma de referencia. Neste trabalho foi possível identificar vários problemas e cuidados a ter desde o tratamento das “reads”, ate ao cálculo de diferenças de expressão, bem como simples diferenças entre softwares. Neste novo estudo de expressão teve-se ainda em conta análises comparativas a diferentes níveis que não tinham sido efetuadas na analise anterior. A anotação de “unigenes” diferencialmente expressos indica uma tendência para categorias funcionais diretamente relacionadas com a produção de energia, envolvida no crescimento e desenvolvimento da planta, e com processos ja identificados como envolvidos na resposta de defesa a agentes patogénicos tais como o metabolismo de açúcares ou a biossíntese de fenilalanina e fenilpropanoides. De um modo geral, os objetivos deste trabalho foram cumpridos, tendo-se desenvolvido uma linha de análise que permitiu uma melhor e mais adequada exploração dos dados gerados por sequenciação de transcriptoma. Espera-se assim que os resultados obtidos venha a contribuir para o aumento do conhecimento científico sobre a resposta de defesa por parte da planta, gerando informações uteis para o estabelecimento de programas de melhoramento que apoiem a produção sustentável de uma cultura tao relevante a nível económico e social. Por outro lado, espera-se que este trabalho mostre a necessidade de uma analise cuidada de dados de “next generation sequencing”, em especial dados resultantes da sequenciação de RNA, tecnologia ainda bastante recente e sem um processo universalmente aceite para a analise correta dos dados gerados.

Coffee is one of the most traded products in the world, with extremely social and economic importance, and millions of people who depend directly or indirectly on it. Coffee berry disease (CBD), caused by the fungus Colletotrichum kahawae Waller & Bridge, is considered the biggest threat to Arabica coffee production in Africa at high altitude. In Coffea arabica L. plantations, CBD can cause up to 20-50% of crop losses, reaching 80% in years of severe epidemics if chemical control is not applied. In order to control this disease, several coffee improvement strategies were developed which leaded to the selection of few hybrid commercial resistant varieties in Kenya. Therefore, breeding for coffee resistance remains a powerful strategy to fight CBD, in an economic and sustainable manner. With the purpose of gaining some insights on coffee resistance process, a RNA Illumina sequencing approach was used to characterize the transcriptional profile of two coffee genotypes, respectively susceptible (Caturra) and resistant (Catimor 88) to C. kahawae, during the early stages of the infection process. The differential expression analysis of this data aimed to identify genes putatively involved in the resistance process. Although a previous analysis was made by the sequencing company ARK genomics (UK), this was only based on non-specific methods generally applied to a wide range of organisms. To improve the analysis and consequently the results obtained, a new approach was taken aiming to produce a more customized workflow. Comparatively with the previous analysis, the present approach showed some improvement regarding the transcriptome assembly quality and size, or the level of confidence of the differential expression results, despite the CPU and RAM limitations. It was possible to account for additional comparative analyses for the differential expression assessment and to identify the enriched functional categories representing the differential expressed unigenes. Regarding the biological results, the resistant genotype showed a high effective response to the infection while the susceptible genotype showed an early stress-leaded response by the infection. The KOG and KEGG annotation of the differential expressed unigenes, was able to identify two main domains: plant development and defense response. It is expected that the results obtained here will contribute to increase the scientific knowledge on the plant defense response , generating useful information able to guide the establishment of breeding programs that support sustainable production. Moreover, it is expected that this study show the necessity of careful analysis of next generation sequencing data, especially when dealing with recent methods like RNA-seq, for which there is no clear consensus about the best analysis practices.

Identificador

http://hdl.handle.net/10451/11738

Idioma(s)

eng

Direitos

openAccess

Palavras-Chave #Cafeeiro #Antracnose dos frutos verdes #Mecanismos de defesa #Assemblagem do transcriptoma #Expressão diferencial #Análise comparativa #Teses de mestrado - 2014
Tipo

masterThesis