64 resultados para 060102 Bioinformatics
Resumo:
Le rôle important joué par la mitochondrie dans la cellule eucaryote est admis depuis longtemps. Cependant, la composition exacte des mitochondries, ainsi que les processus biologiques qui sy déroulent restent encore largement inconnus. Deux facteurs principaux permettent dexpliquer pourquoi létude des mitochondries progresse si lentement : le manque defficacité des méthodes didentification des protéines mitochondriales et le manque de précision dans lannotation de ces protéines. En conséquence, nous avons développé un nouvel outil informatique, YimLoc, qui permet de prédire avec succès les protéines mitochondriales à partir des séquences génomiques. Cet outil intègre plusieurs indicateurs existants, et sa performance est supérieure à celle des indicateurs considérés individuellement. Nous avons analysé environ 60 génomes fongiques avec YimLoc afin de lever la controverse concernant la localisation de la bêta-oxydation dans ces organismes. Contrairement à ce qui était généralement admis, nos résultats montrent que la plupart des groupes de Fungi possèdent une bêta-oxydation mitochondriale. Ce travail met également en évidence la diversité des processus de bêta-oxydation chez les champignons, en corrélation avec leur utilisation des acides gras comme source dénergie et de carbone. De plus, nous avons étudié le composant clef de la voie de bêta-oxydation mitochondriale, lacyl-CoA déshydrogénase (ACAD), dans 250 espèces, couvrant les 3 domaines de la vie, en combinant la prédiction de la localisation subcellulaire avec la classification en sous-familles et linférence phylogénétique. Notre étude suggère que les gènes ACAD font partie dune ancienne famille qui a adopté des stratégies évolutionnaires innovatrices afin de générer un large ensemble denzymes susceptibles dutiliser la plupart des acides gras et des acides aminés. Finalement, afin de permettre la prédiction de protéines mitochondriales à partir de données autres que les séquences génomiques, nous avons développé le logiciel TESTLoc qui utilise comme données des Expressed Sequence Tags (ESTs). La performance de TESTLoc est significativement supérieure à celle de tout autre outil de prédiction connu. En plus de fournir deux nouveaux outils de prédiction de la localisation subcellulaire utilisant différents types de données, nos travaux démontrent comment lassociation de la prédiction de la localisation subcellulaire à dautres méthodes danalyse in silico permet daméliorer la connaissance des protéines mitochondriales. De plus, ces travaux proposent des hypothèses claires et faciles à vérifier par des expériences, ce qui présente un grand potentiel pour faire progresser nos connaissances des métabolismes mitochondriaux.
Resumo:
[Français] Une fraction importante des génomes eucaryotes est constituée de Gènes Répétés en Tandem (GRT). Un mécanisme fondamental dans l’évolution des GRT est la recombinaison inégale durant la méiose, entrainant la duplication locale (en tandem) de segments chromosomiques contenant un ou plusieurs gènes adjacents. Différents algorithmes ont été proposés pour inférer une histoire de duplication en tandem pour un cluster de GRT. Cependant, leur utilisation est limitée dans la pratique, car ils ne tiennent pas compte d’autres événements évolutifs pourtant fréquents, comme les inversions, les duplications inversées et les délétions. Cette thèse propose différentes approches algorithmiques permettant d’intégrer ces événements dans le modèle de duplication en tandem classique. Nos contributions sont les suivantes: • Intégrer les inversions dans un modèle de duplication en tandem simple (duplication d’un gène à la fois) et proposer un algorithme exact permettant de calculer le nombre minimal d’inversions s’étant produites dans l’évolution d’un cluster de GRT. • Généraliser ce modèle pour l’étude d’un ensemble de clusters orthologues dans plusieurs espèces. • Proposer un algorithme permettant d’inférer l’histoire évolutive d’un cluster de GRT en tenant compte des duplications en tandem, duplications inversées, inversions et délétions de segments chromosomiques contenant un ou plusieurs gènes adjacents.
Resumo:
Bien que les champignons soient régulièrement utilisés comme modèle d'étude des systèmes eucaryotes, leurs relations phylogénétiques soulèvent encore des questions controversées. Parmi celles-ci, la classification des zygomycètes reste inconsistante. Ils sont potentiellement paraphylétiques, i.e. regroupent de lignées fongiques non directement affiliées. La position phylogénétique du genre Schizosaccharomyces est aussi controversée: appartient-il aux Taphrinomycotina (précédemment connus comme archiascomycetes) comme prédit par l'analyse de gènes nucléaires, ou est-il plutôt relié aux Saccharomycotina (levures bourgeonnantes) tel que le suggère la phylogénie mitochondriale? Une autre question concerne la position phylogénétique des nucléariides, un groupe d'eucaryotes amiboïdes que l'on suppose étroitement relié aux champignons. Des analyses multi-gènes réalisées antérieurement n'ont pu conclure, étant donné le choix d'un nombre réduit de taxons et l'utilisation de six gènes nucléaires seulement. Nous avons abordé ces questions par le biais d'inférences phylogénétiques et tests statistiques appliqués à des assemblages de données phylogénomiques nucléaires et mitochondriales. D'après nos résultats, les zygomycètes sont paraphylétiques (Chapitre 2) bien que le signal phylogénétique issu du jeu de données mitochondriales disponibles est insuffisant pour résoudre l'ordre de cet embranchement avec une confiance statistique significative. Dans le Chapitre 3, nous montrons à l'aide d'un jeu de données nucléaires important (plus de cent protéines) et avec supports statistiques concluants, que le genre Schizosaccharomyces appartient aux Taphrinomycotina. De plus, nous démontrons que le regroupement conflictuel des Schizosaccharomyces avec les Saccharomycotina, venant des données mitochondriales, est le résultat d'un type d'erreur phylogénétique connu: l'attraction des longues branches (ALB), un artéfact menant au regroupement d'espèces dont le taux d'évolution rapide n'est pas représentatif de leur véritable position dans l'arbre phylogénétique. Dans le Chapitre 4, en utilisant encore un important jeu de données nucléaires, nous démontrons avec support statistique significatif que les nucleariides constituent le groupe lié de plus près aux champignons. Nous confirmons aussi la paraphylie des zygomycètes traditionnels tel que suggéré précédemment, avec support statistique significatif, bien que ne pouvant placer tous les membres du groupe avec confiance. Nos résultats remettent en cause des aspects d'une récente reclassification taxonomique des zygomycètes et de leurs voisins, les chytridiomycètes. Contrer ou minimiser les artéfacts phylogénétiques telle l'attraction des longues branches (ALB) constitue une question récurrente majeure. Dans ce sens, nous avons développé une nouvelle méthode (Chapitre 5) qui identifie et élimine dans une séquence les sites présentant une grande variation du taux d'évolution (sites fortement hétérotaches - sites HH); ces sites sont connus comme contribuant significativement au phénomène d'ALB. Notre méthode est basée sur un test de rapport de vraisemblance (likelihood ratio test, LRT). Deux jeux de données publiés précédemment sont utilisés pour démontrer que le retrait graduel des sites HH chez les espèces à évolution accélérée (sensibles à l'ALB) augmente significativement le support pour la topologie « vraie » attendue, et ce, de façon plus efficace comparée à d'autres méthodes publiées de retrait de sites de séquences. Néanmoins, et de façon générale, la manipulation de données préalable à l'analyse est loin d’être idéale. Les développements futurs devront viser l'intégration de l'identification et la pondération des sites HH au processus d'inférence phylogénétique lui-même.
Resumo:
La néphropathie diabétique est une maladie rénale caractérisée par un syndrome néphrotique et de la glomérulosclérose. Celle-ci est reliée à l’angiopathie de capillaires suite au diabète. Il s’agit d’une importante cause d’insuffisance rénale en Amérique. Or, les anomalies tubulaires comme l’apoptose ou le détachement de tubules des glomérules sont reconnues comme étant de bons marqueurs de progression de cette maladie. Ainsi, il a été proposé au cours des travaux reliés à cette thèse d’étudier les différents mécanismes moléculaires reliés à l’apoptose des tubules proximaux, en particulier dans un thème de relation avec les dommages reliés aux espèces réactives oxygénées (ROS). Une des hypothèses développée au cours de précédents travaux faisait état que l’une des sources initiales qui entrainent le développement de dommages tubulaires soit régulée à travers la production de ROS dérivés des NADPH oxydases. Ainsi, une des premières séries d’expériences entreprises au cours de cette thèse a été effectuée sur un modèle animal de diabète de type 2, la souris db/db. Suite à la caractérisation des différentes pathologies rénales et leur réduction par la surexpression de l’enzyme antioxydante catalase dans les tubules proximaux, des expériences de micro-puces d’expression génétiques furent effectuées. À l’aide de cet outil et par des analyses bioinformatiques, il a été possible d’établir un profilage de gènes reliés à différentes voies de signalisation modulées par le diabète et la catalase. Ainsi, il a été possible d’effectuer de plus amples études sur des gènes reliés à l’apoptose surexprimé dans les tubules proximaux de souris diabétiques. Un des gènes pro-apoptotique mieux caractérisé durant cette thèse fut le gène Bmf, un membre de la famille des régulateurs de Bcl-2 impliqués dans l’apoptose via le relâchement de cytochrome c de la mitochondrie. Ainsi, il a été déterminé que ce gène est surexprimé dans les tubules proximaux de souris diabétiques, et que celui-ci était augmenté dans différents modèles in vitro de diabète. Cela a permis de conclure que Bmf joue sans doute un rôle important la régulation de l’apoptose et de l’atrophie des tubules proximaux. Une autre étude effectuée dans le cadre de cette thèse était reliée avec l’utilisation d’un modèle transgénique afin de mieux définir le rôle que jouent les dommages reliés au stress oxydatif dans la progression des pathologies rénales reliées à l’induction du système rénine-angiotensine. Les résultats obtenus ont permis de déterminer que la surexpression de l’enzyme antioxydante catalase a permis de réduire les différentes pathologies rénales observées dans les souris transgéniques, ce qui permet de conclure que les espèces réactives oxygénées jouen un rôle important dans le développement de l’hypertension et des dommages rénaux.
Resumo:
Les séquences protéiques naturelles sont le résultat net de l’interaction entre les mécanismes de mutation, de sélection naturelle et de dérive stochastique au cours des temps évolutifs. Les modèles probabilistes d’évolution moléculaire qui tiennent compte de ces différents facteurs ont été substantiellement améliorés au cours des dernières années. En particulier, ont été proposés des modèles incorporant explicitement la structure des protéines et les interdépendances entre sites, ainsi que les outils statistiques pour évaluer la performance de ces modèles. Toutefois, en dépit des avancées significatives dans cette direction, seules des représentations très simplifiées de la structure protéique ont été utilisées jusqu’à présent. Dans ce contexte, le sujet général de cette thèse est la modélisation de la structure tridimensionnelle des protéines, en tenant compte des limitations pratiques imposées par l’utilisation de méthodes phylogénétiques très gourmandes en temps de calcul. Dans un premier temps, une méthode statistique générale est présentée, visant à optimiser les paramètres d’un potentiel statistique (qui est une pseudo-énergie mesurant la compatibilité séquence-structure). La forme fonctionnelle du potentiel est par la suite raffinée, en augmentant le niveau de détails dans la description structurale sans alourdir les coûts computationnels. Plusieurs éléments structuraux sont explorés : interactions entre pairs de résidus, accessibilité au solvant, conformation de la chaîne principale et flexibilité. Les potentiels sont ensuite inclus dans un modèle d’évolution et leur performance est évaluée en termes d’ajustement statistique à des données réelles, et contrastée avec des modèles d’évolution standards. Finalement, le nouveau modèle structurellement contraint ainsi obtenu est utilisé pour mieux comprendre les relations entre niveau d’expression des gènes et sélection et conservation de leur séquence protéique.
Resumo:
Le cancer épithélial des ovaires (CEO) est classifié en sous types histopathologiques identifiés tel que séreux, endométrioide, à cellules claires et mucineux. Une analyse génétique réalisée au niveau moléculaire a suggéré un rôle pour des gènes suppresseurs de tumeur localisés sur le bras court du chromosome 3p21.3 dans la pathogénèse du CEO de type séreux. Notre objectif était d’évaluer le profil d’expression de HYAL-1, localisé dans cette même région, dans les différents sous types du CEO, et de vérifier une éventuelle corrélation avec l’expression des récepteurs d’hormones stéroïdiennes. Pour se faire, nous avons analysé par RT-PCR quantitative l’expression de l’ARNm de HYAL-1, des récepteurs d’estrogène (ER-α et ER-β) et du récepteur de progestérone (PR) dans des échantillons de tissus extraits de tumeurs du CEO provenant de deux cohortes indépendantes et dans des lignées cellulaires. Nous avons également réalisé des analyses bioinformatiques à partir de l’expression de ces gènes en ayant recours à une base de données de microarray disponible en ligne et ouverte au public. Par la suite, nous avons mesuré l’activité enzymatique de HYAL-1 dans des lignées cellulaires du CEO et dans des échantillons de plasma. Nos résultats ont montré que l’expression de l’ARNm de HYAL-1 était élevée dans le type à cellules claires et mucineux mais non dans les types séreux et endométrioides, autant dans les échantillons sains que de ceux provenant de tumeurs bénignes. De façon cohérente, le niveau d’ARNm et l’activité enzymatique de HYAL-1 étaient élevés dans les lignées cellulaires à cellules claires et mucineuses. Nous avons aussi démontré qu’il y avait une corrélation inverse entre les niveaux de l’ARNm de HYAL-1 et ceux d’ER-α et PR dans les échantillons de tissus de CEO du type mucineux et à cellules claires. De façon similaire, nous avons noté que l’activité de HYAL-1 était élevée dans le plasma de ces mêmes patients. En conséquence nos travaux proposent HYAL-1 en tant que biomarqueur potentiel dans le cas des CEO de type à cellules claires et mucineux présentant un faible niveau d’expression d’ER-α et PR.
Resumo:
Nous avons étudié le transcriptome de neuf échantillons d'ARN extraits de cultures primaires de cellules non tumorales de l’épithélium de surface de l’ovaire (NOSE) provenant de quatre donneuses non porteuses de mutation, deux mutées sur BRCA1 et trois sur BRCA2, ainsi que de quatre échantillons d’ARN extraits de cultures primaires de cellules tumorales de l’ovaire (TOV) provenant de trois donneuses porteuses de mutation sur BRCA1 et une sur BRCA2. Nous avons identifié, pour la première fois, les signatures moléculaires associées à la présence d’une mutation de BRCA1 et BRCA2 dans les cellules NOSEs ainsi que la signature associée à la transformation tumorale des cellules NOSEs en TOVs chez les porteuses de mutation de BRCA1. Nous avons également localisé les domaines chromosomiques comportant des gènes corégulés en association avec la présence d’une mutation de BRCA1 dans les cellules NOSEs. Les allèles sauvage et muté de BRCA2 étaient exprimés dans les cellules TOVs provenant des porteuses de la mutation 8765delAG sur BRCA2. Nous avons observé que le niveau d’expression des transcrits de BRCA2 était plus élevé dans les cellules provenant des tumeurs ovariennes les plus agressives chez les femmes porteuses de la mutation 8765delAG sur BRCA2, les transcrits correspondants à l’allèle muté contribuant avec un pourcentage élevé du niveau d’expression total du gène. Le phénotype tumoral observé chez les Canadiennes Françaises porteuses de cette mutation pourrait résulter d’un effet de dosage de l’allèle muté.
Resumo:
L’évolution des protéines est un domaine important de la recherche en bioinformatique et catalyse l'intérêt de trouver des outils d'alignement qui peuvent être utilisés de manière fiable et modéliser avec précision l'évolution d'une famille de protéines. TM-Align (Zhang and Skolnick, 2005) est considéré comme l'outil idéal pour une telle tâche, en termes de rapidité et de précision. Par conséquent, dans cette étude, TM-Align a été utilisé comme point de référence pour faciliter la détection des autres outils d'alignement qui sont en mesure de préciser l'évolution des protéines. En parallèle, nous avons élargi l'actuel outil d'exploration de structures secondaires de protéines, Helix Explorer (Marrakchi, 2006), afin qu'il puisse également être utilisé comme un outil pour la modélisation de l'évolution des protéines.
Resumo:
Les gènes codant pour des protéines peuvent souvent être regroupés et intégrés en modules fonctionnels par rapport à un organelle. Ces modules peuvent avoir des composantes qui suivent une évolution corrélée pouvant être conditionnelle à un phénotype donné. Les gènes liés à la motilité possèdent cette caractéristique, car ils se suivent en cascade en réponse à des stimuli extérieurs. L’hyperthermophilie, d’autre part, est interreliée à la reverse gyrase, cependant aucun autre élément qui pourrait y être associé avec certitude n’est connu. Ceci peut être dû à un déplacement de gènes non orthologues encore non résolu. En utilisant une approche bio-informatique, une modélisation mathématique d’évolution conditionnelle corrélée pour trois gènes a été développée et appliquée sur des profils phylétiques d’archaea. Ceci a permis d’établir des théories quant à la fonction potentielle du gène du flagelle FlaD/E ainsi que l’histoire évolutive des gènes lui étant liés et ayant contribué à sa formation. De plus, une histoire évolutive théorique a été établie pour une ligase liée à l’hyperthermophilie.
Resumo:
La détermination de la structure tertiaire du ribosome fut une étape importante dans la compréhension du mécanisme de la synthèse des protéines. Par contre, l’élucidation de la structure du ribosome comme tel ne permet pas une compréhension de sa fonction. Pour mieux comprendre la nature des relations entre la structure et la fonction du ribosome, sa structure doit être étudiée de manière systématique. Au cours des dernières années, nous avons entrepris une démarche systématique afin d’identifier et de caractériser de nouveaux motifs structuraux qui existent dans la structure du ribosome et d’autres molécules contenant de l’ARN. L’analyse de plusieurs exemples d’empaquetage de deux hélices d’ARN dans la structure du ribosome nous a permis d’identifier un nouveau motif structural, nommé « G-ribo ». Dans ce motif, l’interaction d’une guanosine dans une hélice avec le ribose d’un nucléotide d’une autre hélice donne naissance à un réseau d’interactions complexes entre les nucléotides voisins. Le motif G-ribo est retrouvé à 8 endroits dans la structure du ribosome. La structure du G-ribo possède certaines particularités qui lui permettent de favoriser la formation d’un certain type de pseudo-nœuds dans le ribosome. L’analyse systématique de la structure du ribosome et de la ARNase P a permis d’identifier un autre motif structural, nommé « DTJ » ou « Double-Twist Joint motif ». Ce motif est formé de trois courtes hélices qui s’empilent l’une sur l’autre. Dans la zone de contact entre chaque paire d’hélices, deux paires de bases consécutives sont surenroulées par rapport à deux paires de bases consécutives retrouvées dans l’ARN de forme A. Un nucléotide d’une paire de bases est toujours connecté directement à un nucléotide de la paire de bases surenroulée, tandis que les nucléotides opposés sont connectés par un ou plusieurs nucléotides non appariés. L’introduction d’un surenroulement entre deux paires de bases consécutives brise l’empilement entre les nucléotides et déstabilise l’hélice d’ARN. Dans le motif DTJ, les nucléotides non appariés qui lient les deux paires de bases surenroulées interagissent avec une des trois hélices qui forment le motif, offrant ainsi une stratégie élégante de stabilisation de l’arrangement. Pour déterminer les contraintes de séquences imposées sur la structure tertiaire d’un motif récurrent dans le ribosome, nous avons développé une nouvelle approche expérimentale. Nous avons introduit des librairies combinatoires de certains nucléotides retrouvés dans des motifs particuliers du ribosome. Suite à l’analyse des séquences alternatives sélectionnées in vivo pour différents représentants d’un motif, nous avons été en mesure d’identifier les contraintes responsables de l’intégrité d’un motif et celles responsables d’interactions avec les éléments qui forment le contexte structural du motif. Les résultats présentés dans cette thèse élargissent considérablement notre compréhension des principes de formation de la structure d’ARN et apportent une nouvelle façon d’identifier et de caractériser de nouveaux motifs structuraux d’ARN.
Resumo:
Les toxines de l’anthrax font partie de la famille des toxines A-B dans laquelle la moitié B se fixe à la membrane de la cellule permettant par la suite la translocation de la moitié A. Dans le cas de l’anthrax, la moitié B est représentée par le Protective Antigen (PA) et la moitié A par les deux protéines Edema Factor (EF) et Lethal Factor (LF). Après le recrutement par les récepteurs cellulaires (CMG2 et TEM8), PA s’organise en heptamère. Il peut fixer jusqu'à 3 ligands (EF et LF) avant d'être endocyté. Les modèles actuels de PA suggèrent que la baisse de pH à l’intérieur des endosomes permet un changement de conformation de la forme pré-pore vers la forme pore et que les ligands EF et LF passeraient au travers le pore pour entrer dans le cytoplasme. Cependant, le diamètre du pore est environ dix fois inférieur à celui des ligands (10 Å contre 100 Å). Un processus de folding/unfolding a été proposé mais demeure controversé. Afin d'identifier le processus de passage des facteurs EF et LF dans le cytoplasme, nous avons déterminé par cryo-microscopie électronique combinée avec l’analyse d’image les structures tridimensionnelles des complexes formés par PA et LF aux étapes prépore et pore. Par la suite, une étude complémentaire par dynamique moléculaire nous a permis de modéliser à haute résolution les différentes interactions qui ont lieu au sein du complexe. La structure 3D du complexe prépore combiné à 3 LF a été déterminée à une résolution de 14 Å. Nous avons aussi calculé une structure préliminaire du complexe pore également combiné à 3 LF Celles-ci n’ont jamais été résolues auparavant et leur connaissance permet d’envisager l’étude en profondeur du mécanisme infectieux de l’Anthrax in vivo.
Resumo:
L’immunité adaptive et la discrimination entre le soi et le non-soi chez les vertébrés à mâchoire reposent sur la présentation de peptides par les récepteurs d’histocompatibilité majeur de classe I. Les peptides antigéniques, présentés par les molécules du complexe d’histocompatibilité (CMH), sont scrutés par les lymphocytes T CD8 pour une réponse immunitaire appropriée. Le répertoire des peptides du CMH de classe I, aussi appelé immunopeptidome, est généré par la dégradation protéosomale des protéines endogènes, et a un rôle essentiel dans la régulation de l’immunité cellulaire. La composition de l’immunopeptidome dépend du type de cellule et peut présenter des caractéristiques liées à des maladies comme le cancer. Les peptides antigéniques peuvent être utilisés à des fins immunothérapeutiques notamment dans le traitement voire la prévention de certains cancers. La spectrométrie de masse est un outil de choix pour l’identification, le séquençage et la caractérisation de ces peptides. Cependant, la composition en acides aminés, la faible abondance et la diversité de ces peptides compliquent leur détection et leur séquençage. Nous avons développé un programme appelé StatPeaks qui permet de calculer un certains nombres de statistiques relatives à la fragmentation des peptides. À l’aide de ce programme, nous montrons sans équivoque que les peptides du CMH classe I, en mode de fragmentation par dissociation induite par collision (CID), fragmentent très différemment des peptides trypsiques communément utilisés en protéomique. Néanmoins, la fragmentation par décomposition induite par collision à plus haute énergie (HCD) proposée par le spectromètre LTQ-Orbitrap Velos améliore la fragmentation et fournit une haute résolution qui permet d’obtenir une meilleure confiance dans l’identification des peptides du CMH de classe I. Cet avantage permet d’effectuer le séquençage de novo pour identifier les variants polymorphes qui ne sont normalement pas identifiés par les recherches utilisant des bases de données. La comparaison des programmes de séquençage Lutefisk, pepNovo, pNovo, Vonode et Peaks met en évidence que le dernier permet d’identifier un plus grand nombre de peptides du CMH de classe I. Ce programme est intégré dans une chaîne de traitement de recherche d’antigènes mineurs d’histocompatibilité. Enfin, une base de données contenant les informations spectrales de plusieurs centaines de peptides du CMH de classe I accessible par Internet a été développée.
Resumo:
La technologie des microarrays demeure à ce jour un outil important pour la mesure de l'expression génique. Au-delà de la technologie elle-même, l'analyse des données provenant des microarrays constitue un problème statistique complexe, ce qui explique la myriade de méthodes proposées pour le pré-traitement et en particulier, l'analyse de l'expression différentielle. Toutefois, l'absence de données de calibration ou de méthodologie de comparaison appropriée a empêché l'émergence d'un consensus quant aux méthodes d'analyse optimales. En conséquence, la décision de l'analyste de choisir telle méthode plutôt qu'une autre se fera la plupart du temps de façon subjective, en se basant par exemple sur la facilité d'utilisation, l'accès au logiciel ou la popularité. Ce mémoire présente une approche nouvelle au problème de la comparaison des méthodes d'analyse de l'expression différentielle. Plus de 800 pipelines d'analyse sont appliqués à plus d'une centaine d'expériences sur deux plateformes Affymetrix différentes. La performance de chacun des pipelines est évaluée en calculant le niveau moyen de co-régulation par l'entremise de scores d'enrichissements pour différentes collections de signatures moléculaires. L'approche comparative proposée repose donc sur un ensemble varié de données biologiques pertinentes, ne confond pas la reproductibilité avec l'exactitude et peut facilement être appliquée à de nouvelles méthodes. Parmi les méthodes testées, la supériorité de la sommarisation FARMS et de la statistique de l'expression différentielle TREAT est sans équivoque. De plus, les résultats obtenus quant à la statistique d'expression différentielle corroborent les conclusions d'autres études récentes à propos de l'importance de prendre en compte la grandeur du changement en plus de sa significativité statistique.
Resumo:
L’explosion du nombre de séquences permet à la phylogénomique, c’est-à-dire l’étude des liens de parenté entre espèces à partir de grands alignements multi-gènes, de prendre son essor. C’est incontestablement un moyen de pallier aux erreurs stochastiques des phylogénies simple gène, mais de nombreux problèmes demeurent malgré les progrès réalisés dans la modélisation du processus évolutif. Dans cette thèse, nous nous attachons à caractériser certains aspects du mauvais ajustement du modèle aux données, et à étudier leur impact sur l’exactitude de l’inférence. Contrairement à l’hétérotachie, la variation au cours du temps du processus de substitution en acides aminés a reçu peu d’attention jusqu’alors. Non seulement nous montrons que cette hétérogénéité est largement répandue chez les animaux, mais aussi que son existence peut nuire à la qualité de l’inférence phylogénomique. Ainsi en l’absence d’un modèle adéquat, la suppression des colonnes hétérogènes, mal gérées par le modèle, peut faire disparaître un artéfact de reconstruction. Dans un cadre phylogénomique, les techniques de séquençage utilisées impliquent souvent que tous les gènes ne sont pas présents pour toutes les espèces. La controverse sur l’impact de la quantité de cellules vides a récemment été réactualisée, mais la majorité des études sur les données manquantes sont faites sur de petits jeux de séquences simulées. Nous nous sommes donc intéressés à quantifier cet impact dans le cas d’un large alignement de données réelles. Pour un taux raisonnable de données manquantes, il appert que l’incomplétude de l’alignement affecte moins l’exactitude de l’inférence que le choix du modèle. Au contraire, l’ajout d’une séquence incomplète mais qui casse une longue branche peut restaurer, au moins partiellement, une phylogénie erronée. Comme les violations de modèle constituent toujours la limitation majeure dans l’exactitude de l’inférence phylogénétique, l’amélioration de l’échantillonnage des espèces et des gènes reste une alternative utile en l’absence d’un modèle adéquat. Nous avons donc développé un logiciel de sélection de séquences qui construit des jeux de données reproductibles, en se basant sur la quantité de données présentes, la vitesse d’évolution et les biais de composition. Lors de cette étude nous avons montré que l’expertise humaine apporte pour l’instant encore un savoir incontournable. Les différentes analyses réalisées pour cette thèse concluent à l’importance primordiale du modèle évolutif.
Resumo:
Les transferts horizontaux de gènes (THG) ont été démontrés pour jouer un rôle important dans l'évolution des procaryotes. Leur impact a été le sujet de débats intenses, ceux-ci allant même jusqu'à l'abandon de l'arbre des espèces. Selon certaines études, un signal historique dominant est présent chez les procaryotes, puisque les transmissions horizontales stables et fonctionnelles semblent beaucoup plus rares que les transmissions verticales (des dizaines contre des milliards). Cependant, l'effet cumulatif des THG est non-négligeable et peut potentiellement affecter l'inférence phylogénétique. Conséquemment, la plupart des chercheurs basent leurs inférences phylogénétiques sur un faible nombre de gènes rarement transférés, comme les protéines ribosomales. Ceux-ci n'accordent cependant pas autant d'importance au modèle d'évolution utilisé, même s'il a été démontré que celui-ci est important lorsqu'il est question de résoudre certaines divergences entre ancêtres d'espèces, comme pour les animaux par exemple. Dans ce mémoire, nous avons utilisé des simulations et analyser des jeux de données d'Archées afin d'étudier l'impact relatif des THG ainsi que l'impact des modèles d'évolution sur la précision phylogénétique. Nos simulations prouvent que (1) les THG ont un impact limité sur les phylogénies, considérant un taux de transferts réaliste et que (2) l'approche super-matrice est plus précise que l'approche super-arbre. Nous avons également observé que les modèles complexes expliquent non seulement mieux les données que les modèles standards, mais peuvent avoir un impact direct sur différents groupes phylogénétiques et sur la robustesse de l'arbre obtenu. Nos résultats contredisent une publication récente proposant que les Thaumarchaeota apparaissent à la base de l'arbre des Archées.