931 resultados para Bioinformatics
Resumo:
Dans un premier temps, nous avons modélisé la structure d’une famille d’ARN avec une grammaire de graphes afin d’identifier les séquences qui en font partie. Plusieurs autres méthodes de modélisation ont été développées, telles que des grammaires stochastiques hors-contexte, des modèles de covariance, des profils de structures secondaires et des réseaux de contraintes. Ces méthodes de modélisation se basent sur la structure secondaire classique comparativement à nos grammaires de graphes qui se basent sur les motifs cycliques de nucléotides. Pour exemplifier notre modèle, nous avons utilisé la boucle E du ribosome qui contient le motif Sarcin-Ricin qui a été largement étudié depuis sa découverte par cristallographie aux rayons X au début des années 90. Nous avons construit une grammaire de graphes pour la structure du motif Sarcin-Ricin et avons dérivé toutes les séquences qui peuvent s’y replier. La pertinence biologique de ces séquences a été confirmée par une comparaison des séquences d’un alignement de plus de 800 séquences ribosomiques bactériennes. Cette comparaison a soulevée des alignements alternatifs pour quelques unes des séquences que nous avons supportés par des prédictions de structures secondaires et tertiaires. Les motifs cycliques de nucléotides ont été observés par les membres de notre laboratoire dans l'ARN dont la structure tertiaire a été résolue expérimentalement. Une étude des séquences et des structures tertiaires de chaque cycle composant la structure du Sarcin-Ricin a révélé que l'espace des séquences dépend grandement des interactions entre tous les nucléotides à proximité dans l’espace tridimensionnel, c’est-à-dire pas uniquement entre deux paires de bases adjacentes. Le nombre de séquences générées par la grammaire de graphes est plus petit que ceux des méthodes basées sur la structure secondaire classique. Cela suggère l’importance du contexte pour la relation entre la séquence et la structure, d’où l’utilisation d’une grammaire de graphes contextuelle plus expressive que les grammaires hors-contexte. Les grammaires de graphes que nous avons développées ne tiennent compte que de la structure tertiaire et négligent les interactions de groupes chimiques spécifiques avec des éléments extra-moléculaires, comme d’autres macromolécules ou ligands. Dans un deuxième temps et pour tenir compte de ces interactions, nous avons développé un modèle qui tient compte de la position des groupes chimiques à la surface des structures tertiaires. L’hypothèse étant que les groupes chimiques à des positions conservées dans des séquences prédéterminées actives, qui sont déplacés dans des séquences inactives pour une fonction précise, ont de plus grandes chances d’être impliqués dans des interactions avec des facteurs. En poursuivant avec l’exemple de la boucle E, nous avons cherché les groupes de cette boucle qui pourraient être impliqués dans des interactions avec des facteurs d'élongation. Une fois les groupes identifiés, on peut prédire par modélisation tridimensionnelle les séquences qui positionnent correctement ces groupes dans leurs structures tertiaires. Il existe quelques modèles pour adresser ce problème, telles que des descripteurs de molécules, des matrices d’adjacences de nucléotides et ceux basé sur la thermodynamique. Cependant, tous ces modèles utilisent une représentation trop simplifiée de la structure d’ARN, ce qui limite leur applicabilité. Nous avons appliqué notre modèle sur les structures tertiaires d’un ensemble de variants d’une séquence d’une instance du Sarcin-Ricin d’un ribosome bactérien. L’équipe de Wool à l’université de Chicago a déjà étudié cette instance expérimentalement en testant la viabilité de 12 variants. Ils ont déterminé 4 variants viables et 8 létaux. Nous avons utilisé cet ensemble de 12 séquences pour l’entraînement de notre modèle et nous avons déterminé un ensemble de propriétés essentielles à leur fonction biologique. Pour chaque variant de l’ensemble d’entraînement nous avons construit des modèles de structures tertiaires. Nous avons ensuite mesuré les charges partielles des atomes exposés sur la surface et encodé cette information dans des vecteurs. Nous avons utilisé l’analyse des composantes principales pour transformer les vecteurs en un ensemble de variables non corrélées, qu’on appelle les composantes principales. En utilisant la distance Euclidienne pondérée et l’algorithme du plus proche voisin, nous avons appliqué la technique du « Leave-One-Out Cross-Validation » pour choisir les meilleurs paramètres pour prédire l’activité d’une nouvelle séquence en la faisant correspondre à ces composantes principales. Finalement, nous avons confirmé le pouvoir prédictif du modèle à l’aide d’un nouvel ensemble de 8 variants dont la viabilité à été vérifiée expérimentalement dans notre laboratoire. En conclusion, les grammaires de graphes permettent de modéliser la relation entre la séquence et la structure d’un élément structural d’ARN, comme la boucle E contenant le motif Sarcin-Ricin du ribosome. Les applications vont de la correction à l’aide à l'alignement de séquences jusqu’au design de séquences ayant une structure prédéterminée. Nous avons également développé un modèle pour tenir compte des interactions spécifiques liées à une fonction biologique donnée, soit avec des facteurs environnants. Notre modèle est basé sur la conservation de l'exposition des groupes chimiques qui sont impliqués dans ces interactions. Ce modèle nous a permis de prédire l’activité biologique d’un ensemble de variants de la boucle E du ribosome qui se lie à des facteurs d'élongation.
Resumo:
Depuis quelques années, l'évolution moléculaire cherche à caractériser les variations et l'intensité de la sélection grâce au rapport entre taux de substitution synonyme et taux de substitution non-synonyme (dN/dS). Cette mesure, dN/dS, a permis d'étudier l'histoire de la variation de l'intensité de la sélection au cours du temps ou de détecter des épisodes de la sélection positive. Les liens entre sélection et variation de taille efficace interfèrent cependant dans ces mesures. Les méthodes comparatives, quant a elle, permettent de mesurer les corrélations entre caractères quantitatifs le long d'une phylogénie. Elles sont également utilisées pour tester des hypothèses sur l'évolution corrélée des traits d'histoire de vie, mais pour être employées pour étudier les corrélations entre traits d'histoire de vie, masse, taux de substitution ou dN/dS. Nous proposons ici une approche combinant une méthode comparative basée sur le principe des contrastes indépendants et un modèle d'évolution moléculaire, dans un cadre probabiliste Bayésien. Intégrant, le long d'une phylogénie, sur les reconstructions ancestrales des traits et et de dN/dS nous estimons les covariances entre traits ainsi qu'entre traits et paramètres du modèle d'évolution moléculaire. Un modèle hiérarchique, a été implémenté dans le cadre du logiciel coevol, publié au cours de cette maitrise. Ce modèle permet l'analyse simultané de plusieurs gènes sans perdre la puissance donnée par l'ensemble de séquences. Un travail deparallélisation des calculs donne la liberté d'augmenter la taille du modèle jusqu'à l'échelle du génome. Nous étudions ici les placentaires, pour lesquels beaucoup de génomes complets et de mesures phénotypiques sont disponibles. À la lumière des théories sur les traits d'histoire de vie, notre méthode devrait permettre de caractériser l'implication de groupes de gènes dans les processus biologique liés aux phénotypes étudiés.
Resumo:
Les anomalies du tube neural (ATN) sont des malformations congénitales très fréquentes chez l’humain en touchant 1-2 nouveau-nés sur 1000 naissances. Elles résultent d’une fermeture incomplète du tube neural lors de l’embryogenèse. L’étiologie des ATN est complexe impliquant des facteurs environnementaux et des facteurs génétiques. La souris représente un outil puissant afin de mieux comprendre la génétique des ATN. Particulièrement, la souris modèle a impliqué fortement la voie de la polarité cellulaire planaire (PCP) dans ces malformations. Dans cette étude, nous avons identifié et caractérisé une nouvelle souris mutante, Skam26Jus dans le but d’identifier un nouveau gène causant les ATN. Skam26Jus a été générée par l’agent mutagène N-Ethyl-N-Nitrosuera. Cette souris est caractérisée par une queue en forme de boucle ou de crochet, soit un phénotype associé aux ATN. La complémentation génétique de la souris Skam26Jus avec une souris mutante d’un gène de la voie PCP Vangl2 (Looptail) a montré une interaction génétique entre le gène muté chez Skam26Jus et Vangl2, suggérant que ces deux gènes fonctionnent dans des voies de signalisation semblables ou parallèles. Un total de 50% des embryons doubles hétérozygotes avec un phénotype de la queue présentent un spina bifida. La cartographie par homozygotie du génome entier suivie par un clonage positionnel a permis d’identifier Lrp6 comme le gène muté chez Skam26Jus. Une mutation homozygote, p.Ile681Arg, a été identifiée dans Lrp6 chez les souris ayant une queue en boucle/crochet. Cette mutation était absente dans 30 souches génétiques pures indiquant que cette mutation est spécifique au phénotype observé. Une étude de phénotype-génotype évalue la pénétrance à 53 % de la mutation Ile681Arg. Lrp6 est connu pour activer la voie canonique Wnt/β-caténine et inhiber la voie non canonique Wnt/PCP. Le séquençage de la région codante et de la jonction exon-intron de LRP6 chez 268 patients a mené à l’identification de quatre nouvelles rares mutations faux sens absentes chez 272 contrôles et de toutes les bases de données publiques. Ces mutations sont p.Tyr306His ; p.Tyr373Cys ; p.Val1386Ile; p.Tyr1541Cys et leur pathogénicité prédite in silico indiquent que p.Val1386Ile est bénigne, et que p.Tyr306Hiset p.Tyr373Cys et p.Tyr1541Cys sont i possiblement dommageables. Les mutations p.Tyr306His, p.Tyr373Cys et p.Tyr1541Cys ont affecté l’habilité de LRP6 d’activer la voie Wnt/β-caténine en utilisant le système rapporteur luciférase de pTOPflash. Nos résultats suggèrent que LRP6 joue un rôle dans le développement des ATN chez une petite fraction de patients ayant une ATN. Cette étude présente aussi Skam26Jus comme un nouveau modèle pour étudier les ATN chez l’humain et fournit un outil important pour comprendre les mécanismes moléculaires à l’origine des A TN.
Resumo:
Les résultats ont été obtenus avec le logiciel "Insight-2" de Accelris (San Diego, CA)
Resumo:
Durant la méiose, il se produit des échanges réciproques entre fragments de chromosomes homologues par recombinaison génétique. Les chromosomes parentaux ainsi modifiés donnent naissance à des gamètes uniques. En redistribuant les mutations génétiques pour générer de nouvelles combinaisons, ce processus est à l’origine de la diversité haplotypique dans la population. Dans cette thèse, je présente des résultats décrivant l’implication de la recombinaison méiotique dans les maladies chez l’humain. Premièrement, l'analyse statistique de données de génotypage de familles québécoises démontre une importante hétérogénéité individuelle et sexe-spécifique des taux de recombinaisons. Pour la première fois chez l’humain, nous avons observé que le taux de recombinaison maternel diminue avec l'âge de la mère, un phénomène potentiellement impliqué dans la régulation du taux d’aneuploïdie associé à l’âge maternel. Ensuite, grâce à l’analyse de données de séquençage d’exomes de patients atteints de leucémie et de ceux de leurs parents, nous avons découvert une localisation anormale des évènements de recombinaison chez les enfants leucémiques. Le gène PRDM9, principal déterminant de la localisation des recombinaisons chez l’humain, présente des formes alléliques rares dans ces familles. Finalement, en utilisant un large spectre de variants génétiques identifiés dans les transcriptomes d’individus Canadiens Français, nous avons étudié et comparé le fardeau génétique présent dans les régions génomiques à haut et à faible taux de recombinaison. Le fardeau génétique est substantiellement plus élevé dans les régions à faible taux de recombinaison et nous démontrons qu’au niveau individuel, ce fardeau varie selon la population humaine. Grâce à l’utilisation de données génomiques de pointe pour étudier la recombinaison dans des cohortes populationnelles et médicales, ce travail démontre de quelle façon la recombinaison peut affecter la santé des individus.
Resumo:
Les traits quantitatifs complexes sont des caractéristiques mesurables d’organismes vivants qui résultent de l’interaction entre plusieurs gènes et facteurs environnementaux. Les locus génétiques liés à un caractère complexe sont appelés «locus de traits quantitatifs » (QTL). Récemment, en considérant les niveaux d’expression tissulaire de milliers de gènes comme des traits quantitatifs, il est devenu possible de détecter des «QTLs d’expression» (eQTL). Alors que ces derniers ont été considérés comme des phénotypes intermédiaires permettant de mieux comprendre l’architecture biologique des traits complexes, la majorité des études visent encore à identifier une mutation causale dans un seul gène. Cette approche ne peut remporter du succès que dans les situations où le gène incriminé a un effet majeur sur le trait complexe, et ne permet donc pas d’élucider les situations où les traits complexes résultent d’interactions entre divers gènes. Cette thèse propose une approche plus globale pour : 1) tenir compte des multiples interactions possibles entre gènes pour la détection de eQTLs et 2) considérer comment des polymorphismes affectant l’expression de plusieurs gènes au sein de groupes de co-expression pourraient contribuer à des caractères quantitatifs complexes. Nos contributions sont les suivantes : Nous avons développé un outil informatique utilisant des méthodes d’analyse multivariées pour détecter des eQTLs et avons montré que cet outil augmente la sensibilité de détection d’une classe particulière de eQTLs. Sur la base d’analyses de données d’expression de gènes dans des tissus de souris recombinantes consanguines, nous avons montré que certains polymorphismes peuvent affecter l’expression de plusieurs gènes au sein de domaines géniques de co-expression. En combinant des études de détection de eQTLs avec des techniques d’analyse de réseaux de co-expression de gènes dans des souches de souris recombinantes consanguines, nous avons montré qu’un locus génétique pouvait être lié à la fois à l’expression de plusieurs gènes au niveau d’un domaine génique de co-expression et à un trait complexe particulier (c.-à-d. la masse du ventricule cardiaque gauche). Au total, nos études nous ont permis de détecter plusieurs mécanismes par lesquels des polymorphismes génétiques peuvent être liés à l’expression de plusieurs gènes, ces derniers pouvant eux-mêmes être liés à des traits quantitatifs complexes.
Resumo:
Les interactions entre les squelettes sucre-phosphate de nucléotides jouent un rôle important dans la stabilisation des structures tertiaires de larges molécules d’ARN. Elles sont régies par des règles particulières qui gouverne leur formation mais qui jusque là demeure quasiment inconnues. Un élément structural d’ARN pour lequel les interactions sucre-phosphate sont importantes est le motif d’empaquetage de deux doubles hélices d’ARN le long du sillon mineur. Ce motif se trouve à divers endroits dans la structure du ribosome. Il consiste en deux doubles hélices interagissant de manière à ce que le squelette sucre-phosphate de l’une se niche dans le sillon mineur de l’autre et vice versa. La surface de contact entre les deux hélices est majoritairement formée par les riboses et implique au total douze nucléotides. La présente thèse a pour but d’analyser la structure interne de ce motif et sa dépendance de stabilité résultant de l’association optimale ou non des hélices, selon leurs séquences nucléotidiques. Il est démontré dans cette thèse qu’un positionnement approprié des riboses leur permet de former des contacts inter-hélices, par l’entremise d’un choix particulier de l’identité des pairs de bases impliquées. Pour différentes pairs de bases participant à ce contact inter-hélices, l’identité optimale peut être du type Watson-Crick, GC/CG, or certaines pairs de bases non Watson-Crick. Le choix adéquat de paires de bases fournit une interaction inter-hélice stable. Dans quelques cas du motif, l’identité de certaines paires de bases ne correspond pas à la structure la plus stable, ce qui pourrait refléter le fait que ces motifs devraient avoir une liberté de formation et de déformation lors du fonctionnement du ribosome.
Resumo:
Les facteurs de transcription sont des protéines spécialisées qui jouent un rôle important dans différents processus biologiques tel que la différenciation, le cycle cellulaire et la tumorigenèse. Ils régulent la transcription des gènes en se fixant sur des séquences d’ADN spécifiques (éléments cis-régulateurs). L’identification de ces éléments est une étape cruciale dans la compréhension des réseaux de régulation des gènes. Avec l’avènement des technologies de séquençage à haut débit, l’identification de tout les éléments fonctionnels dans les génomes, incluant gènes et éléments cis-régulateurs a connu une avancée considérable. Alors qu’on est arrivé à estimer le nombre de gènes chez différentes espèces, l’information sur les éléments qui contrôlent et orchestrent la régulation de ces gènes est encore mal définie. Grace aux techniques de ChIP-chip et de ChIP-séquençage il est possible d’identifier toutes les régions du génome qui sont liées par un facteur de transcription d’intérêt. Plusieurs approches computationnelles ont été développées pour prédire les sites fixés par les facteurs de transcription. Ces approches sont classées en deux catégories principales: les algorithmes énumératifs et probabilistes. Toutefois, plusieurs études ont montré que ces approches génèrent des taux élevés de faux négatifs et de faux positifs ce qui rend difficile l’interprétation des résultats et par conséquent leur validation expérimentale. Dans cette thèse, nous avons ciblé deux objectifs. Le premier objectif a été de développer une nouvelle approche pour la découverte des sites de fixation des facteurs de transcription à l’ADN (SAMD-ChIP) adaptée aux données de ChIP-chip et de ChIP-séquençage. Notre approche implémente un algorithme hybride qui combine les deux stratégies énumérative et probabiliste, afin d’exploiter les performances de chacune d’entre elles. Notre approche a montré ses performances, comparée aux outils de découvertes de motifs existants sur des jeux de données simulées et des jeux de données de ChIP-chip et de ChIP-séquençage. SAMD-ChIP présente aussi l’avantage d’exploiter les propriétés de distributions des sites liés par les facteurs de transcription autour du centre des régions liées afin de limiter la prédiction aux motifs qui sont enrichis dans une fenêtre de longueur fixe autour du centre de ces régions. Les facteurs de transcription agissent rarement seuls. Ils forment souvent des complexes pour interagir avec l’ADN pour réguler leurs gènes cibles. Ces interactions impliquent des facteurs de transcription dont les sites de fixation à l’ADN sont localisés proches les uns des autres ou bien médier par des boucles de chromatine. Notre deuxième objectif a été d’exploiter la proximité spatiale des sites liés par les facteurs de transcription dans les régions de ChIP-chip et de ChIP-séquençage pour développer une approche pour la prédiction des motifs composites (motifs composés par deux sites et séparés par un espacement de taille fixe). Nous avons testé ce module pour prédire la co-localisation entre les deux demi-sites ERE qui forment le site ERE, lié par le récepteur des œstrogènes ERα. Ce module a été incorporé à notre outil de découverte de motifs SAMD-ChIP.
Resumo:
Deux tiers des cancers du sein expriment des récepteurs hormonaux ostrogéniques (tumeur ER-positive) et la croissance de ces tumeurs est stimulée par l’estrogène. Des traitements adjuvant avec des anti-estrogènes, tel que le Tamoxifen et les Inhibiteurs de l’Aromatase peuvent améliorer la survie des patientes atteinte de cancer du sein. Toutefois la thérapie hormonale n’est pas efficace dans toutes les tumeurs mammaires ER-positives. Les tumeurs peuvent présenter avec une résistance intrinsèque ou acquise au Tamoxifen. Présentement, c’est impossible de prédire quelle patiente va bénéficier ou non du Tamoxifen. Des études préliminaires du laboratoire de Dr. Mader, ont identifié le niveau d’expression de 20 gènes, qui peuvent prédire la réponse thérapeutique au Tamoxifen (survie sans récidive). Ces marqueurs, identifié en utilisant une analyse bioinformatique de bases de données publiques de profils d’expression des gènes, sont capables de discriminer quelles patientes vont mieux répondre au Tamoxifen. Le but principal de cette étude est de développer un outil de PCR qui peut évaluer le niveau d’expression de ces 20 gènes prédictif et de tester cette signature de 20 gènes dans une étude rétrospective, en utilisant des tumeurs de cancer du sein en bloc de paraffine, de patients avec une histoire médicale connue. Cet outil aurait donc un impact direct dans la pratique clinique. Des traitements futiles pourraient être éviter et l’indentification de tumeurs ER+ avec peu de chance de répondre à un traitement anti-estrogène amélioré. En conséquence, de la recherche plus appropriée pour les tumeurs résistantes au Tamoxifen, pourront se faire.
Resumo:
La duplication est un des évènements évolutifs les plus importants, car elle peut mener à la création de nouvelles fonctions géniques. Durant leur évolution, les génomes sont aussi affectés par des inversions, des translocations (incluant des fusions et fissions de chromosomes), des transpositions et des délétions. L'étude de l'évolution des génomes est importante, notamment pour mieux comprendre les mécanismes biologiques impliqués, les types d'évènements qui sont les plus fréquents et quels étaient les contenus en gènes des espèces ancestrales. Afin d'analyser ces différents aspects de l'évolution des génomes, des algorithmes efficaces doivent être créés pour inférer des génomes ancestraux, des histoires évolutives, des relations d'homologies et pour calculer les distances entre les génomes. Dans cette thèse, quatre projets reliés à l'étude et à l'analyse de l'évolution des génomes sont présentés : 1) Nous proposons deux algorithmes pour résoudre des problèmes reliés à la duplication de génome entier : un qui généralise le problème du genome halving aux pertes de gènes et un qui permet de calculer la double distance avec pertes. 2) Nous présentons une nouvelle méthode pour l'inférence d'histoires évolutives de groupes de gènes orthologues répétés en tandem. 3) Nous proposons une nouvelle approche basée sur la théorie des graphes pour inférer des gènes in-paralogues qui considère simultanément l'information provenant de différentes espèces afin de faire de meilleures prédictions. 4) Nous présentons une étude de l'histoire évolutive des gènes d'ARN de transfert chez 50 souches de Bacillus.
Resumo:
Les processus Markoviens continus en temps sont largement utilisés pour tenter d’expliquer l’évolution des séquences protéiques et nucléotidiques le long des phylogénies. Des modèles probabilistes reposant sur de telles hypothèses sont conçus pour satisfaire la non-homogénéité spatiale des contraintes fonctionnelles et environnementales agissant sur celles-ci. Récemment, des modèles Markov-modulés ont été introduits pour décrire les changements temporels dans les taux d’évolution site-spécifiques (hétérotachie). Des études ont d’autre part démontré que non seulement la force mais également la nature de la contrainte sélective agissant sur un site peut varier à travers le temps. Ici nous proposons de prendre en charge cette réalité évolutive avec un modèle Markov-modulé pour les protéines sous lequel les sites sont autorisés à modifier leurs préférences en acides aminés au cours du temps. L’estimation a posteriori des différents paramètres modulants du noyau stochastique avec les méthodes de Monte Carlo est un défi de taille que nous avons su relever partiellement grâce à la programmation parallèle. Des réglages computationnels sont par ailleurs envisagés pour accélérer la convergence vers l’optimum global de ce paysage multidimensionnel relativement complexe. Qualitativement, notre modèle semble être capable de saisir des signaux d’hétérogénéité temporelle à partir d’un jeu de données dont l’histoire évolutive est reconnue pour être riche en changements de régimes substitutionnels. Des tests de performance suggèrent de plus qu’il serait mieux ajusté aux données qu’un modèle équivalent homogène en temps. Néanmoins, les histoires substitutionnelles tirées de la distribution postérieure sont bruitées et restent difficilement interprétables du point de vue biologique.
Resumo:
Les études génétiques, telles que les études de liaison ou d’association, ont permis d’acquérir une plus grande connaissance sur l’étiologie de plusieurs maladies affectant les populations humaines. Même si une dizaine de milliers d’études génétiques ont été réalisées sur des centaines de maladies ou autres traits, une grande partie de leur héritabilité reste inexpliquée. Depuis une dizaine d’années, plusieurs percées dans le domaine de la génomique ont été réalisées. Par exemple, l’utilisation des micropuces d’hybridation génomique comparative à haute densité a permis de démontrer l’existence à grande échelle des variations et des polymorphismes en nombre de copies. Ces derniers sont maintenant détectables à l’aide de micropuce d’ADN ou du séquençage à haut débit. De plus, des études récentes utilisant le séquençage à haut débit ont permis de démontrer que la majorité des variations présentes dans l’exome d’un individu étaient rares ou même propres à cet individu. Ceci a permis la conception d’une nouvelle micropuce d’ADN permettant de déterminer rapidement et à faible coût le génotype de plusieurs milliers de variations rares pour un grand ensemble d’individus à la fois. Dans ce contexte, l’objectif général de cette thèse vise le développement de nouvelles méthodologies et de nouveaux outils bio-informatiques de haute performance permettant la détection, à de hauts critères de qualité, des variations en nombre de copies et des variations nucléotidiques rares dans le cadre d’études génétiques. Ces avancées permettront, à long terme, d’expliquer une plus grande partie de l’héritabilité manquante des traits complexes, poussant ainsi l’avancement des connaissances sur l’étiologie de ces derniers. Un algorithme permettant le partitionnement des polymorphismes en nombre de copies a donc été conçu, rendant possible l’utilisation de ces variations structurales dans le cadre d’étude de liaison génétique sur données familiales. Ensuite, une étude exploratoire a permis de caractériser les différents problèmes associés aux études génétiques utilisant des variations en nombre de copies rares sur des individus non reliés. Cette étude a été réalisée avec la collaboration du Wellcome Trust Centre for Human Genetics de l’University of Oxford. Par la suite, une comparaison de la performance des algorithmes de génotypage lors de leur utilisation avec une nouvelle micropuce d’ADN contenant une majorité de marqueurs rares a été réalisée. Finalement, un outil bio-informatique permettant de filtrer de façon efficace et rapide des données génétiques a été implémenté. Cet outil permet de générer des données de meilleure qualité, avec une meilleure reproductibilité des résultats, tout en diminuant les chances d’obtenir une fausse association.
Resumo:
Le système de différenciation entre le « soi » et le « non-soi » des vertébrés permet la détection et le rejet de pathogènes et de cellules allogéniques. Il requiert la surveillance de petits peptides présentés à la surface cellulaire par les molécules du complexe majeur d’histocompatibilité de classe I (CMH I). Les molécules du CMH I sont des hétérodimères composés par une chaîne lourde encodée par des gènes du CMH et une chaîne légère encodée par le gène β2-microglobuline. L’ensemble des peptides est appelé l’immunopeptidome du CMH I. Nous avons utilisé des approches en biologie de systèmes pour définir la composition et l’origine cellulaire de l’immunopeptidome du CMH I présenté par des cellules B lymphoblastoïdes dérivés de deux pairs de fratries avec un CMH I identique. Nous avons découvert que l’immunopeptidome du CMH I est spécifique à l’individu et au type cellulaire, qu’il dérive préférentiellement de transcrits abondants, est enrichi en transcrits possédant d’éléments de reconnaissance par les petits ARNs, mais qu’il ne montre aucun biais ni vers les régions génétiques invariables ni vers les régions polymorphiques. Nous avons également développé une nouvelle méthode qui combine la spectrométrie de masse, le séquençage de nouvelle génération et la bioinformatique pour l’identification à grand échelle de peptides du CMH I, dont ceux résultants de polymorphismes nucléotidiques simples non-synonymes (PNS-ns), appelés antigènes mineurs d’histocompatibilité (AMHs), qui sont les cibles de réponses allo-immunitaires. La comparaison de l’origine génomique de l’immunopeptidome de soeurs avec un CMH I identique a révélé que 0,5% des PNS-ns étaient représentés dans l’immunopeptidome et que 0,3% des peptides du CMH I seraient immunogéniques envers une des deux soeurs. En résumé, nous avons découvert des nouveaux facteurs qui modèlent l’immunopeptidome du CMH I et nous présentons une nouvelle stratégie pour l’indentification de ces peptides, laquelle pourrait accélérer énormément le développement d’immunothérapies ciblant les AMHs.
Resumo:
L’anémie falciforme est une maladie monogénique causée par une mutation dans le locus de la β-globine. Malgré le fait que l’anémie falciforme soit une maladie monogénique, cette maladie présente une grande hétérogénéité clinique. On présume que des facteurs environnementaux et génétiques contribuent à cette hétérogénéité. Il a été observé qu’un haut taux d’hémoglobine fœtale (HbF) diminuait la sévérité et la mortalité des patients atteints de l’anémie falciforme. Le but de mon projet était d’identifier des variations génétiques modifiant la sévérité clinique de l’anémie falciforme. Dans un premier temps, nous avons effectué la cartographie-fine de trois régions précédemment associées avec le taux d’hémoglobine fœtale. Nous avons ensuite effectué des études d’association pan-génomiques avec deux complications cliniques de l’anémie falciforme ainsi qu’avec le taux d’hémoglobine fœtale. Hormis les régions déjà identifiées comme étant associées au taux d’hémoglobine fœtale, aucun locus n’a atteint le niveau significatif de la puce de génotypage. Pour identifier des groupes de gènes modérément associés au taux d’hémoglobine fœtale qui seraient impliqués dans de mêmes voies biologiques, nous avons effectué une étude des processus biologiques. Finalement, nous avons effectué l’analyse de 19 exomes de patients Jamaïcains ayant des complications cliniques mineures de l’anémie falciforme. Compte tenu de la taille des cohortes de réplication disponibles, nous n’avons pas les moyens de valider statistiquement les variations identifiées par notre étude. Cependant, nos résultats fournissent de bons gènes candidats pour des études fonctionnelles et pour les réplications futures. Nos résultats suggèrent aussi que le β-hydroxybutyrate en concentration endogène pourraient influencer le taux d’hémoglobine fœtale. De plus, nous montrons que la cartographie-fine des régions associées par des études pan-génomiques peut identifier des signaux d’association additionnels et augmenter la variation héritable expliquée par cette région.
Resumo:
La méthylation de l'ADN est une marque épigénétique importante chez les mammifères. Malgré le fait que la méthylation de la cytosine en 5' (5mC) soit reconnue comme une modification épigénétique stable, il devient de plus en plus reconnu qu'elle soit un processus plus dynamique impliquant des voies de méthylation et de déméthylation actives. La dynamique de la méthylation de l'ADN est désormais bien caractérisée dans le développement et dans le fonctionnement cellulaire des mammifères. Très peu est cependant connu concernant les implications régulatrices dans les réponses immunitaires. Pour se faire, nous avons effectué des analyses du niveau de transcription des gènes ainsi que du profilage épigénétique de cellules dendritiques (DCs) humaines. Ceux-ci ont été faits avant et après infection par le pathogène Mycobacterium tuberculosis (MTB). Nos résultats fournissent le premier portrait génomique du remodelage épigénétique survenant dans les DCs en réponse à une infection bactérienne. Nous avons constaté que les changements dans la méthylation de l'ADN sont omniprésents, identifiant 3,926 régions différentiellement méthylées lors des infections par MTB (MTB-RDMs). Les MTB-RDMs montrent un chevauchement frappant avec les régions génomiques marquées par les histones associées avec des régions amplificatrices. De plus, nos analyses ont révélées que les MTB-RDMs sont activement liées par des facteurs de transcription associés à l'immunité avant même d'être infecté par MTB, suggérant ces domaines comme étant des éléments d'activation dans un état de dormance. Nos données suggèrent que les changements actifs dans la méthylation jouent un rôle essentiel pour contrôler la réponse cellulaire des DCs à l'infection bactérienne.