936 resultados para Biology, Biostatistics|Biology, Genetics|Biology, Bioinformatics
Resumo:
Le rôle important joué par la mitochondrie dans la cellule eucaryote est admis depuis longtemps. Cependant, la composition exacte des mitochondries, ainsi que les processus biologiques qui sy déroulent restent encore largement inconnus. Deux facteurs principaux permettent dexpliquer pourquoi létude des mitochondries progresse si lentement : le manque defficacité des méthodes didentification des protéines mitochondriales et le manque de précision dans lannotation de ces protéines. En conséquence, nous avons développé un nouvel outil informatique, YimLoc, qui permet de prédire avec succès les protéines mitochondriales à partir des séquences génomiques. Cet outil intègre plusieurs indicateurs existants, et sa performance est supérieure à celle des indicateurs considérés individuellement. Nous avons analysé environ 60 génomes fongiques avec YimLoc afin de lever la controverse concernant la localisation de la bêta-oxydation dans ces organismes. Contrairement à ce qui était généralement admis, nos résultats montrent que la plupart des groupes de Fungi possèdent une bêta-oxydation mitochondriale. Ce travail met également en évidence la diversité des processus de bêta-oxydation chez les champignons, en corrélation avec leur utilisation des acides gras comme source dénergie et de carbone. De plus, nous avons étudié le composant clef de la voie de bêta-oxydation mitochondriale, lacyl-CoA déshydrogénase (ACAD), dans 250 espèces, couvrant les 3 domaines de la vie, en combinant la prédiction de la localisation subcellulaire avec la classification en sous-familles et linférence phylogénétique. Notre étude suggère que les gènes ACAD font partie dune ancienne famille qui a adopté des stratégies évolutionnaires innovatrices afin de générer un large ensemble denzymes susceptibles dutiliser la plupart des acides gras et des acides aminés. Finalement, afin de permettre la prédiction de protéines mitochondriales à partir de données autres que les séquences génomiques, nous avons développé le logiciel TESTLoc qui utilise comme données des Expressed Sequence Tags (ESTs). La performance de TESTLoc est significativement supérieure à celle de tout autre outil de prédiction connu. En plus de fournir deux nouveaux outils de prédiction de la localisation subcellulaire utilisant différents types de données, nos travaux démontrent comment lassociation de la prédiction de la localisation subcellulaire à dautres méthodes danalyse in silico permet daméliorer la connaissance des protéines mitochondriales. De plus, ces travaux proposent des hypothèses claires et faciles à vérifier par des expériences, ce qui présente un grand potentiel pour faire progresser nos connaissances des métabolismes mitochondriaux.
Resumo:
[Français] Une fraction importante des génomes eucaryotes est constituée de Gènes Répétés en Tandem (GRT). Un mécanisme fondamental dans l’évolution des GRT est la recombinaison inégale durant la méiose, entrainant la duplication locale (en tandem) de segments chromosomiques contenant un ou plusieurs gènes adjacents. Différents algorithmes ont été proposés pour inférer une histoire de duplication en tandem pour un cluster de GRT. Cependant, leur utilisation est limitée dans la pratique, car ils ne tiennent pas compte d’autres événements évolutifs pourtant fréquents, comme les inversions, les duplications inversées et les délétions. Cette thèse propose différentes approches algorithmiques permettant d’intégrer ces événements dans le modèle de duplication en tandem classique. Nos contributions sont les suivantes: • Intégrer les inversions dans un modèle de duplication en tandem simple (duplication d’un gène à la fois) et proposer un algorithme exact permettant de calculer le nombre minimal d’inversions s’étant produites dans l’évolution d’un cluster de GRT. • Généraliser ce modèle pour l’étude d’un ensemble de clusters orthologues dans plusieurs espèces. • Proposer un algorithme permettant d’inférer l’histoire évolutive d’un cluster de GRT en tenant compte des duplications en tandem, duplications inversées, inversions et délétions de segments chromosomiques contenant un ou plusieurs gènes adjacents.
Resumo:
Bien que les champignons soient régulièrement utilisés comme modèle d'étude des systèmes eucaryotes, leurs relations phylogénétiques soulèvent encore des questions controversées. Parmi celles-ci, la classification des zygomycètes reste inconsistante. Ils sont potentiellement paraphylétiques, i.e. regroupent de lignées fongiques non directement affiliées. La position phylogénétique du genre Schizosaccharomyces est aussi controversée: appartient-il aux Taphrinomycotina (précédemment connus comme archiascomycetes) comme prédit par l'analyse de gènes nucléaires, ou est-il plutôt relié aux Saccharomycotina (levures bourgeonnantes) tel que le suggère la phylogénie mitochondriale? Une autre question concerne la position phylogénétique des nucléariides, un groupe d'eucaryotes amiboïdes que l'on suppose étroitement relié aux champignons. Des analyses multi-gènes réalisées antérieurement n'ont pu conclure, étant donné le choix d'un nombre réduit de taxons et l'utilisation de six gènes nucléaires seulement. Nous avons abordé ces questions par le biais d'inférences phylogénétiques et tests statistiques appliqués à des assemblages de données phylogénomiques nucléaires et mitochondriales. D'après nos résultats, les zygomycètes sont paraphylétiques (Chapitre 2) bien que le signal phylogénétique issu du jeu de données mitochondriales disponibles est insuffisant pour résoudre l'ordre de cet embranchement avec une confiance statistique significative. Dans le Chapitre 3, nous montrons à l'aide d'un jeu de données nucléaires important (plus de cent protéines) et avec supports statistiques concluants, que le genre Schizosaccharomyces appartient aux Taphrinomycotina. De plus, nous démontrons que le regroupement conflictuel des Schizosaccharomyces avec les Saccharomycotina, venant des données mitochondriales, est le résultat d'un type d'erreur phylogénétique connu: l'attraction des longues branches (ALB), un artéfact menant au regroupement d'espèces dont le taux d'évolution rapide n'est pas représentatif de leur véritable position dans l'arbre phylogénétique. Dans le Chapitre 4, en utilisant encore un important jeu de données nucléaires, nous démontrons avec support statistique significatif que les nucleariides constituent le groupe lié de plus près aux champignons. Nous confirmons aussi la paraphylie des zygomycètes traditionnels tel que suggéré précédemment, avec support statistique significatif, bien que ne pouvant placer tous les membres du groupe avec confiance. Nos résultats remettent en cause des aspects d'une récente reclassification taxonomique des zygomycètes et de leurs voisins, les chytridiomycètes. Contrer ou minimiser les artéfacts phylogénétiques telle l'attraction des longues branches (ALB) constitue une question récurrente majeure. Dans ce sens, nous avons développé une nouvelle méthode (Chapitre 5) qui identifie et élimine dans une séquence les sites présentant une grande variation du taux d'évolution (sites fortement hétérotaches - sites HH); ces sites sont connus comme contribuant significativement au phénomène d'ALB. Notre méthode est basée sur un test de rapport de vraisemblance (likelihood ratio test, LRT). Deux jeux de données publiés précédemment sont utilisés pour démontrer que le retrait graduel des sites HH chez les espèces à évolution accélérée (sensibles à l'ALB) augmente significativement le support pour la topologie « vraie » attendue, et ce, de façon plus efficace comparée à d'autres méthodes publiées de retrait de sites de séquences. Néanmoins, et de façon générale, la manipulation de données préalable à l'analyse est loin d’être idéale. Les développements futurs devront viser l'intégration de l'identification et la pondération des sites HH au processus d'inférence phylogénétique lui-même.
Resumo:
Les séquences protéiques naturelles sont le résultat net de l’interaction entre les mécanismes de mutation, de sélection naturelle et de dérive stochastique au cours des temps évolutifs. Les modèles probabilistes d’évolution moléculaire qui tiennent compte de ces différents facteurs ont été substantiellement améliorés au cours des dernières années. En particulier, ont été proposés des modèles incorporant explicitement la structure des protéines et les interdépendances entre sites, ainsi que les outils statistiques pour évaluer la performance de ces modèles. Toutefois, en dépit des avancées significatives dans cette direction, seules des représentations très simplifiées de la structure protéique ont été utilisées jusqu’à présent. Dans ce contexte, le sujet général de cette thèse est la modélisation de la structure tridimensionnelle des protéines, en tenant compte des limitations pratiques imposées par l’utilisation de méthodes phylogénétiques très gourmandes en temps de calcul. Dans un premier temps, une méthode statistique générale est présentée, visant à optimiser les paramètres d’un potentiel statistique (qui est une pseudo-énergie mesurant la compatibilité séquence-structure). La forme fonctionnelle du potentiel est par la suite raffinée, en augmentant le niveau de détails dans la description structurale sans alourdir les coûts computationnels. Plusieurs éléments structuraux sont explorés : interactions entre pairs de résidus, accessibilité au solvant, conformation de la chaîne principale et flexibilité. Les potentiels sont ensuite inclus dans un modèle d’évolution et leur performance est évaluée en termes d’ajustement statistique à des données réelles, et contrastée avec des modèles d’évolution standards. Finalement, le nouveau modèle structurellement contraint ainsi obtenu est utilisé pour mieux comprendre les relations entre niveau d’expression des gènes et sélection et conservation de leur séquence protéique.
Resumo:
Nous avons étudié le transcriptome de neuf échantillons d'ARN extraits de cultures primaires de cellules non tumorales de l’épithélium de surface de l’ovaire (NOSE) provenant de quatre donneuses non porteuses de mutation, deux mutées sur BRCA1 et trois sur BRCA2, ainsi que de quatre échantillons d’ARN extraits de cultures primaires de cellules tumorales de l’ovaire (TOV) provenant de trois donneuses porteuses de mutation sur BRCA1 et une sur BRCA2. Nous avons identifié, pour la première fois, les signatures moléculaires associées à la présence d’une mutation de BRCA1 et BRCA2 dans les cellules NOSEs ainsi que la signature associée à la transformation tumorale des cellules NOSEs en TOVs chez les porteuses de mutation de BRCA1. Nous avons également localisé les domaines chromosomiques comportant des gènes corégulés en association avec la présence d’une mutation de BRCA1 dans les cellules NOSEs. Les allèles sauvage et muté de BRCA2 étaient exprimés dans les cellules TOVs provenant des porteuses de la mutation 8765delAG sur BRCA2. Nous avons observé que le niveau d’expression des transcrits de BRCA2 était plus élevé dans les cellules provenant des tumeurs ovariennes les plus agressives chez les femmes porteuses de la mutation 8765delAG sur BRCA2, les transcrits correspondants à l’allèle muté contribuant avec un pourcentage élevé du niveau d’expression total du gène. Le phénotype tumoral observé chez les Canadiennes Françaises porteuses de cette mutation pourrait résulter d’un effet de dosage de l’allèle muté.
Resumo:
L’évolution des protéines est un domaine important de la recherche en bioinformatique et catalyse l'intérêt de trouver des outils d'alignement qui peuvent être utilisés de manière fiable et modéliser avec précision l'évolution d'une famille de protéines. TM-Align (Zhang and Skolnick, 2005) est considéré comme l'outil idéal pour une telle tâche, en termes de rapidité et de précision. Par conséquent, dans cette étude, TM-Align a été utilisé comme point de référence pour faciliter la détection des autres outils d'alignement qui sont en mesure de préciser l'évolution des protéines. En parallèle, nous avons élargi l'actuel outil d'exploration de structures secondaires de protéines, Helix Explorer (Marrakchi, 2006), afin qu'il puisse également être utilisé comme un outil pour la modélisation de l'évolution des protéines.
Resumo:
Les gènes codant pour des protéines peuvent souvent être regroupés et intégrés en modules fonctionnels par rapport à un organelle. Ces modules peuvent avoir des composantes qui suivent une évolution corrélée pouvant être conditionnelle à un phénotype donné. Les gènes liés à la motilité possèdent cette caractéristique, car ils se suivent en cascade en réponse à des stimuli extérieurs. L’hyperthermophilie, d’autre part, est interreliée à la reverse gyrase, cependant aucun autre élément qui pourrait y être associé avec certitude n’est connu. Ceci peut être dû à un déplacement de gènes non orthologues encore non résolu. En utilisant une approche bio-informatique, une modélisation mathématique d’évolution conditionnelle corrélée pour trois gènes a été développée et appliquée sur des profils phylétiques d’archaea. Ceci a permis d’établir des théories quant à la fonction potentielle du gène du flagelle FlaD/E ainsi que l’histoire évolutive des gènes lui étant liés et ayant contribué à sa formation. De plus, une histoire évolutive théorique a été établie pour une ligase liée à l’hyperthermophilie.
Resumo:
La détermination de la structure tertiaire du ribosome fut une étape importante dans la compréhension du mécanisme de la synthèse des protéines. Par contre, l’élucidation de la structure du ribosome comme tel ne permet pas une compréhension de sa fonction. Pour mieux comprendre la nature des relations entre la structure et la fonction du ribosome, sa structure doit être étudiée de manière systématique. Au cours des dernières années, nous avons entrepris une démarche systématique afin d’identifier et de caractériser de nouveaux motifs structuraux qui existent dans la structure du ribosome et d’autres molécules contenant de l’ARN. L’analyse de plusieurs exemples d’empaquetage de deux hélices d’ARN dans la structure du ribosome nous a permis d’identifier un nouveau motif structural, nommé « G-ribo ». Dans ce motif, l’interaction d’une guanosine dans une hélice avec le ribose d’un nucléotide d’une autre hélice donne naissance à un réseau d’interactions complexes entre les nucléotides voisins. Le motif G-ribo est retrouvé à 8 endroits dans la structure du ribosome. La structure du G-ribo possède certaines particularités qui lui permettent de favoriser la formation d’un certain type de pseudo-nœuds dans le ribosome. L’analyse systématique de la structure du ribosome et de la ARNase P a permis d’identifier un autre motif structural, nommé « DTJ » ou « Double-Twist Joint motif ». Ce motif est formé de trois courtes hélices qui s’empilent l’une sur l’autre. Dans la zone de contact entre chaque paire d’hélices, deux paires de bases consécutives sont surenroulées par rapport à deux paires de bases consécutives retrouvées dans l’ARN de forme A. Un nucléotide d’une paire de bases est toujours connecté directement à un nucléotide de la paire de bases surenroulée, tandis que les nucléotides opposés sont connectés par un ou plusieurs nucléotides non appariés. L’introduction d’un surenroulement entre deux paires de bases consécutives brise l’empilement entre les nucléotides et déstabilise l’hélice d’ARN. Dans le motif DTJ, les nucléotides non appariés qui lient les deux paires de bases surenroulées interagissent avec une des trois hélices qui forment le motif, offrant ainsi une stratégie élégante de stabilisation de l’arrangement. Pour déterminer les contraintes de séquences imposées sur la structure tertiaire d’un motif récurrent dans le ribosome, nous avons développé une nouvelle approche expérimentale. Nous avons introduit des librairies combinatoires de certains nucléotides retrouvés dans des motifs particuliers du ribosome. Suite à l’analyse des séquences alternatives sélectionnées in vivo pour différents représentants d’un motif, nous avons été en mesure d’identifier les contraintes responsables de l’intégrité d’un motif et celles responsables d’interactions avec les éléments qui forment le contexte structural du motif. Les résultats présentés dans cette thèse élargissent considérablement notre compréhension des principes de formation de la structure d’ARN et apportent une nouvelle façon d’identifier et de caractériser de nouveaux motifs structuraux d’ARN.
Resumo:
Les toxines de l’anthrax font partie de la famille des toxines A-B dans laquelle la moitié B se fixe à la membrane de la cellule permettant par la suite la translocation de la moitié A. Dans le cas de l’anthrax, la moitié B est représentée par le Protective Antigen (PA) et la moitié A par les deux protéines Edema Factor (EF) et Lethal Factor (LF). Après le recrutement par les récepteurs cellulaires (CMG2 et TEM8), PA s’organise en heptamère. Il peut fixer jusqu'à 3 ligands (EF et LF) avant d'être endocyté. Les modèles actuels de PA suggèrent que la baisse de pH à l’intérieur des endosomes permet un changement de conformation de la forme pré-pore vers la forme pore et que les ligands EF et LF passeraient au travers le pore pour entrer dans le cytoplasme. Cependant, le diamètre du pore est environ dix fois inférieur à celui des ligands (10 Å contre 100 Å). Un processus de folding/unfolding a été proposé mais demeure controversé. Afin d'identifier le processus de passage des facteurs EF et LF dans le cytoplasme, nous avons déterminé par cryo-microscopie électronique combinée avec l’analyse d’image les structures tridimensionnelles des complexes formés par PA et LF aux étapes prépore et pore. Par la suite, une étude complémentaire par dynamique moléculaire nous a permis de modéliser à haute résolution les différentes interactions qui ont lieu au sein du complexe. La structure 3D du complexe prépore combiné à 3 LF a été déterminée à une résolution de 14 Å. Nous avons aussi calculé une structure préliminaire du complexe pore également combiné à 3 LF Celles-ci n’ont jamais été résolues auparavant et leur connaissance permet d’envisager l’étude en profondeur du mécanisme infectieux de l’Anthrax in vivo.
Resumo:
L’immunité adaptive et la discrimination entre le soi et le non-soi chez les vertébrés à mâchoire reposent sur la présentation de peptides par les récepteurs d’histocompatibilité majeur de classe I. Les peptides antigéniques, présentés par les molécules du complexe d’histocompatibilité (CMH), sont scrutés par les lymphocytes T CD8 pour une réponse immunitaire appropriée. Le répertoire des peptides du CMH de classe I, aussi appelé immunopeptidome, est généré par la dégradation protéosomale des protéines endogènes, et a un rôle essentiel dans la régulation de l’immunité cellulaire. La composition de l’immunopeptidome dépend du type de cellule et peut présenter des caractéristiques liées à des maladies comme le cancer. Les peptides antigéniques peuvent être utilisés à des fins immunothérapeutiques notamment dans le traitement voire la prévention de certains cancers. La spectrométrie de masse est un outil de choix pour l’identification, le séquençage et la caractérisation de ces peptides. Cependant, la composition en acides aminés, la faible abondance et la diversité de ces peptides compliquent leur détection et leur séquençage. Nous avons développé un programme appelé StatPeaks qui permet de calculer un certains nombres de statistiques relatives à la fragmentation des peptides. À l’aide de ce programme, nous montrons sans équivoque que les peptides du CMH classe I, en mode de fragmentation par dissociation induite par collision (CID), fragmentent très différemment des peptides trypsiques communément utilisés en protéomique. Néanmoins, la fragmentation par décomposition induite par collision à plus haute énergie (HCD) proposée par le spectromètre LTQ-Orbitrap Velos améliore la fragmentation et fournit une haute résolution qui permet d’obtenir une meilleure confiance dans l’identification des peptides du CMH de classe I. Cet avantage permet d’effectuer le séquençage de novo pour identifier les variants polymorphes qui ne sont normalement pas identifiés par les recherches utilisant des bases de données. La comparaison des programmes de séquençage Lutefisk, pepNovo, pNovo, Vonode et Peaks met en évidence que le dernier permet d’identifier un plus grand nombre de peptides du CMH de classe I. Ce programme est intégré dans une chaîne de traitement de recherche d’antigènes mineurs d’histocompatibilité. Enfin, une base de données contenant les informations spectrales de plusieurs centaines de peptides du CMH de classe I accessible par Internet a été développée.
Resumo:
La technologie des microarrays demeure à ce jour un outil important pour la mesure de l'expression génique. Au-delà de la technologie elle-même, l'analyse des données provenant des microarrays constitue un problème statistique complexe, ce qui explique la myriade de méthodes proposées pour le pré-traitement et en particulier, l'analyse de l'expression différentielle. Toutefois, l'absence de données de calibration ou de méthodologie de comparaison appropriée a empêché l'émergence d'un consensus quant aux méthodes d'analyse optimales. En conséquence, la décision de l'analyste de choisir telle méthode plutôt qu'une autre se fera la plupart du temps de façon subjective, en se basant par exemple sur la facilité d'utilisation, l'accès au logiciel ou la popularité. Ce mémoire présente une approche nouvelle au problème de la comparaison des méthodes d'analyse de l'expression différentielle. Plus de 800 pipelines d'analyse sont appliqués à plus d'une centaine d'expériences sur deux plateformes Affymetrix différentes. La performance de chacun des pipelines est évaluée en calculant le niveau moyen de co-régulation par l'entremise de scores d'enrichissements pour différentes collections de signatures moléculaires. L'approche comparative proposée repose donc sur un ensemble varié de données biologiques pertinentes, ne confond pas la reproductibilité avec l'exactitude et peut facilement être appliquée à de nouvelles méthodes. Parmi les méthodes testées, la supériorité de la sommarisation FARMS et de la statistique de l'expression différentielle TREAT est sans équivoque. De plus, les résultats obtenus quant à la statistique d'expression différentielle corroborent les conclusions d'autres études récentes à propos de l'importance de prendre en compte la grandeur du changement en plus de sa significativité statistique.
Resumo:
L’explosion du nombre de séquences permet à la phylogénomique, c’est-à-dire l’étude des liens de parenté entre espèces à partir de grands alignements multi-gènes, de prendre son essor. C’est incontestablement un moyen de pallier aux erreurs stochastiques des phylogénies simple gène, mais de nombreux problèmes demeurent malgré les progrès réalisés dans la modélisation du processus évolutif. Dans cette thèse, nous nous attachons à caractériser certains aspects du mauvais ajustement du modèle aux données, et à étudier leur impact sur l’exactitude de l’inférence. Contrairement à l’hétérotachie, la variation au cours du temps du processus de substitution en acides aminés a reçu peu d’attention jusqu’alors. Non seulement nous montrons que cette hétérogénéité est largement répandue chez les animaux, mais aussi que son existence peut nuire à la qualité de l’inférence phylogénomique. Ainsi en l’absence d’un modèle adéquat, la suppression des colonnes hétérogènes, mal gérées par le modèle, peut faire disparaître un artéfact de reconstruction. Dans un cadre phylogénomique, les techniques de séquençage utilisées impliquent souvent que tous les gènes ne sont pas présents pour toutes les espèces. La controverse sur l’impact de la quantité de cellules vides a récemment été réactualisée, mais la majorité des études sur les données manquantes sont faites sur de petits jeux de séquences simulées. Nous nous sommes donc intéressés à quantifier cet impact dans le cas d’un large alignement de données réelles. Pour un taux raisonnable de données manquantes, il appert que l’incomplétude de l’alignement affecte moins l’exactitude de l’inférence que le choix du modèle. Au contraire, l’ajout d’une séquence incomplète mais qui casse une longue branche peut restaurer, au moins partiellement, une phylogénie erronée. Comme les violations de modèle constituent toujours la limitation majeure dans l’exactitude de l’inférence phylogénétique, l’amélioration de l’échantillonnage des espèces et des gènes reste une alternative utile en l’absence d’un modèle adéquat. Nous avons donc développé un logiciel de sélection de séquences qui construit des jeux de données reproductibles, en se basant sur la quantité de données présentes, la vitesse d’évolution et les biais de composition. Lors de cette étude nous avons montré que l’expertise humaine apporte pour l’instant encore un savoir incontournable. Les différentes analyses réalisées pour cette thèse concluent à l’importance primordiale du modèle évolutif.
Resumo:
Les transferts horizontaux de gènes (THG) ont été démontrés pour jouer un rôle important dans l'évolution des procaryotes. Leur impact a été le sujet de débats intenses, ceux-ci allant même jusqu'à l'abandon de l'arbre des espèces. Selon certaines études, un signal historique dominant est présent chez les procaryotes, puisque les transmissions horizontales stables et fonctionnelles semblent beaucoup plus rares que les transmissions verticales (des dizaines contre des milliards). Cependant, l'effet cumulatif des THG est non-négligeable et peut potentiellement affecter l'inférence phylogénétique. Conséquemment, la plupart des chercheurs basent leurs inférences phylogénétiques sur un faible nombre de gènes rarement transférés, comme les protéines ribosomales. Ceux-ci n'accordent cependant pas autant d'importance au modèle d'évolution utilisé, même s'il a été démontré que celui-ci est important lorsqu'il est question de résoudre certaines divergences entre ancêtres d'espèces, comme pour les animaux par exemple. Dans ce mémoire, nous avons utilisé des simulations et analyser des jeux de données d'Archées afin d'étudier l'impact relatif des THG ainsi que l'impact des modèles d'évolution sur la précision phylogénétique. Nos simulations prouvent que (1) les THG ont un impact limité sur les phylogénies, considérant un taux de transferts réaliste et que (2) l'approche super-matrice est plus précise que l'approche super-arbre. Nous avons également observé que les modèles complexes expliquent non seulement mieux les données que les modèles standards, mais peuvent avoir un impact direct sur différents groupes phylogénétiques et sur la robustesse de l'arbre obtenu. Nos résultats contredisent une publication récente proposant que les Thaumarchaeota apparaissent à la base de l'arbre des Archées.
Resumo:
Le récepteur de l'acide rétinoïque RAR est une protéine de la superfamille des récepteurs nucléaires liant le ligand acide rétinoïque (AR). En présence de son ligand, RAR induit la transcription de ses gènes cibles alors qu'en son absence la transcription est inhibée. Le mécanisme de régulation de RAR est altéré dans les lignées cellulaires humaines de carcinome mammaire dû à une baisse de capacité de synthèse de l'AR. Aussi, l'expression des microARN (miR) est perturbée dans le cancer du sein et un grand nombre de gènes ont été identifiés, après une analyse in-silico, comme des cibles prédites des miRs. Ces derniers peuvent être régulés pas des facteurs de transcription et ils sont capables d'inhiber la prolifération cellulaire et d'induire l'apoptose via la régulation de leurs cibles. Ainsi, les miRs peuvent jouer un rôle dans le mécanisme de régulation de RAR et être impliqués dans des boucles de régulation avec ce récepteur. Dans le cadre de ce travail, nous décrivons une approche développée pour prédire et caractériser des circuits de régulation au niveau transcriptionnel et post-transcriptionnel dans le cancer du sein. Nous nous sommes intéressés aux boucles de régulation de type feed-forward où RAR régule un miR et en commun ils régulent un ensemble de gènes codants pour des protéines dans les cellules tumorales mammaires MCF7 et SKBR3. Ces circuits ont été construits en combinant des données de ChIP-chip de RAR et des données de micro-puces d'ADN tout en utilisant des outils in-silico de prédiction des gènes cibles de miRs. Afin de proposer le modèle approprié de régulation, une analyse in-silico des éléments de réponse de l'AR (RARE) dans les promoteurs des miRs est réalisée. Cette étape permet de prédire si la régulation par RAR est directe ou indirecte. Les boucles ainsi prédites sont filtrées en se basant sur des données d'expression de miR existantes dans des bases de données et dans différentes lignées cellulaires, en vue d'éliminer les faux positifs. De plus, seuls les circuits pertinents sur le plan biologique et trouvés enrichis dans Gene Ontology sont retenus. Nous proposons également d'inférer l'activité des miRs afin d'orienter leur régulation par RAR. L'approche a réussi à identifier des boucles validées expérimentalement. Plusieurs circuits de régulation prédits semblent être impliqués dans divers aspects du développement de l'organisme, de la prolifération et de la différenciation cellulaire. De plus, nous avons pu valider que let-7a peut être induit par l'AR dans les MCF7.
Resumo:
En 1975, Wilson et King ont proposé que l'évolution opère non seulement via des changements affectant la structure des protéines, mais aussi via des mutations qui modifient la régulation génétique. L'étude des éléments régulateurs de l'expression génétique a un rôle important dans la compréhension de l'expression de différentes maladies et de la réponse thérapeutique. Nous avons développé un algorithme bio- informatique qui nous permet rapidement de trouver des sites de régulation génétique à travers tout le génome et pour une grande quantité de gènes. Notre approche consiste à trouver des sites polymorphes (SNPs) qui sont en déséquilibre de liaison avec le débalancement allélique (AI) afin de cartographier la région régulatrice et le site responsable. Notre méthode est avantageuse par rapport à d'autres méthodes, car elle n'a pas besoin des données « phasées». De plus, les données de débalancement allélique ne sont pas affectées par des facteurs externes étant donné qu'ils sont mesurés dans la même cellule. Nous avons démontré que notre approche est fiable et qu'elle peut détecter des sites loin du gène. De plus, il peut être appliqué à des données de génotypage sans avoir besoin de les « phaser » .