71 resultados para bio-informatique


Relevância:

60.00% 60.00%

Publicador:

Resumo:

Introduction: Biomedical scientists need to choose among hundreds of publicly available bioinformatics applications, tools, and databases. Librarian challenges include raising awareness to valuable resources, as well as providing support in finding and evaluating specific resources. Our objective is to implement an education program in bioinformatics similar to those offered in other North American academic libraries. Description: Our initial target clientele included four research departments of the Faculty of Medicine at Universite´ de Montréal. In January 2010, I attended two departmental meetings and interviewed a few stakeholders in order to propose a basic bioinformatics service: one-to-one consultations and a workshop on NCBI databases. The response was favourable. The workshop was thus offered once a month during the Winter and Fall semesters, and participants were invited to evaluate the workshop via an online survey. In addition, a bioinformatics subject guide was launched on the library’s website in December 2010. Outcomes: One hundred and two participants attended one of the nine NCBI workshops offered in 2010; most were graduate students (74%). The survey’s response rate was 54%. A majority of respondents thought that the bioinformatics resources featured in the workshop were relevant (95%) and that the difficulty level of exercises was appropriate (84%). Respondents also thought that their future information searches would be more efficient (93%) and that the workshop should be integrated in a course (78%). Furthermore, five bioinformatics-related reference questions were answered and two one-to-one consultations with students were performed. Discussion: The success of our bioinformatics service is growing. Future directions include extending the service to other biomedical departments, integrating the workshop in an undergraduate course, promoting the subject guide to other francophone universities, and creating a bioinformatics blog that would feature specific databases, news, and library resources.

Relevância:

60.00% 60.00%

Publicador:

Resumo:

En 1975, Wilson et King ont proposé que l'évolution opère non seulement via des changements affectant la structure des protéines, mais aussi via des mutations qui modifient la régulation génétique. L'étude des éléments régulateurs de l'expression génétique a un rôle important dans la compréhension de l'expression de différentes maladies et de la réponse thérapeutique. Nous avons développé un algorithme bio- informatique qui nous permet rapidement de trouver des sites de régulation génétique à travers tout le génome et pour une grande quantité de gènes. Notre approche consiste à trouver des sites polymorphes (SNPs) qui sont en déséquilibre de liaison avec le débalancement allélique (AI) afin de cartographier la région régulatrice et le site responsable. Notre méthode est avantageuse par rapport à d'autres méthodes, car elle n'a pas besoin des données « phasées». De plus, les données de débalancement allélique ne sont pas affectées par des facteurs externes étant donné qu'ils sont mesurés dans la même cellule. Nous avons démontré que notre approche est fiable et qu'elle peut détecter des sites loin du gène. De plus, il peut être appliqué à des données de génotypage sans avoir besoin de les « phaser » .

Relevância:

60.00% 60.00%

Publicador:

Resumo:

Les gènes sont les parties du génome qui codent pour les protéines. Les gènes d’une ou plusieurs espèces peuvent être regroupés en "familles", en fonction de leur similarité de séquence. Cependant, pour connaître les relations fonctionnelles entre ces copies de gènes, la similarité de séquence ne suffit pas. Pour cela, il est important d’étudier l’évolution d’une famille par duplications et pertes afin de pouvoir distinguer entre gènes orthologues, des copies ayant évolué par spéciation et susceptibles d’avoir conservé une fonction commune, et gènes paralogues, des copies ayant évolué par duplication qui ont probablement développé des nouvelles fonctions. Étant donnée une famille de gènes présents dans n espèces différentes, un arbre de gènes (obtenu par une méthode phylogénétique classique), et un arbre phylogénétique pour les n espèces, la "réconciliation" est l’approche la plus courante permettant d’inférer une histoire d’évolution de cette famille par duplications, spéciations et pertes. Le degré de confiance accordé à l’histoire inférée est directement relié au degré de confiance accordé à l’arbre de gènes lui-même. Il est donc important de disposer d’une méthode préliminaire de correction d’arbres de gènes. Ce travail introduit une méthodologie permettant de "corriger" un arbre de gènes : supprimer le minimum de feuilles "mal placées" afin d’obtenir un arbre dont les sommets de duplications (inférés par la réconciliation) sont tous des sommets de "duplications apparentes" et obtenir ainsi un arbre de gènes en "accord" avec la phylogénie des espèces. J’introduis un algorithme exact pour des arbres d’une certaine classe, et une heuristique pour le cas général.

Relevância:

60.00% 60.00%

Publicador:

Resumo:

La flexibilité est une caractéristique intrinsèque des protéines qui doivent, dès le mo- ment de leur synthèse, passer d’un état de chaîne linéaire à un état de structure tridimen- sionnelle repliée et enzymatiquement active. Certaines protéines restent flexibles une fois repliées et subissent des changements de conformation de grande amplitude lors de leur cycle enzymatique. D’autres contiennent des segments si flexibles que leur structure ne peut être résolue par des méthodes expérimentales. Dans cette thèse, nous présentons notre application de méthodes in silico d’analyse de la flexibilité des protéines : • À l’aide des méthodes de dynamique moléculaire dirigée et d’échantillonnage pa- rapluie, nous avons caractérisé les trajectoires de liaison de l’inhibiteur Z-pro- prolinal à la protéine Prolyl oligopeptidase et identifié la trajectoire la plus pro- bable. Nos simulations ont aussi identifié un mode probable de recrutement des ligands utilisant une boucle flexible de 19 acides aminés à l’interface des deux domaines de la protéine. • En utilisant les méthodes de dynamique moléculaire traditionnelle et dirigée, nous avons examiné la stabilité de la protéine SAV1866 dans sa forme fermée insérée dans une membrane lipidique et étudié un des modes d’ouverture possibles par la séparation de ses domaines liant le nucléotide. • Nous avons adapté auproblème de la prédiction de la structure des longues boucles flexibles la méthode d’activation et de relaxation ART-nouveau précédemment uti- lisée dans l’étude du repliement et de l’agrégation de protéines. Appliqué au replie- ment de boucles de 8 à 20 acides aminés, la méthode démontre une dépendance quadratique du temps d’exécution sur la longueur des boucles, rendant possible l’étude de boucles encore plus longues.

Relevância:

60.00% 60.00%

Publicador:

Resumo:

Il est essentiel pour chaque organisme d’avoir la possibilité de réguler ses fonctions afin de permettre sa survie et d’améliorer sa capacité de se reproduire en divers habitats. Avec l’information disponible, il semble que les organismes consacrent une partie assez importante de leur matériel génétique à des fonctions de régulation. On peut envisager que certains mécanismes de régulation ont persisté dans le temps parce qu’ils remplissent bien leurs rôles. Les premières études sur les procaryotes ont indiqué qu’il y avait peu de mécanismes de régulation exerçant le contrôle des gènes, mais il a été démontré par la suite qu’une variété de ces mécanismes est utilisée pour la régulation de gènes et d’opérons. En particulier, les opérons bactériens impliqués dans la biosynthèse des acides aminés, l’ARNt synthétase, la dégradation des acides aminés, les protéines ribosomales et l’ARN ribosomal font l’objet d’un contrôle par l’atténuation de la transcription. Ce mécanisme d’atténuation de la transcription diffère d’autres mécanismes pour la génération de deux structures différentes de l’ARNm, où l’une de ces structures réprime le gène en aval, et l’autre permet de continuer la transcription/traduction. Dans le cadre de cette recherche, nous nous sommes intéressé au mécanisme d’atténuation de la transcription chez les procaryotes où aucune molécule ne semble intervenir comme facteur de régulation, en me concentrant sur la régulation des opérons bactériens. Le but principal de ce travail est de présenter une nouvelle méthode de recherche des riborégulateurs qui combine la recherche traditionnelle des riborégulateurs avec la recherche structurale. En incorporant l’étude du repliement de l’ARNm, nous pouvons mieux identifier les atténuateurs répondant à ce type de mécanisme d’atténuation. Ce mémoire est divisé en quatre chapitres. Le premier chapitre présente une revue de la littérature sur l’ARN et un survol sur les mécanismes de régulation de l’expression génétique chez les procaryotes. Les chapitres 2 et 3 sont consacrés à la méthodologie utilisée dans cette recherche et à l’implémentation du logiciel TA-Search. Enfin, le chapitre 4 expose les conclusions et les applications potentielles de la méthode.

Relevância:

60.00% 60.00%

Publicador:

Resumo:

Mémoire numérisé par la Division de la gestion de documents et des archives de l'Université de Montréal.

Relevância:

60.00% 60.00%

Publicador:

Resumo:

L’inférence de génomes ancestraux est une étape essentielle pour l’étude de l’évolution des génomes. Connaissant les génomes d’espèces éteintes, on peut proposer des mécanismes biologiques expliquant les divergences entre les génomes des espèces modernes. Diverses méthodes visant à résoudre ce problème existent, se classant parmis deux grandes catégories : les méthodes de distance et les méthodes de synténie. L’état de l’art des distances génomiques ne permettant qu’un certain répertoire de réarrangements pour le moment, les méthodes de synténie sont donc plus appropriées en pratique. Nous proposons une méthode de synténie pour la reconstruction de génomes ancestraux basée sur une définition relaxée d’adjacences de gènes, permettant un contenu en gène inégal dans les génomes modernes causé par des pertes de gènes de même que des duplications de génomes entiers (DGE). Des simulations sont effectuées, démontrant une capacité de former une solution assemblée en un nombre réduit de régions ancestrales contigües par rapport à d’autres méthodes tout en gardant une bonne fiabilité. Des applications sur des données de levures et de plantes céréalières montrent des résultats en accord avec d’autres publications, notamment la présence de fusion imbriquée de chromosomes pendant l’évolution des céréales.

Relevância:

60.00% 60.00%

Publicador:

Resumo:

Dans un premier temps, nous avons modélisé la structure d’une famille d’ARN avec une grammaire de graphes afin d’identifier les séquences qui en font partie. Plusieurs autres méthodes de modélisation ont été développées, telles que des grammaires stochastiques hors-contexte, des modèles de covariance, des profils de structures secondaires et des réseaux de contraintes. Ces méthodes de modélisation se basent sur la structure secondaire classique comparativement à nos grammaires de graphes qui se basent sur les motifs cycliques de nucléotides. Pour exemplifier notre modèle, nous avons utilisé la boucle E du ribosome qui contient le motif Sarcin-Ricin qui a été largement étudié depuis sa découverte par cristallographie aux rayons X au début des années 90. Nous avons construit une grammaire de graphes pour la structure du motif Sarcin-Ricin et avons dérivé toutes les séquences qui peuvent s’y replier. La pertinence biologique de ces séquences a été confirmée par une comparaison des séquences d’un alignement de plus de 800 séquences ribosomiques bactériennes. Cette comparaison a soulevée des alignements alternatifs pour quelques unes des séquences que nous avons supportés par des prédictions de structures secondaires et tertiaires. Les motifs cycliques de nucléotides ont été observés par les membres de notre laboratoire dans l'ARN dont la structure tertiaire a été résolue expérimentalement. Une étude des séquences et des structures tertiaires de chaque cycle composant la structure du Sarcin-Ricin a révélé que l'espace des séquences dépend grandement des interactions entre tous les nucléotides à proximité dans l’espace tridimensionnel, c’est-à-dire pas uniquement entre deux paires de bases adjacentes. Le nombre de séquences générées par la grammaire de graphes est plus petit que ceux des méthodes basées sur la structure secondaire classique. Cela suggère l’importance du contexte pour la relation entre la séquence et la structure, d’où l’utilisation d’une grammaire de graphes contextuelle plus expressive que les grammaires hors-contexte. Les grammaires de graphes que nous avons développées ne tiennent compte que de la structure tertiaire et négligent les interactions de groupes chimiques spécifiques avec des éléments extra-moléculaires, comme d’autres macromolécules ou ligands. Dans un deuxième temps et pour tenir compte de ces interactions, nous avons développé un modèle qui tient compte de la position des groupes chimiques à la surface des structures tertiaires. L’hypothèse étant que les groupes chimiques à des positions conservées dans des séquences prédéterminées actives, qui sont déplacés dans des séquences inactives pour une fonction précise, ont de plus grandes chances d’être impliqués dans des interactions avec des facteurs. En poursuivant avec l’exemple de la boucle E, nous avons cherché les groupes de cette boucle qui pourraient être impliqués dans des interactions avec des facteurs d'élongation. Une fois les groupes identifiés, on peut prédire par modélisation tridimensionnelle les séquences qui positionnent correctement ces groupes dans leurs structures tertiaires. Il existe quelques modèles pour adresser ce problème, telles que des descripteurs de molécules, des matrices d’adjacences de nucléotides et ceux basé sur la thermodynamique. Cependant, tous ces modèles utilisent une représentation trop simplifiée de la structure d’ARN, ce qui limite leur applicabilité. Nous avons appliqué notre modèle sur les structures tertiaires d’un ensemble de variants d’une séquence d’une instance du Sarcin-Ricin d’un ribosome bactérien. L’équipe de Wool à l’université de Chicago a déjà étudié cette instance expérimentalement en testant la viabilité de 12 variants. Ils ont déterminé 4 variants viables et 8 létaux. Nous avons utilisé cet ensemble de 12 séquences pour l’entraînement de notre modèle et nous avons déterminé un ensemble de propriétés essentielles à leur fonction biologique. Pour chaque variant de l’ensemble d’entraînement nous avons construit des modèles de structures tertiaires. Nous avons ensuite mesuré les charges partielles des atomes exposés sur la surface et encodé cette information dans des vecteurs. Nous avons utilisé l’analyse des composantes principales pour transformer les vecteurs en un ensemble de variables non corrélées, qu’on appelle les composantes principales. En utilisant la distance Euclidienne pondérée et l’algorithme du plus proche voisin, nous avons appliqué la technique du « Leave-One-Out Cross-Validation » pour choisir les meilleurs paramètres pour prédire l’activité d’une nouvelle séquence en la faisant correspondre à ces composantes principales. Finalement, nous avons confirmé le pouvoir prédictif du modèle à l’aide d’un nouvel ensemble de 8 variants dont la viabilité à été vérifiée expérimentalement dans notre laboratoire. En conclusion, les grammaires de graphes permettent de modéliser la relation entre la séquence et la structure d’un élément structural d’ARN, comme la boucle E contenant le motif Sarcin-Ricin du ribosome. Les applications vont de la correction à l’aide à l'alignement de séquences jusqu’au design de séquences ayant une structure prédéterminée. Nous avons également développé un modèle pour tenir compte des interactions spécifiques liées à une fonction biologique donnée, soit avec des facteurs environnants. Notre modèle est basé sur la conservation de l'exposition des groupes chimiques qui sont impliqués dans ces interactions. Ce modèle nous a permis de prédire l’activité biologique d’un ensemble de variants de la boucle E du ribosome qui se lie à des facteurs d'élongation.

Relevância:

60.00% 60.00%

Publicador:

Resumo:

Depuis quelques années, l'évolution moléculaire cherche à caractériser les variations et l'intensité de la sélection grâce au rapport entre taux de substitution synonyme et taux de substitution non-synonyme (dN/dS). Cette mesure, dN/dS, a permis d'étudier l'histoire de la variation de l'intensité de la sélection au cours du temps ou de détecter des épisodes de la sélection positive. Les liens entre sélection et variation de taille efficace interfèrent cependant dans ces mesures. Les méthodes comparatives, quant a elle, permettent de mesurer les corrélations entre caractères quantitatifs le long d'une phylogénie. Elles sont également utilisées pour tester des hypothèses sur l'évolution corrélée des traits d'histoire de vie, mais pour être employées pour étudier les corrélations entre traits d'histoire de vie, masse, taux de substitution ou dN/dS. Nous proposons ici une approche combinant une méthode comparative basée sur le principe des contrastes indépendants et un modèle d'évolution moléculaire, dans un cadre probabiliste Bayésien. Intégrant, le long d'une phylogénie, sur les reconstructions ancestrales des traits et et de dN/dS nous estimons les covariances entre traits ainsi qu'entre traits et paramètres du modèle d'évolution moléculaire. Un modèle hiérarchique, a été implémenté dans le cadre du logiciel coevol, publié au cours de cette maitrise. Ce modèle permet l'analyse simultané de plusieurs gènes sans perdre la puissance donnée par l'ensemble de séquences. Un travail deparallélisation des calculs donne la liberté d'augmenter la taille du modèle jusqu'à l'échelle du génome. Nous étudions ici les placentaires, pour lesquels beaucoup de génomes complets et de mesures phénotypiques sont disponibles. À la lumière des théories sur les traits d'histoire de vie, notre méthode devrait permettre de caractériser l'implication de groupes de gènes dans les processus biologique liés aux phénotypes étudiés.

Relevância:

60.00% 60.00%

Publicador:

Resumo:

La fibrillation auriculaire (FA) est le trouble du rythme le plus fréquemment observé en pratique clinique. Elle constitue un risque important de morbi-mortalité. Le traitement de la FA reste un défi majeur en lien avec les nombreux effets secondaires associés aux approches thérapeutiques actuelles. Dans ce contexte, une meilleure compréhension des mécanismes sous-jacents à la FA est essentielle pour le développement de nouvelles thérapies offrant un meilleur rapport bénéfice/risque pour les patients. La FA est caractérisée par i) un remodelage électrique délétère associé le plus souvent ii) à un remodelage structurel du myocarde favorisant la récurrence et le maintien de l’arythmie. La diminution de la période réfractaire effective au sein du tissu auriculaire est un élément clef du remodelage électrique. Le remodelage structurel, quant à lui, se manifeste principalement par une fibrose tissulaire qui altère la propagation de l’influx électrique dans les oreillettes. Les mécanismes moléculaires impliqués dans la mise en place de ces deux substrats restent mal connus. Récemment, le rôle des microARNs (miARNs) a été pointé du doigt dans de nombreuses pathologies notamment cardiaques. Dans ce contexte les objectifs principaux de ce travail ont été i) d'acquérir une compréhension approfondie du rôle des miARNs dans la régulation de l’expression des canaux ioniques et ii) de mieux comprendre le rôle de ces molécules dans l’installation d’un substrat favorable a la FA. Nous avons, dans un premier temps, effectué une analyse bio-informatique combinée à des approches expérimentales spécifiques afin d’identifier clairement les miARNs démontrant un fort potentiel de régulation des gènes codant pour l’expression des canaux ioniques cardiaques humains. Nous avons identifié un nombre limité de miARNs cardiaques qui possédaient ces propriétés. Sur la base de ces résultats, nous avons démontré que l’altération de l'expression des canaux ioniques, observée dans diverse maladies cardiaques (par exemple, les cardiomyopathies, l’ischémie myocardique, et la fibrillation auriculaire), peut être soumise à ces miARNs suggérant leur implication dans l’arythmogénèse. La régulation du courant potassique IK1 est un facteur déterminant du remodelage électrique auriculaire associée à la FA. Les mécanismes moléculaires sous-jacents sont peu connus. Nous avons émis l’hypothèse que l'altération de l’expression des miARNs soit corrélée à l’augmentation de l’expression d’IK1 dans la FA. Nous avons constaté que l’expression de miR-26 est réduite dans la FA et qu’elle régule IK1 en modulant l’expression de sa sous-unité Kir2.1. Nous avons démontré que miR-26 est sous la répression transcriptionnelle du facteur nucléaire des lymphocytes T activés (NFAT) et que l’activité accrue de NFATc3/c4, aboutit à une expression réduite de miR-26. En conséquence IK1 augmente lors de la FA. Nous avons enfin démontré que l’interférence in vivo de miR-26 influence la susceptibilité à la FA en régulant IK1, confirmant le rôle prépondérant de miR-26 dans le remodelage auriculaire électrique. La fibrose auriculaire est un constituant majeur du remodelage structurel associé à la FA, impliquant l'activation des fibroblastes et l’influx cellulaire du Ca2 +. Nous avons cherché à déterminer i) si le canal perméable au Ca2+, TRPC3, jouait un rôle dans la fibrose auriculaire en favorisant l'activation des fibroblastes et ii) étudié le rôle potentiel des miARNs dans ce contexte. Nous avons démontré que les canaux TRPC3 favorisent l’influx du Ca2 +, activant la signalisation Ca2 +-dépendante ERK et en conséquence activent la prolifération des fibroblastes. Nous avons également démontré que l’expression du TRPC3 est augmentée dans la FA et que le blocage in vivo de TRPC3 empêche le développement de substrats reliés à la FA. Nous avons par ailleurs validé que miR-26 régule les canaux TRPC3 en diminuant leur expression dans les fibroblastes. Enfin, nous avons montré que l'expression réduite du miR-26 est également due à l’activité augmentée de NFATc3/c4 dans les fibroblastes, expliquant ainsi l’augmentation de TRPC3 lors de la FA, confirmant la contribution de miR-26 dans le processus de remodelage structurel lié à la FA. En conclusion, nos résultats mettent en évidence l'importance des miARNs dans la régulation des canaux ioniques cardiaques. Notamment, miR-26 joue un rôle important dans le remodelage électrique et structurel associé à la FA et ce, en régulant IK1 et l’expression du canal TRPC3. Notre étude démasque ainsi un mécanisme moléculaire de contrôle de la FA innovateur associant des miARNs. miR-26 en particulier représente apres ces travaux une nouvelle cible thérapeutique prometteuse pour traiter la FA.

Relevância:

60.00% 60.00%

Publicador:

Resumo:

Les résultats ont été obtenus avec le logiciel "Insight-2" de Accelris (San Diego, CA)

Relevância:

60.00% 60.00%

Publicador:

Resumo:

Les traits quantitatifs complexes sont des caractéristiques mesurables d’organismes vivants qui résultent de l’interaction entre plusieurs gènes et facteurs environnementaux. Les locus génétiques liés à un caractère complexe sont appelés «locus de traits quantitatifs » (QTL). Récemment, en considérant les niveaux d’expression tissulaire de milliers de gènes comme des traits quantitatifs, il est devenu possible de détecter des «QTLs d’expression» (eQTL). Alors que ces derniers ont été considérés comme des phénotypes intermédiaires permettant de mieux comprendre l’architecture biologique des traits complexes, la majorité des études visent encore à identifier une mutation causale dans un seul gène. Cette approche ne peut remporter du succès que dans les situations où le gène incriminé a un effet majeur sur le trait complexe, et ne permet donc pas d’élucider les situations où les traits complexes résultent d’interactions entre divers gènes. Cette thèse propose une approche plus globale pour : 1) tenir compte des multiples interactions possibles entre gènes pour la détection de eQTLs et 2) considérer comment des polymorphismes affectant l’expression de plusieurs gènes au sein de groupes de co-expression pourraient contribuer à des caractères quantitatifs complexes. Nos contributions sont les suivantes : Nous avons développé un outil informatique utilisant des méthodes d’analyse multivariées pour détecter des eQTLs et avons montré que cet outil augmente la sensibilité de détection d’une classe particulière de eQTLs. Sur la base d’analyses de données d’expression de gènes dans des tissus de souris recombinantes consanguines, nous avons montré que certains polymorphismes peuvent affecter l’expression de plusieurs gènes au sein de domaines géniques de co-expression. En combinant des études de détection de eQTLs avec des techniques d’analyse de réseaux de co-expression de gènes dans des souches de souris recombinantes consanguines, nous avons montré qu’un locus génétique pouvait être lié à la fois à l’expression de plusieurs gènes au niveau d’un domaine génique de co-expression et à un trait complexe particulier (c.-à-d. la masse du ventricule cardiaque gauche). Au total, nos études nous ont permis de détecter plusieurs mécanismes par lesquels des polymorphismes génétiques peuvent être liés à l’expression de plusieurs gènes, ces derniers pouvant eux-mêmes être liés à des traits quantitatifs complexes.

Relevância:

60.00% 60.00%

Publicador:

Resumo:

Les interactions entre les squelettes sucre-phosphate de nucléotides jouent un rôle important dans la stabilisation des structures tertiaires de larges molécules d’ARN. Elles sont régies par des règles particulières qui gouverne leur formation mais qui jusque là demeure quasiment inconnues. Un élément structural d’ARN pour lequel les interactions sucre-phosphate sont importantes est le motif d’empaquetage de deux doubles hélices d’ARN le long du sillon mineur. Ce motif se trouve à divers endroits dans la structure du ribosome. Il consiste en deux doubles hélices interagissant de manière à ce que le squelette sucre-phosphate de l’une se niche dans le sillon mineur de l’autre et vice versa. La surface de contact entre les deux hélices est majoritairement formée par les riboses et implique au total douze nucléotides. La présente thèse a pour but d’analyser la structure interne de ce motif et sa dépendance de stabilité résultant de l’association optimale ou non des hélices, selon leurs séquences nucléotidiques. Il est démontré dans cette thèse qu’un positionnement approprié des riboses leur permet de former des contacts inter-hélices, par l’entremise d’un choix particulier de l’identité des pairs de bases impliquées. Pour différentes pairs de bases participant à ce contact inter-hélices, l’identité optimale peut être du type Watson-Crick, GC/CG, or certaines pairs de bases non Watson-Crick. Le choix adéquat de paires de bases fournit une interaction inter-hélice stable. Dans quelques cas du motif, l’identité de certaines paires de bases ne correspond pas à la structure la plus stable, ce qui pourrait refléter le fait que ces motifs devraient avoir une liberté de formation et de déformation lors du fonctionnement du ribosome.

Relevância:

60.00% 60.00%

Publicador:

Resumo:

Les facteurs de transcription sont des protéines spécialisées qui jouent un rôle important dans différents processus biologiques tel que la différenciation, le cycle cellulaire et la tumorigenèse. Ils régulent la transcription des gènes en se fixant sur des séquences d’ADN spécifiques (éléments cis-régulateurs). L’identification de ces éléments est une étape cruciale dans la compréhension des réseaux de régulation des gènes. Avec l’avènement des technologies de séquençage à haut débit, l’identification de tout les éléments fonctionnels dans les génomes, incluant gènes et éléments cis-régulateurs a connu une avancée considérable. Alors qu’on est arrivé à estimer le nombre de gènes chez différentes espèces, l’information sur les éléments qui contrôlent et orchestrent la régulation de ces gènes est encore mal définie. Grace aux techniques de ChIP-chip et de ChIP-séquençage il est possible d’identifier toutes les régions du génome qui sont liées par un facteur de transcription d’intérêt. Plusieurs approches computationnelles ont été développées pour prédire les sites fixés par les facteurs de transcription. Ces approches sont classées en deux catégories principales: les algorithmes énumératifs et probabilistes. Toutefois, plusieurs études ont montré que ces approches génèrent des taux élevés de faux négatifs et de faux positifs ce qui rend difficile l’interprétation des résultats et par conséquent leur validation expérimentale. Dans cette thèse, nous avons ciblé deux objectifs. Le premier objectif a été de développer une nouvelle approche pour la découverte des sites de fixation des facteurs de transcription à l’ADN (SAMD-ChIP) adaptée aux données de ChIP-chip et de ChIP-séquençage. Notre approche implémente un algorithme hybride qui combine les deux stratégies énumérative et probabiliste, afin d’exploiter les performances de chacune d’entre elles. Notre approche a montré ses performances, comparée aux outils de découvertes de motifs existants sur des jeux de données simulées et des jeux de données de ChIP-chip et de ChIP-séquençage. SAMD-ChIP présente aussi l’avantage d’exploiter les propriétés de distributions des sites liés par les facteurs de transcription autour du centre des régions liées afin de limiter la prédiction aux motifs qui sont enrichis dans une fenêtre de longueur fixe autour du centre de ces régions. Les facteurs de transcription agissent rarement seuls. Ils forment souvent des complexes pour interagir avec l’ADN pour réguler leurs gènes cibles. Ces interactions impliquent des facteurs de transcription dont les sites de fixation à l’ADN sont localisés proches les uns des autres ou bien médier par des boucles de chromatine. Notre deuxième objectif a été d’exploiter la proximité spatiale des sites liés par les facteurs de transcription dans les régions de ChIP-chip et de ChIP-séquençage pour développer une approche pour la prédiction des motifs composites (motifs composés par deux sites et séparés par un espacement de taille fixe). Nous avons testé ce module pour prédire la co-localisation entre les deux demi-sites ERE qui forment le site ERE, lié par le récepteur des œstrogènes ERα. Ce module a été incorporé à notre outil de découverte de motifs SAMD-ChIP.

Relevância:

60.00% 60.00%

Publicador:

Resumo:

La duplication est un des évènements évolutifs les plus importants, car elle peut mener à la création de nouvelles fonctions géniques. Durant leur évolution, les génomes sont aussi affectés par des inversions, des translocations (incluant des fusions et fissions de chromosomes), des transpositions et des délétions. L'étude de l'évolution des génomes est importante, notamment pour mieux comprendre les mécanismes biologiques impliqués, les types d'évènements qui sont les plus fréquents et quels étaient les contenus en gènes des espèces ancestrales. Afin d'analyser ces différents aspects de l'évolution des génomes, des algorithmes efficaces doivent être créés pour inférer des génomes ancestraux, des histoires évolutives, des relations d'homologies et pour calculer les distances entre les génomes. Dans cette thèse, quatre projets reliés à l'étude et à l'analyse de l'évolution des génomes sont présentés : 1) Nous proposons deux algorithmes pour résoudre des problèmes reliés à la duplication de génome entier : un qui généralise le problème du genome halving aux pertes de gènes et un qui permet de calculer la double distance avec pertes. 2) Nous présentons une nouvelle méthode pour l'inférence d'histoires évolutives de groupes de gènes orthologues répétés en tandem. 3) Nous proposons une nouvelle approche basée sur la théorie des graphes pour inférer des gènes in-paralogues qui considère simultanément l'information provenant de différentes espèces afin de faire de meilleures prédictions. 4) Nous présentons une étude de l'histoire évolutive des gènes d'ARN de transfert chez 50 souches de Bacillus.