240 resultados para Criblage à haut débit
em Université de Lausanne, Switzerland
Resumo:
La rétinite pigmentaire (RP) et l'amaurose congénitale de Leber (LCA) sont deux maladies héréditaires classées dans le groupe des rétinopathies pigmentaires. Plus de 100 gènes ou loci ont étés identifiés dans les RP (comptant pour 60% des patients) et 14 gènes pour les LCA (responsables de 70% des cas). A elles-deux et en ne prenant que les plus fréquentes, ces maladies représentent 948 exons à analyser lorsqu'on recherche une mutation chez un patient. La recherche de mutations au moyen du séquençage génomique classique (séquençage selon Sanger) de tous les gènes de ces deux maladies implique des délais d'analyse importants et des coûts très élevés. La méthode de séquençage à haut débit (avec le séquenceur Roche GS Junior) permet grâce à une puce à ADN le séquençage simultané des 948 exons. Le but de mon travail de Master est de comparer ces deux approches afin de déterminer celle qui est la plus économique et la plus efficiente en temps. Pour cela, j'ai d'abord établi la liste de tous les gènes impliqués dans les RP et LCA, puis identifié tous les exons ainsi que les promoteurs et séquences 3' non traduites. J'ai ensuite calculé le coût théorique d'une analyse de tous les gènes avec chacune des méthodes. J'ai également estimé les coûts à facturer à l'assurance concernant le séquençage à haut débit sur la base des coûts facturables à l'assurance de la méthode Sanger et des bénéfices du laboratoire. Le séquençage des 948 exons par le séquençage à haut débit (avec le GS Junior) représente la technique de séquençage la plus économique et la plus efficiente en temps et constitue donc la méthode de choix dans le screening diagnostic des gènes impliqués dans les RP et LCA. Cette méthode est plus rapide, les réactifs et la machine sont moins coûteux et la laborantine peut analyser un nombre plus important d'exons en un temps moindre, donc elle coûtera moins cher au laboratoire. Cette méthode est donc d'un grand intérêt pour les patients, les assurances et le laboratoire. Cette nouvelle technique de séquençage soulève de nouvelles interrogations telles que la décision de savoir quelle information doit être donnée aux médecins, aux assurances et aux patients. Interrogations auxquelles il devient de plus en plus pressant de répondre.
Resumo:
PURPOSE: Pencil beam scanning and filter free techniques may involve dose-rates considerably higher than those used in conventional external-beam radiotherapy. Our purpose was to investigate normal tissue and tumour responses in vivo to short pulses of radiation. MATERIAL AND METHODS: C57BL/6J mice were exposed to bilateral thorax irradiation using pulsed (at least 40Gy/s, flash) or conventional dose-rate irradiation (0.03Gy/s or less) in single dose. Immunohistochemical and histological methods were used to compare early radio-induced apoptosis and the development of lung fibrosis in the two situations. The response of two human (HBCx-12A, HEp-2) tumour xenografts in nude mice and one syngeneic, orthotopic lung carcinoma in C57BL/6J mice (TC-1 Luc+), was monitored in both radiation modes. RESULTS: A 17Gy conventional irradiation induced pulmonary fibrosis and activation of the TGF-beta cascade in 100% of the animals 24-36 weeks post-treatment, as expected, whereas no animal developed complications below 23Gy flash irradiation, and a 30Gy flash irradiation was required to induce the same extent of fibrosis as 17Gy conventional irradiation. Cutaneous lesions were also reduced in severity. Flash irradiation protected vascular and bronchial smooth muscle cells as well as epithelial cells of bronchi against acute apoptosis as shown by analysis of caspase-3 activation and TUNEL staining. In contrast, the antitumour effectiveness of flash irradiation was maintained and not different from that of conventional irradiation. CONCLUSION: Flash irradiation shifted by a large factor the threshold dose required to initiate lung fibrosis without loss of the antitumour efficiency, suggesting that the method might be used to advantage to minimize the complications of radiotherapy.
Resumo:
Sphingomonas wittichii is a gram-negative Alpha-proteobacterium, capable of degrading xenobiotic compounds such as dibenzofuran (DBF), dibenzo-p-dioxin, carbazole, 2-hydroxybiphenyl or nitro diphenyl ether herbicides. The metabolism of strain RW1 has been the subject of previous studies and a number of genes involved in DBF degradation have been characterized. It is known that RW1 posseses a unique initial DBF dioxygenase (encoded by the dxnAl gene) that catalyzes the first step in the degradation pathway. None of the organisms known to be able to degrade DBF have a similar dioxygenase, the closest match being the DBF dioxygenase from Rhodococcus sp. with an overall amino acid similarity of 45%. Genes participating in the conversion of the metabolite salicylate via the ortho-cleavage pathway to TCA cycle intermediates were identified as well. Apart from this scarce information, however, there is a lack of global knowledge on the genes that are involved in DBF degradation by strain RW1 and the influence of environmental stresses on DBF-dependent global gene expression. A global analysis is necessary, because it may help to better understand the behaviour of the strain under field conditions and suggest improvements for the current bioaugmentation practice. Chapter 2 describes the results of whole-genome analysis to characterize the genes involved in DBF degradation by RW1. Micro-array analysis allowed us to detect differences in gene transcription when strain RW1 was exposed to DBF. This was complemented by ultra-high throughput sequencing of mutants no longer capable of growing on salicylate and DBF. Some of the genes of the ortho-cleavage pathway were induced 2 to 4 times in the presence of DBF, as well as the initial DBF dioxygenase. However two gene clusters, named 4925 and 5102 were induced up to 19 times in response to DBF induction. The cluster 4925 is putatively participating in a meta-cleavage pathway while the cluster 5102 might be part of a gentisate pathway. The three pathways, ortho-cleavage, meta-cleavage and gentisate pathway seem to be active in parallel when strain RW1 is exposed to DBF, presenting evidence for a redundancy of genes for DBF degradation in the genome of RW1. Chapter 3 focuses on exploiting genetic tools to construct bioreporters representative for DBF degradation in RW1. A set of basic tools for genetic manipulation in Sphingomonas wittichii RW1 was tested and optimized. Both plasmids and mini-transposons were evaluated for their ability to be maintained in RW1 with or without antibiotic selection pressure, and for their ability to lead to fluorescent protein expression in strain RW1 from a constitutive promoter. Putative promoter regions of three of the previously found DBF-induced genes (Swit_4925, Swit_5102 and Swit_4897-dxnAl) were then used to construct eg/^-bioreporters in RW1. Chapter 4 describes the use of the constructed RW1-based bioreporter strains for examining the expression of the DBF degradation pathway genes under microcosm conditions. The bioreporter strains were first exposed to different carbon sources in liquid culture to calibrate the egfp induction. Contrary to our expectations from micro-array analysis only the construct with the promoter from gene cluster 4925 responded to DBF, whereas the other two constructs did not show specific induction with DBF. The response from the bioreporters was subsequently tested for sensitivity to water stress, given that this could have an important impact in soils. Exposure to liquid cultures with decreasing water potential, achieved by NaCl or PEG addition to the growth media, showed that eGFP expression in RW1 from the promoter regions 4925 and 5102 was not directly influenced by water stress, but only through an overall reduction in growth rate. In contrast, expression of eGFP from the dxnAl or an uspA promoter was also directly dependent on the extent of water stress. The RW1 with the 4925 construct was subsequently used in soil microcosms to evaluate DBF bioavailability to the cells in presence or absence of native microbiota or other contaminated material. We found that RW1 could grow on DBF added to soil, but bioreporter expression suggested that competition with native microbiota for DBF intermediates may limit its ability to proliferate to a maximum. Chapter 5 describes the results from the experiments carried out to more specifically detect genes of RW1 that might be implicated in water stress resistance. Hereto we created transposon mutagenesis libraries in RW1, either with a classical mini-Tn5 or with a variant that would express egfp when the transposon would insert in a gene induced under water stress. Classical mutant libraries were screened by replica plating under high and low water stress conditions (achieved by adding NaCl to the agar medium). In addition, we screened for smaller microcolonies formed by mutants in agarose beads that could be analized with flow cytometry. A number of mutants impaired to grow on NaCl-supplemented media were recovered and the transposon insertion sites sequenced. In a second procedure we screened by flow cytometry for mutants with a higher eGFP production after exposure to growth medium with higher NaCl concentrations. Mutants from both libraries rarely overlapped. Discovered gene functions of the transposon insertions pointed to compatible solute synthesis (glutamate and proline), cell membrane synthesis and modification of cell membrane composition. The results obtained in the present study give us a more complete picture of the mechanisms of DBF degradation by S. wittichii RW1, how it reacts to different DBF availability and how the DBF catabolic activity may be affected by the conditions found in contaminated environments. - Sphingomonas wittichii est une alpha-protéobactérie gram-négative, capable de dégrader des composés xénobiotiques tels que le dibenzofurane (DBF), la dibenzo-p-dioxine, le carbazole, le 2-hydroxybiphényle ou les herbicides dérivés du nitro-diphényléther. Le métabolisme de la souche RW1 a fait l'objet d'études antérieures et un certain nombre de gènes impliqués dans la dégradation du DBF ont été caractérisés. Il est connu que RW1 possède une unique dioxygénase DBF initiale (codée par le gène dxnAl) qui catalyse la première étape de la voie de dégradation. Aucun des organismes connus pour être capables de dégrader le DBF n'a de dioxygénase similaire. L'enzyme la plus proche étant la DBF dioxygénase de Rhodococcus sp. avec 45% d'acides aminés conservés. Les gènes qui participent à la transformation du salicylate en métabolites intermédiaires du cycle de Krebs par la voie ort/io-cleavage ont aussi été identifiés. Outre ces informations lacunaires, il y a un manque de connaissances sur l'ensemble des gènes impliqués dans la dégradation du DBF par la souche RW1 ainsi que l'effet des stress environnementaux sur l'expression génétique globale, en présence du DBF. Une analyse globale est nécessaire, car elle peut aider à mieux comprendre le comportement de la souche dans les conditions de terrain et de proposer des améliorations pour l'utilisation de la bio-augmentation comme technique de bio-remédiation. Le chapitre 2 décrit les résultats de l'analyse du génome pour caractériser les gènes impliqués dans la dégradation du DBF par RW1. Une analyse de micro-arrays nous a permis de détecter des différences dans la transcription des gènes lorsque la souche RW1 a été exposée au DBF. L'analyse a été complétée par le criblage à ultra-haut débit de mutants qui n'étaient plus capables de croître avec le salicylate ou le DBF comme seule source de carbone. Certains des gènes de la voie ortho-cleavage, dont la DBF dioxygénase initiale, ont xî été induits 2 à 4 fois, en présence du DBF. Cependant, deux groupes de gènes, nommés 4925 et 5102 ont été induits jusqu'à 19 fois en réponse au DBF. Le cluster 4925 participe probablement dans une voie de meta-cleavage tandis que le cluster 5102 pourrait faire partie d'une voie du gentisate. Les trois voies, ortho-cleavage, meta-cleavage et la voie du gentisate semblent être activées en parallèle lorsque la souche RW1 est exposée au DBF, ce qui représente une redondance de voies pour la dégradation du DBF dans le génome de RW1. Le chapitre 3 se concentre sur l'exploitation des outils génétiques pour la construction de biorapporteurs de la dégradation du DBF par RW1. Un ensemble d'outils de base pour la manipulation génétique dans Sphingomonas wittichii RW1 a été testé et optimisé. Deux plasmides et mini-transposons ont été évalués pour leur capacité à être maintenu dans RW1 avec ou sans pression de sélection par des antibiotiques, et pour leur capacité à exprimer la protéine fluorescente verte (eGFP) dans la souche RW1. Les trois promoteurs des gènes Swit_4925, Swit_5102 et Swit_4897 (dxnAl), induits en réponse au DBF, ont ensuite été utilisés pour construire des biorapporteurs dans RW1. Le chapitre 4 décrit l'utilisation des souches biorapportrices construites pour l'analyse de l'expression des gènes de la voie de dégradation du DBF dans des microcosmes avec différents types de sols. Les souches biorapportrices ont d'abord été exposées à différentes sources de carbone en cultures liquides afin de calibrer l'induction de la eGFP. La construction avec le promoteur du gène 4925 a permis une réponse au DBF. Mais contrairement à nos attentes, basées sur les résultats de l'analyse des micro-arrays, les deux autres constructions n'ont pas montré d'induction spécifique au DBF. La réponse des biorapporteurs a ensuite été testée pour la sensibilité au stress hydrique, étant donné que cela pourrait avoir un impact important dans les microcosmes. La diminution du potentiel hydrique en culture liquide est obtenue par addition de NaCl ou de PEG au milieu de croissance. Nous avons montré que l'expression de la eGFP contrôlée par les promoteurs 4925 et 5102 n'était pas directement influencée par le stress hydrique, mais seulement par une réduction globale des taux de croissance. En revanche, l'expression de la eGFP dépendante des promoteurs dxnAl et uspA était aussi directement dépendante de l'ampleur du stress hydrique. La souche avec la construction 4925 a été utilisée par la suite dans des microcosmes avec différents types de sols pour évaluer la biodisponibilité du DBF en présence ou absence des microbes indigènes et d'autres composés contaminants. Nous avons constaté que RW1 pouvait se développer si le DBF a été ajouté au sol, mais l'expression de la eGFP par le biorapporteur suggère que la compétition avec la microbiota indigène pour les métabolites intermédiaires du DBF peut limiter sa capacité à proliférer de manière optimale. Le chapitre 5 décrit les résultats des expériences réalisées afin de détecter spécifiquement les gènes de RW1 qui pourraient être impliquées dans la résistance au stress hydrique. Ici on a crée des bibliothèques de mutants de RW1 par transposon, soit avec un mini-Tn5 classique ou avec une variante qui exprime la eGFP lorsque le transposon s'insère dans un gène induit par le stress hydrique. Les bibliothèques de mutants ont été criblées par la méthode classique de repiquage sur boîtes, dans des conditions de stress hydrique élevé (obtenu par l'addition de NaCl dans les boîtes). En outre, nous avons criblé des micro¬colonies dans des billes d'agarose qui ont pu être analysées par cytométrie de flux. Un certain nombre de mutants déficients à croître sur des milieux supplémentés avec du NaCl ont été isolés et les sites d'insertion du transposon séquencés. Dans une deuxième procédure nous avons criblé par cytométrie de flux des mutants avec une production de eGFP supérieure, après exposition à un milieu de croissance avec une concentration élevée de NaCl. Les mutants obtenus dans les deux bibliothèques n'étaient pas similaires. Les fonctions des gènes où se trouvent les insertions de transposons sont impliqués dans la synthèse de solutés compatibles (glutamate et de la proline), dans la synthèse de la membrane cellulaire et dans la modification de la composition de la membrane cellulaire. Les résultats obtenus dans la présente étude nous donnent une image plus complète des mécanismes de dégradation du DBF par S. wittichii RW1, comment cette souche réagit à la disponibilité du DBF et comment l'activité catabolique peut être affectée par les conditions rencontrées dans des environnements contaminés.
Resumo:
3 Summary 3. 1 English The pharmaceutical industry has been facing several challenges during the last years, and the optimization of their drug discovery pipeline is believed to be the only viable solution. High-throughput techniques do participate actively to this optimization, especially when complemented by computational approaches aiming at rationalizing the enormous amount of information that they can produce. In siiico techniques, such as virtual screening or rational drug design, are now routinely used to guide drug discovery. Both heavily rely on the prediction of the molecular interaction (docking) occurring between drug-like molecules and a therapeutically relevant target. Several softwares are available to this end, but despite the very promising picture drawn in most benchmarks, they still hold several hidden weaknesses. As pointed out in several recent reviews, the docking problem is far from being solved, and there is now a need for methods able to identify binding modes with a high accuracy, which is essential to reliably compute the binding free energy of the ligand. This quantity is directly linked to its affinity and can be related to its biological activity. Accurate docking algorithms are thus critical for both the discovery and the rational optimization of new drugs. In this thesis, a new docking software aiming at this goal is presented, EADock. It uses a hybrid evolutionary algorithm with two fitness functions, in combination with a sophisticated management of the diversity. EADock is interfaced with .the CHARMM package for energy calculations and coordinate handling. A validation was carried out on 37 crystallized protein-ligand complexes featuring 11 different proteins. The search space was defined as a sphere of 15 R around the center of mass of the ligand position in the crystal structure, and conversely to other benchmarks, our algorithms was fed with optimized ligand positions up to 10 A root mean square deviation 2MSD) from the crystal structure. This validation illustrates the efficiency of our sampling heuristic, as correct binding modes, defined by a RMSD to the crystal structure lower than 2 A, were identified and ranked first for 68% of the complexes. The success rate increases to 78% when considering the five best-ranked clusters, and 92% when all clusters present in the last generation are taken into account. Most failures in this benchmark could be explained by the presence of crystal contacts in the experimental structure. EADock has been used to understand molecular interactions involved in the regulation of the Na,K ATPase, and in the activation of the nuclear hormone peroxisome proliferatoractivated receptors a (PPARa). It also helped to understand the action of common pollutants (phthalates) on PPARy, and the impact of biotransformations of the anticancer drug Imatinib (Gleevec®) on its binding mode to the Bcr-Abl tyrosine kinase. Finally, a fragment-based rational drug design approach using EADock was developed, and led to the successful design of new peptidic ligands for the a5ß1 integrin, and for the human PPARa. In both cases, the designed peptides presented activities comparable to that of well-established ligands such as the anticancer drug Cilengitide and Wy14,643, respectively. 3.2 French Les récentes difficultés de l'industrie pharmaceutique ne semblent pouvoir se résoudre que par l'optimisation de leur processus de développement de médicaments. Cette dernière implique de plus en plus. de techniques dites "haut-débit", particulièrement efficaces lorsqu'elles sont couplées aux outils informatiques permettant de gérer la masse de données produite. Désormais, les approches in silico telles que le criblage virtuel ou la conception rationnelle de nouvelles molécules sont utilisées couramment. Toutes deux reposent sur la capacité à prédire les détails de l'interaction moléculaire entre une molécule ressemblant à un principe actif (PA) et une protéine cible ayant un intérêt thérapeutique. Les comparatifs de logiciels s'attaquant à cette prédiction sont flatteurs, mais plusieurs problèmes subsistent. La littérature récente tend à remettre en cause leur fiabilité, affirmant l'émergence .d'un besoin pour des approches plus précises du mode d'interaction. Cette précision est essentielle au calcul de l'énergie libre de liaison, qui est directement liée à l'affinité du PA potentiel pour la protéine cible, et indirectement liée à son activité biologique. Une prédiction précise est d'une importance toute particulière pour la découverte et l'optimisation de nouvelles molécules actives. Cette thèse présente un nouveau logiciel, EADock, mettant en avant une telle précision. Cet algorithme évolutionnaire hybride utilise deux pressions de sélections, combinées à une gestion de la diversité sophistiquée. EADock repose sur CHARMM pour les calculs d'énergie et la gestion des coordonnées atomiques. Sa validation a été effectuée sur 37 complexes protéine-ligand cristallisés, incluant 11 protéines différentes. L'espace de recherche a été étendu à une sphère de 151 de rayon autour du centre de masse du ligand cristallisé, et contrairement aux comparatifs habituels, l'algorithme est parti de solutions optimisées présentant un RMSD jusqu'à 10 R par rapport à la structure cristalline. Cette validation a permis de mettre en évidence l'efficacité de notre heuristique de recherche car des modes d'interactions présentant un RMSD inférieur à 2 R par rapport à la structure cristalline ont été classés premier pour 68% des complexes. Lorsque les cinq meilleures solutions sont prises en compte, le taux de succès grimpe à 78%, et 92% lorsque la totalité de la dernière génération est prise en compte. La plupart des erreurs de prédiction sont imputables à la présence de contacts cristallins. Depuis, EADock a été utilisé pour comprendre les mécanismes moléculaires impliqués dans la régulation de la Na,K ATPase et dans l'activation du peroxisome proliferatoractivated receptor a (PPARa). Il a également permis de décrire l'interaction de polluants couramment rencontrés sur PPARy, ainsi que l'influence de la métabolisation de l'Imatinib (PA anticancéreux) sur la fixation à la kinase Bcr-Abl. Une approche basée sur la prédiction des interactions de fragments moléculaires avec protéine cible est également proposée. Elle a permis la découverte de nouveaux ligands peptidiques de PPARa et de l'intégrine a5ß1. Dans les deux cas, l'activité de ces nouveaux peptides est comparable à celles de ligands bien établis, comme le Wy14,643 pour le premier, et le Cilengitide (PA anticancéreux) pour la seconde.
Resumo:
Les membranes de dialyse à haut flux et à faible flux pourraient être liées à différents profils hemodynamiques pendant les séances de dialyse. Cette étude visait à comparer le profil hémodynamique des certains filtres de dialyse polysulfone couramment utilisés en Suisse. Nous avons réalisé une étude ouverte, cross-over, avec 25 pazients en hémodialyse On a comparés entre eux 4 filtres de polysulfone de la surface de 1 8 m2 A (Revaclear HF, Gambro), B (Helixone HF, Fresenius), C (Xevonta HF, BBraun) et D (Helixone LF Fresenius). Le profil hémodynamique a été mesuré en utilisant une technique non invasive et au patient a été demandé de fournir une opinion sur la tolérance à la seance de dialyse. La même membrane était utilisée pour 3 séances de suites Chaque semaine la membrane de dialyse était modifiée conformément à la séquence de randomisation. Pour chaque patient on a recueillie les données de 12 séances de dialyse. L'étude a été réalisé sur trois mois à compter de novembre 2012. Les analyses ont encore une fois montré la supériorité des filtres à haut débit comparés aux filtres à faible débit, et ne tendance à la supériorité du filtre Helixone (haut debit) comparé aux deux autres membranes. Les filtres à faible débit par rapport a ceux a haut debit sont associés ä une pression systolique et diastolique plus élevées a des résistances périphériques plus hautes et à un débit cardiaque plus faible L incidence d'épisodes d'hypotension en dialyse était la suivante: Revaclear HF (A) 70 Helixone HF (B) 87 Xevonta HF 73 (C), Helixone LF (D) 75. Le nombre d'épisodes d hypotension associée au filtre B était supérieure, de manière significative. La membrane à faible flux était associée à une pression artérielle supérieure à celles des membranes de haut flux. La membrane à haut flux Helixone garantie la meilleure efficacité de dialyse. Malheureusement, la même membrane est associée à une augmentation de l'incidence des épisodes d'hypotension, probablement due à un déséquilibré hé à l'efficacité de la dialyse. Malgré ces résultats, la tolérance subjective pour les différents filtres était comparable.
Resumo:
SUMMARY : Eukaryotic DNA interacts with the nuclear proteins using non-covalent ionic interactions. Proteins can recognize specific nucleotide sequences based on the sterical interactions with the DNA and these specific protein-DNA interactions are the basis for many nuclear processes, e.g. gene transcription, chromosomal replication, and recombination. New technology termed ChIP-Seq has been recently developed for the analysis of protein-DNA interactions on a whole genome scale and it is based on immunoprecipitation of chromatin and high-throughput DNA sequencing procedure. ChIP-Seq is a novel technique with a great potential to replace older techniques for mapping of protein-DNA interactions. In this thesis, we bring some new insights into the ChIP-Seq data analysis. First, we point out to some common and so far unknown artifacts of the method. Sequence tag distribution in the genome does not follow uniform distribution and we have found extreme hot-spots of tag accumulation over specific loci in the human and mouse genomes. These artifactual sequence tags accumulations will create false peaks in every ChIP-Seq dataset and we propose different filtering methods to reduce the number of false positives. Next, we propose random sampling as a powerful analytical tool in the ChIP-Seq data analysis that could be used to infer biological knowledge from the massive ChIP-Seq datasets. We created unbiased random sampling algorithm and we used this methodology to reveal some of the important biological properties of Nuclear Factor I DNA binding proteins. Finally, by analyzing the ChIP-Seq data in detail, we revealed that Nuclear Factor I transcription factors mainly act as activators of transcription, and that they are associated with specific chromatin modifications that are markers of open chromatin. We speculate that NFI factors only interact with the DNA wrapped around the nucleosome. We also found multiple loci that indicate possible chromatin barrier activity of NFI proteins, which could suggest the use of NFI binding sequences as chromatin insulators in biotechnology applications. RESUME : L'ADN des eucaryotes interagit avec les protéines nucléaires par des interactions noncovalentes ioniques. Les protéines peuvent reconnaître les séquences nucléotidiques spécifiques basées sur l'interaction stérique avec l'ADN, et des interactions spécifiques contrôlent de nombreux processus nucléaire, p.ex. transcription du gène, la réplication chromosomique, et la recombinaison. Une nouvelle technologie appelée ChIP-Seq a été récemment développée pour l'analyse des interactions protéine-ADN à l'échelle du génome entier et cette approche est basée sur l'immuno-précipitation de la chromatine et sur la procédure de séquençage de l'ADN à haut débit. La nouvelle approche ChIP-Seq a donc un fort potentiel pour remplacer les anciennes techniques de cartographie des interactions protéine-ADN. Dans cette thèse, nous apportons de nouvelles perspectives dans l'analyse des données ChIP-Seq. Tout d'abord, nous avons identifié des artefacts très communs associés à cette méthode qui étaient jusqu'à présent insoupçonnés. La distribution des séquences dans le génome ne suit pas une distribution uniforme et nous avons constaté des positions extrêmes d'accumulation de séquence à des régions spécifiques, des génomes humains et de la souris. Ces accumulations des séquences artéfactuelles créera de faux pics dans toutes les données ChIP-Seq, et nous proposons différentes méthodes de filtrage pour réduire le nombre de faux positifs. Ensuite, nous proposons un nouvel échantillonnage aléatoire comme un outil puissant d'analyse des données ChIP-Seq, ce qui pourraient augmenter l'acquisition de connaissances biologiques à partir des données ChIP-Seq. Nous avons créé un algorithme d'échantillonnage aléatoire et nous avons utilisé cette méthode pour révéler certaines des propriétés biologiques importantes de protéines liant à l'ADN nommés Facteur Nucléaire I (NFI). Enfin, en analysant en détail les données de ChIP-Seq pour la famille de facteurs de transcription nommés Facteur Nucléaire I, nous avons révélé que ces protéines agissent principalement comme des activateurs de transcription, et qu'elles sont associées à des modifications de la chromatine spécifiques qui sont des marqueurs de la chromatine ouverte. Nous pensons que lés facteurs NFI interagir uniquement avec l'ADN enroulé autour du nucléosome. Nous avons également constaté plusieurs régions génomiques qui indiquent une éventuelle activité de barrière chromatinienne des protéines NFI, ce qui pourrait suggérer l'utilisation de séquences de liaison NFI comme séquences isolatrices dans des applications de la biotechnologie.
Resumo:
Recently, the introduction of second generation sequencing and further advance-ments in confocal microscopy have enabled system-level studies for the functional characterization of genes. The degree of complexity intrinsic to these approaches needs the development of bioinformatics methodologies and computational models for extracting meaningful biological knowledge from the enormous amount of experi¬mental data which is continuously generated. This PhD thesis presents several novel bioinformatics methods and computational models to address specific biological questions in Plant Biology by using the plant Arabidopsis thaliana as a model system. First, a spatio-temporal qualitative analysis of quantitative transcript and protein profiles is applied to show the role of the BREVIS RADIX (BRX) protein in the auxin- cytokinin crosstalk for root meristem growth. Core of this PhD work is the functional characterization of the interplay between the BRX protein and the plant hormone auxin in the root meristem by using a computational model based on experimental evidence. Hyphotesis generated by the modelled to the discovery of a differential endocytosis pattern in the root meristem that splits the auxin transcriptional response via the plasma membrane to nucleus partitioning of BRX. This positional information system creates an auxin transcriptional pattern that deviates from the canonical auxin response and is necessary to sustain the expression of a subset of BRX-dependent auxin-responsive genes to drive root meristem growth. In the second part of this PhD thesis, we characterized the genome-wide impact of large scale deletions on four divergent Arabidopsis natural strains, through the integration of Ultra-High Throughput Sequencing data with data from genomic hybridizations on tiling arrays. Analysis of the identified deletions revealed a considerable portion of protein coding genes affected and supported a history of genomic rearrangements shaped by evolution. In the last part of the thesis, we showed that VIP3 gene in Arabidopsis has an evo-lutionary conserved role in the 3' to 5' mRNA degradation machinery, by applying a novel approach for the analysis of mRNA-Seq data from random-primed mRNA. Altogether, this PhD research contains major advancements in the study of natural genomic variation in plants and in the application of computational morphodynamics models for the functional characterization of biological pathways essential for the plant. - Récemment, l'introduction du séquençage de seconde génération et les avancées dans la microscopie confocale ont permis des études à l'échelle des différents systèmes cellulaires pour la caractérisation fonctionnelle de gènes. Le degrés de complexité intrinsèque à ces approches ont requis le développement de méthodologies bioinformatiques et de modèles mathématiques afin d'extraire de la masse de données expérimentale générée, des information biologiques significatives. Ce doctorat présente à la fois des méthodes bioinformatiques originales et des modèles mathématiques pour répondre à certaines questions spécifiques de Biologie Végétale en utilisant la plante Arabidopsis thaliana comme modèle. Premièrement, une analyse qualitative spatio-temporelle de profiles quantitatifs de transcripts et de protéines est utilisée pour montrer le rôle de la protéine BREVIS RADIX (BRX) dans le dialogue entre l'auxine et les cytokinines, des phytohormones, dans la croissance du méristème racinaire. Le noyau de ce travail de thèse est la caractérisation fonctionnelle de l'interaction entre la protéine BRX et la phytohormone auxine dans le méristème de la racine en utilisant des modèles informatiques basés sur des preuves expérimentales. Les hypothèses produites par le modèle ont mené à la découverte d'un schéma différentiel d'endocytose dans le méristème racinaire qui divise la réponse transcriptionnelle à l'auxine par le partitionnement de BRX de la membrane plasmique au noyau de la cellule. Cette information positionnelle crée une réponse transcriptionnelle à l'auxine qui dévie de la réponse canonique à l'auxine et est nécessaire pour soutenir l'expression d'un sous ensemble de gènes répondant à l'auxine et dépendant de BRX pour conduire la croissance du méristème. Dans la seconde partie de cette thèse de doctorat, nous avons caractérisé l'impact sur l'ensemble du génome des délétions à grande échelle sur quatre souches divergentes naturelles d'Arabidopsis, à travers l'intégration du séquençage à ultra-haut-débit avec l'hybridation génomique sur puces ADN. L'analyse des délétions identifiées a révélé qu'une proportion considérable de gènes codant était affectée, supportant l'idée d'un historique de réarrangement génomique modelé durant l'évolution. Dans la dernière partie de cette thèse, nous avons montré que le gène VÏP3 dans Arabidopsis a conservé un rôle évolutif dans la machinerie de dégradation des ARNm dans le sens 3' à 5', en appliquant une nouvelle approche pour l'analyse des données de séquençage d'ARNm issue de transcripts amplifiés aléatoirement. Dans son ensemble, cette recherche de doctorat contient des avancées majeures dans l'étude des variations génomiques naturelles des plantes et dans l'application de modèles morphodynamiques informatiques pour la caractérisation de réseaux biologiques essentiels à la plante. - Le développement des plantes est écrit dans leurs codes génétiques. Pour comprendre comment les plantes sont capables de s'adapter aux changements environnementaux, il est essentiel d'étudier comment leurs gènes gouvernent leur formation. Plus nous essayons de comprendre le fonctionnement d'une plante, plus nous réalisons la complexité des mécanismes biologiques, à tel point que l'utilisation d'outils et de modèles mathématiques devient indispensable. Dans ce travail, avec l'utilisation de la plante modèle Arabidopsis thalicinci nous avons résolu des problèmes biologiques spécifiques à travers le développement et l'application de méthodes informatiques concrètes. Dans un premier temps, nous avons investigué comment le gène BREVIS RADIX (BRX) régule le développement de la racine en contrôlant la réponse à deux hormones : l'auxine et la cytokinine. Nous avons employé une analyse statistique sur des mesures quantitatives de transcripts et de produits de gènes afin de démontrer que BRX joue un rôle antagonisant dans le dialogue entre ces deux hormones. Lorsque ce-dialogue moléculaire est perturbé, la racine primaire voit sa longueur dramatiquement réduite. Pour comprendre comment BRX répond à l'auxine, nous avons développé un modèle informatique basé sur des résultats expérimentaux. Les simulations successives ont mené à la découverte d'un signal positionnel qui contrôle la réponse de la racine à l'auxine par la régulation du mouvement intracellulaire de BRX. Dans la seconde partie de cette thèse, nous avons analysé le génome entier de quatre souches naturelles d'Arabidopsis et nous avons trouvé qu'une grande partie de leurs gènes étaient manquant par rapport à la souche de référence. Ce résultat indique que l'historique des modifications génomiques conduites par l'évolution détermine une disponibilité différentielle des gènes fonctionnels dans ces plantes. Dans la dernière partie de ce travail, nous avons analysé les données du transcriptome de la plante où le gène VIP3 était non fonctionnel. Ceci nous a permis de découvrir le rôle double de VIP3 dans la régulation de l'initiation de la transcription et dans la dégradation des transcripts. Ce rôle double n'avait jusqu'alors été démontrée que chez l'homme. Ce travail de doctorat supporte le développement et l'application de méthodologies informatiques comme outils inestimables pour résoudre la complexité des problèmes biologiques dans la recherche végétale. L'intégration de la biologie végétale et l'informatique est devenue de plus en plus importante pour l'avancée de nos connaissances sur le fonctionnement et le développement des plantes.
Resumo:
The complexity of mammalian genome organization demands a complex interplay of DNA and proteins to orchestrate proper gene regulation. CTCF, a highly conserved, ubiquitously expressed protein has been postulated as a primary organizer of genome architecture because of its roles in transcriptional activation/repression, insulation and imprinting. Diverse regulatory functions are exerted through genome wide binding via a central eleven zinc finger DNA binding domain and an array of diverse protein-protein interactions through N- and C- terminal domains. CTCFL has been identified as a paralog of CTCF expressed only in spermatogenic cells of the testis. CTCF and CTCFL have a highly homologous DNA-binding domain, while the flanking amino acid sequences exhibit no significant similarity. Genome- wide mapping of CTCF binding sites has been carried out in many cell types, but no data exist for CTCFL apart from a few identified loci. The lack of high quality antibodies prompted us to generate an endogenously flag-tagged CTCFL mouse model using BAC recombination. IHC staining using anti-flag antibodies confirmed CTCFL localization to type Β spermatogonia and preleptotene spermatocytes and a mutually exclusive pattern of expression with CTCF. ChIP followed by high-throughput sequencing identified 10,382 binding sites showing 70% overlap but representing only 20% of CTCF sites. Consensus sequence analysis identified a significantly longer binding motif with prominently less ambiguity of base calling at every position. The significant difference between CTCF and CTCFL genomic binding patterns proposes that their binding to DNA is differentially regulated. Analysis of CTCFL binding to methylated regions on a genome wide scale identified approximately 1,000 loci. Methylation-independent binding of CTCFL might be at least one of the mechanisms that ensures distinct binding patterns of CTCF and CTCFL since CTCF binding is methylation- sensitive. Co-localization of CTCF with cohesin has been well established and analysis of CTCFL and SMC3 overlap identified around 3,300 binding sites from which two related but distinct consensus sequence motifs were derived. Because virtually all data for cohesin binding originate from mitotically proliferating cells, the anticipated overlap is expected to be considerably higher in meiotic cells. Meiosis-specific cohesin subunit Rec8 is specific for spermatocytes and 6 out of the 12 identified binding sites are also bound by CTCFL. In conclusion, this was the first genome-wide mapping of CTCFL binding sites in spermatocytes, the only cell type where CTCF is not expressed. CTCFL has a unique binding site repertoire distinct from CTCF, binds to methylated sequences and shows a significant overlap with cohesin binding sites. Future efforts will be oriented towards deciphering the role CTCFL plays in conversion of chromatin structure and function from mitotic to meiotic chromosomes. - La complexité de l'organisation du génome des mammifères exige une interaction particulière entre ADN et protéines pour orchestrer une régulation appropriée de l'expression des gènes. CTCFL, une protéine ubiquitaire très conservée, serait le principal organisateur de l'architecture du génome de par son rôle dans l'activation / la répression de la transcription, la protection et la localisation des gènes. Diverses régulations sont opérées, d'une part au travers d'interactions à différents endroits du génome par le biais d'un domaine protéique central de liaison à l'ADN à onze doigts de zinc, et d'autre part par des interactions protéine-protéine variées au niveau de leur domaine N- et C-terminal. CTCFL a été identifié comme un paralogue de CTCF exprimé uniquement dans les cellules spermatiques du testicule. CTCFL et CTCF ont un domaine de liaison à l'ADN très homologue, tandis que les séquences d'acides aminés situées de part et d'autre de ce domaine ne présentent aucune similitude. Une cartographie générale des sites de liaison au CTCF a été réalisée pour de nombreux types cellulaires, mais il n'existe aucune donnée pour CTCFL à l'exception de l'identification de quelques loci. L'absence d'anticorps de bonne qualité nous a conduit à générer un modèle murin portant un CTCFL endogène taggué grâce à un procédé de recombinaison BAC. Une coloration IHC à l'aide d'anticorps anti-FLAG a confirmé la présence de CTCFL au niveau des spermatogonies de type Β et des spermatocytes au stade préleptotène, et une distribution mutuellement exclusive avec CTCF. Une méthode de Chromatine Immunoprecipitation (ChIP) suivie d'un séquençage à haut débit a permis d'identifier 10.382 sites de liaison montrant 70% d'homologie mais ne représentant que 20% des sites CTCF. L'analyse de la séquence consensus révèle un motif de fixation à l'ADN nettement plus long et qui comporte bien moins de bases aléatoires à chaque position nucléotidique. La différence significative entre les séquences génomiques des sites de liaison au CTCF et CTCFL suggère que leur fixation à l'ADN est régulée différemment. Appliquée à l'échelle du génome, l'étude de l'interaction de CTCFL avec des régions méthylées de l'ADN a permis d'identifier environ 1.000 loci. Contrairement à CTCFL, la liaison de CTCF dépend de l'état de méthylation de l'ADN ; cette modification épigénétique constitue donc au moins un des mécanismes de régulation expliquant une localisation de CTCF et CTCFL à des sites distincts du génome. La co- localisation de CTCF avec la cohésine étant établie, l'analyse de la superposition des séquences de CTCFL avec la sous-unité SMC3 identifie environ 3.300 sites de liaison parmi lesquels deux mêmes motifs consensus distincts par leur séquence sont mis en évidence. La presque quasi-totalité des données sur la cohésine ayant été établie à partir de cellules en prolifération mitotique, il est probable que la similitude au sein des séquences consensus soit encore plus grande dans le cas des cellules en méiose. La sous-unité Rec8 de la cohésine propre à l'état de méiose est spécifiquement exprimée dans les spermatocytes. Or 6 des 12 sites de liaison identifiés sont également utilisés par CTCFL. Pour conclure, ce travail constitue la première cartographie à l'échelle du génome des sites de liaison de CTCFL dans les spermatocytes, seul type cellulaire où CTCFL n'est pas exprimé. CTCFL possède un répertoire unique de sites de fixation à l'ADN distinct de CTCF, se lie à des séquences méthylées et présente un nombre important de sites de liaison communs avec la cohésine. Les perspectives futures sont d'élucider le rôle de CTCFL dans le remodelage de la structure de la chromatine et de définir sa fonction dans le processus de méiose.
Resumo:
The functional consequences of structural variation in the human genome range from adaptation, to phenotypic variation, to predisposition to diseases. Copy number variation (CNV) was shown to influence the phenotype by modifying, in a somewhat dose-dependent manner, the expression of genes that map within them, as well as that of genes located on their flanks. To assess the possible mechanism(s) behind this neighboring effect, we compared histone modification status of cell lines from patients affected by Williams-Beuren, Williams-Beuren region duplication, Smith-Magenis or DiGeorge Syndrome and control individuals using a high-throughput version of chromatin immuno-precipitation method (ChIP), called ChlP-seq. We monitored monomethylation of lysine K20 on histone H4 and trimethylation of lysine K27 on histone H3, as proxies for open and condensed chromatin, respectively. Consistent with the changes in expression levels observed for multiple genes mapping on the entire length of chromosomes affected by structural variants, we also detected regions with modified histone status between samples, up- and downstream from the critical regions, up to the end of the rearranged chromosome. We also gauged the intrachromosomal interactions of these cell lines utilizing chromosome conformation capture (4C-seq) technique. We observed that a set of genes flanking the Williams-Beuren Syndrome critical region (WBSCR) were often looping together, possibly forming an interacting cluster with each other and the WBSCR. Deletion of the WBSCR disrupts the expression of this group of flanking genes, as well as long-range interactions between them and the rearranged interval. We conclude, that large genomic rearrangements can lead to changes in the state of the chromatin spreading far away from the critical region, thus possibly affecting expression globally and as a result modifying the phenotype of the patients. - Les conséquences fonctionnelles des variations structurelles dans le génome humain sont vastes, allant de l'adaptation, en passant par les variations phénotypiques, aux prédispositions à certaines maladies. Il a été démontré que les variations du nombre de copies (CNV) influencent le phénotype en modifiant, d'une manière plus ou moins dose-dépendante, l'expression des gènes se situant à l'intérieur de ces régions, mais également celle des gènes se trouvant dans les régions flanquantes. Afin d'étudier les mécanismes possibles sous-jacents à cet effet de voisinage, nous avons comparé les états de modification des histones dans des lignées cellulaires dérivées de patients atteints du syndrome de Williams-Beuren, de la duplication de la région Williams-Beuren, du syndrome de Smith-Magenis ou du syndrome de Di- George et d'individus contrôles en utilisant une version haut-débit de la méthode d'immunoprécipitation de la chromatine (ChIP), appelée ChIP-seq. Nous avons suivi la mono-méthylation de la lysine K20 sur l'histone H4 et la tri-méthylation de la lysine K27 sur l'histone H3, marqueurs respectifs de la chromatine ouverte et fermée. En accord avec les changements de niveaux d'expression observés pour de multiples gènes tout le long des chromosomes affectés par les CNVs, nous avons aussi détecté des régions présentant des modifications d'histones entre les échantillons, situées de part et d'autre des régions critiques, jusqu'aux extrémités du chromosome réarrangé. Nous avons aussi évalué les interactions intra-chromosomiques ayant lieu dans ces cellules par l'utilisation de la technique de capture de conformation des chromosomes (4C-seq). Nous avons observé qu'un groupe de gènes flanquants la région critique du syndrome de Williams-Beuren (WBSCR) forment souvent une boucle, constituant un groupe d'interactions privilégiées entre ces gènes et la WBSCR. La délétion de la WBSCR perturbe l'expression de ce groupe de gènes flanquants, mais également les interactions à grande échelle entre eux et la région réarrangée. Nous en concluons que les larges réarrangements génomiques peuvent aboutir à des changements de l'état de la chromatine pouvant s'étendre bien plus loin que la région critique, affectant donc potentiellement l'expression de manière globale et ainsi modifiant le phénotype des patients.
Resumo:
ABSTRACTThe Online Mendelian Inheritance in Man database (OMIM) reports about 3000 Mendelian diseases of known causal gene and about 2000 that remain to be mapped. These cases are often difficult to solve because of the rareness of the disease, the structure of the family (too big or too small) or the heterogeneity of the phenotype. The goal of this thesis is to explore the current genetic tools, before the advent of ultra high throughput sequencing, and integrate them in the attempt to map the genes behind the four studied cases. In this framework we have studied a small family with a recessive disease, a modifier gene for the penetrance of a dominant mutation, a large extended family with a cardiac phenotype and clinical and/or allelic heterogeneity and we have molecularly analyzed a balanced chromosomal translocation.RESUMELa base de données des maladies à transmission mendélienne, Online Mendelian Inheritance in Man (OMIM), contient environ 3000 affections à caractère mendélien pour lesquelles le gène responsable est connu et environ 2000 qui restent à élucider.Les cas restant à résoudre sont souvent difficiles soit par le caractère intrinsèquement rare de ces maladies soit à cause de difficultés structurelles (famille trop petite ou trop étendue) ou hétérogénéité du phénotype ou génétique. Cette thèse s'inscrit avant l'arrivée des nouveaux outils de séquençage à haut débit. Son but est d'explorer les outils génétiques actuels, et de les intégrer pour trouver les gènes impliqués dans quatre cas représentant chacun une situation génétique différente : nous avons étudié une famille de quatre individus avec une transmission récessive, recherché un gène modificateur de la pénétrance de mutations dominantes, étudié une famille étendue présentant un phénotype cardiaque cliniquement et/ou allèliquement hétérogène et nous avons fait l'analyse moléculaire d'une translocation chromosomique balancée.
Resumo:
The recent advance in high-throughput sequencing and genotyping protocols allows rapid investigation of Mendelian and complex diseases on a scale not previously been possible. In my thesis research I took advantage of these modern techniques to study retinitis pigmentosa (RP), a rare inherited disease characterized by progressive loss of photoreceptors and leading to blindness; and hypertension, a common condition affecting 30% of the adult population. Firstly, I compared the performance of different next generation sequencing (NGS) platforms in the sequencing of the RP-linked gene PRPF31. The gene contained a mutation in an intronic repetitive element, which presented difficulties for both classic sequencing methods and NGS. We showed that all NGS platforms are powerful tools to identify rare and common DNA variants, also in case of more complex sequences. Moreover, we evaluated the features of different NGS platforms that are important in re-sequencing projects. The main focus of my thesis was then to investigate the involvement of pre-mRNA splicing factors in autosomal dominant RP (adRP). I screened 5 candidate genes in a large cohort of patients by using long-range PCR as enrichment step, followed by NGS. We tested two different approaches: in one, all target PCRs from all patients were pooled and sequenced as a single DNA library; in the other, PCRs from each patient were separated within the pool by DNA barcodes. The first solution was more cost-effective, while the second one allowed obtaining faster and more accurate results, but overall they both proved to be effective strategies for gene screenings in many samples. We could in fact identify novel missense mutations in the SNRNP200 gene, encoding an essential RNA helicase for splicing catalysis. Interestingly, one of these mutations showed incomplete penetrance in one family with adRP. Thus, we started to study the possible molecular causes underlying phenotypic differences between asymptomatic and affected members of this family. For the study of hypertension, I joined a European consortium to perform genome-wide association studies (GWAS). Thanks to the use of very informative genotyping arrays and of phenotipically well-characterized cohorts, we could identify a novel susceptibility locus for hypertension in the promoter region of the endothelial nitric oxide synthase gene (NOS3). Moreover, we have proven the direct causality of the associated SNP using three different methods: 1) targeted resequencing, 2) luciferase assay, and 3) population study. - Le récent progrès dans le Séquençage à haut Débit et les protocoles de génotypage a permis une plus vaste et rapide étude des maladies mendéliennes et multifactorielles à une échelle encore jamais atteinte. Durant ma thèse de recherche, j'ai utilisé ces nouvelles techniques de séquençage afin d'étudier la retinite pigmentale (RP), une maladie héréditaire rare caractérisée par une perte progressive des photorécepteurs de l'oeil qui entraine la cécité; et l'hypertension, une maladie commune touchant 30% de la population adulte. Tout d'abord, j'ai effectué une comparaison des performances de différentes plateformes de séquençage NGS (Next Generation Sequencing) lors du séquençage de PRPF31, un gène lié à RP. Ce gène contenait une mutation dans un élément répétable intronique, qui présentait des difficultés de séquençage avec la méthode classique et les NGS. Nous avons montré que les plateformes de NGS analysées sont des outils très puissants pour identifier des variations de l'ADN rares ou communes et aussi dans le cas de séquences complexes. De plus, nous avons exploré les caractéristiques des différentes plateformes NGS qui sont importantes dans les projets de re-séquençage. L'objectif principal de ma thèse a été ensuite d'examiner l'effet des facteurs d'épissage de pre-ARNm dans une forme autosomale dominante de RP (adRP). Un screening de 5 gènes candidats issus d'une large cohorte de patients a été effectué en utilisant la long-range PCR comme étape d'enrichissement, suivie par séquençage avec NGS. Nous avons testé deux approches différentes : dans la première, toutes les cibles PCRs de tous les patients ont été regroupées et séquencées comme une bibliothèque d'ADN unique; dans la seconde, les PCRs de chaque patient ont été séparées par code barres d'ADN. La première solution a été la plus économique, tandis que la seconde a permis d'obtenir des résultats plus rapides et précis. Dans l'ensemble, ces deux stratégies se sont démontrées efficaces pour le screening de gènes issus de divers échantillons. Nous avons pu identifier des nouvelles mutations faux-sens dans le gène SNRNP200, une hélicase ayant une fonction essentielle dans l'épissage. Il est intéressant de noter qu'une des ces mutations montre une pénétrance incomplète dans une famille atteinte d'adRP. Ainsi, nous avons commencé une étude sur les causes moléculaires entrainant des différences phénotypiques entre membres affectés et asymptomatiques de cette famille. Lors de l'étude de l'hypertension, j'ai rejoint un consortium européen pour réaliser une étude d'association Pangénomique ou genome-wide association study Grâce à l'utilisation de tableaux de génotypage très informatifs et de cohortes extrêmement bien caractérisées au niveau phénotypique, un nouveau locus lié à l'hypertension a été identifié dans la région promotrice du gène endothélial nitric oxide sinthase (NOS3). Par ailleurs, nous avons prouvé la cause directe du SNP associé au moyen de trois méthodes différentes: i) en reséquençant la cible avec NGS, ii) avec des essais à la luciférase et iii) une étude de population.
Resumo:
Pneumocystis jirovecii is a fungus belonging to a basal lineage of the Ascomycotina, the Taphrinomycotina subphylum. It is a parasite specific to humans that dwells primarily in the lung and can cause severe pneumonia in individuals with debilitated immune system. Despite its clinical importance, many aspects of its biology remain poorly understood, at least in part because of the lack of a continuous in vitro cultivation system. The present thesis consists in the genome reconstruction and comparative genomics of P. jirovecii. It is made of three parts: (i) the de novo sequencing of P. jirovecii genome starting from a single broncho- alveolar lavage fluid of a single patient (ii) the de novo sequencing of the genome of the plant pathogen Taphrina deformans, a fungus closely related to P. jirovecii, and (iii) the genome scale comparison of P. jirovecii to other Taphrinomycotina members. Enrichment in P. jirovecii cells by immuno-precipitation, whole DNA random amplification, two complementary high throughput DNA sequencing methods, and in silico sorting and assembly of sequences were used for the de novo reconstruction of P. jirovecii genome from the microbiota of a single clinical specimen. An iterative ad hoc pipeline as well as numerical simulations was used to recover P. jirovecii sequences while purging out contaminants and assembly or amplification chimeras. This strategy produced a 8.1 Mb assembly, which encodes 3,898 genes. Homology searches, mapping on biochemical pathways atlases, and manual validations revealed that this genome lacks (i) most of the enzymes dedicated to the amino acids biosyntheses, and (ii) most virulence factors observed in other fungi, e.g. the glyoxylate shunt pathway and specific peptidases involved in the degradation of the host cell membrane. The same analyses applied to the available genomic sequences from Pneumocystis carinii the species infecting rats and Pneumocystis murina the species infecting mice revealed the same deficiencies. The genome sequencing of T. deformans yielded a 13 Mb assembly, which encodes 5,735 genes. T. deformans possesses enzymes involved plant cell wall degradation, secondary metabolism, the glyoxylate cycle, detoxification, sterol biosynthesis, as well as the biosyntheses of plant hormones such as abscisic acid or indole-3-acetic acid. T. deformans also harbors gene subsets that have counterparts in plant saprophytes or pathogens, which is consistent with its alternate saprophytic and pathogenic lifestyles. Mating genes were also identified. The homothallism of this fungus suggests a mating-type switching mechanism. Comparative analyses indicated that 81% of P. jirovecii genes are shared with eight other Taphrinomycotina members, including T. deformans, P. carinii and P. murina. These genes are mostly involved in housekeeping activities. The genes specific to the Pneumocystis genus represent 8%, and are involved in RNA metabolism and signaling. The signaling is known to be crucial for interaction of Pneumocystis spp with their environment. Eleven percent are unique to P. jirovecii and encode mostly proteins of unknown function. These genes in conjunction with other ones (e.g. the major surface glycoproteins) might govern the interaction of P. jirovecii with its human host cells, and potentially be responsible of the host specificity. P. jirovecii exhibits a reduced genome in size with a low GC content, and most probably scavenges vital compounds such as amino acids and cholesterol from human lungs. Consistently, its genome encodes a large set of transporters (ca. 22% of its genes), which may play a pivotal role in the acquisition of these compounds. All these features are generally observed in obligate parasite of various kingdoms (bacteria, protozoa, fungi). Moreover, epidemiological studies failed to evidence a free-living form of the fungus and Pneumocystis spp were shown to co-evolved with their hosts. Given also the lack of virulence factors, our observations strongly suggest that P. jirovecii is an obligate parasite specialized in the colonization of human lungs, and which causes disease only in individuals with compromised immune system. The same conclusion is most likely true for all other Pneumocystis spp in their respective mammalian host. - Pneumocystis jirovecii est un champignon appartenant à ine branche basale des Ascomycotina, le sous-embranchement des Taphrinomycotina. C'est un parasite spécifique aux humains qui réside principalement dans les poumons, et qui peut causer des pneumonies sévères chez des individus ayant un système immunitaire déficient. En dépit de son importance clinique, de nombreux aspects de sa biologie demeurent,largement méconnus, au moins en partie à cause de l'absence d'un système de culture in vitro continu. Cette thèse traite de la reconstruction du génome et de la génomique comparative de P. jirovecii. Elle comporte trois parties: (i) le séquençage de novo du génome de P. jirovecii à partir d'un lavage broncho-alvéolaire provenant d'un seul patient, (ii) le séquençage de novo du génome d'un champignon pathogène de plante Taphrina deformans qui est phylogénétiquement proche de P. jirovecii, et (iii) la comparaison du génome de P. jirovecii à celui d'autres membres du sous-embranchement des Taphrinomycotina. Un enrichissement en cellules de P. jirovecii par immuno-précipitation, une amplification aléatoire des molécules d'ADN, deux méthodes complémentaires de séquençage à haut débit, un tri in silico et un assemblage des séquences ont été utilisés pour reconstruire de novo le génome de P. jirovecii à partir du microbiote d'un seul échantillon clinique. Un pipeline spécifique ainsi que des simulations numériques ont été utilisés pour récupérer les séquences de P. jirovecii tout en éliminant les séquences contaminants et les chimères d'amplification ou d'assemblage. Cette stratégie a produit un assemblage de 8.1 Mb, qui contient 3898 gènes. Les recherches d'homologies, de cartographie des voies métaboliques et des validations manuelles ont révélé que ce génome est dépourvu (i) de la plupart des enzymes dédiées à la biosynthèse des acides aminés, et (ii) de la plupart des facteurs de virulence observés chez d'autres champignons, par exemple, le cycle du glyoxylate ainsi que des peptidases spécifiques impliquées dans la dégradation de la membrane de la cellule hôte. Les analyses appliquées aux données génomiques disponibles de Pneumocystis carinii, l'espèce infectant les rats, et de Pneumocystis murina, l'espèce infectant les souris, ont révélé les mêmes déficiences. Le séquençage du génome de T. deformans a généré un assemblage de 13.3 Mb qui contient 5735 gènes. T. deformans possède les gènes codant pour les enzymes impliquées dans la dégradation des parois cellulaires des plantes, le métabolisme secondaire, le cycle du glyoxylate, la détoxification, la biosynthèse des stérols ainsi que la biosynthèse d'hormones de plantes telles que l'acide abscissique ou l'acide indole 3-acétique. T. deformans possède également des sous-ensembles de gènes présents exclusivement chez des saprophytes ou des pathogènes de plantes, ce qui est consistent avec son mode de vie alternatif saprophyte et pathogène. Des gènes impliqués dans la conjugaison ont été identifiés. L'homothallisme de ce champignon suggère mécanisme de permutation du type conjuguant. Les analyses comparatives ont démontré que 81% des gènes de P. jirovecii sont présent chez les autres membres du sous-embranchement des Taphrinomycotina. Ces gènes sont essentiellement impliqués dans le métabolisme basai. Les gènes spécifiques au genre Pneumocystis représentent 8%, et sont impliqués dans le métabolisme de l'ARN et la signalisation. La signalisation est connue pour être cruciale pour l'interaction des espèces de Pneumocystis avec leur environnement. Les gènes propres à P. jirovecii représentent 11% et codent en majorité pour des protéines dont la fonction est inconnue. Ces gènes en conjonction avec d'autres (par exemple, les glycoprotéines de surface), pourraient être déterminants dans l'interaction de P. jirovecii avec les cellules de l'hôte humain, et être potentiellement responsable de la spécificité d'hôte. P. jirovecii possède un génome de taille réduite à faible pourcentage en GC et récupère très probablement des composés vitaux comme les acides aminés et le cholestérol à partir des poumons humains. De manière consistante, son génome code pour de nombreux transporteurs (22% de ses gènes), qui pourraient jouer un rôle essentiel dans l'acquisition de ces composés. Ces caractéristiques sont généralement observées chez les parasites obligatoires de plusieurs règnes (bactéries, protozoaires, champignons). De plus, les études épidémiologiques n'ont pas réussi à prouver l'existence d'ime forme vivant librement du champignon. Etant donné également l'absence de facteurs de virulence, nos observations suggèrent que P. jirovecii est un parasite obligatoire spécialisé dans la colonisation des poumons humains, ne causant une maladie que chez des individus ayant un système immunitaire compromis. La même conclusion est très probablement applicable à toutes les autres espèces de Pneumocystis dans leur hôte mammifère respectif.
Resumo:
With the advancement of high-throughput sequencing and dramatic increase of available genetic data, statistical modeling has become an essential part in the field of molecular evolution. Statistical modeling results in many interesting discoveries in the field, from detection of highly conserved or diverse regions in a genome to phylogenetic inference of species evolutionary history Among different types of genome sequences, protein coding regions are particularly interesting due to their impact on proteins. The building blocks of proteins, i.e. amino acids, are coded by triples of nucleotides, known as codons. Accordingly, studying the evolution of codons leads to fundamental understanding of how proteins function and evolve. The current codon models can be classified into three principal groups: mechanistic codon models, empirical codon models and hybrid ones. The mechanistic models grasp particular attention due to clarity of their underlying biological assumptions and parameters. However, they suffer from simplified assumptions that are required to overcome the burden of computational complexity. The main assumptions applied to the current mechanistic codon models are (a) double and triple substitutions of nucleotides within codons are negligible, (b) there is no mutation variation among nucleotides of a single codon and (c) assuming HKY nucleotide model is sufficient to capture essence of transition- transversion rates at nucleotide level. In this thesis, I develop a framework of mechanistic codon models, named KCM-based model family framework, based on holding or relaxing the mentioned assumptions. Accordingly, eight different models are proposed from eight combinations of holding or relaxing the assumptions from the simplest one that holds all the assumptions to the most general one that relaxes all of them. The models derived from the proposed framework allow me to investigate the biological plausibility of the three simplified assumptions on real data sets as well as finding the best model that is aligned with the underlying characteristics of the data sets. -- Avec l'avancement de séquençage à haut débit et l'augmentation dramatique des données géné¬tiques disponibles, la modélisation statistique est devenue un élément essentiel dans le domaine dé l'évolution moléculaire. Les résultats de la modélisation statistique dans de nombreuses découvertes intéressantes dans le domaine de la détection, de régions hautement conservées ou diverses dans un génome de l'inférence phylogénétique des espèces histoire évolutive. Parmi les différents types de séquences du génome, les régions codantes de protéines sont particulièrement intéressants en raison de leur impact sur les protéines. Les blocs de construction des protéines, à savoir les acides aminés, sont codés par des triplets de nucléotides, appelés codons. Par conséquent, l'étude de l'évolution des codons mène à la compréhension fondamentale de la façon dont les protéines fonctionnent et évoluent. Les modèles de codons actuels peuvent être classés en trois groupes principaux : les modèles de codons mécanistes, les modèles de codons empiriques et les hybrides. Les modèles mécanistes saisir une attention particulière en raison de la clarté de leurs hypothèses et les paramètres biologiques sous-jacents. Cependant, ils souffrent d'hypothèses simplificatrices qui permettent de surmonter le fardeau de la complexité des calculs. Les principales hypothèses retenues pour les modèles actuels de codons mécanistes sont : a) substitutions doubles et triples de nucleotides dans les codons sont négligeables, b) il n'y a pas de variation de la mutation chez les nucléotides d'un codon unique, et c) en supposant modèle nucléotidique HKY est suffisant pour capturer l'essence de taux de transition transversion au niveau nucléotidique. Dans cette thèse, je poursuis deux objectifs principaux. Le premier objectif est de développer un cadre de modèles de codons mécanistes, nommé cadre KCM-based model family, sur la base de la détention ou de l'assouplissement des hypothèses mentionnées. En conséquence, huit modèles différents sont proposés à partir de huit combinaisons de la détention ou l'assouplissement des hypothèses de la plus simple qui détient toutes les hypothèses à la plus générale qui détend tous. Les modèles dérivés du cadre proposé nous permettent d'enquêter sur la plausibilité biologique des trois hypothèses simplificatrices sur des données réelles ainsi que de trouver le meilleur modèle qui est aligné avec les caractéristiques sous-jacentes des jeux de données. Nos expériences montrent que, dans aucun des jeux de données réelles, tenant les trois hypothèses mentionnées est réaliste. Cela signifie en utilisant des modèles simples qui détiennent ces hypothèses peuvent être trompeuses et les résultats de l'estimation inexacte des paramètres. Le deuxième objectif est de développer un modèle mécaniste de codon généralisée qui détend les trois hypothèses simplificatrices, tandis que d'informatique efficace, en utilisant une opération de matrice appelée produit de Kronecker. Nos expériences montrent que sur un jeux de données choisis au hasard, le modèle proposé de codon mécaniste généralisée surpasse autre modèle de codon par rapport à AICc métrique dans environ la moitié des ensembles de données. En outre, je montre à travers plusieurs expériences que le modèle général proposé est biologiquement plausible.
Resumo:
AbstractAlthough the genomes from any two human individuals are more than 99.99% identical at the sequence level, some structural variation can be observed. Differences between genomes include single nucleotide polymorphism (SNP), inversion and copy number changes (gain or loss of DNA). The latter can range from submicroscopic events (CNVs, at least 1kb in size) to complete chromosomal aneuploidies. Small copy number variations have often no (lethal) consequences to the cell, but a few were associated to disease susceptibility and phenotypic variations. Larger re-arrangements (i.e. complete chromosome gain) are frequently associated with more severe consequences on health such as genomic disorders and cancer. High-throughput technologies like DNA microarrays enable the detection of CNVs in a genome-wide fashion. Since the initial catalogue of CNVs in the human genome in 2006, there has been tremendous interest in CNVs both in the context of population and medical genetics. Understanding CNV patterns within and between human populations is essential to elucidate their possible contribution to disease. But genome analysis is a challenging task; the technology evolves rapidly creating needs for novel, efficient and robust analytical tools which need to be compared with existing ones. Also, while the link between CNV and disease has been established, the relative CNV contribution is not fully understood and the predisposition to disease from CNVs of the general population has not been yet investigated.During my PhD thesis, I worked on several aspects related to CNVs. As l will report in chapter 3, ! was interested in computational methods to detect CNVs from the general population. I had access to the CoLaus dataset, a population-based study with more than 6,000 participants from the Lausanne area. All these individuals were analysed on SNP arrays and extensive clinical information were available. My work explored existing CNV detection methods and I developed a variety of metrics to compare their performance. Since these methods were not producing entirely satisfactory results, I implemented my own method which outperformed two existing methods. I also devised strategies to combine CNVs from different individuals into CNV regions.I was also interested in the clinical impact of CNVs in common disease (chapter 4). Through an international collaboration led by the Centre Hospitalier Universitaire Vaudois (CHUV) and the Imperial College London I was involved as a main data analyst in the investigation of a rare deletion at chromosome 16p11 detected in obese patients. Specifically, we compared 8,456 obese patients and 11,856 individuals from the general population and we found that the deletion was accounting for 0.7% of the morbid obesity cases and was absent in healthy non- obese controls. This highlights the importance of rare variants with strong impact and provides new insights in the design of clinical studies to identify the missing heritability in common disease.Furthermore, I was interested in the detection of somatic copy number alterations (SCNA) and their consequences in cancer (chapter 5). This project was a collaboration initiated by the Ludwig Institute for Cancer Research and involved other groups from the Swiss Institute of Bioinformatics, the CHUV and Universities of Lausanne and Geneva. The focus of my work was to identify genes with altered expression levels within somatic copy number alterations (SCNA) in seven metastatic melanoma ceil lines, using CGH and SNP arrays, RNA-seq, and karyotyping. Very few SCNA genes were shared by even two melanoma samples making it difficult to draw any conclusions at the individual gene level. To overcome this limitation, I used a network-guided analysis to determine whether any pathways, defined by amplified or deleted genes, were common among the samples. Six of the melanoma samples were potentially altered in four pathways and five samples harboured copy-number and expression changes in components of six pathways. In total, this approach identified 28 pathways. Validation with two external, large melanoma datasets confirmed all but three of the detected pathways and demonstrated the utility of network-guided approaches for both large and small datasets analysis.RésuméBien que le génome de deux individus soit similaire à plus de 99.99%, des différences de structure peuvent être observées. Ces différences incluent les polymorphismes simples de nucléotides, les inversions et les changements en nombre de copies (gain ou perte d'ADN). Ces derniers varient de petits événements dits sous-microscopiques (moins de 1kb en taille), appelés CNVs (copy number variants) jusqu'à des événements plus large pouvant affecter des chromosomes entiers. Les petites variations sont généralement sans conséquence pour la cellule, toutefois certaines ont été impliquées dans la prédisposition à certaines maladies, et à des variations phénotypiques dans la population générale. Les réarrangements plus grands (par exemple, une copie additionnelle d'un chromosome appelée communément trisomie) ont des répercutions plus grave pour la santé, comme par exemple dans certains syndromes génomiques et dans le cancer. Les technologies à haut-débit telle les puces à ADN permettent la détection de CNVs à l'échelle du génome humain. La cartographie en 2006 des CNV du génome humain, a suscité un fort intérêt en génétique des populations et en génétique médicale. La détection de différences au sein et entre plusieurs populations est un élément clef pour élucider la contribution possible des CNVs dans les maladies. Toutefois l'analyse du génome reste une tâche difficile, la technologie évolue très rapidement créant de nouveaux besoins pour le développement d'outils, l'amélioration des précédents, et la comparaison des différentes méthodes. De plus, si le lien entre CNV et maladie a été établit, leur contribution précise n'est pas encore comprise. De même que les études sur la prédisposition aux maladies par des CNVs détectés dans la population générale n'ont pas encore été réalisées.Pendant mon doctorat, je me suis concentré sur trois axes principaux ayant attrait aux CNV. Dans le chapitre 3, je détaille mes travaux sur les méthodes d'analyses des puces à ADN. J'ai eu accès aux données du projet CoLaus, une étude de la population de Lausanne. Dans cette étude, le génome de plus de 6000 individus a été analysé avec des puces SNP et de nombreuses informations cliniques ont été récoltées. Pendant mes travaux, j'ai utilisé et comparé plusieurs méthodes de détection des CNVs. Les résultats n'étant pas complètement satisfaisant, j'ai implémenté ma propre méthode qui donne de meilleures performances que deux des trois autres méthodes utilisées. Je me suis aussi intéressé aux stratégies pour combiner les CNVs de différents individus en régions.Je me suis aussi intéressé à l'impact clinique des CNVs dans le cas des maladies génétiques communes (chapitre 4). Ce projet fut possible grâce à une étroite collaboration avec le Centre Hospitalier Universitaire Vaudois (CHUV) et l'Impérial College à Londres. Dans ce projet, j'ai été l'un des analystes principaux et j'ai travaillé sur l'impact clinique d'une délétion rare du chromosome 16p11 présente chez des patients atteints d'obésité. Dans cette collaboration multidisciplinaire, nous avons comparés 8'456 patients atteint d'obésité et 11 '856 individus de la population générale. Nous avons trouvés que la délétion était impliquée dans 0.7% des cas d'obésité morbide et était absente chez les contrôles sains (non-atteint d'obésité). Notre étude illustre l'importance des CNVs rares qui peuvent avoir un impact clinique très important. De plus, ceci permet d'envisager une alternative aux études d'associations pour améliorer notre compréhension de l'étiologie des maladies génétiques communes.Egalement, j'ai travaillé sur la détection d'altérations somatiques en nombres de copies (SCNA) et de leurs conséquences pour le cancer (chapitre 5). Ce projet fut une collaboration initiée par l'Institut Ludwig de Recherche contre le Cancer et impliquant l'Institut Suisse de Bioinformatique, le CHUV et les Universités de Lausanne et Genève. Je me suis concentré sur l'identification de gènes affectés par des SCNAs et avec une sur- ou sous-expression dans des lignées cellulaires dérivées de mélanomes métastatiques. Les données utilisées ont été générées par des puces ADN (CGH et SNP) et du séquençage à haut débit du transcriptome. Mes recherches ont montrées que peu de gènes sont récurrents entre les mélanomes, ce qui rend difficile l'interprétation des résultats. Pour contourner ces limitations, j'ai utilisé une analyse de réseaux pour définir si des réseaux de signalisations enrichis en gènes amplifiés ou perdus, étaient communs aux différents échantillons. En fait, parmi les 28 réseaux détectés, quatre réseaux sont potentiellement dérégulés chez six mélanomes, et six réseaux supplémentaires sont affectés chez cinq mélanomes. La validation de ces résultats avec deux larges jeux de données publiques, a confirmée tous ces réseaux sauf trois. Ceci démontre l'utilité de cette approche pour l'analyse de petits et de larges jeux de données.Résumé grand publicL'avènement de la biologie moléculaire, en particulier ces dix dernières années, a révolutionné la recherche en génétique médicale. Grâce à la disponibilité du génome humain de référence dès 2001, de nouvelles technologies telles que les puces à ADN sont apparues et ont permis d'étudier le génome dans son ensemble avec une résolution dite sous-microscopique jusque-là impossible par les techniques traditionnelles de cytogénétique. Un des exemples les plus importants est l'étude des variations structurales du génome, en particulier l'étude du nombre de copies des gènes. Il était établi dès 1959 avec l'identification de la trisomie 21 par le professeur Jérôme Lejeune que le gain d'un chromosome supplémentaire était à l'origine de syndrome génétique avec des répercussions graves pour la santé du patient. Ces observations ont également été réalisées en oncologie sur les cellules cancéreuses qui accumulent fréquemment des aberrations en nombre de copies (telles que la perte ou le gain d'un ou plusieurs chromosomes). Dès 2004, plusieurs groupes de recherches ont répertorié des changements en nombre de copies dans des individus provenant de la population générale (c'est-à-dire sans symptômes cliniques visibles). En 2006, le Dr. Richard Redon a établi la première carte de variation en nombre de copies dans la population générale. Ces découvertes ont démontrées que les variations dans le génome était fréquentes et que la plupart d'entre elles étaient bénignes, c'est-à-dire sans conséquence clinique pour la santé de l'individu. Ceci a suscité un très grand intérêt pour comprendre les variations naturelles entre individus mais aussi pour mieux appréhender la prédisposition génétique à certaines maladies.Lors de ma thèse, j'ai développé de nouveaux outils informatiques pour l'analyse de puces à ADN dans le but de cartographier ces variations à l'échelle génomique. J'ai utilisé ces outils pour établir les variations dans la population suisse et je me suis consacré par la suite à l'étude de facteurs pouvant expliquer la prédisposition aux maladies telles que l'obésité. Cette étude en collaboration avec le Centre Hospitalier Universitaire Vaudois a permis l'identification d'une délétion sur le chromosome 16 expliquant 0.7% des cas d'obésité morbide. Cette étude a plusieurs répercussions. Tout d'abord elle permet d'effectuer le diagnostique chez les enfants à naître afin de déterminer leur prédisposition à l'obésité. Ensuite ce locus implique une vingtaine de gènes. Ceci permet de formuler de nouvelles hypothèses de travail et d'orienter la recherche afin d'améliorer notre compréhension de la maladie et l'espoir de découvrir un nouveau traitement Enfin notre étude fournit une alternative aux études d'association génétique qui n'ont eu jusqu'à présent qu'un succès mitigé.Dans la dernière partie de ma thèse, je me suis intéressé à l'analyse des aberrations en nombre de copies dans le cancer. Mon choix s'est porté sur l'étude de mélanomes, impliqués dans le cancer de la peau. Le mélanome est une tumeur très agressive, elle est responsable de 80% des décès des cancers de la peau et est souvent résistante aux traitements utilisés en oncologie (chimiothérapie, radiothérapie). Dans le cadre d'une collaboration entre l'Institut Ludwig de Recherche contre le Cancer, l'Institut Suisse de Bioinformatique, le CHUV et les universités de Lausanne et Genève, nous avons séquencés l'exome (les gènes) et le transcriptome (l'expression des gènes) de sept mélanomes métastatiques, effectués des analyses du nombre de copies par des puces à ADN et des caryotypes. Mes travaux ont permis le développement de nouvelles méthodes d'analyses adaptées au cancer, d'établir la liste des réseaux de signalisation cellulaire affectés de façon récurrente chez le mélanome et d'identifier deux cibles thérapeutiques potentielles jusqu'alors ignorées dans les cancers de la peau.