Computational Methods for Locating and Analyzing Conserved Gene Regulatory DNA Elements


Autoria(s): Palin, Kimmo
Contribuinte(s)

Helsingin yliopisto, matemaattis-luonnontieteellinen tiedekunta, tietojenkäsittelytieteen laitos

Helsingfors universitet, matematisk-naturvetenskapliga fakulteten, institutionen för datavetenskap

University of Helsinki, Faculty of Science, Department of Computer Science

Data(s)

23/11/2007

Resumo

This thesis presents methods for locating and analyzing cis-regulatory DNA elements involved with the regulation of gene expression in multicellular organisms. The regulation of gene expression is carried out by the combined effort of several transcription factor proteins collectively binding the DNA on the cis-regulatory elements. Only sparse knowledge of the 'genetic code' of these elements exists today. An automatic tool for discovery of putative cis-regulatory elements could help their experimental analysis, which would result in a more detailed view of the cis-regulatory element structure and function. We have developed a computational model for the evolutionary conservation of cis-regulatory elements. The elements are modeled as evolutionarily conserved clusters of sequence-specific transcription factor binding sites. We give an efficient dynamic programming algorithm that locates the putative cis-regulatory elements and scores them according to the conservation model. A notable proportion of the high-scoring DNA sequences show transcriptional enhancer activity in transgenic mouse embryos. The conservation model includes four parameters whose optimal values are estimated with simulated annealing. With good parameter values the model discriminates well between the DNA sequences with evolutionarily conserved cis-regulatory elements and the DNA sequences that have evolved neutrally. In further inquiry, the set of highest scoring putative cis-regulatory elements were found to be sensitive to small variations in the parameter values. The statistical significance of the putative cis-regulatory elements is estimated with the Two Component Extreme Value Distribution. The p-values grade the conservation of the cis-regulatory elements above the neutral expectation. The parameter values for the distribution are estimated by simulating the neutral DNA evolution. The conservation of the transcription factor binding sites can be used in the upstream analysis of regulatory interactions. This approach may provide mechanistic insight to the transcription level data from, e.g., microarray experiments. Here we give a method to predict shared transcriptional regulators for a set of co-expressed genes. The EEL (Enhancer Element Locator) software implements the method for locating putative cis-regulatory elements. The software facilitates both interactive use and distributed batch processing. We have used it to analyze the non-coding regions around all human genes with respect to the orthologous regions in various other species including mouse. The data from these genome-wide analyzes is stored in a relational database which is used in the publicly available web services for upstream analysis and visualization of the putative cis-regulatory elements in the human genome.

Kun ihmisen genomi saatiin sekvensoitua eli ihmisen geenit oli löydetty ja eritelty vuosituhannen alussa, tiedemiehet yllättyivät ihmisen geenien pienestä määrästä. Ihmisellä havaittiin olevan vain vähän enemmän geenejä kuin yksinkertaisella sukkulamadolla. Koska geenien lukumäärä ei pystykään selittämään ihmisen ja sukkulamadon ulkoisia eroavaisuuksia, selitystä ruvettiin etsimään geenien toiminnan eroista. Geenien toimintaa säädellään monisoluisissa eliöissä hyvin tarkasti tiettyyn paikkaan ja tiettyyn osaan ruumista. Tietyt proteiinit toteuttavat geenien säätelyä sitoutumalla tiettyihin kohtiin DNA:ta säädeltävän geenin läheisyydessä. Näiden DNA:han sitoutumiskohtien löytäminen genomista on kokeellisesti hyvin haastavaa: ne saattavat sijaita hyvin kaukana säädeltävästä geenistä eikä proteiinien sitoutumissääntöjä tunneta vielä kovin hyvin. Väitöstyössä on kehitetty laskennallisia menetelmiä geenisäätelyyn liittyvien DNA sitoutumiskohtien paikantamiseen eri nisäkkäiden genomeja vertailemalla. Esimerkiksi ihmisen ja hiiren genomeja vertailemalla voidaan paikantaa DNA:n pätkiä, jotka ovat olleet hiirien ja ihmisten viimeisessä yhteisessä esivanhemmassa noin 65 miljoonaa vuotta sitten ja lisäksi vaikuttavat mahdollisilta proteiinien sitoutumiskohdilta. Tällaisia mahdollisia DNA:han sitoutumiskohtia on löydetty ihmisen genomista tuhansia, ja osan niistä on kokeellisesti havaittu säätelevän lähellä sijaitsevaa geeniä. Sitoutumiskohtien analysointiin kehitettiin väitöstutkimuksessa menetelmä, jolla voidaan ennustaa geenijoukoille säätelyproteiineja. Nykyaikaiset tehoseulontamenetelmät löytävät nopeasti geenijoukkoja, joilla on jokin kiinnostava ominaisuus, jonka säätelystä ollaan kiinnostuneita. Kehitetyllä menetelmällä voidaan helposti ennustaa esimerkiksi tiettyyn sairauteen liittyvien geenien säätelijä. Kun mahdollinen säätelijäproteiini tunnetaan, sitä vastaan voidaan kehittää lääke. Työn tulokset antavat uusia menetelmiä erityisesti vaikeasti tutkittavien yksilönkehityksen aikana säädeltyjen geenien analyysiin. Kehitettyjen menetelmien lääketieteelliset sovellukset liittyvät esimerkiksi kudosspesifiin kasvun säätelyyn ja syöpägeenien kasvainspesifisyyteen. Nämä sovellukset pyrkivät selvittämään mm. syytä ihmisen suhteettoman suurille aivoille ja pienille lihaksille ja toisaalta pyrkivät avaamaan uusia lähestymistapoja esimerkiksi syövän diagnostiikkaan ja hoitoon.

Identificador

URN:ISBN:978-952-10-4353-6

http://hdl.handle.net/10138/21388

Idioma(s)

en

Publicador

Helsingin yliopisto

Helsingfors universitet

University of Helsinki

Relação

URN:ISBN:978-952-10-4352-9

Helsinki University Printing House: University of Helsinki, 2007, Department of Computer Science, Series of Publications A. 1238-8645

Direitos

Julkaisu on tekijänoikeussäännösten alainen. Teosta voi lukea ja tulostaa henkilökohtaista käyttöä varten. Käyttö kaupallisiin tarkoituksiin on kielletty.

This publication is copyrighted. You may download, display and print it for Your own personal use. Commercial use is prohibited.

Publikationen är skyddad av upphovsrätten. Den får läsas och skrivas ut för personligt bruk. Användning i kommersiellt syfte är förbjuden.

Palavras-Chave #tietojenkäsittelytiede
Tipo

Väitöskirja (monografia)

Doctoral dissertation (monograph)

Doktorsavhandling (monografi)

Text