Studies of the Human Transcriptome


Autoria(s): Kilpinen, Sami
Contribuinte(s)

Helsingin yliopisto, lääketieteellinen tiedekunta, kliinisteoreettinen laitos

Helsingfors universitet, medicinska fakulteten, Haartman institutet

University of Helsinki, Faculty of Medicine, Haartman Institute, Medical Genetics

VTT Medical Biotechnology, Institute for Molecular Medicine Finland (FIMM)

Data(s)

17/06/2011

Resumo

Gene expression is one of the most critical factors influencing the phenotype of a cell. As a result of several technological advances, measuring gene expression levels has become one of the most common molecular biological measurements to study the behaviour of cells. The scientific community has produced enormous and constantly increasing collection of gene expression data from various human cells both from healthy and pathological conditions. However, while each of these studies is informative and enlighting in its own context and research setup, diverging methods and terminologies make it very challenging to integrate existing gene expression data to a more comprehensive view of human transcriptome function. On the other hand, bioinformatic science advances only through data integration and synthesis. The aim of this study was to develop biological and mathematical methods to overcome these challenges and to construct an integrated database of human transcriptome as well as to demonstrate its usage. Methods developed in this study can be divided in two distinct parts. First, the biological and medical annotation of the existing gene expression measurements needed to be encoded by systematic vocabularies. There was no single existing biomedical ontology or vocabulary suitable for this purpose. Thus, new annotation terminology was developed as a part of this work. Second part was to develop mathematical methods correcting the noise and systematic differences/errors in the data caused by various array generations. Additionally, there was a need to develop suitable computational methods for sample collection and archiving, unique sample identification, database structures, data retrieval and visualization. Bioinformatic methods were developed to analyze gene expression levels and putative functional associations of human genes by using the integrated gene expression data. Also a method to interpret individual gene expression profiles across all the healthy and pathological tissues of the reference database was developed. As a result of this work 9783 human gene expression samples measured by Affymetrix microarrays were integrated to form a unique human transcriptome resource GeneSapiens. This makes it possible to analyse expression levels of 17330 genes across 175 types of healthy and pathological human tissues. Application of this resource to interpret individual gene expression measurements allowed identification of tissue of origin with 92.0% accuracy among 44 healthy tissue types. Systematic analysis of transcriptional activity levels of 459 kinase genes was performed across 44 healthy and 55 pathological tissue types and a genome wide analysis of kinase gene co-expression networks was done. This analysis revealed biologically and medically interesting data on putative kinase gene functions in health and disease. Finally, we developed a method for alignment of gene expression profiles (AGEP) to perform analysis for individual patient samples to pinpoint gene- and pathway-specific changes in the test sample in relation to the reference transcriptome database. We also showed how large-scale gene expression data resources can be used to quantitatively characterize changes in the transcriptomic program of differentiating stem cells. Taken together, these studies indicate the power of systematic bioinformatic analyses to infer biological and medical insights from existing published datasets as well as to facilitate the interpretation of new molecular profiling data from individual patients.

Jokaisessa ihmisen solussa on sama määrä geenejä, joita yhdessä kutsutaan genomiksi. Kullakin ajan hetkellä tietyt geenit ovat aktiivisia kussakin solussa tietyllä voimakkuudella. Geenien aktiivisuus on yksi tärkeimmistä solujen ulkoisia ominaisuuksia määrittävistä tekijöistä. Nykytekniikalla geenien aktiivisuustasojen mittaaminen solu- tai kudosnäytteestä on tehokasta ja suhteellisen tarkkaa, joten ei ole siis ihme että koko genomin kattavat geenien aktiivisuustasojen mittaukset ovat nykyään molekyyligenetiikan arkipäivää. Kansainvälinen tieteellinen yhteistö on vuosien saatossa tuottanut valtavat määrät tietoa geenien aktiivisuustasoista niin terveistä kuin patologista näytteistä. Vaikka jokainen näistä tutkimuksista on informatiivinen ja valaiseva sen omassa kontekstissaan ja tutkimusasetelmassaan, vaihtelevat menetelmät ja terminologiat merkittävästi hankaloittavat näiden olemassa olevien tutkimusten vertailua ja yhdistelyä laajempien teorioiden ja mallien muodostamista varten. Tämän tutkimuksen tavoitteena oli luoda menetelmiä näiden haasteiden voittamiseksi ja mahdollistaa geenien aktiivisuustasojen tutkiminen kaikissa ihmisen soluissa hyödyntäen jo olemassa olevaa valtavaa aineistoa. Tutkimuksessa kehitetyt menetelmät voidaan pääpiirteittäin jakaa biologisiin ja matemaattisiin menetelmiin. Ensimmäiseksi kerätyn aineiston näytteiden täsmällistä kuvaamista varten luotiin biologisesti ja lääketieteellisesti mielekäs yhtenäinen terminologia, Käytännössä kustakin tutkimuksesta selvitettiin tarkasti millaista näytettä siinä oli tutkittu ja näyte kuvattiin mahdollisimman täsmällisesti. Toiseksi tutkimuksessa kehitettiin matemaattisia menetelmiä joilla eri menetelmillä mitatut geenien aktiivisuustasot saatiin vertailukelpoisiksi. Lisäksi kehitettiin tietoteknisiä ratkaisuja näytteiden keräämiseen ja arkistointiin sekä tietokantaratkaisuja näytetietojen käyttöön ja tallennukseen. Lopuksi kehitettiin bioinformaattisia menetelmiä tämän yhdenmukaistetun tietokannan soveltamiseen ja tulosten visualisointiin. Työn tuloksena syntyi maailman suurin tietokanta GeneSapiens - 17 330 ihmisen geenin aktiivisuustasoista 9783 näytteessä jotka on otettu 175 erilaisesta kudoksesta. Osoitimme kuinka tietokantaa voi käyttää esimerkiksi tuntemattoman näytteen kudosalkuperän tunnistamiseen yli 90% tarkkuudella. Tietokantaa apuna käyttäen teimme toistaiseksi kokonaisvaltaisimman ihmisen kinaasi-geenien aktivisuustasojen tutkimuksen. Kinaasit ovat solujen signaalivälityksen keskeinen geeniperhe, jotka ovat myös aktiivisen lääkekehityksen kohteena. Lopuksi, kehitimme menetelmän, jolla yksittäisen potilaan molekyyligeneettistä profiilia voidaan verrata tuhansista muista potilaista kerättyyn vertailuaineistoon henkilökohtaisen molekyylitason diagnoosin tuottamiseksi. Menetelmällä on myös muita sovelluskohteita esimerkiksi erilaistuvien kantasolujen geenien ilmentymisohjelman muutoksen tutkimuksessa. Tämä tutkimus osoittaa bioinformatiikan menetelmien ja systemaattisen analyysin tehokkuuden tuottaa uutta tietoa laajemman kokonaiskuvan ja teorioiden luomiseksi ihmisen genomin toiminnasta. Tutkimuksessa kehitetyt menetelmät avaavat lisäksi ovia entistä henkilökohtaisempaan hoitoon, kun käytössä on huipputason molekyyligenetiikan menetelmät sekä laaja vertailuaineisto, joka on koottu osana tätä tutkimustyötä.

Formato

application/pdf

Identificador

URN:ISBN:978-952-10-7011-2

http://hdl.handle.net/10138/26477

Idioma(s)

en

Publicador

Helsingin yliopisto

Helsingfors universitet

University of Helsinki

Relação

URN:ISBN:978-952-92-9105-2

Yliopistopaino: 2011

Direitos

Julkaisu on tekijänoikeussäännösten alainen. Teosta voi lukea ja tulostaa henkilökohtaista käyttöä varten. Käyttö kaupallisiin tarkoituksiin on kielletty.

This publication is copyrighted. You may download, display and print it for Your own personal use. Commercial use is prohibited.

Publikationen är skyddad av upphovsrätten. Den får läsas och skrivas ut för personligt bruk. Användning i kommersiellt syfte är förbjuden.

Palavras-Chave #lääketieteellinen genetiikka
Tipo

Väitöskirja (artikkeli)

Doctoral dissertation (article-based)

Doktorsavhandling (sammanläggning)

Text