Statistical methods for the analysis of DNA sequences: application to dinucleotide distribution in the human genome


Autoria(s): Paci, Giulia
Contribuinte(s)

Remondini, Daniel

Data(s)

24/10/2014

Resumo

Questa tesi si inserisce nell'ambito delle analisi statistiche e dei metodi stocastici applicati all'analisi delle sequenze di DNA. Nello specifico il nostro lavoro è incentrato sullo studio del dinucleotide CG (CpG) all'interno del genoma umano, che si trova raggruppato in zone specifiche denominate CpG islands. Queste sono legate alla metilazione del DNA, un processo che riveste un ruolo fondamentale nella regolazione genica. La prima parte dello studio è dedicata a una caratterizzazione globale del contenuto e della distribuzione dei 16 diversi dinucleotidi all'interno del genoma umano: in particolare viene studiata la distribuzione delle distanze tra occorrenze successive dello stesso dinucleotide lungo la sequenza. I risultati vengono confrontati con diversi modelli nulli: sequenze random generate con catene di Markov di ordine zero (basate sulle frequenze relative dei nucleotidi) e uno (basate sulle probabilità di transizione tra diversi nucleotidi) e la distribuzione geometrica per le distanze. Da questa analisi le proprietà caratteristiche del dinucleotide CpG emergono chiaramente, sia dal confronto con gli altri dinucleotidi che con i modelli random. A seguito di questa prima parte abbiamo scelto di concentrare le successive analisi in zone di interesse biologico, studiando l’abbondanza e la distribuzione di CpG al loro interno (CpG islands, promotori e Lamina Associated Domains). Nei primi due casi si osserva un forte arricchimento nel contenuto di CpG, e la distribuzione delle distanze è spostata verso valori inferiori, indicando che questo dinucleotide è clusterizzato. All’interno delle LADs si trovano mediamente meno CpG e questi presentano distanze maggiori. Infine abbiamo adottato una rappresentazione a random walk del DNA, costruita in base al posizionamento dei dinucleotidi: il walk ottenuto presenta caratteristiche drasticamente diverse all’interno e all’esterno di zone annotate come CpG island. Riteniamo pertanto che metodi basati su questo approccio potrebbero essere sfruttati per migliorare l’individuazione di queste aree di interesse nel genoma umano e di altri organismi.

Formato

application/pdf

Identificador

http://amslaurea.unibo.it/7615/1/paci_giulia_tesi.pdf

Paci, Giulia (2014) Statistical methods for the analysis of DNA sequences: application to dinucleotide distribution in the human genome. [Laurea magistrale], Università di Bologna, Corso di Studio in Fisica [LM-DM270] <http://amslaurea.unibo.it/view/cds/CDS8025/>

Relação

http://amslaurea.unibo.it/7615/

Direitos

info:eu-repo/semantics/openAccess

Palavras-Chave #Human genome, CpG islands, Markov models, DNA walk #scuola :: 843899 :: Scienze #cds :: 8025 :: Fisica [LM-DM270] #indirizzo :: 791 :: Curriculum E: Fisica applicata #sessione :: seconda
Tipo

PeerReviewed