Biblioteca Digital

1 resultado para [omim]

em AMS Tesi di Laurea - Alm@DL - Università di Bologna

Una base dati per il knowledge discovery in genetica medica

Relevância:

10.00% 10.00%

Publicador:

Resumo:

L'innovazione delle tecnologie di sequenziamento negli ultimi anni ha reso possibile la catalogazione delle varianti genetiche nei campioni umani, portando nuove scoperte e comprensioni nella ricerca medica, farmaceutica, dell'evoluzione e negli studi sulla popolazione. La quantit�� di sequenze prodotta �� molto cospicua, e per giungere all'identificazione delle varianti sono necessari diversi stadi di elaborazione delle informazioni genetiche in cui, ad ogni passo, vengono generate ulteriori informazioni. Insieme a questa immensa accumulazione di dati, �� nata la necessit�� da parte della comunit�� scientifica di organizzare i dati in repository, dapprima solo per condividere i risultati delle ricerche, poi per permettere studi statistici direttamente sui dati genetici. Gli studi su larga scala coinvolgono quantit�� di dati nell'ordine dei petabyte, il cui mantenimento continua a rappresentare una sfida per le infrastrutture. Per la variet�� e la quantit�� di dati prodotti, i database giocano un ruolo di primaria importanza in questa sfida. Modelli e organizzazione dei dati in questo campo possono fare la differenza non soltanto per la scalabilit��, ma anche e soprattutto per la predisposizione al data mining. Infatti, la memorizzazione di questi dati in file con formati quasi-standard, la dimensione di questi file, e i requisiti computazionali richiesti, rendono difficile la scrittura di software di analisi efficienti e scoraggiano studi su larga scala e su dati eterogenei. Prima di progettare il database si �� perci�� studiata l��evoluzione, negli ultimi vent��anni, dei formati quasi-standard per i flat file biologici, contenenti metadati eterogenei e sequenze nucleotidiche vere e proprie, con record privi di relazioni strutturali. Recentemente questa evoluzione �� culminata nell��utilizzo dello standard XML, ma i flat file delimitati continuano a essere gli standard pi�� supportati da tools e piattaforme online. �� seguita poi un��analisi dell��organizzazione interna dei dati per i database biologici pubblici. Queste basi di dati contengono geni, varianti genetiche, strutture proteiche, ontologie fenotipiche, relazioni tra malattie e geni, relazioni tra farmaci e geni. Tra i database pubblici studiati rientrano OMIM, Entrez, KEGG, UniProt, GO. L'obiettivo principale nello studio e nella modellazione del database genetico �� stato quello di strutturare i dati in modo da integrare insieme i dati eterogenei prodotti e rendere computazionalmente possibili i processi di data mining. La scelta di tecnologia Hadoop/MapReduce risulta in questo caso particolarmente incisiva, per la scalabilit�� garantita e per l��efficienza nelle analisi statistiche pi�� complesse e parallele, come quelle riguardanti le varianti alleliche multi-locus.

Veja mais

1 resultado para [omim]

em AMS Tesi di Laurea - Alm@DL - Università di Bologna

Filtro por publicador

Una base dati per il knowledge discovery in genetica medica