2 resultados para Knowledge discovery in databases
em AMS Tesi di Laurea - Alm@DL - Università di Bologna
Resumo:
L'innovazione delle tecnologie di sequenziamento negli ultimi anni ha reso possibile la catalogazione delle varianti genetiche nei campioni umani, portando nuove scoperte e comprensioni nella ricerca medica, farmaceutica, dell'evoluzione e negli studi sulla popolazione. La quantità di sequenze prodotta è molto cospicua, e per giungere all'identificazione delle varianti sono necessari diversi stadi di elaborazione delle informazioni genetiche in cui, ad ogni passo, vengono generate ulteriori informazioni. Insieme a questa immensa accumulazione di dati, è nata la necessità da parte della comunità scientifica di organizzare i dati in repository, dapprima solo per condividere i risultati delle ricerche, poi per permettere studi statistici direttamente sui dati genetici. Gli studi su larga scala coinvolgono quantità di dati nell'ordine dei petabyte, il cui mantenimento continua a rappresentare una sfida per le infrastrutture. Per la varietà e la quantità di dati prodotti, i database giocano un ruolo di primaria importanza in questa sfida. Modelli e organizzazione dei dati in questo campo possono fare la differenza non soltanto per la scalabilità, ma anche e soprattutto per la predisposizione al data mining. Infatti, la memorizzazione di questi dati in file con formati quasi-standard, la dimensione di questi file, e i requisiti computazionali richiesti, rendono difficile la scrittura di software di analisi efficienti e scoraggiano studi su larga scala e su dati eterogenei. Prima di progettare il database si è perciò studiata l’evoluzione, negli ultimi vent’anni, dei formati quasi-standard per i flat file biologici, contenenti metadati eterogenei e sequenze nucleotidiche vere e proprie, con record privi di relazioni strutturali. Recentemente questa evoluzione è culminata nell’utilizzo dello standard XML, ma i flat file delimitati continuano a essere gli standard più supportati da tools e piattaforme online. È seguita poi un’analisi dell’organizzazione interna dei dati per i database biologici pubblici. Queste basi di dati contengono geni, varianti genetiche, strutture proteiche, ontologie fenotipiche, relazioni tra malattie e geni, relazioni tra farmaci e geni. Tra i database pubblici studiati rientrano OMIM, Entrez, KEGG, UniProt, GO. L'obiettivo principale nello studio e nella modellazione del database genetico è stato quello di strutturare i dati in modo da integrare insieme i dati eterogenei prodotti e rendere computazionalmente possibili i processi di data mining. La scelta di tecnologia Hadoop/MapReduce risulta in questo caso particolarmente incisiva, per la scalabilità garantita e per l’efficienza nelle analisi statistiche più complesse e parallele, come quelle riguardanti le varianti alleliche multi-locus.
Resumo:
Grazie alla costante evoluzione tecnologica, negli ultimi anni sempre più oggetti di vita quotidiana stanno accedendo ad Internet. Il proliferare dei dispositivi “smart” ha dato il via ad una nuova rivoluzione tecnologica: quella di Internet of Things (IoT), che sta portando nelle mani degli utenti un elevatissimo numero di informazioni in grado di offrire notevoli benefici alla vita di ogni giorno. Per poter accedere ai dati messi a disposizione risulterà necessario realizzare un servizio in grado di consentire la scoperta, l’accesso e l’interazione con i nodi della rete che si occuperanno della gestione delle informazioni. In letteratura sono già disponibili alcuni di questi meccanismi, ma essi presentano dei difetti che verrebbero ancor più accentuati dalle ridotte capacità computazionali dei terminali IoT. In questo progetto di tesi verrà presentato un servizio di discovery per gateway IoT Kura-based, pensato, grazie all’utilizzo del protocollo di messaggistica MQTT, per operare con terminali dalle performance limitate ed in situazioni di scarsa connettività. Il servizio realizzato prevede che degli smartphone Android richiedano a tutti i gateway in una determinata località i parametri per entrare nel loro network. La richiesta verrà inviata mediante un messaggio MQTT pubblicato in un topic location-specific su un broker remoto. I gateway che riceveranno il messaggio, se interessati alle caratteristiche del client, gli risponderanno comunicando i dati di accesso al network in modo che il dispositivo possa auto-configurarsi per accedervi. Ad accesso avvenuto client e gateway comunicheranno in modo diretto attraverso un broker locale. In fase di testing si valuteranno le performance del servizio analizzando i tempi di risposta e l’utilizzo di risorse lato gateway, e l’assorbimento di potenza lato client.