788 resultados para data mining applications
Resumo:
Oggi piu' che mai e' fondamentale essere in grado di estrarre informazioni rilevanti e conoscenza dal grande numero di dati che ci possono arrivare da svariati contesti, come database collegati a satelliti e sensori automatici, repository generati dagli utenti e data warehouse di grandi compagnie. Una delle sfide attuali riguarda lo sviluppo di tecniche di data mining per la gestione dell’incertezza. L’obiettivo di questa tesi e' di estendere le attuali tecniche di gestione dell’incertezza, in particolare riguardanti la classificazione tramite alberi decisionali, in maniera tale da poter gestire incertezza anche sull’attributo di classe.
Resumo:
Im ersten Teil 'Analyse der Grundlagen' der Dissertation 'Aspekte der Modellbildung: Konzepte und Anwendung in der Atmungsphysiologie' werden die Grundlagen zur Verfügung gestellt. Ausgehend von der Definition der modularer dynamischer Systeme im Kapitel 1 werden Grundbegriffe zu Modellen, Simulation und Modellentwicklung (Kapitel 2) dargelegt und schließlich folgt ein Kapitel über Netzmodelle. Im zweiten Teil wird 'der Prozess der Operationalisierung' untersucht. Im Kapitel 4 wird mit 'dem Koordinatensystem der Modellbildung' ein allgemeiner Lebenszyklus zur Modellbildung vorgestellt. Das Kapitel 5 zur 'Modellentwicklung' steht im Zentrum der Arbeit, wo eine generische Struktur für modulare Level-Raten-Modelle entwickelt wird. Das Kapitel endet mit einem Konzept zur Kalibrierung von Modellen, das auf Data Mining von Modelldaten basiert. Der Prozess der Operationalisierung endet mit der Validierung im sechsten Kapitel. 'Die Validierung am Beispiel der Atmungsphysiologie' im dritten Teil stellt die Anwendung der in beiden Teilen zuvor entwickelten Theorie dar. Zunächst wird das Projekt 'Evita-Weaning-System' vorgestellt, in dem die Arbeit entstanden ist. Ferner werden die notwendigen medizinischen Grundlagen der Atmungsphysiologie analysiert (Kapitel 7). Eine detaillierte Beschreibung des Modells der Atmungsphysiologie und der dabei entwickelten Algorithmen folgt im achten Kapitel. Die Arbeit schließt mit einem Kapitel zur Validierung des physiologischen Modells.
Resumo:
Zielvorgaben der vorliegenden Arbeit war die Identifikation neuer selektiv in Tumoren aktivierter Gene sowie die Entwicklung eines methodischen Prozesses, um die molekularen Effekte der fehlerhaften Aktivierung solcher Gene zu untersuchen. Für die erste Fragestellung haben wir zwei komplementäre Methoden entwickelt. Zum einen haben wir nach neuen Mitglieder der Cancer/Germline (CG) Familie von Genen gesucht, die bereits attraktive Zielstrukturen laufender Phase I/IIa Studien sind. Zu diesem Zweck wurde ein bioinformatischer Data Mining Ansatz generiert. Dieser führte zur erfolgreichen in silico Klonierung neuer CG Gene. Zur Identifikation von in Tumorzellen überexprimierten Genen nutzten wir einen cDNA Mikroarray mit 1152 ausgewählten Genen mit direkter oder indirekter tumorimmunologischer oder tumorbiologischer Relevanz. Die komparative transkriptionelle Untersuchung von humanen Tumor- und Normalgeweben mit diesem Array führte zur Wiederentdeckung bereits bekannter, aber auch zur Aufdeckung bisher nicht beschriebener tumor-assoziierter Transkriptionsveränderungen. Der zweite große Schwerpunkt dieser Arbeit war die Technologieentwicklung eines versatilen Prozesses zur Untersuchung von molekularen Effekten eines aberrant in Zellen exprimierten Gens. Zur Simulation dieser Situation stellten wir in vitro transkribierte RNA dieses Gens her und elektroporierten diese in Zielzellen. Transkriptionsanalysen solcher Transfektanden mit Affymetrix Oligonukleotid Mikroarray deckten auf gesamt-genomischer Ebene ganze Kaskaden konsekutiver, transkriptioneller Alterationen auf.
Resumo:
Il task del data mining si pone come obiettivo l'estrazione automatica di schemi significativi da grandi quantità di dati. Un esempio di schemi che possono essere cercati sono raggruppamenti significativi dei dati, si parla in questo caso di clustering. Gli algoritmi di clustering tradizionali mostrano grossi limiti in caso di dataset ad alta dimensionalità, composti cioè da oggetti descritti da un numero consistente di attributi. Di fronte a queste tipologie di dataset è necessario quindi adottare una diversa metodologia di analisi: il subspace clustering. Il subspace clustering consiste nella visita del reticolo di tutti i possibili sottospazi alla ricerca di gruppi signicativi (cluster). Una ricerca di questo tipo è un'operazione particolarmente costosa dal punto di vista computazionale. Diverse ottimizzazioni sono state proposte al fine di rendere gli algoritmi di subspace clustering più efficienti. In questo lavoro di tesi si è affrontato il problema da un punto di vista diverso: l'utilizzo della parallelizzazione al fine di ridurre il costo computazionale di un algoritmo di subspace clustering.
Resumo:
“Dì che ti piace questa pagina”. Questo è uno dei tanti inviti rivolti a chi, ogni giorno, naviga in Internet. Che si stia leggendo un articolo sul sito de La Repubblica, o visitando il blog di un personaggio famoso o di un politico, i riferimenti ai social network sono ormai una presenza costante nelle pagine web. La facilità di restare in contatto con i propri amici, e la possibilità di collegarsi in qualsiasi momento, hanno portato gli utenti del Web 2.0 ad intensificare le discussioni, ed a commentare gli argomenti ed i contenuti prodotti dagli altri in un continuo e complesso “botta e risposta”. È possibile che quest'ambiente abbia favorito lo sviluppo di una nuova prospettiva della Rete, inteso come un nuovo modo di vedersi e di rapportarsi con gli altri, di esprimersi e di condividere le proprie storie e la propria storia. Per approfondire queste tematiche si è deciso di osservare alcuni dei social networks più diffusi, tra i quali Twitter e Facebook e, per raccogliere i dati più significativi di quest'ultimo, di sviluppare un'apposita applicazione software. Questa tesi tratterà gli aspetti teorici che hanno portato questa ricerca su scala nazionale e l'analisi dei requisiti del progetto; approfondirà le dinamiche progettuali e lo sviluppo dell'applicazione entro i vincoli imposti da Facebook, integrando un questionario per l'utente alla lettura dei dati. Dopo la descrizione delle fasi di testing e deployment, l'elaborato includerà un'analisi preliminare dei dati ottenuti per mezzo di una pre-elaborazione all'interno dell'applicazione stessa.
Resumo:
Die vorliegende Arbeit ist motiviert durch biologische Fragestellungen bezüglich des Verhaltens von Membranpotentialen in Neuronen. Ein vielfach betrachtetes Modell für spikende Neuronen ist das Folgende. Zwischen den Spikes verhält sich das Membranpotential wie ein Diffusionsprozess X der durch die SDGL dX_t= beta(X_t) dt+ sigma(X_t) dB_t gegeben ist, wobei (B_t) eine Standard-Brown'sche Bewegung bezeichnet. Spikes erklärt man wie folgt. Sobald das Potential X eine gewisse Exzitationsschwelle S überschreitet entsteht ein Spike. Danach wird das Potential wieder auf einen bestimmten Wert x_0 zurückgesetzt. In Anwendungen ist es manchmal möglich, einen Diffusionsprozess X zwischen den Spikes zu beobachten und die Koeffizienten der SDGL beta() und sigma() zu schätzen. Dennoch ist es nötig, die Schwellen x_0 und S zu bestimmen um das Modell festzulegen. Eine Möglichkeit, dieses Problem anzugehen, ist x_0 und S als Parameter eines statistischen Modells aufzufassen und diese zu schätzen. In der vorliegenden Arbeit werden vier verschiedene Fälle diskutiert, in denen wir jeweils annehmen, dass das Membranpotential X zwischen den Spikes eine Brown'sche Bewegung mit Drift, eine geometrische Brown'sche Bewegung, ein Ornstein-Uhlenbeck Prozess oder ein Cox-Ingersoll-Ross Prozess ist. Darüber hinaus beobachten wir die Zeiten zwischen aufeinander folgenden Spikes, die wir als iid Treffzeiten der Schwelle S von X gestartet in x_0 auffassen. Die ersten beiden Fälle ähneln sich sehr und man kann jeweils den Maximum-Likelihood-Schätzer explizit angeben. Darüber hinaus wird, unter Verwendung der LAN-Theorie, die Optimalität dieser Schätzer gezeigt. In den Fällen OU- und CIR-Prozess wählen wir eine Minimum-Distanz-Methode, die auf dem Vergleich von empirischer und wahrer Laplace-Transformation bezüglich einer Hilbertraumnorm beruht. Wir werden beweisen, dass alle Schätzer stark konsistent und asymptotisch normalverteilt sind. Im letzten Kapitel werden wir die Effizienz der Minimum-Distanz-Schätzer anhand simulierter Daten überprüfen. Ferner, werden Anwendungen auf reale Datensätze und deren Resultate ausführlich diskutiert.
Resumo:
L'innovazione delle tecnologie di sequenziamento negli ultimi anni ha reso possibile la catalogazione delle varianti genetiche nei campioni umani, portando nuove scoperte e comprensioni nella ricerca medica, farmaceutica, dell'evoluzione e negli studi sulla popolazione. La quantità di sequenze prodotta è molto cospicua, e per giungere all'identificazione delle varianti sono necessari diversi stadi di elaborazione delle informazioni genetiche in cui, ad ogni passo, vengono generate ulteriori informazioni. Insieme a questa immensa accumulazione di dati, è nata la necessità da parte della comunità scientifica di organizzare i dati in repository, dapprima solo per condividere i risultati delle ricerche, poi per permettere studi statistici direttamente sui dati genetici. Gli studi su larga scala coinvolgono quantità di dati nell'ordine dei petabyte, il cui mantenimento continua a rappresentare una sfida per le infrastrutture. Per la varietà e la quantità di dati prodotti, i database giocano un ruolo di primaria importanza in questa sfida. Modelli e organizzazione dei dati in questo campo possono fare la differenza non soltanto per la scalabilità, ma anche e soprattutto per la predisposizione al data mining. Infatti, la memorizzazione di questi dati in file con formati quasi-standard, la dimensione di questi file, e i requisiti computazionali richiesti, rendono difficile la scrittura di software di analisi efficienti e scoraggiano studi su larga scala e su dati eterogenei. Prima di progettare il database si è perciò studiata l’evoluzione, negli ultimi vent’anni, dei formati quasi-standard per i flat file biologici, contenenti metadati eterogenei e sequenze nucleotidiche vere e proprie, con record privi di relazioni strutturali. Recentemente questa evoluzione è culminata nell’utilizzo dello standard XML, ma i flat file delimitati continuano a essere gli standard più supportati da tools e piattaforme online. È seguita poi un’analisi dell’organizzazione interna dei dati per i database biologici pubblici. Queste basi di dati contengono geni, varianti genetiche, strutture proteiche, ontologie fenotipiche, relazioni tra malattie e geni, relazioni tra farmaci e geni. Tra i database pubblici studiati rientrano OMIM, Entrez, KEGG, UniProt, GO. L'obiettivo principale nello studio e nella modellazione del database genetico è stato quello di strutturare i dati in modo da integrare insieme i dati eterogenei prodotti e rendere computazionalmente possibili i processi di data mining. La scelta di tecnologia Hadoop/MapReduce risulta in questo caso particolarmente incisiva, per la scalabilità garantita e per l’efficienza nelle analisi statistiche più complesse e parallele, come quelle riguardanti le varianti alleliche multi-locus.
Resumo:
In questa tesi vengono analizzati gli algoritmi DistributedSolvingSet e LazyDistributedSolvingSet e verranno mostrati dei risultati sperimentali relativi al secondo.