21 resultados para Mining

em AMS Tesi di Laurea - Alm@DL - Università di Bologna


Relevância:

20.00% 20.00%

Publicador:

Resumo:

Il presente lavoro nasce dallobiettivo di individuare strumenti statistici per indagare, sotto diversi aspetti, il flusso di lavoro di un Laboratorio di Anatomia Patologica. Il punto di partenza dello studio lambiente di lavoro di ATHENA, software gestionale utilizzato nellAnatomia Patologica, sviluppato dalla NoemaLife S.p.A., azienda specializzata nellinformatica per la sanit. A partire da tale applicativo stato innanzitutto formalizzato il workflow del laboratorio (Capitolo 2), nelle sue caratteristiche e nelle sue possibili varianti, identificando le operazioni principali attraverso una serie di fasi. Proprio le fasi, unitamente alle informazioni addizionali ad esse associate, saranno per tutta la trattazione e sotto diversi punti di vista al centro dello studio. Lanalisi che presentiamo stata per completezza sviluppata in due scenari che tengono conto di diversi aspetti delle informazioni in possesso. Il primo scenario tiene conto delle sequenze di fasi, che si presentano nel loro ordine cronologico, comprensive di eventuali ripetizioni o cicli di fasi precedenti alla conclusione. Attraverso lelaborazione dei dati secondo specifici formati stata svolta uniniziale indagine grafica di Workflow Mining (Capitolo 3) grazie allausilio di EMiT, un software che attraverso un set di log di processo restituisce graficamente il flusso di lavoro che li rappresenta. Questa indagine consente gi di valutare la completezza dellutilizzo di un applicativo rispetto alle sue potenzialit. Successivamente, le stesse fasi sono state elaborate attraverso uno specifico adattamento di un comune algoritmo di allineamento globale, lalgoritmo Needleman-Wunsch (Capitolo 4). Lutilizzo delle tecniche di allineamento applicate a sequenze di processo in grado di individuare, nellambito di una specifica codifica delle fasi, le similarit tra casi clinici. Lalgoritmo di Needleman-Wunsch individua le identit e le discordanze tra due stringhe di caratteri, assegnando relativi punteggi che portano a valutarne la similarit. Tale algoritmo stato opportunamente modificato affinch possa riconoscere e penalizzare differentemente cicli e ripetizioni, piuttosto che fasi mancanti. Sempre in ottica di allineamento sar utilizzato lalgoritmo euristico Clustal, che a partire da un confronto pairwise tra sequenze costruisce un dendrogramma rappresentante graficamente laggregazione dei casi in funzione della loro similarit. Proprio il dendrogramma, per la sua struttura grafica ad albero, in grado di mostrare intuitivamente landamento evolutivo della similarit di un pattern di casi. Il secondo scenario (Capitolo 5) aggiunge alle sequenze linformazione temporale in termini di istante di esecuzione di ogni fase. Da un dominio basato su sequenze di fasi, si passa dunque ad uno scenario di serie temporali. I tempi rappresentano infatti un dato essenziale per valutare la performance di un laboratorio e per individuare la conformit agli standard richiesti. Il confronto tra i casi stato effettuato con diverse modalit, in modo da stabilire la distanza tra tutte le coppie sotto diversi aspetti: le sequenze, rappresentate in uno specifico sistema di riferimento, sono state confrontate in base alla Distanza Euclidea ed alla Dynamic Time Warping, in grado di esprimerne le discordanze rispettivamente temporali, di forma e, dunque, di processo. Alla luce dei risultati e del loro confronto, saranno presentate gi in questa fase le prime valutazioni sulla pertinenza delle distanze e sulle informazioni deducibili da esse. Il Capitolo 6 rappresenta la ricerca delle correlazioni tra elementi caratteristici del processo e la performance dello stesso. Svariati fattori come le procedure utilizzate, gli utenti coinvolti ed ulteriori specificit determinano direttamente o indirettamente la qualit del servizio erogato. Le distanze precedentemente calcolate vengono dunque sottoposte a clustering, una tecnica che a partire da un insieme eterogeneo di elementi individua famiglie o gruppi simili. Lalgoritmo utilizzato sar lUPGMA, comunemente applicato nel clustering in quanto, utilizzando, una logica di medie pesate, porta a clusterizzazioni pertinenti anche in ambiti diversi, dal campo biologico a quello industriale. Lottenimento dei cluster potr dunque essere finalmente sottoposto ad unattivit di ricerca di correlazioni utili, che saranno individuate ed interpretate relativamente allattivit gestionale del laboratorio. La presente trattazione propone quindi modelli sperimentali adattati al caso in esame ma idealmente estendibili, interamente o in parte, a tutti i processi che presentano caratteristiche analoghe.

Relevância:

20.00% 20.00%

Publicador:

Resumo:

Il trauma cranico e tra le piu importanti patologie traumatiche. Ogni anno 250 pazienti ogni 100.000 abitanti vengono ricoverati in Italia per un trauma cranico. La mortalita e di circa 17 casi per 100.000 abitanti per anno. LItalia si trova in piena media Europea considerando lincidenza media in Europa di 232 casi per 100.000 abitanti ed una mortalita di 15 casi per 100.000 abitanti. Degli studi hanno indicato come una terapia anticoagulante e uno dei principali fattori di rischio di evolutivia di una lesione emorragica. Al contrario della terapia anticoagulante, il rischio emorragico correlato ad una terapia antiaggregante e a tuttoggi ancora in fase di verifica. Il problema risulta rilevante in particolare nella popolazione occidentale in quanto limpiego degli antiaggreganti e progressivamente sempre piu diffuso. Questo per la politica di prevenzione sostenuta dalle linee guida nazionali e internazionali in termini di prevenzione del rischio cardiovascolare, in particolare nelle fasce di popolazione di eta piu avanzata. Per la prima volta, e stato dimostrato allospedale di Forli[1], su una casistica sufficientemente ampia, che la terapia cronica con antiaggreganti, per la preven- zione del rischio cardiovascolare, puo rivelarsi un significativo fattore di rischio di complicanze emorragiche in un soggetto con trauma cranico, anche di grado lieve. Lospedale per approfondire e convalidare i risultati della ricerca ha condotto, nellanno 2009, una nuova indagine. La nuova indagine ha coinvolto oltre lospedale di Forli altri trentuno centri ospedalieri italiani. Questo lavoro di ricerca vuole, insieme ai ricercatori dellospedale di Forli, verificare: se una terapia con antiaggreganti influenzi levolutivita, in senso peggiorativo, di una lesione emorragica conseguente a trauma cranico lieve - moderato - severo in un soggetto adulto, grazie ai dati raccolti dai centri ospedalieri nel 2009. Il documento e strutturato in due parti. La prima parte piu teorica, vuole fissare i concetti chiave riguardanti il contesto della ricerca e la metodologia usata per analizzare i dati. Mentre, la seconda parte piu pratica, vuole illustrare il lavoro fatto per rispondere al quesito della ricerca. La prima parte e composta da due capitoli, che sono: Il capitolo 1: dove sono descritti i seguenti concetti: cose un trauma cra- nico, cose un farmaco di tipo anticoagulante e cose un farmaco di tipo antiaggregante; Il capitolo 2: dove e descritto cose il Data Mining e quali tecniche sono state usate per analizzare i dati. La seconda parte e composta da quattro capitoli, che sono: Il capitolo 3: dove sono state descritte: la struttura dei dati raccolti dai trentadue centri ospedalieri, la fase di pre-processing e trasformazione dei dati. Inoltre in questo capitolo sono descritti anche gli strumenti utilizzati per analizzare i dati; Il capitolo 4: dove e stato descritto come e stata eseguita lanalisi esplorativa dei dati. Il capitolo 5: dove sono descritte le analisi svolte sui dati e soprattutto i risultati che le analisi, grazie alle tecniche di Data Mining, hanno prodotto per rispondere al quesito della ricerca; Il capitolo 6: dove sono descritte le conclusioni della ricerca. Per una maggiore comprensione del lavoro sono state aggiunte due appendici. La prima tratta del software per data mining Weka, utilizzato per effettuare le analisi. Mentre, la seconda tratta dellimplementazione dei metodi per la creazione degli alberi decisionali.

Relevância:

20.00% 20.00%

Publicador:

Resumo:

Il citofluorimetro uno strumento impiegato in biologia genetica per analizzare dei campioni cellulari: esso, analizza individualmente le cellule contenute in un campione ed estrae, per ciascuna cellula, una serie di propriet fisiche, feature, che la descrivono. Lobiettivo di questo lavoro mettere a punto una metodologia integrata che utilizzi tali informazioni modellando, automatizzando ed estendendo alcune procedure che vengono eseguite oggi manualmente dagli esperti del dominio nellanalisi di alcuni parametri delleiaculato. Questo richiede lo sviluppo di tecniche biochimiche per la marcatura delle cellule e tecniche informatiche per analizzare il dato. Il primo passo prevede la realizzazione di un classificatore che, sulla base delle feature delle cellule, classifichi e quindi consenta di isolare le cellule di interesse per un particolare esame. Il secondo prevede l'analisi delle cellule di interesse, estraendo delle feature aggregate che possono essere indicatrici di certe patologie. Il requisito la generazione di un report esplicativo che illustri, nella maniera pi opportuna, le conclusioni raggiunte e che possa fungere da sistema di supporto alle decisioni del medico/biologo.

Relevância:

20.00% 20.00%

Publicador:

Relevância:

20.00% 20.00%

Publicador:

Resumo:

L'elaborato ha come scopo l'analisi delle tecniche di Text Mining e la loro applicazione all'interno di processi per l'auto-organizzazione della conoscenza. La prima parte della tesi si concentra sul concetto del Text Mining. Viene fornita la sua definizione, i possibili campi di utilizzo, il processo di sviluppo che lo riguarda e vengono esposte le diverse tecniche di Text Mining. Si analizzano poi alcuni tools per il Text Mining e infine vengono presentati alcuni esempi pratici di utilizzo. Il macro-argomento che viene esposto successivamente riguarda TuCSoN, una infrastruttura per la coordinazione di processi: autonomi, distribuiti e intelligenti, come ad esempio gli agenti. Si descrivono innanzi tutto le entit sulle quali il modello si basa, vengono introdotte le metodologie di interazione fra di essi e successivamente, gli strumenti di programmazione che l'infrastruttura mette a disposizione. La tesi, in un secondo momento, presenta MoK, un modello di coordinazione basato sulla biochimica studiato per l'auto-organizzazione della conoscenza. Anche per MoK, come per TuCSoN, vengono introdotte le entit alla base del modello. Avvalendosi MoK dell'infrastruttura TuCSoN, viene mostrato come le entit del primo vengano mappate su quelle del secondo. A conclusione dell'argomento viene mostrata un'applicazione per l'auto-organizzazione di news che si avvale del modello. Il capitolo successivo si occupa di analizzare i possibili utilizzi delle tecniche di Text Mining all'interno di infrastrutture per l'auto-organizzazione, come MoK. Nell'elaborato vengono poi presentati gli esperimenti effettuati sfruttando tecniche di Text Mining. Tutti gli esperimenti svolti hanno come scopo la clusterizzazione di articoli scientifici in base al loro contenuto, vengono quindi analizzati i risultati ottenuti. L'elaborato di tesi si conclude mettendo in evidenza alcune considerazioni finali su quanto svolto.

Relevância:

20.00% 20.00%

Publicador:

Resumo:

Il problema relativo alla predizione, la ricerca di pattern predittivi allinterno dei dati, stato studiato ampiamente. Molte metodologie robuste ed efficienti sono state sviluppate, procedimenti che si basano sullanalisi di informazioni numeriche strutturate. Quella testuale, daltro canto, una tipologia di informazione fortemente destrutturata. Quindi, una immediata conclusione, porterebbe a pensare che per lanalisi predittiva su dati testuali sia necessario sviluppare metodi completamente diversi da quelli ben noti dalle tecniche di data mining. Un problema di predizione pu essere risolto utilizzando invece gli stessi metodi : dati testuali e documenti possono essere trasformati in valori numerici, considerando per esempio lassenza o la presenza di termini, rendendo di fatto possibile una utilizzazione efficiente delle tecniche gi sviluppate. Il text mining abilita la congiunzione di concetti da campi di applicazione estremamente eterogenei. Con limmensa quantit di dati testuali presenti, basti pensare, sul World Wide Web, ed in continua crescita a causa dellutilizzo pervasivo di smartphones e computers, i campi di applicazione delle analisi di tipo testuale divengono innumerevoli. Lavvento e la diffusione dei social networks e della pratica di micro blogging abilita le persone alla condivisione di opinioni e stati danimo, creando un corpus testuale di dimensioni incalcolabili aggiornato giornalmente. Le nuove tecniche di Sentiment Analysis, o Opinion Mining, si occupano di analizzare lo stato emotivo o la tipologia di opinione espressa allinterno di un documento testuale. Esse sono discipline attraverso le quali, per esempio, estrarre indicatori dello stato danimo di un individuo, oppure di un insieme di individui, creando una rappresentazione dello stato emotivo sociale. Landamento dello stato emotivo sociale pu condizionare macroscopicamente levolvere di eventi globali? Studi in campo di Economia e Finanza Comportamentale assicurano un legame fra stato emotivo, capacit nel prendere decisioni ed indicatori economici. Grazie alle tecniche disponibili ed alla mole di dati testuali continuamente aggiornati riguardanti lo stato danimo di milioni di individui diviene possibile analizzare tali correlazioni. In questo studio viene costruito un sistema per la previsione delle variazioni di indici di borsa, basandosi su dati testuali estratti dalla piattaforma di microblogging Twitter, sotto forma di tweets pubblici; tale sistema include tecniche di miglioramento della previsione basate sullo studio di similarit dei testi, categorizzandone il contributo effettivo alla previsione.

Relevância:

20.00% 20.00%

Publicador:

Resumo:

Nowadays, more and more data is collected in large amounts, such that the need of studying it both efficiently and profitably is arising; we want to acheive new and significant informations that weren't known before the analysis. At this time many graph mining algorithms have been developed, but an algebra that could systematically define how to generalize such operations is missing. In order to propel the development of a such automatic analysis of an algebra, We propose for the first time (to the best of my knowledge) some primitive operators that may be the prelude to the systematical definition of a hypergraph algebra in this regard.