24 resultados para DATA MINING


Relevância:

70.00% 70.00%

Publicador:

Resumo:

La tesi presenta uno studio della libreria grafica per web D3, sviluppata in javascript, e ne presenta una catalogazione dei grafici implementati e reperibili sul web. Lo scopo è quello di valutare la libreria e studiarne i pregi e difetti per capire se sia opportuno utilizzarla nell'ambito di un progetto Europeo. Per fare questo vengono studiati i metodi di classificazione dei grafici presenti in letteratura e viene esposto e descritto lo stato dell'arte del data visualization. Viene poi descritto il metodo di classificazione proposto dal team di progettazione e catalogata la galleria di grafici presente sul sito della libreria D3. Infine viene presentato e studiato in maniera formale un algoritmo per selezionare un grafico in base alle esigenze dell'utente.

Relevância:

60.00% 60.00%

Publicador:

Resumo:

Oggi piu' che mai e' fondamentale essere in grado di estrarre informazioni rilevanti e conoscenza dal grande numero di dati che ci possono arrivare da svariati contesti, come database collegati a satelliti e sensori automatici, repository generati dagli utenti e data warehouse di grandi compagnie. Una delle sfide attuali riguarda lo sviluppo di tecniche di data mining per la gestione dell’incertezza. L’obiettivo di questa tesi e' di estendere le attuali tecniche di gestione dell’incertezza, in particolare riguardanti la classificazione tramite alberi decisionali, in maniera tale da poter gestire incertezza anche sull’attributo di classe.

Relevância:

60.00% 60.00%

Publicador:

Resumo:

Il task del data mining si pone come obiettivo l'estrazione automatica di schemi significativi da grandi quantità di dati. Un esempio di schemi che possono essere cercati sono raggruppamenti significativi dei dati, si parla in questo caso di clustering. Gli algoritmi di clustering tradizionali mostrano grossi limiti in caso di dataset ad alta dimensionalità, composti cioè da oggetti descritti da un numero consistente di attributi. Di fronte a queste tipologie di dataset è necessario quindi adottare una diversa metodologia di analisi: il subspace clustering. Il subspace clustering consiste nella visita del reticolo di tutti i possibili sottospazi alla ricerca di gruppi signicativi (cluster). Una ricerca di questo tipo è un'operazione particolarmente costosa dal punto di vista computazionale. Diverse ottimizzazioni sono state proposte al fine di rendere gli algoritmi di subspace clustering più efficienti. In questo lavoro di tesi si è affrontato il problema da un punto di vista diverso: l'utilizzo della parallelizzazione al fine di ridurre il costo computazionale di un algoritmo di subspace clustering.

Relevância:

60.00% 60.00%

Publicador:

Resumo:

“Dì che ti piace questa pagina”. Questo è uno dei tanti inviti rivolti a chi, ogni giorno, naviga in Internet. Che si stia leggendo un articolo sul sito de La Repubblica, o visitando il blog di un personaggio famoso o di un politico, i riferimenti ai social network sono ormai una presenza costante nelle pagine web. La facilità di restare in contatto con i propri amici, e la possibilità di collegarsi in qualsiasi momento, hanno portato gli utenti del Web 2.0 ad intensificare le discussioni, ed a commentare gli argomenti ed i contenuti prodotti dagli altri in un continuo e complesso “botta e risposta”. È possibile che quest'ambiente abbia favorito lo sviluppo di una nuova prospettiva della Rete, inteso come un nuovo modo di vedersi e di rapportarsi con gli altri, di esprimersi e di condividere le proprie storie e la propria storia. Per approfondire queste tematiche si è deciso di osservare alcuni dei social networks più diffusi, tra i quali Twitter e Facebook e, per raccogliere i dati più significativi di quest'ultimo, di sviluppare un'apposita applicazione software. Questa tesi tratterà gli aspetti teorici che hanno portato questa ricerca su scala nazionale e l'analisi dei requisiti del progetto; approfondirà le dinamiche progettuali e lo sviluppo dell'applicazione entro i vincoli imposti da Facebook, integrando un questionario per l'utente alla lettura dei dati. Dopo la descrizione delle fasi di testing e deployment, l'elaborato includerà un'analisi preliminare dei dati ottenuti per mezzo di una pre-elaborazione all'interno dell'applicazione stessa.

Relevância:

60.00% 60.00%

Publicador:

Resumo:

L'innovazione delle tecnologie di sequenziamento negli ultimi anni ha reso possibile la catalogazione delle varianti genetiche nei campioni umani, portando nuove scoperte e comprensioni nella ricerca medica, farmaceutica, dell'evoluzione e negli studi sulla popolazione. La quantità di sequenze prodotta è molto cospicua, e per giungere all'identificazione delle varianti sono necessari diversi stadi di elaborazione delle informazioni genetiche in cui, ad ogni passo, vengono generate ulteriori informazioni. Insieme a questa immensa accumulazione di dati, è nata la necessità da parte della comunità scientifica di organizzare i dati in repository, dapprima solo per condividere i risultati delle ricerche, poi per permettere studi statistici direttamente sui dati genetici. Gli studi su larga scala coinvolgono quantità di dati nell'ordine dei petabyte, il cui mantenimento continua a rappresentare una sfida per le infrastrutture. Per la varietà e la quantità di dati prodotti, i database giocano un ruolo di primaria importanza in questa sfida. Modelli e organizzazione dei dati in questo campo possono fare la differenza non soltanto per la scalabilità, ma anche e soprattutto per la predisposizione al data mining. Infatti, la memorizzazione di questi dati in file con formati quasi-standard, la dimensione di questi file, e i requisiti computazionali richiesti, rendono difficile la scrittura di software di analisi efficienti e scoraggiano studi su larga scala e su dati eterogenei. Prima di progettare il database si è perciò studiata l’evoluzione, negli ultimi vent’anni, dei formati quasi-standard per i flat file biologici, contenenti metadati eterogenei e sequenze nucleotidiche vere e proprie, con record privi di relazioni strutturali. Recentemente questa evoluzione è culminata nell’utilizzo dello standard XML, ma i flat file delimitati continuano a essere gli standard più supportati da tools e piattaforme online. È seguita poi un’analisi dell’organizzazione interna dei dati per i database biologici pubblici. Queste basi di dati contengono geni, varianti genetiche, strutture proteiche, ontologie fenotipiche, relazioni tra malattie e geni, relazioni tra farmaci e geni. Tra i database pubblici studiati rientrano OMIM, Entrez, KEGG, UniProt, GO. L'obiettivo principale nello studio e nella modellazione del database genetico è stato quello di strutturare i dati in modo da integrare insieme i dati eterogenei prodotti e rendere computazionalmente possibili i processi di data mining. La scelta di tecnologia Hadoop/MapReduce risulta in questo caso particolarmente incisiva, per la scalabilità garantita e per l’efficienza nelle analisi statistiche più complesse e parallele, come quelle riguardanti le varianti alleliche multi-locus.

Relevância:

60.00% 60.00%

Publicador:

Resumo:

In questa tesi vengono analizzati gli algoritmi DistributedSolvingSet e LazyDistributedSolvingSet e verranno mostrati dei risultati sperimentali relativi al secondo.

Relevância:

60.00% 60.00%

Publicador:

Resumo:

Al giorno d'oggi una pratica molto comune è quella di eseguire ricerche su Google per cercare qualsiasi tipo di informazione e molte persone, con problemi di salute, cercano su Google sintomi, consigli medici e possibili rimedi. Questo fatto vale sia per pazienti sporadici che per pazienti cronici: il primo gruppo spesso fa ricerche per rassicurarsi e per cercare informazioni riguardanti i sintomi ed i tempi di guarigione, il secondo gruppo invece cerca nuovi trattamenti e soluzioni. Anche i social networks sono diventati posti di comunicazione medica, dove i pazienti condividono le loro esperienze, ascoltano quelle di altri e si scambiano consigli. Tutte queste ricerche, questo fare domande e scrivere post o altro ha contribuito alla crescita di grandissimi database distribuiti online di informazioni, conosciuti come BigData, che sono molto utili ma anche molto complessi e che necessitano quindi di algoritmi specifici per estrarre e comprendere le variabili di interesse. Per analizzare questo gruppo interessante di pazienti gli sforzi sono stati concentrati in particolare sui pazienti affetti dal morbo di Crohn, che è un tipo di malattia infiammatoria intestinale (IBD) che può colpire qualsiasi parte del tratto gastrointestinale, dalla bocca all'ano, provocando una grande varietà di sintomi. E' stato fatto riferimento a competenze mediche ed informatiche per identificare e studiare ciò che i pazienti con questa malattia provano e scrivono sui social, al fine di comprendere come la loro malattia evolve nel tempo e qual'è il loro umore a riguardo.

Relevância:

60.00% 60.00%

Publicador:

Resumo:

Obiettivo di questa tesi dal titolo “Analisi di tecniche per l’estrazione di informazioni da documenti testuali e non strutturati” è quello di mostrare tecniche e metodologie informatiche che permettano di ricavare informazioni e conoscenza da dati in formato testuale. Gli argomenti trattati includono l'analisi di software per l'estrazione di informazioni, il web semantico, l'importanza dei dati e in particolare i Big Data, Open Data e Linked Data. Si parlerà inoltre di data mining e text mining.

Relevância:

60.00% 60.00%

Publicador:

Resumo:

In questa analisi si cercherà di comprendere cosa caratterizza questa l'ondata di progresso tecnologico che sta cambiando il mercato del lavoro. Il principale aspetto negativo di questo progresso si chiama "Technological Unemployment". Benché gli esperti si trovino in disaccordo su quali siano le cause della persistente alta disoccupazione, Brynjolfsson e McAfee puntano il dito contro l'automazione che ha soppiantato i lavori ripetitivi delle aziende. Tuttavia, è anche vero che il progresso ha sempre portato aumenti di produttività, e soprattutto nuovi tipi di occupazioni che hanno compensato la perdita di posti di lavoro, nel medio-lungo termine. Keynes evidenzia che la disoccupazione dovuta alla scoperta di strumenti economizzatori di manodopera procede con ritmo più rapido di quello con cui riusciamo a trovare nuovi impieghi per la manodopera stessa. Da ciò si crea ansia per il futuro, più o meno motivata. Gli stessi esperti sono spaccati a metà tra chi ha fiducia nei possibili risvolti positivi del progresso e chi invece teme possa comportare scenari catastrofici. Le macchine ci rubano lavoro o ci liberano da esso? Con questa ricerca ci si pone l'obiettivo di analizzare le effettive prospettive dei prossimi decenni. Nel capitolo 2 che è il corpo della tesi prenderemo soprattutto in conto il lavoro accademico di Frey ed Osborne dell'Oxford Martin School, intitolato "The future of employment: how susceptible are jobs to computerisation?" (2013). Essi sono stati tra i primi a studiare e quantificare cosa comporteranno le nuove tecnologie in termini di impiego. Il loro obiettivo era individuare le occupazioni a rischio, da qui a vent'anni, nel mercato del lavoro degli Stati Uniti e la relazione che intercorre tra la loro probabilità di essere computerizzati e i loro salari e livello d'istruzione medi, il tutto valutato attraverso l'ausilio di una nuova metodologia che si vedrà nel dettaglio. A conclusioni simili alle loro, per certi aspetti, è successivamente giunto anche Autor; tra l'altro viene spesso citato per altre sue opere dagli stessi Frey e Osborne, che usano le sue categorizzazioni per impostare la struttura del loro calcolo dell'automatizzabilità dei lavori utilizzando i recenti miglioramenti nelle scienze ingegneristiche quali ML (Machine Learning ad esempio Data mining, Machine vision, Computational statistics o più in generale AI) e MR (Mobile robotics) come strumenti di valutazione. Oltre alle sue ricerche, si presenteranno brevemente i risultati di un recente sondaggio tenuto dal Pew Research Center in cui importanti figure dell'informatica e dell'economia esprimono il loro giudizio sul futuro panorama del mondo del lavoro, considerando l'imminente ondata di innovazioni tecnologiche. La tesi si conclude con un'elaborazione personale. In questo modo si prenderà coscienza dei problemi concreti che il progresso tecnologico potrebbe procurare, ma anche dei suoi aspetti positivi.