871 resultados para XML Mining


Relevância:

20.00% 20.00%

Publicador:

Resumo:

The utilization of borate mineral wastes with glass-ceramic technology was first time studied and primarily not investigated combinations of wastes were incorporated into the research. These wastes consist of; soda lime silica glass, meat bone and meal ash and fly ash. In order to investigate possible and relevant application areas in ceramics, kaolin clay, an essential raw material for ceramic industry was also employed in some studied compositions. As a result, three different glass-ceramic articles obtained by using powder sintering method via individual sintering processes. Light weight micro porous glass-ceramic from borate mining waste, meat bone and meal ash and kaolin clay was developed. In some compositions in related study, soda lime silica glass waste was used as an additive providing lightweight structure with a density below 0.45 g/cm3 and a crushing strength of 1.8±0.1 MPa. In another study within the research, compositions respecting the B2O3–P2O5–SiO2 glass-ceramic ternary system were prepared from; borate wastes, meat bone and meal ash and soda lime silica glass waste and sintered up to 950ºC. Low porous, highly crystallized glass-ceramic structures with density ranging between 1.8 ± 0,7 to 2.0 ± 0,3 g/cm3 and tensile strength ranging between 8,0 ± 2 to 15,0 ± 0,5 MPa were achieved. Lastly, diopside - wollastonite (SiO2-Al2O3-CaO )glass-ceramics from borate wastes, fly ash and soda lime silica glass waste were successfully obtained with controlled rapid sintering between 950 and 1050ºC. The wollastonite and diopside crystal sizes were improved by adopting varied combinations of formulations and heating rates. The properties of the obtained materials show; the articles with a uniform pore structure could be useful for thermal and acoustic insulations and can be embedded in lightweight concrete where low porous glass-ceramics can be employed as building blocks or additive in cement and ceramic industries.

Relevância:

20.00% 20.00%

Publicador:

Resumo:

L'elaborato ha come scopo l'analisi delle tecniche di Text Mining e la loro applicazione all'interno di processi per l'auto-organizzazione della conoscenza. La prima parte della tesi si concentra sul concetto del Text Mining. Viene fornita la sua definizione, i possibili campi di utilizzo, il processo di sviluppo che lo riguarda e vengono esposte le diverse tecniche di Text Mining. Si analizzano poi alcuni tools per il Text Mining e infine vengono presentati alcuni esempi pratici di utilizzo. Il macro-argomento che viene esposto successivamente riguarda TuCSoN, una infrastruttura per la coordinazione di processi: autonomi, distribuiti e intelligenti, come ad esempio gli agenti. Si descrivono innanzi tutto le entità sulle quali il modello si basa, vengono introdotte le metodologie di interazione fra di essi e successivamente, gli strumenti di programmazione che l'infrastruttura mette a disposizione. La tesi, in un secondo momento, presenta MoK, un modello di coordinazione basato sulla biochimica studiato per l'auto-organizzazione della conoscenza. Anche per MoK, come per TuCSoN, vengono introdotte le entità alla base del modello. Avvalendosi MoK dell'infrastruttura TuCSoN, viene mostrato come le entità del primo vengano mappate su quelle del secondo. A conclusione dell'argomento viene mostrata un'applicazione per l'auto-organizzazione di news che si avvale del modello. Il capitolo successivo si occupa di analizzare i possibili utilizzi delle tecniche di Text Mining all'interno di infrastrutture per l'auto-organizzazione, come MoK. Nell'elaborato vengono poi presentati gli esperimenti effettuati sfruttando tecniche di Text Mining. Tutti gli esperimenti svolti hanno come scopo la clusterizzazione di articoli scientifici in base al loro contenuto, vengono quindi analizzati i risultati ottenuti. L'elaborato di tesi si conclude mettendo in evidenza alcune considerazioni finali su quanto svolto.

Relevância:

20.00% 20.00%

Publicador:

Resumo:

L'innovazione delle tecnologie di sequenziamento negli ultimi anni ha reso possibile la catalogazione delle varianti genetiche nei campioni umani, portando nuove scoperte e comprensioni nella ricerca medica, farmaceutica, dell'evoluzione e negli studi sulla popolazione. La quantità di sequenze prodotta è molto cospicua, e per giungere all'identificazione delle varianti sono necessari diversi stadi di elaborazione delle informazioni genetiche in cui, ad ogni passo, vengono generate ulteriori informazioni. Insieme a questa immensa accumulazione di dati, è nata la necessità da parte della comunità scientifica di organizzare i dati in repository, dapprima solo per condividere i risultati delle ricerche, poi per permettere studi statistici direttamente sui dati genetici. Gli studi su larga scala coinvolgono quantità di dati nell'ordine dei petabyte, il cui mantenimento continua a rappresentare una sfida per le infrastrutture. Per la varietà e la quantità di dati prodotti, i database giocano un ruolo di primaria importanza in questa sfida. Modelli e organizzazione dei dati in questo campo possono fare la differenza non soltanto per la scalabilità, ma anche e soprattutto per la predisposizione al data mining. Infatti, la memorizzazione di questi dati in file con formati quasi-standard, la dimensione di questi file, e i requisiti computazionali richiesti, rendono difficile la scrittura di software di analisi efficienti e scoraggiano studi su larga scala e su dati eterogenei. Prima di progettare il database si è perciò studiata l’evoluzione, negli ultimi vent’anni, dei formati quasi-standard per i flat file biologici, contenenti metadati eterogenei e sequenze nucleotidiche vere e proprie, con record privi di relazioni strutturali. Recentemente questa evoluzione è culminata nell’utilizzo dello standard XML, ma i flat file delimitati continuano a essere gli standard più supportati da tools e piattaforme online. È seguita poi un’analisi dell’organizzazione interna dei dati per i database biologici pubblici. Queste basi di dati contengono geni, varianti genetiche, strutture proteiche, ontologie fenotipiche, relazioni tra malattie e geni, relazioni tra farmaci e geni. Tra i database pubblici studiati rientrano OMIM, Entrez, KEGG, UniProt, GO. L'obiettivo principale nello studio e nella modellazione del database genetico è stato quello di strutturare i dati in modo da integrare insieme i dati eterogenei prodotti e rendere computazionalmente possibili i processi di data mining. La scelta di tecnologia Hadoop/MapReduce risulta in questo caso particolarmente incisiva, per la scalabilità garantita e per l’efficienza nelle analisi statistiche più complesse e parallele, come quelle riguardanti le varianti alleliche multi-locus.

Relevância:

20.00% 20.00%

Publicador:

Resumo:

Il problema relativo alla predizione, la ricerca di pattern predittivi all‘interno dei dati, è stato studiato ampiamente. Molte metodologie robuste ed efficienti sono state sviluppate, procedimenti che si basano sull‘analisi di informazioni numeriche strutturate. Quella testuale, d‘altro canto, è una tipologia di informazione fortemente destrutturata. Quindi, una immediata conclusione, porterebbe a pensare che per l‘analisi predittiva su dati testuali sia necessario sviluppare metodi completamente diversi da quelli ben noti dalle tecniche di data mining. Un problema di predizione può essere risolto utilizzando invece gli stessi metodi : dati testuali e documenti possono essere trasformati in valori numerici, considerando per esempio l‘assenza o la presenza di termini, rendendo di fatto possibile una utilizzazione efficiente delle tecniche già sviluppate. Il text mining abilita la congiunzione di concetti da campi di applicazione estremamente eterogenei. Con l‘immensa quantità di dati testuali presenti, basti pensare, sul World Wide Web, ed in continua crescita a causa dell‘utilizzo pervasivo di smartphones e computers, i campi di applicazione delle analisi di tipo testuale divengono innumerevoli. L‘avvento e la diffusione dei social networks e della pratica di micro blogging abilita le persone alla condivisione di opinioni e stati d‘animo, creando un corpus testuale di dimensioni incalcolabili aggiornato giornalmente. Le nuove tecniche di Sentiment Analysis, o Opinion Mining, si occupano di analizzare lo stato emotivo o la tipologia di opinione espressa all‘interno di un documento testuale. Esse sono discipline attraverso le quali, per esempio, estrarre indicatori dello stato d‘animo di un individuo, oppure di un insieme di individui, creando una rappresentazione dello stato emotivo sociale. L‘andamento dello stato emotivo sociale può condizionare macroscopicamente l‘evolvere di eventi globali? Studi in campo di Economia e Finanza Comportamentale assicurano un legame fra stato emotivo, capacità nel prendere decisioni ed indicatori economici. Grazie alle tecniche disponibili ed alla mole di dati testuali continuamente aggiornati riguardanti lo stato d‘animo di milioni di individui diviene possibile analizzare tali correlazioni. In questo studio viene costruito un sistema per la previsione delle variazioni di indici di borsa, basandosi su dati testuali estratti dalla piattaforma di microblogging Twitter, sotto forma di tweets pubblici; tale sistema include tecniche di miglioramento della previsione basate sullo studio di similarità dei testi, categorizzandone il contributo effettivo alla previsione.

Relevância:

20.00% 20.00%

Publicador:

Resumo:

Con il seguente elaborato propongo di presentare il lavoro svolto sui documenti XML che ci sono stati forniti. Più nello specifico, il lavoro è incentrato sui riferimenti bibliografici presenti in ogni documento e ha come fine l'elaborazione delle informazioni estrapolate al fine di poterle esportare nel formato RDF (Resource Description Framework). I documenti XML (eXtensible Markup Language) fornitimi provengono dalla casa editrice Elsevier, una delle più grandi case editrici di articoli scientifici organizzati in riviste specializzate (journal).

Relevância:

20.00% 20.00%

Publicador:

Resumo:

Il successo di XML ha rinnovato l'interesse per il controllo delle modifiche sugli alberi e i dati semi-strutturati. Le necessità principali sono gestire le revisioni dei documenti, interrogare e monitorare i cambiamenti e scambiare efficientemente i documenti e i loro aggiornamenti. I cambiamenti che si verificano tra due versioni di un documento sono sconosciuti al sistema. Quindi, un algoritmo di diffing viene utilizzato per costruire un delta che rappresenta i cambiamenti. Sono stati proposti vari algoritmi di diffing. Alcuni considerano la struttura ad albero dei documenti XML, mentre altri non lo fanno. Inoltre, alcuni algoritmi possono trovare una sequenza più "sintetica" delle modifiche. Questo migliora la qualità del monitoraggio e l'interrogazione delle modifiche. Esistono altri approcci sviluppati per monitorare i cambiamenti sui documenti XML, differenti dagli algoritmi di diffing, ma che comunque ottengono risultati quasi identici ed offrono un'interrogazione delle modifiche più agevole per gli utenti umani. Esistono infatti programmi di editing con strumenti di change tracking, che permettono a più autori di modificare diverse versioni dei documenti contemporaneamente e registrando in tempo reale tutti i cambiamenti da loro apportati. In questo lavoro studio i diversi strumenti e confronto i loro risultati sulla base di esperimenti condotti su documenti XML opportunamente modificati per riconoscere determinati cambiamenti. Ci sono anche diverse proposte di formati del delta per rappresentare i cambiamenti in XML, ma non vi è ancora alcuno standard. Espongo le principali proposte in base alle loro specifiche, le loro implementazioni e sui risultati degli esperimenti condotti. L'obiettivo è di fornire una valutazione della qualità degli strumenti e, sulla base di questo, guidare gli utenti nella scelta della soluzione appropriata per le loro applicazioni.

Relevância:

20.00% 20.00%

Publicador:

Resumo:

Nowadays, more and more data is collected in large amounts, such that the need of studying it both efficiently and profitably is arising; we want to acheive new and significant informations that weren't known before the analysis. At this time many graph mining algorithms have been developed, but an algebra that could systematically define how to generalize such operations is missing. In order to propel the development of a such automatic analysis of an algebra, We propose for the first time (to the best of my knowledge) some primitive operators that may be the prelude to the systematical definition of a hypergraph algebra in this regard.

Relevância:

20.00% 20.00%

Publicador:

Resumo:

Tesi sullo studio di algoritmi per il confronto di documenti XML, panoramica sui vari algoritmi. Focalizzazione sull'algoritmo NDiff e in particolare sulla gestione degli attributi.

Relevância:

20.00% 20.00%

Publicador:

Resumo:

Negli ultimi anni Internet ha cambiato le modalità di creazione e distribuzione delle informazioni turistiche. Un ruolo fondamentale viene ricoperto dalle piattaforme di social media, tecnologie che permettono ai consumatori di condividere le proprie esperienze ed opinioni. Diventa necessario, quindi, comprendere i cambiamenti in queste tecnologie e nel comportamento dei viaggiatori per poter applicare strategie di marketing di successo. In questo studio, utilizzando Opinion Finder, un software spesso impiegato nel campo dell'opinion mining, si esamineranno da un punto di vista qualitativo i post e commenti estratti da alcuni profili degli enti di promozione turistica nazionale in Europa, dividendo l'analisi per fattori che possono influenzare il sentimento degli utenti. Attraverso i risultati ottenuti, si può dimostrare che l'analisi delle opinioni e del sentimento si presenta come un ottimo strumento per evidenziare possibili fenomeni utili per la pianificazione di strategie di marketing per gli enti. Studi futuri potrebbero migliorare la valutazione di questi dati attraverso la creazione di un corpus di apprendimento per il software che contenga testi relativi al mondo del turismo e permettendo ad Opinion Finder di incrementare la validità della classificazione del sentimento, contestualizzando le espressioni in maniera corretta.

Relevância:

20.00% 20.00%

Publicador:

Resumo:

La tesi riguarda lo sviluppo di recommender system che hanno lo scopo di supportare chi è alla ricerca di un lavoro e le aziende che devono selezionare la giusta figura. A partire da un insieme di skill il sistema suggerisce alla persona la posizione lavorativa più affine al suo profilo, oppure a partire da una specifica posizione lavorativa suggerisce all'azienda la persona che più si avvicina alle sue esigenze.

Relevância:

20.00% 20.00%

Publicador:

Resumo:

Coniato negli anni‘90 il termine indica lo scavare tra i dati con chiara metafora del gold mining, ossia la ricerca dell’oro. Oggi è sinonimo di ricerca di informazione in vasti database, ed enfatizza il processo di analisi all’interno dei dati in alternativa all’uso di specifici metodi di analisi. Il data mining è una serie di metodi e tecniche usate per esplorare e analizzare grandi set di dati, in modo da trovare alcune regole sconosciute o nascoste, associazioni o tendenze.

Relevância:

20.00% 20.00%

Publicador:

Resumo:

Analisi e applicazione dei processi di data mining al flusso informativo di sistemi real-time. Implementazione e analisi di un algoritmo autoadattivo per la ricerca di frequent patterns su macchine automatiche.

Relevância:

20.00% 20.00%

Publicador:

Resumo:

La tesi da me svolta durante questi ultimi sei mesi è stata sviluppata presso i laboratori di ricerca di IMA S.p.a.. IMA (Industria Macchine Automatiche) è una azienda italiana che naque nel 1961 a Bologna ed oggi riveste il ruolo di leader mondiale nella produzione di macchine automatiche per il packaging di medicinali. Vorrei subito mettere in luce che in tale contesto applicativo l’utilizzo di algoritmi di data-mining risulta essere ostico a causa dei due ambienti in cui mi trovo. Il primo è quello delle macchine automatiche che operano con sistemi in tempo reale dato che non presentano a pieno le risorse di cui necessitano tali algoritmi. Il secondo è relativo alla produzione di farmaci in quanto vige una normativa internazionale molto restrittiva che impone il tracciamento di tutti gli eventi trascorsi durante l’impacchettamento ma che non permette la visione al mondo esterno di questi dati sensibili. Emerge immediatamente l’interesse nell’utilizzo di tali informazioni che potrebbero far affiorare degli eventi riconducibili a un problema della macchina o a un qualche tipo di errore al fine di migliorare l’efficacia e l’efficienza dei prodotti IMA. Lo sforzo maggiore per riuscire ad ideare una strategia applicativa è stata nella comprensione ed interpretazione dei messaggi relativi agli aspetti software. Essendo i dati molti, chiusi, e le macchine con scarse risorse per poter applicare a dovere gli algoritmi di data mining ho provveduto ad adottare diversi approcci in diversi contesti applicativi: • Sistema di identificazione automatica di errore al fine di aumentare di diminuire i tempi di correzione di essi. • Modifica di un algoritmo di letteratura per la caratterizzazione della macchina. La trattazione è così strutturata: • Capitolo 1: descrive la macchina automatica IMA Adapta della quale ci sono stati forniti i vari file di log. Essendo lei l’oggetto di analisi per questo lavoro verranno anche riportati quali sono i flussi di informazioni che essa genera. • Capitolo 2: verranno riportati degli screenshoot dei dati in mio possesso al fine di, tramite un’analisi esplorativa, interpretarli e produrre una formulazione di idee/proposte applicabili agli algoritmi di Machine Learning noti in letteratura. • Capitolo 3 (identificazione di errore): in questo capitolo vengono riportati i contesti applicativi da me progettati al fine di implementare una infrastruttura che possa soddisfare il requisito, titolo di questo capitolo. • Capitolo 4 (caratterizzazione della macchina): definirò l’algoritmo utilizzato, FP-Growth, e mostrerò le modifiche effettuate al fine di poterlo impiegare all’interno di macchine automatiche rispettando i limiti stringenti di: tempo di cpu, memoria, operazioni di I/O e soprattutto la non possibilità di aver a disposizione l’intero dataset ma solamente delle sottoporzioni. Inoltre verranno generati dei DataSet per il testing di dell’algoritmo FP-Growth modificato.

Relevância:

20.00% 20.00%

Publicador:

Resumo:

PURPOSE: Tumor stage and nuclear grade are the most important prognostic parameters of clear cell renal cell carcinoma (ccRCC). The progression risk of ccRCC remains difficult to predict particularly for tumors with organ-confined stage and intermediate differentiation grade. Elucidating molecular pathways deregulated in ccRCC may point to novel prognostic parameters that facilitate planning of therapeutic approaches. EXPERIMENTAL DESIGN: Using tissue microarrays, expression patterns of 15 different proteins were evaluated in over 800 ccRCC patients to analyze pathways reported to be physiologically controlled by the tumor suppressors von Hippel-Lindau protein and phosphatase and tensin homologue (PTEN). Tumor staging and grading were improved by performing variable selection using Cox regression and a recursive bootstrap elimination scheme. RESULTS: Patients with pT2 and pT3 tumors that were p27 and CAIX positive had a better outcome than those with all remaining marker combinations. A prolonged survival among patients with intermediate grade (grade 2) correlated with both nuclear p27 and cytoplasmic PTEN expression, as well as with inactive, nonphosphorylated ribosomal protein S6. By applying graphical log-linear modeling for over 700 ccRCC for which the molecular parameters were available, only a weak conditional dependence existed between the expression of p27, PTEN, CAIX, and p-S6, suggesting that the dysregulation of several independent pathways are crucial for tumor progression. CONCLUSIONS: The use of recursive bootstrap elimination, as well as graphical log-linear modeling for comprehensive tissue microarray (TMA) data analysis allows the unraveling of complex molecular contexts and may improve predictive evaluations for patients with advanced renal cancer.

Relevância:

20.00% 20.00%

Publicador: