793 resultados para Data Mining, Clustering, PSA, Pavement Deflection
Resumo:
In the last years, Intelligent Tutoring Systems have been a very successful way for improving learning experience. Many issues must be addressed until this technology can be defined mature. One of the main problems within the Intelligent Tutoring Systems is the process of contents authoring: knowledge acquisition and manipulation processes are difficult tasks because they require a specialised skills on computer programming and knowledge engineering. In this thesis we discuss a general framework for knowledge management in an Intelligent Tutoring System and propose a mechanism based on first order data mining to partially automate the process of knowledge acquisition that have to be used in the ITS during the tutoring process. Such a mechanism can be applied in Constraint Based Tutor and in the Pseudo-Cognitive Tutor. We design and implement a part of the proposed architecture, mainly the module of knowledge acquisition from examples based on first order data mining. We then show that the algorithm can be applied at least two different domains: first order algebra equation and some topics of C programming language. Finally we discuss the limitation of current approach and the possible improvements of the whole framework.
Resumo:
Precision horticulture and spatial analysis applied to orchards are a growing and evolving part of precision agriculture technology. The aim of this discipline is to reduce production costs by monitoring and analysing orchard-derived information to improve crop performance in an environmentally sound manner. Georeferencing and geostatistical analysis coupled to point-specific data mining allow to devise and implement management decisions tailored within the single orchard. Potential applications range from the opportunity to verify in real time along the season the effectiveness of cultural practices to achieve the production targets in terms of fruit size, number, yield and, in a near future, fruit quality traits. These data will impact not only the pre-harvest but their effect will extend to the post-harvest sector of the fruit chain. Chapter 1 provides an updated overview on precision horticulture , while in Chapter 2 a preliminary spatial statistic analysis of the variability in apple orchards is provided before and after manual thinning; an interpretation of this variability and how it can be managed to maximize orchard performance is offered. Then in Chapter 3 a stratification of spatial data into management classes to interpret and manage spatial variation on the orchard is undertaken. An inverse model approach is also applied to verify whether the crop production explains environmental variation. In Chapter 4 an integration of the techniques adopted before is presented. A new key for reading the information gathered within the field is offered. The overall goal of this Dissertation was to probe into the feasibility, the desirability and the effectiveness of a precision approach to fruit growing, following the lines of other areas of agriculture that already adopt this management tool. As existing applications of precision horticulture already had shown, crop specificity is an important factor to be accounted for. This work focused on apple because of its importance in the area where the work was carried out, and worldwide.
Resumo:
Oggi piu' che mai e' fondamentale essere in grado di estrarre informazioni rilevanti e conoscenza dal grande numero di dati che ci possono arrivare da svariati contesti, come database collegati a satelliti e sensori automatici, repository generati dagli utenti e data warehouse di grandi compagnie. Una delle sfide attuali riguarda lo sviluppo di tecniche di data mining per la gestione dell’incertezza. L’obiettivo di questa tesi e' di estendere le attuali tecniche di gestione dell’incertezza, in particolare riguardanti la classificazione tramite alberi decisionali, in maniera tale da poter gestire incertezza anche sull’attributo di classe.
Resumo:
Im ersten Teil 'Analyse der Grundlagen' der Dissertation 'Aspekte der Modellbildung: Konzepte und Anwendung in der Atmungsphysiologie' werden die Grundlagen zur Verfügung gestellt. Ausgehend von der Definition der modularer dynamischer Systeme im Kapitel 1 werden Grundbegriffe zu Modellen, Simulation und Modellentwicklung (Kapitel 2) dargelegt und schließlich folgt ein Kapitel über Netzmodelle. Im zweiten Teil wird 'der Prozess der Operationalisierung' untersucht. Im Kapitel 4 wird mit 'dem Koordinatensystem der Modellbildung' ein allgemeiner Lebenszyklus zur Modellbildung vorgestellt. Das Kapitel 5 zur 'Modellentwicklung' steht im Zentrum der Arbeit, wo eine generische Struktur für modulare Level-Raten-Modelle entwickelt wird. Das Kapitel endet mit einem Konzept zur Kalibrierung von Modellen, das auf Data Mining von Modelldaten basiert. Der Prozess der Operationalisierung endet mit der Validierung im sechsten Kapitel. 'Die Validierung am Beispiel der Atmungsphysiologie' im dritten Teil stellt die Anwendung der in beiden Teilen zuvor entwickelten Theorie dar. Zunächst wird das Projekt 'Evita-Weaning-System' vorgestellt, in dem die Arbeit entstanden ist. Ferner werden die notwendigen medizinischen Grundlagen der Atmungsphysiologie analysiert (Kapitel 7). Eine detaillierte Beschreibung des Modells der Atmungsphysiologie und der dabei entwickelten Algorithmen folgt im achten Kapitel. Die Arbeit schließt mit einem Kapitel zur Validierung des physiologischen Modells.
Resumo:
Zielvorgaben der vorliegenden Arbeit war die Identifikation neuer selektiv in Tumoren aktivierter Gene sowie die Entwicklung eines methodischen Prozesses, um die molekularen Effekte der fehlerhaften Aktivierung solcher Gene zu untersuchen. Für die erste Fragestellung haben wir zwei komplementäre Methoden entwickelt. Zum einen haben wir nach neuen Mitglieder der Cancer/Germline (CG) Familie von Genen gesucht, die bereits attraktive Zielstrukturen laufender Phase I/IIa Studien sind. Zu diesem Zweck wurde ein bioinformatischer Data Mining Ansatz generiert. Dieser führte zur erfolgreichen in silico Klonierung neuer CG Gene. Zur Identifikation von in Tumorzellen überexprimierten Genen nutzten wir einen cDNA Mikroarray mit 1152 ausgewählten Genen mit direkter oder indirekter tumorimmunologischer oder tumorbiologischer Relevanz. Die komparative transkriptionelle Untersuchung von humanen Tumor- und Normalgeweben mit diesem Array führte zur Wiederentdeckung bereits bekannter, aber auch zur Aufdeckung bisher nicht beschriebener tumor-assoziierter Transkriptionsveränderungen. Der zweite große Schwerpunkt dieser Arbeit war die Technologieentwicklung eines versatilen Prozesses zur Untersuchung von molekularen Effekten eines aberrant in Zellen exprimierten Gens. Zur Simulation dieser Situation stellten wir in vitro transkribierte RNA dieses Gens her und elektroporierten diese in Zielzellen. Transkriptionsanalysen solcher Transfektanden mit Affymetrix Oligonukleotid Mikroarray deckten auf gesamt-genomischer Ebene ganze Kaskaden konsekutiver, transkriptioneller Alterationen auf.
Resumo:
“Dì che ti piace questa pagina”. Questo è uno dei tanti inviti rivolti a chi, ogni giorno, naviga in Internet. Che si stia leggendo un articolo sul sito de La Repubblica, o visitando il blog di un personaggio famoso o di un politico, i riferimenti ai social network sono ormai una presenza costante nelle pagine web. La facilità di restare in contatto con i propri amici, e la possibilità di collegarsi in qualsiasi momento, hanno portato gli utenti del Web 2.0 ad intensificare le discussioni, ed a commentare gli argomenti ed i contenuti prodotti dagli altri in un continuo e complesso “botta e risposta”. È possibile che quest'ambiente abbia favorito lo sviluppo di una nuova prospettiva della Rete, inteso come un nuovo modo di vedersi e di rapportarsi con gli altri, di esprimersi e di condividere le proprie storie e la propria storia. Per approfondire queste tematiche si è deciso di osservare alcuni dei social networks più diffusi, tra i quali Twitter e Facebook e, per raccogliere i dati più significativi di quest'ultimo, di sviluppare un'apposita applicazione software. Questa tesi tratterà gli aspetti teorici che hanno portato questa ricerca su scala nazionale e l'analisi dei requisiti del progetto; approfondirà le dinamiche progettuali e lo sviluppo dell'applicazione entro i vincoli imposti da Facebook, integrando un questionario per l'utente alla lettura dei dati. Dopo la descrizione delle fasi di testing e deployment, l'elaborato includerà un'analisi preliminare dei dati ottenuti per mezzo di una pre-elaborazione all'interno dell'applicazione stessa.
Resumo:
L'innovazione delle tecnologie di sequenziamento negli ultimi anni ha reso possibile la catalogazione delle varianti genetiche nei campioni umani, portando nuove scoperte e comprensioni nella ricerca medica, farmaceutica, dell'evoluzione e negli studi sulla popolazione. La quantità di sequenze prodotta è molto cospicua, e per giungere all'identificazione delle varianti sono necessari diversi stadi di elaborazione delle informazioni genetiche in cui, ad ogni passo, vengono generate ulteriori informazioni. Insieme a questa immensa accumulazione di dati, è nata la necessità da parte della comunità scientifica di organizzare i dati in repository, dapprima solo per condividere i risultati delle ricerche, poi per permettere studi statistici direttamente sui dati genetici. Gli studi su larga scala coinvolgono quantità di dati nell'ordine dei petabyte, il cui mantenimento continua a rappresentare una sfida per le infrastrutture. Per la varietà e la quantità di dati prodotti, i database giocano un ruolo di primaria importanza in questa sfida. Modelli e organizzazione dei dati in questo campo possono fare la differenza non soltanto per la scalabilità, ma anche e soprattutto per la predisposizione al data mining. Infatti, la memorizzazione di questi dati in file con formati quasi-standard, la dimensione di questi file, e i requisiti computazionali richiesti, rendono difficile la scrittura di software di analisi efficienti e scoraggiano studi su larga scala e su dati eterogenei. Prima di progettare il database si è perciò studiata l’evoluzione, negli ultimi vent’anni, dei formati quasi-standard per i flat file biologici, contenenti metadati eterogenei e sequenze nucleotidiche vere e proprie, con record privi di relazioni strutturali. Recentemente questa evoluzione è culminata nell’utilizzo dello standard XML, ma i flat file delimitati continuano a essere gli standard più supportati da tools e piattaforme online. È seguita poi un’analisi dell’organizzazione interna dei dati per i database biologici pubblici. Queste basi di dati contengono geni, varianti genetiche, strutture proteiche, ontologie fenotipiche, relazioni tra malattie e geni, relazioni tra farmaci e geni. Tra i database pubblici studiati rientrano OMIM, Entrez, KEGG, UniProt, GO. L'obiettivo principale nello studio e nella modellazione del database genetico è stato quello di strutturare i dati in modo da integrare insieme i dati eterogenei prodotti e rendere computazionalmente possibili i processi di data mining. La scelta di tecnologia Hadoop/MapReduce risulta in questo caso particolarmente incisiva, per la scalabilità garantita e per l’efficienza nelle analisi statistiche più complesse e parallele, come quelle riguardanti le varianti alleliche multi-locus.
Resumo:
In questa tesi vengono analizzati gli algoritmi DistributedSolvingSet e LazyDistributedSolvingSet e verranno mostrati dei risultati sperimentali relativi al secondo.
Resumo:
In this thesis the evolution of the techno-social systems analysis methods will be reported, through the explanation of the various research experience directly faced. The first case presented is a research based on data mining of a dataset of words association named Human Brain Cloud: validation will be faced and, also through a non-trivial modeling, a better understanding of language properties will be presented. Then, a real complex system experiment will be introduced: the WideNoise experiment in the context of the EveryAware european project. The project and the experiment course will be illustrated and data analysis will be displayed. Then the Experimental Tribe platform for social computation will be introduced . It has been conceived to help researchers in the implementation of web experiments, and aims also to catalyze the cumulative growth of experimental methodologies and the standardization of tools cited above. In the last part, three other research experience which already took place on the Experimental Tribe platform will be discussed in detail, from the design of the experiment to the analysis of the results and, eventually, to the modeling of the systems involved. The experiments are: CityRace, about the measurement of human traffic-facing strategies; laPENSOcosì, aiming to unveil the political opinion structure; AirProbe, implemented again in the EveryAware project framework, which consisted in monitoring air quality opinion shift of a community informed about local air pollution. At the end, the evolution of the technosocial systems investigation methods shall emerge together with the opportunities and the threats offered by this new scientific path.
Resumo:
Al giorno d'oggi una pratica molto comune è quella di eseguire ricerche su Google per cercare qualsiasi tipo di informazione e molte persone, con problemi di salute, cercano su Google sintomi, consigli medici e possibili rimedi. Questo fatto vale sia per pazienti sporadici che per pazienti cronici: il primo gruppo spesso fa ricerche per rassicurarsi e per cercare informazioni riguardanti i sintomi ed i tempi di guarigione, il secondo gruppo invece cerca nuovi trattamenti e soluzioni. Anche i social networks sono diventati posti di comunicazione medica, dove i pazienti condividono le loro esperienze, ascoltano quelle di altri e si scambiano consigli. Tutte queste ricerche, questo fare domande e scrivere post o altro ha contribuito alla crescita di grandissimi database distribuiti online di informazioni, conosciuti come BigData, che sono molto utili ma anche molto complessi e che necessitano quindi di algoritmi specifici per estrarre e comprendere le variabili di interesse. Per analizzare questo gruppo interessante di pazienti gli sforzi sono stati concentrati in particolare sui pazienti affetti dal morbo di Crohn, che è un tipo di malattia infiammatoria intestinale (IBD) che può colpire qualsiasi parte del tratto gastrointestinale, dalla bocca all'ano, provocando una grande varietà di sintomi. E' stato fatto riferimento a competenze mediche ed informatiche per identificare e studiare ciò che i pazienti con questa malattia provano e scrivono sui social, al fine di comprendere come la loro malattia evolve nel tempo e qual'è il loro umore a riguardo.
Resumo:
Information is nowadays a key resource: machine learning and data mining techniques have been developed to extract high-level information from great amounts of data. As most data comes in form of unstructured text in natural languages, research on text mining is currently very active and dealing with practical problems. Among these, text categorization deals with the automatic organization of large quantities of documents in priorly defined taxonomies of topic categories, possibly arranged in large hierarchies. In commonly proposed machine learning approaches, classifiers are automatically trained from pre-labeled documents: they can perform very accurate classification, but often require a consistent training set and notable computational effort. Methods for cross-domain text categorization have been proposed, allowing to leverage a set of labeled documents of one domain to classify those of another one. Most methods use advanced statistical techniques, usually involving tuning of parameters. A first contribution presented here is a method based on nearest centroid classification, where profiles of categories are generated from the known domain and then iteratively adapted to the unknown one. Despite being conceptually simple and having easily tuned parameters, this method achieves state-of-the-art accuracy in most benchmark datasets with fast running times. A second, deeper contribution involves the design of a domain-independent model to distinguish the degree and type of relatedness between arbitrary documents and topics, inferred from the different types of semantic relationships between respective representative words, identified by specific search algorithms. The application of this model is tested on both flat and hierarchical text categorization, where it potentially allows the efficient addition of new categories during classification. Results show that classification accuracy still requires improvements, but models generated from one domain are shown to be effectively able to be reused in a different one.
Resumo:
Autism Spectrum Disorders (ASDs) describe a set of neurodevelopmental disorders. ASD represents a significant public health problem. Currently, ASDs are not diagnosed before the 2nd year of life but an early identification of ASDs would be crucial as interventions are much more effective than specific therapies starting in later childhood. To this aim, cheap an contact-less automatic approaches recently aroused great clinical interest. Among them, the cry and the movements of the newborn, both involving the central nervous system, are proposed as possible indicators of neurological disorders. This PhD work is a first step towards solving this challenging problem. An integrated system is presented enabling the recording of audio (crying) and video (movements) data of the newborn, their automatic analysis with innovative techniques for the extraction of clinically relevant parameters and their classification with data mining techniques. New robust algorithms were developed for the selection of the voiced parts of the cry signal, the estimation of acoustic parameters based on the wavelet transform and the analysis of the infant’s general movements (GMs) through a new body model for segmentation and 2D reconstruction. In addition to a thorough literature review this thesis presents the state of the art on these topics that shows that no studies exist concerning normative ranges for newborn infant cry in the first 6 months of life nor the correlation between cry and movements. Through the new automatic methods a population of control infants (“low-risk”, LR) was compared to a group of “high-risk” (HR) infants, i.e. siblings of children already diagnosed with ASD. A subset of LR infants clinically diagnosed as newborns with Typical Development (TD) and one affected by ASD were compared. The results show that the selected acoustic parameters allow good differentiation between the two groups. This result provides new perspectives both diagnostic and therapeutic.
Resumo:
Obiettivo di questa tesi dal titolo “Analisi di tecniche per l’estrazione di informazioni da documenti testuali e non strutturati” è quello di mostrare tecniche e metodologie informatiche che permettano di ricavare informazioni e conoscenza da dati in formato testuale. Gli argomenti trattati includono l'analisi di software per l'estrazione di informazioni, il web semantico, l'importanza dei dati e in particolare i Big Data, Open Data e Linked Data. Si parlerà inoltre di data mining e text mining.
Resumo:
In questa analisi si cercherà di comprendere cosa caratterizza questa l'ondata di progresso tecnologico che sta cambiando il mercato del lavoro. Il principale aspetto negativo di questo progresso si chiama "Technological Unemployment". Benché gli esperti si trovino in disaccordo su quali siano le cause della persistente alta disoccupazione, Brynjolfsson e McAfee puntano il dito contro l'automazione che ha soppiantato i lavori ripetitivi delle aziende. Tuttavia, è anche vero che il progresso ha sempre portato aumenti di produttività, e soprattutto nuovi tipi di occupazioni che hanno compensato la perdita di posti di lavoro, nel medio-lungo termine. Keynes evidenzia che la disoccupazione dovuta alla scoperta di strumenti economizzatori di manodopera procede con ritmo più rapido di quello con cui riusciamo a trovare nuovi impieghi per la manodopera stessa. Da ciò si crea ansia per il futuro, più o meno motivata. Gli stessi esperti sono spaccati a metà tra chi ha fiducia nei possibili risvolti positivi del progresso e chi invece teme possa comportare scenari catastrofici. Le macchine ci rubano lavoro o ci liberano da esso? Con questa ricerca ci si pone l'obiettivo di analizzare le effettive prospettive dei prossimi decenni. Nel capitolo 2 che è il corpo della tesi prenderemo soprattutto in conto il lavoro accademico di Frey ed Osborne dell'Oxford Martin School, intitolato "The future of employment: how susceptible are jobs to computerisation?" (2013). Essi sono stati tra i primi a studiare e quantificare cosa comporteranno le nuove tecnologie in termini di impiego. Il loro obiettivo era individuare le occupazioni a rischio, da qui a vent'anni, nel mercato del lavoro degli Stati Uniti e la relazione che intercorre tra la loro probabilità di essere computerizzati e i loro salari e livello d'istruzione medi, il tutto valutato attraverso l'ausilio di una nuova metodologia che si vedrà nel dettaglio. A conclusioni simili alle loro, per certi aspetti, è successivamente giunto anche Autor; tra l'altro viene spesso citato per altre sue opere dagli stessi Frey e Osborne, che usano le sue categorizzazioni per impostare la struttura del loro calcolo dell'automatizzabilità dei lavori utilizzando i recenti miglioramenti nelle scienze ingegneristiche quali ML (Machine Learning ad esempio Data mining, Machine vision, Computational statistics o più in generale AI) e MR (Mobile robotics) come strumenti di valutazione. Oltre alle sue ricerche, si presenteranno brevemente i risultati di un recente sondaggio tenuto dal Pew Research Center in cui importanti figure dell'informatica e dell'economia esprimono il loro giudizio sul futuro panorama del mondo del lavoro, considerando l'imminente ondata di innovazioni tecnologiche. La tesi si conclude con un'elaborazione personale. In questo modo si prenderà coscienza dei problemi concreti che il progresso tecnologico potrebbe procurare, ma anche dei suoi aspetti positivi.
Resumo:
SMARTDIAB is a platform designed to support the monitoring, management, and treatment of patients with type 1 diabetes mellitus (T1DM), by combining state-of-the-art approaches in the fields of database (DB) technologies, communications, simulation algorithms, and data mining. SMARTDIAB consists mainly of two units: 1) the patient unit (PU); and 2) the patient management unit (PMU), which communicate with each other for data exchange. The PMU can be accessed by the PU through the internet using devices, such as PCs/laptops with direct internet access or mobile phones via a Wi-Fi/General Packet Radio Service access network. The PU consists of an insulin pump for subcutaneous insulin infusion to the patient and a continuous glucose measurement system. The aforementioned devices running a user-friendly application gather patient's related information and transmit it to the PMU. The PMU consists of a diabetes data management system (DDMS), a decision support system (DSS) that provides risk assessment for long-term diabetes complications, and an insulin infusion advisory system (IIAS), which reside on a Web server. The DDMS can be accessed from both medical personnel and patients, with appropriate security access rights and front-end interfaces. The DDMS, apart from being used for data storage/retrieval, provides also advanced tools for the intelligent processing of the patient's data, supporting the physician in decision making, regarding the patient's treatment. The IIAS is used to close the loop between the insulin pump and the continuous glucose monitoring system, by providing the pump with the appropriate insulin infusion rate in order to keep the patient's glucose levels within predefined limits. The pilot version of the SMARTDIAB has already been implemented, while the platform's evaluation in clinical environment is being in progress.