938 resultados para Open Data, Bologna


Relevância:

30.00% 30.00%

Publicador:

Resumo:

Classic group recommender systems focus on providing suggestions for a fixed group of people. Our work tries to give an inside look at design- ing a new recommender system that is capable of making suggestions for a sequence of activities, dividing people in subgroups, in order to boost over- all group satisfaction. However, this idea increases problem complexity in more dimensions and creates great challenge to the algorithm’s performance. To understand the e↵ectiveness, due to the enhanced complexity and pre- cise problem solving, we implemented an experimental system from data collected from a variety of web services concerning the city of Paris. The sys- tem recommends activities to a group of users from two di↵erent approaches: Local Search and Constraint Programming. The general results show that the number of subgroups can significantly influence the Constraint Program- ming Approaches’s computational time and e�cacy. Generally, Local Search can find results much quicker than Constraint Programming. Over a lengthy period of time, Local Search performs better than Constraint Programming, with similar final results.

Relevância:

30.00% 30.00%

Publicador:

Resumo:

La tesi riguarda lo sviluppo di recommender system che hanno lo scopo di supportare chi è alla ricerca di un lavoro e le aziende che devono selezionare la giusta figura. A partire da un insieme di skill il sistema suggerisce alla persona la posizione lavorativa più affine al suo profilo, oppure a partire da una specifica posizione lavorativa suggerisce all'azienda la persona che più si avvicina alle sue esigenze.

Relevância:

30.00% 30.00%

Publicador:

Resumo:

La tesi riguarda le gestione via software di dispositivi che interconnettono componenti hardware di forwarding in una rete.

Relevância:

30.00% 30.00%

Publicador:

Resumo:

Il presente elaborato ha come oggetto la progettazione e lo sviluppo di una soluzione Hadoop per il Calcolo di Big Data Analytics. Nell'ambito del progetto di monitoraggio dei bottle cooler, le necessità emerse dall'elaborazione di dati in continua crescita, ha richiesto lo sviluppo di una soluzione in grado di sostituire le tradizionali tecniche di ETL, non pi�ù su�fficienti per l'elaborazione di Big Data. L'obiettivo del presente elaborato consiste nel valutare e confrontare le perfomance di elaborazione ottenute, da un lato, dal flusso di ETL tradizionale, e dall'altro dalla soluzione Hadoop implementata sulla base del framework MapReduce.

Relevância:

30.00% 30.00%

Publicador:

Resumo:

VIRTIS, a bordo di Venus Express, è uno spettrometro in grado di operare da 0.25 a 5 µm. Nel periodo 2006-2011 ha ricavato un'enorme mole di dati ma a tutt'oggi le osservazioni al lembo sono poco utilizzate per lo studio delle nubi e delle hazes, specialmente di notte. Gli spettri al lembo a quote mesosferiche sono dominati dalla radianza proveniente dalle nubi e scatterata in direzione dello strumento dalle hazes. L'interpretazione degli spettri al lembo non può quindi prescindere dalla caratterizzazione dell'intera colonna atmosferica. L'obiettivo della tesi è di effettuare un’analisi statistica sulle osservazioni al nadir e proporre una metodologia per ricavare una caratterizzazione delle hazes combinando osservazioni al nadir e al lembo. La caratterizzazione delle nubi è avvenuta su un campione di oltre 3700 osservazioni al nadir. È stato creato un ampio dataset di spettri sintetici modificando, in un modello iniziale, vari parametri di nube quali composizione chimica, numero e dimensione delle particelle. Un processo di fit è stato applicato alle osservazioni per stabilire quale modello potesse descrivere gli spettri osservati. Si è poi effettuata una analisi statistica sui risultati del campione. Si è ricavata una concentrazione di acido solforico molto elevata nelle nubi basse, pari al 96% in massa, che si discosta dal valore generalmente utilizzato del 75%. Si sono poi integrati i risultati al nadir con uno studio mirato su poche osservazioni al lembo, selezionate in modo da intercettare nel punto di tangenza la colonna atmosferica osservata al nadir, per ricavare informazioni sulle hazes. I risultati di un modello Monte Carlo indicano che il numero e le dimensioni delle particelle previste dal modello base devono essere ridotte in maniera significativa. In particolare si osserva un abbassamento della quota massima delle hazes rispetto ad osservazioni diurne.

Relevância:

30.00% 30.00%

Publicador:

Resumo:

La capacità di estrarre entità da testi, collegarle tra loro ed eliminare possibili ambiguità tra di esse è uno degli obiettivi del Web Semantico. Chiamato anche Web 3.0, esso presenta numerose innovazioni volte ad arricchire il Web con dati strutturati comprensibili sia dagli umani che dai calcolatori. Nel reperimento di questi temini e nella definizione delle entities è di fondamentale importanza la loro univocità. Il nostro orizzonte di lavoro è quello delle università italiane e le entities che vogliamo estrarre, collegare e rendere univoche sono nomi di professori italiani. L’insieme di informazioni di partenza, per sua natura, vede la presenza di ambiguità. Attenendoci il più possibile alla sua semantica, abbiamo studiato questi dati ed abbiamo risolto le collisioni presenti sui nomi dei professori. Arald, la nostra architettura software per il Web Semantico, estrae entità e le collega, ma soprattutto risolve ambiguità e omonimie tra i professori delle università italiane. Per farlo si appoggia alla semantica dei loro lavori accademici e alla rete di coautori desumibile dagli articoli da loro pubblicati, rappresentati tramite un data cluster. In questo docu delle università italiane e le entities che vogliamo estrarre, collegare e rendere univoche sono nomi di professori italiani. Partendo da un insieme di informazioni che, per sua natura, vede la presenza di ambiguità, lo abbiamo studiato attenendoci il più possibile alla sua semantica, ed abbiamo risolto le collisioni che accadevano sui nomi dei professori. Arald, la nostra architettura software per il Web Semantico, estrae entità, le collega, ma soprattutto risolve ambiguità e omonimie tra i professori delle università italiane. Per farlo si appoggia alla semantica dei loro lavori accademici e alla rete di coautori desumibile dagli articoli da loro pubblicati tramite la costruzione di un data cluster.

Relevância:

30.00% 30.00%

Publicador:

Resumo:

Coniato negli anni‘90 il termine indica lo scavare tra i dati con chiara metafora del gold mining, ossia la ricerca dell’oro. Oggi è sinonimo di ricerca di informazione in vasti database, ed enfatizza il processo di analisi all’interno dei dati in alternativa all’uso di specifici metodi di analisi. Il data mining è una serie di metodi e tecniche usate per esplorare e analizzare grandi set di dati, in modo da trovare alcune regole sconosciute o nascoste, associazioni o tendenze.

Relevância:

30.00% 30.00%

Publicador:

Resumo:

Analisi e applicazione dei processi di data mining al flusso informativo di sistemi real-time. Implementazione e analisi di un algoritmo autoadattivo per la ricerca di frequent patterns su macchine automatiche.

Relevância:

30.00% 30.00%

Publicador:

Resumo:

La tesi da me svolta durante questi ultimi sei mesi è stata sviluppata presso i laboratori di ricerca di IMA S.p.a.. IMA (Industria Macchine Automatiche) è una azienda italiana che naque nel 1961 a Bologna ed oggi riveste il ruolo di leader mondiale nella produzione di macchine automatiche per il packaging di medicinali. Vorrei subito mettere in luce che in tale contesto applicativo l’utilizzo di algoritmi di data-mining risulta essere ostico a causa dei due ambienti in cui mi trovo. Il primo è quello delle macchine automatiche che operano con sistemi in tempo reale dato che non presentano a pieno le risorse di cui necessitano tali algoritmi. Il secondo è relativo alla produzione di farmaci in quanto vige una normativa internazionale molto restrittiva che impone il tracciamento di tutti gli eventi trascorsi durante l’impacchettamento ma che non permette la visione al mondo esterno di questi dati sensibili. Emerge immediatamente l’interesse nell’utilizzo di tali informazioni che potrebbero far affiorare degli eventi riconducibili a un problema della macchina o a un qualche tipo di errore al fine di migliorare l’efficacia e l’efficienza dei prodotti IMA. Lo sforzo maggiore per riuscire ad ideare una strategia applicativa è stata nella comprensione ed interpretazione dei messaggi relativi agli aspetti software. Essendo i dati molti, chiusi, e le macchine con scarse risorse per poter applicare a dovere gli algoritmi di data mining ho provveduto ad adottare diversi approcci in diversi contesti applicativi: • Sistema di identificazione automatica di errore al fine di aumentare di diminuire i tempi di correzione di essi. • Modifica di un algoritmo di letteratura per la caratterizzazione della macchina. La trattazione è così strutturata: • Capitolo 1: descrive la macchina automatica IMA Adapta della quale ci sono stati forniti i vari file di log. Essendo lei l’oggetto di analisi per questo lavoro verranno anche riportati quali sono i flussi di informazioni che essa genera. • Capitolo 2: verranno riportati degli screenshoot dei dati in mio possesso al fine di, tramite un’analisi esplorativa, interpretarli e produrre una formulazione di idee/proposte applicabili agli algoritmi di Machine Learning noti in letteratura. • Capitolo 3 (identificazione di errore): in questo capitolo vengono riportati i contesti applicativi da me progettati al fine di implementare una infrastruttura che possa soddisfare il requisito, titolo di questo capitolo. • Capitolo 4 (caratterizzazione della macchina): definirò l’algoritmo utilizzato, FP-Growth, e mostrerò le modifiche effettuate al fine di poterlo impiegare all’interno di macchine automatiche rispettando i limiti stringenti di: tempo di cpu, memoria, operazioni di I/O e soprattutto la non possibilità di aver a disposizione l’intero dataset ma solamente delle sottoporzioni. Inoltre verranno generati dei DataSet per il testing di dell’algoritmo FP-Growth modificato.

Relevância:

30.00% 30.00%

Publicador:

Resumo:

PhEDEx, the CMS transfer management system, during the first LHC Run has moved about 150 PB and currently it is moving about 2.5 PB of data per week over the Worldwide LHC Computing Grid (WLGC). It was designed to complete each transfer required by users at the expense of the waiting time necessary for its completion. For this reason, after several years of operations, data regarding transfer latencies has been collected and stored into log files containing useful analyzable informations. Then, starting from the analysis of several typical CMS transfer workflows, a categorization of such latencies has been made with a focus on the different factors that contribute to the transfer completion time. The analysis presented in this thesis will provide the necessary information for equipping PhEDEx in the future with a set of new tools in order to proactively identify and fix any latency issues. PhEDEx, il sistema di gestione dei trasferimenti di CMS, durante il primo Run di LHC ha trasferito all’incirca 150 PB ed attualmente trasferisce circa 2.5 PB di dati alla settimana attraverso la Worldwide LHC Computing Grid (WLCG). Questo sistema è stato progettato per completare ogni trasferimento richiesto dall’utente a spese del tempo necessario per il suo completamento. Dopo svariati anni di operazioni con tale strumento, sono stati raccolti dati relativi alle latenze di trasferimento ed immagazzinati in log files contenenti informazioni utili per l’analisi. A questo punto, partendo dall’analisi di una ampia mole di trasferimenti in CMS, è stata effettuata una suddivisione di queste latenze ponendo particolare attenzione nei confronti dei fattori che contribuiscono al tempo di completamento del trasferimento. L’analisi presentata in questa tesi permetterà di equipaggiare PhEDEx con un insieme di utili strumenti in modo tale da identificare proattivamente queste latenze e adottare le opportune tattiche per minimizzare l’impatto sugli utenti finali.

Relevância:

30.00% 30.00%

Publicador:

Resumo:

Our generation of computational scientists is living in an exciting time: not only do we get to pioneer important algorithms and computations, we also get to set standards on how computational research should be conducted and published. From Euclid’s reasoning and Galileo’s experiments, it took hundreds of years for the theoretical and experimental branches of science to develop standards for publication and peer review. Computational science, rightly regarded as the third branch, can walk the same road much faster. The success and credibility of science are anchored in the willingness of scientists to expose their ideas and results to independent testing and replication by other scientists. This requires the complete and open exchange of data, procedures and materials. The idea of a “replication by other scientists” in reference to computations is more commonly known as “reproducible research”. In this context the journal “EAI Endorsed Transactions on Performance & Modeling, Simulation, Experimentation and Complex Systems” had the exciting and original idea to make the scientist able to submit simultaneously the article and the computation materials (software, data, etc..) which has been used to produce the contents of the article. The goal of this procedure is to allow the scientific community to verify the content of the paper, reproducing it in the platform independently from the OS chosen, confirm or invalidate it and especially allow its reuse to reproduce new results. This procedure is therefore not helpful if there is no minimum methodological support. In fact, the raw data sets and the software are difficult to exploit without the logic that guided their use or their production. This led us to think that in addition to the data sets and the software, an additional element must be provided: the workflow that relies all of them.

Relevância:

30.00% 30.00%

Publicador:

Resumo:

In questa tesi sono stati introdotti e studiati i Big Data, dando particolare importanza al mondo NoSQL, approfondendo MongoDB, e al mondo del Machine Learning, approfondendo PredictionIO. Successivamente è stata sviluppata un'applicazione attraverso l'utilizzo di tecnologie web, nodejs, node-webkit e le tecnologie approfondite prima. L'applicazione utilizza l'interpolazione polinomiale per predirre il prezzo di un bene salvato nello storico presente su MongoDB. Attraverso PredictionIO, essa analizza il comportamento degli altri utenti consigliando dei prodotti per l'acquisto. Infine è stata effetuata un'analisi dei risultati dell'errore prodotto dall'interpolazione.

Relevância:

30.00% 30.00%

Publicador:

Resumo:

The present work studies a km-scale data assimilation scheme based on a LETKF developed for the COSMO model. The aim is to evaluate the impact of the assimilation of two different types of data: temperature, humidity, pressure and wind data from conventional networks (SYNOP, TEMP, AIREP reports) and 3d reflectivity from radar volume. A 3-hourly continuous assimilation cycle has been implemented over an Italian domain, based on a 20 member ensemble, with boundary conditions provided from ECMWF ENS. Three different experiments have been run for evaluating the performance of the assimilation on one week in October 2014 during which Genova flood and Parma flood took place: a control run of the data assimilation cycle with assimilation of data from conventional networks only, a second run in which the SPPT scheme is activated into the COSMO model, a third run in which also reflectivity volumes from meteorological radar are assimilated. Objective evaluation of the experiments has been carried out both on case studies and on the entire week: check of the analysis increments, computing the Desroziers statistics for SYNOP, TEMP, AIREP and RADAR, over the Italian domain, verification of the analyses against data not assimilated (temperature at the lowest model level objectively verified against SYNOP data), and objective verification of the deterministic forecasts initialised with the KENDA analyses for each of the three experiments.

Relevância:

30.00% 30.00%

Publicador:

Resumo:

Dati climatici ad alta risoluzione sono attualmente molto richiesti essendo indispensabili per la valutazione degli impatti dei cambiamenti climatici alla scala locale in svariati campi d'applicazione. Per aumentare l'offerta di tali dati per il territorio italiano viene presentata in questo studio la realizzazione di un data-set con risoluzione di trenta secondi d'arco, per le temperature massime e minime giornaliere per il Trentino Alto Adige, per il periodo che va dal 1951 al 2014. La metodologia utilizzata per proiettare i dati meteorologici di un set di stazioni su di un grigliato ad alta risoluzione si basa sull'assunzione che la struttura spazio-temporale del campo di una variabile meteorologica su una determinata area possa essere descritta dalla sovrapposizione di due campi:i valori normali relativi e un periodo standard, ovvero la climatologia,e le deviazioni da questi, ovvero le anomalie. La climatologia mensile verrà interpolata sull'intero dominio tramite una regressione lineare pesata della temperatura rispetto alla quota,stimata separatamente per ogni nodo del grigliato,con pesi legati alla topografia del territorio,in modo da attribuire di volta in volta la massima importanza alle stazioni con caratteristiche più simili a quella del punto di griglia considerato. Da questa sarà possibile tramite la sovrapposizione con le anomalie mensili ricostruite sul medesimo grigliato, ottenute mediante un'interpolazione basata su una media pesata,ottenere un grigliato a 30 secondi d'arco, di serie temporali mensili in valori assoluti. Combinando poi l'interpolazione dei rapporti delle anomalie giornaliere relative alla media mensile per un set di stazioni con i campi mensili precedentemente stimati,sarà possibile costruire il data-set a risoluzione giornaliera. Prima di quest'ultima fase sarà necessario effettuare un'operazione di sincronizzazione dei dati giornalieri per assicurarsi che non vi siano sfasamenti nelle serie utilizzate. I risultati confermano l'efficacia nell'utilizzo di tale metodo su regioni orograficamente complesse, sia nel confronto diretto con i casi di studio,nei quali si nota bene la discriminazione spaziale effettuata dal modello, che nella valutazione dell'accuratezza e della precisione dei risultati. I dati ottenuti non sono affetti da errori sistematici,mentre l'errore medio assoluto risulta pari od inferiore ai $2^{\circ}$C, in linea con precedenti studi realizzati su altre aree alpine. Il metodo e i risultati risultano soddisfacenti ma ulteriormente migliorabili, sia tramite un ulteriore ottimizzazione del modello usato, che con un aumento nella qualità dei dati sui quali è stato svolto lo studio.

Relevância:

30.00% 30.00%

Publicador:

Resumo:

La nascita della Internet of Things, come conseguenza dell'aumento della capacità di calcolo e adozione di connettività in nuovi dispositivi, ha permesso l'apporto di nuove tecnologie negli oggetti di uso quotidiano e ha cambiano il modo in cui le persone utilizzano e interagiscono con questi oggetti. La Home Automation, da sempre orientata al controllo locale e remoto di apparecchiature domestiche, non ha mai raggiunto una grande diffusione per colpa del costo elevato, una controproducente chiusura rispetto ad altri sistemi e una certa difficoltà nella sua programmazione da parte dei possibili utenti. Le possibilità offerte dalla IoT e i limiti della Home Automation hanno suggerito lo sviluppo di un sistema in grado si superare queste limitazioni sfruttando le tecnologie più adatte a integrare Smart Object e sistemi, gli uni con gli altri, in maniera semplice e rapida. Il progetto e lo sviluppo di una soluzione reale di Home Automation basata su un impianto domotico commerciale ha permesso di dimostrare come strumenti opensource e tecnologie orientate alla IoT consentano, se opportunamente integrate, di migliorare sia la fruibilità dei sistemi domotici, attraverso la maggiore apertura verso altri sistemi, sia l'interazione con l'utente che sarà in grado di creare in modo semplice e diretto scenari di utilizzo sempre nuovi.