13 resultados para data pre-processing
em AMS Tesi di Laurea - Alm@DL - Università di Bologna
Resumo:
La tesi propone una soluzione middleware per scenari in cui i sensori producono un numero elevato di dati che è necessario gestire ed elaborare attraverso operazioni di preprocessing, filtering e buffering al fine di migliorare l'efficienza di comunicazione e del consumo di banda nel rispetto di vincoli energetici e computazionali. E'possibile effettuare l'ottimizzazione di questi componenti attraverso operazioni di tuning remoto.
Resumo:
Con l’avvento di Internet, il numero di utenti con un effettivo accesso alla rete e la possibilità di condividere informazioni con tutto il mondo è, negli anni, in continua crescita. Con l’introduzione dei social media, in aggiunta, gli utenti sono portati a trasferire sul web una grande quantità di informazioni personali mettendoli a disposizione delle varie aziende. Inoltre, il mondo dell’Internet Of Things, grazie al quale i sensori e le macchine risultano essere agenti sulla rete, permette di avere, per ogni utente, un numero maggiore di dispositivi, direttamente collegati tra loro e alla rete globale. Proporzionalmente a questi fattori anche la mole di dati che vengono generati e immagazzinati sta aumentando in maniera vertiginosa dando luogo alla nascita di un nuovo concetto: i Big Data. Nasce, di conseguenza, la necessità di far ricorso a nuovi strumenti che possano sfruttare la potenza di calcolo oggi offerta dalle architetture più complesse che comprendono, sotto un unico sistema, un insieme di host utili per l’analisi. A tal merito, una quantità di dati così vasta, routine se si parla di Big Data, aggiunta ad una velocità di trasmissione e trasferimento altrettanto alta, rende la memorizzazione dei dati malagevole, tanto meno se le tecniche di storage risultano essere i tradizionali DBMS. Una soluzione relazionale classica, infatti, permetterebbe di processare dati solo su richiesta, producendo ritardi, significative latenze e inevitabile perdita di frazioni di dataset. Occorre, perciò, far ricorso a nuove tecnologie e strumenti consoni a esigenze diverse dalla classica analisi batch. In particolare, è stato preso in considerazione, come argomento di questa tesi, il Data Stream Processing progettando e prototipando un sistema bastato su Apache Storm scegliendo, come campo di applicazione, la cyber security.
Resumo:
Il trauma cranico é tra le piú importanti patologie traumatiche. Ogni anno 250 pazienti ogni 100.000 abitanti vengono ricoverati in Italia per un trauma cranico. La mortalitá é di circa 17 casi per 100.000 abitanti per anno. L’Italia si trova in piena “media” Europea considerando l’incidenza media in Europa di 232 casi per 100.000 abitanti ed una mortalitá di 15 casi per 100.000 abitanti. Degli studi hanno indicato come una terapia anticoagulante é uno dei principali fattori di rischio di evolutiviá di una lesione emorragica. Al contrario della terapia anticoagulante, il rischio emorragico correlato ad una terapia antiaggregante é a tutt’oggi ancora in fase di verifica. Il problema risulta rilevante in particolare nella popolazione occidentale in quanto l’impiego degli antiaggreganti é progressivamente sempre piú diffuso. Questo per la politica di prevenzione sostenuta dalle linee guida nazionali e internazionali in termini di prevenzione del rischio cardiovascolare, in particolare nelle fasce di popolazione di etá piú avanzata. Per la prima volta, é stato dimostrato all’ospedale di Forlí[1], su una casistica sufficientemente ampia, che la terapia cronica con antiaggreganti, per la preven- zione del rischio cardiovascolare, puó rivelarsi un significativo fattore di rischio di complicanze emorragiche in un soggetto con trauma cranico, anche di grado lieve. L’ospedale per approfondire e convalidare i risultati della ricerca ha condotto, nell’anno 2009, una nuova indagine. La nuova indagine ha coinvolto oltre l’ospedale di Forlí altri trentuno centri ospedalieri italiani. Questo lavoro di ricerca vuole, insieme ai ricercatori dell’ospedale di Forlí, verificare: “se una terapia con antiaggreganti influenzi l’evolutivitá, in senso peggiorativo, di una lesione emorragica conseguente a trauma cranico lieve - moderato - severo in un soggetto adulto”, grazie ai dati raccolti dai centri ospedalieri nel 2009. Il documento é strutturato in due parti. La prima parte piú teorica, vuole fissare i concetti chiave riguardanti il contesto della ricerca e la metodologia usata per analizzare i dati. Mentre, la seconda parte piú pratica, vuole illustrare il lavoro fatto per rispondere al quesito della ricerca. La prima parte é composta da due capitoli, che sono: • Il capitolo 1: dove sono descritti i seguenti concetti: cos’é un trauma cra- nico, cos’é un farmaco di tipo anticoagulante e cos’é un farmaco di tipo antiaggregante; • Il capitolo 2: dove é descritto cos’é il Data Mining e quali tecniche sono state usate per analizzare i dati. La seconda parte é composta da quattro capitoli, che sono: • Il capitolo 3: dove sono state descritte: la struttura dei dati raccolti dai trentadue centri ospedalieri, la fase di pre-processing e trasformazione dei dati. Inoltre in questo capitolo sono descritti anche gli strumenti utilizzati per analizzare i dati; • Il capitolo 4: dove é stato descritto come é stata eseguita l’analisi esplorativa dei dati. • Il capitolo 5: dove sono descritte le analisi svolte sui dati e soprattutto i risultati che le analisi, grazie alle tecniche di Data Mining, hanno prodotto per rispondere al quesito della ricerca; • Il capitolo 6: dove sono descritte le conclusioni della ricerca. Per una maggiore comprensione del lavoro sono state aggiunte due appendici. La prima tratta del software per data mining Weka, utilizzato per effettuare le analisi. Mentre, la seconda tratta dell’implementazione dei metodi per la creazione degli alberi decisionali.
Resumo:
The final goal of the thesis should be a real-world application in the production test data environment. This includes the pre-processing of the data, building models and visualizing the results. To do this, different machine learning models, outlier prediction oriented, should be investigated using a real dataset. Finally, the different outlier prediction algorithms should be compared, and their performance discussed.
Resumo:
Argomento del presente lavoro è l’analisi di dati fMRI (functional Magnetic Resonance Imaging) nell’ambito di uno studio EEG-fMRI su pazienti affetti da malattia di Parkinson idiopatica. L’EEG-fMRI combina due diverse tecniche per lo studio in vivo dell’attività cerebrale: l'elettroencefalografia (EEG) e la risonanza magnetica funzionale. La prima registra l’attività elettrica dei neuroni corticali con ottima risoluzione temporale; la seconda misura indirettamente l’attività neuronale registrando gli effetti metabolici ad essa correlati, con buona risoluzione spaziale. L’acquisizione simultanea e la combinazione dei due tipi di dati permettono di sfruttare i vantaggi di ciascuna tecnica. Scopo dello studio è l’indagine della connettività funzionale cerebrale in condizioni di riposo in pazienti con malattia di Parkinson idiopatica ad uno stadio precoce. In particolare, l’interesse è focalizzato sulle variazioni della connettività con aree motorie primarie e supplementari in seguito alla somministrazione della terapia dopaminergica. Le quattro fasi principali dell’analisi dei dati sono la correzione del rumore fisiologico, il pre-processing usuale dei dati fMRI, l’analisi di connettività “seed-based “ e la combinazione dei dati relativi ad ogni paziente in un’analisi statistica di gruppo. Usando ’elettrocardiogramma misurato contestualmente all’EEG ed una stima dell’attività respiratoria, è stata effettuata la correzione del rumore fisiologico, ottenendo risultati consistenti con la letteratura. L’analisi di connettività fMRI ha mostrato un aumento significativo della connettività dopo la somministrazione della terapia: in particolare, si è riscontrato che le aree cerebrali maggiormente connesse alle aree motorie sono quelle coinvolte nel network sensorimotorio, nel network attentivo e nel default mode network. Questi risultati suggeriscono che la terapia dopaminergica, oltre ad avere un effetto positivo sulle performance motorie durante l’esecuzione del movimento, inizia ad agire anche in condizioni di riposo, migliorando le funzioni attentive ed esecutive, componenti integranti della fase preparatoria del movimento. Nel prossimo futuro questi risultati verranno combinati con quelli ottenuti dall’analisi dei dati EEG.
Resumo:
Nel presente lavoro di tesi ho sviluppato un metodo di analisi di dati di DW-MRI (Diffusion-Weighted Magnetic Resonance Imaging)cerebrale, tramite un algoritmo di trattografia, per la ricostruzione del tratto corticospinale, in un campione di 25 volontari sani. Il diffusion tensor imaging (DTI) sfrutta la capacità del tensore di diffusione D di misurare il processo di diffusione dell’acqua, per stimare quantitativamente l’anisotropia dei tessuti. In particolare, nella sostanza bianca cerebrale la diffusione delle molecole di acqua è direzionata preferenzialmente lungo le fibre, mentre è ostacolata perpendicolarmente ad esse. La trattografia utilizza le informazioni ottenute tramite il DW imaging per fornire una misura della connettività strutturale fra diverse regioni del cervello. Nel lavoro si è concentrata l’attenzione sul fascio corticospinale, che è coinvolto nella motricità volontaria, trasmettendo gli impulsi dalla corteccia motoria ai motoneuroni del midollo spinale. Il lavoro si è articolato in 3 fasi. Nella prima ho sviluppato il pre-processing di immagini DW acquisite con un gradiente di diffusione sia 25 che a 64 direzioni in ognuno dei 25 volontari sani. Si è messo a punto un metodo originale ed innovativo, basato su “Regions of Interest” (ROIs), ottenute attraverso la segmentazione automatizzata della sostanza grigia e ROIs definite manualmente su un template comune a tutti i soggetti in esame. Per ricostruire il fascio si è usato un algoritmo di trattografia probabilistica che stima la direzione più probabile delle fibre e, con un numero elevato di direzioni del gradiente, riesce ad individuare, se presente, più di una direzione dominante (seconda fibra). Nella seconda parte del lavoro, ciascun fascio è stato suddiviso in 100 segmenti (percentili). Sono stati stimati anisotropia frazionaria (FA), diffusività media, probabilità di connettività, volume del fascio e della seconda fibra con un’analisi quantitativa “along-tract”, per ottenere un confronto accurato dei rispettivi percentili dei fasci nei diversi soggetti. Nella terza parte dello studio è stato fatto il confronto dei dati ottenuti a 25 e 64 direzioni del gradiente ed il confronto del fascio fra entrambi i lati. Dall’analisi statistica dei dati inter-subject e intra-subject è emersa un’elevata variabilità tra soggetti, dimostrando l’importanza di parametrizzare il tratto. I risultati ottenuti confermano che il metodo di analisi trattografica del fascio cortico-spinale messo a punto è risultato affidabile e riproducibile. Inoltre, è risultato che un’acquisizione con 25 direzioni di DTI, meglio tollerata dal paziente per la minore durata dello scan, assicura risultati attendibili. La principale applicazione clinica riguarda patologie neurodegenerative con sintomi motori sia acquisite, quali sindromi parkinsoniane sia su base genetica o la valutazione di masse endocraniche, per la definizione del grado di contiguità del fascio. Infine, sono state poste le basi per la standardizzazione dell’analisi quantitativa di altri fasci di interesse in ambito clinico o di studi di ricerca fisiopatogenetica.
Resumo:
Il progetto descritto in questo elaborato di tesi è stato svolto presso Il Centro Protesi INAIL (Vigorso di Budrio, BO). Il lavoro è stato realizzato a supporto di un progetto di ricerca, finanziato dal Dipartimento della Difesa USA, in collaborazione con la Northwestern University di Chicago e il Minneapolis Veteran Affairs Health Care Sytem. La ricerca ha lo scopo di determinare l’efficacia comparativa di metodi alternativi per realizzare il calco del moncone dell’amputato di arto inferiore e la successiva invasatura su misura. Il progetto di tesi nasce dall’assenza di un software commerciale in grado di analizzare come evolve la forma del moncone, dal calco all'invasatura finita, basandosi sulla digitalizzazione tridimensionale delle superfici. La libreria sviluppata è implementata in Python e utilizza algoritmi e strumenti di geometria computazionale al fine di supportare i processi di elaborazione dati. Il flusso di lavoro si sviluppa nelle seguenti fasi: • Acquisizione e pre-processing del dato; • Identificazione digitale dei punti di repere; • Allineamento dei modelli per orientarli in un sistema di riferimento globale secondo una logica comune; • Registrazione di due modelli per allinearli l’uno all’altro; • Generazione di outcome e parametri dimensionali, derivanti da mappe distanza, sezioni, cammini geodetici e regioni di interesse; • Estrazione di indicatori statistici riassuntivi delle differenze, correlate ad un insieme di scansioni tramite la PCA. Le funzionalità sono state validate tramite appositi test su dati clinici rilevati dallo studio o dati sintetici con caratteristiche note a priori. La libreria fornisce un insieme di interfacce che permette l’accesso anche a utenti non esperti ed è caratterizzata da modularità, semplicità di installazione ed estensibilità delle funzionalità. Tra gli sviluppi futuri si prevede l’identificazione di possibili ottimizzazioni individuate da un utilizzo degli strumenti esteso a più casi d’uso.
Resumo:
Grazie all’evoluzione degli strumenti di calcolo e delle strutture digitali, le intelligenze artificiali si sono evolute considerevolmente negli ultimi anni, permettendone sempre nuove e complesse applicazioni. L’interesse del presente progetto di tesi è quello di creare un modello di studio preliminare di intelligenza artificiale definita come Rete Neurale Convoluzionale, o Convolutional Neural Network (CNN), al fine di essere impiegata nel campo della radioscienza e dell’esplorazione planetaria. In particolare, uno degli interessi principali di applicazione del modello è negli studi di geodesia compiuti tramite determinazione orbitale di satelliti artificiali nel loro moto attorno ai corpi celesti. Le accelerazioni causate dai campi gravitazionali planetari perturbano le orbite dei satelliti artificiali, queste variazioni vengono captate dai ricevitori radio a terra sottoforma di shift Doppler della frequenza del segnale, a partire dalla quale è quindi possibile determinare informazioni dettagliate sul campo di gravità e sulla struttura interna del corpo celeste in esame. Per poter fare ciò, occorre riuscire a determinare l’esatta frequenza del segnale in arrivo, il quale, per via di perdite e disturbi durante il suo tragitto, presenterà sempre una componente di rumore. Il metodo più comune per scindere la componente di informazione da quella di rumore e ricavarne la frequenza effettiva è l’applicazione di trasformate di Fourier a tempo breve, o Short-time Fourier Transform (STFT). Con l’attività sperimentale proposta, ci si è quindi posto l’obiettivo di istruire un CNN alla stima della frequenza di segnali reali sinusoidali rumorosi per avere un modello computazionalmente rapido e affidabile a supporto delle operazioni di pre-processing per missioni di radio-scienza.
Resumo:
The development of next generation microwave technology for backhauling systems is driven by an increasing capacity demand. In order to provide higher data rates and throughputs over a point-to-point link, a cost-effective performance improvement is enabled by an enhanced energy-efficiency of the transmit power amplification stage, whereas a combination of spectrally efficient modulation formats and wider bandwidths is supported by amplifiers that fulfil strict constraints in terms of linearity. An optimal trade-off between these conflicting requirements can be achieved by resorting to flexible digital signal processing techniques at baseband. In such a scenario, the adaptive digital pre-distortion is a well-known linearization method, that comes up to be a potentially widely-used solution since it can be easily integrated into base stations. Its operation can effectively compensate for the inter-modulation distortion introduced by the power amplifier, keeping up with the frequency-dependent time-varying behaviour of the relative nonlinear characteristic. In particular, the impact of the memory effects become more relevant and their equalisation become more challenging as the input discrete signal feature a wider bandwidth and a faster envelope to pre-distort. This thesis project involves the research, design and simulation a pre-distorter implementation at RTL based on a novel polyphase architecture, which makes it capable of operating over very wideband signals at a sampling rate that complies with the actual available clock speed of current digital devices. The motivation behind this structure is to carry out a feasible pre-distortion for the multi-band spectrally efficient complex signals carrying multiple channels that are going to be transmitted in near future high capacity and reliability microwave backhaul links.
Resumo:
Big data è il termine usato per descrivere una raccolta di dati così estesa in termini di volume,velocità e varietà da richiedere tecnologie e metodi analitici specifici per l'estrazione di valori significativi. Molti sistemi sono sempre più costituiti e caratterizzati da enormi moli di dati da gestire,originati da sorgenti altamente eterogenee e con formati altamente differenziati,oltre a qualità dei dati estremamente eterogenei. Un altro requisito in questi sistemi potrebbe essere il fattore temporale: sempre più sistemi hanno bisogno di ricevere dati significativi dai Big Data il prima possibile,e sempre più spesso l’input da gestire è rappresentato da uno stream di informazioni continuo. In questo campo si inseriscono delle soluzioni specifiche per questi casi chiamati Online Stream Processing. L’obiettivo di questa tesi è di proporre un prototipo funzionante che elabori dati di Instant Coupon provenienti da diverse fonti con diversi formati e protocolli di informazioni e trasmissione e che memorizzi i dati elaborati in maniera efficiente per avere delle risposte in tempo reale. Le fonti di informazione possono essere di due tipologie: XMPP e Eddystone. Il sistema una volta ricevute le informazioni in ingresso, estrapola ed elabora codeste fino ad avere dati significativi che possono essere utilizzati da terze parti. Lo storage di questi dati è fatto su Apache Cassandra. Il problema più grosso che si è dovuto risolvere riguarda il fatto che Apache Storm non prevede il ribilanciamento delle risorse in maniera automatica, in questo caso specifico però la distribuzione dei clienti durante la giornata è molto varia e ricca di picchi. Il sistema interno di ribilanciamento sfrutta tecnologie innovative come le metriche e sulla base del throughput e della latenza esecutiva decide se aumentare/diminuire il numero di risorse o semplicemente non fare niente se le statistiche sono all’interno dei valori di soglia voluti.
Resumo:
In questo elaborato vengono analizzate differenti tecniche per la detection di jammer attivi e costanti in una comunicazione satellitare in uplink. Osservando un numero limitato di campioni ricevuti si vuole identificare la presenza di un jammer. A tal fine sono stati implementati i seguenti classificatori binari: support vector machine (SVM), multilayer perceptron (MLP), spectrum guarding e autoencoder. Questi algoritmi di apprendimento automatico dipendono dalle features che ricevono in ingresso, per questo motivo è stata posta particolare attenzione alla loro scelta. A tal fine, sono state confrontate le accuratezze ottenute dai detector addestrati utilizzando differenti tipologie di informazione come: i segnali grezzi nel tempo, le statistical features, le trasformate wavelet e lo spettro ciclico. I pattern prodotti dall’estrazione di queste features dai segnali satellitari possono avere dimensioni elevate, quindi, prima della detection, vengono utilizzati i seguenti algoritmi per la riduzione della dimensionalità: principal component analysis (PCA) e linear discriminant analysis (LDA). Lo scopo di tale processo non è quello di eliminare le features meno rilevanti, ma combinarle in modo da preservare al massimo l’informazione, evitando problemi di overfitting e underfitting. Le simulazioni numeriche effettuate hanno evidenziato come lo spettro ciclico sia in grado di fornire le features migliori per la detection producendo però pattern di dimensioni elevate, per questo motivo è stato necessario l’utilizzo di algoritmi di riduzione della dimensionalità. In particolare, l'algoritmo PCA è stato in grado di estrarre delle informazioni migliori rispetto a LDA, le cui accuratezze risentivano troppo del tipo di jammer utilizzato nella fase di addestramento. Infine, l’algoritmo che ha fornito le prestazioni migliori è stato il Multilayer Perceptron che ha richiesto tempi di addestramento contenuti e dei valori di accuratezza elevati.
Resumo:
The recording and processing of voice data raises increasing privacy concerns for users and service providers. One way to address these issues is to move processing on the edge device closer to the recording so that potentially identifiable information is not transmitted over the internet. However, this is often not possible due to hardware limitations. An interesting alternative is the development of voice anonymization techniques that remove individual speakers characteristics while preserving linguistic and acoustic information in the data. In this work, a state-of-the-art approach to sequence-to-sequence speech conversion, ini- tially based on x-vectors and bottleneck features for automatic speech recognition, is explored to disentangle the two acoustic information using different pre-trained speech and speakers representation. Furthermore, different strategies for selecting target speech representations are analyzed. Results on public datasets in terms of equal error rate and word error rate show that good privacy is achieved with limited impact on converted speech quality relative to the original method.
Resumo:
Artificial Intelligence (AI) has substantially influenced numerous disciplines in recent years. Biology, chemistry, and bioinformatics are among them, with significant advances in protein structure prediction, paratope prediction, protein-protein interactions (PPIs), and antibody-antigen interactions. Understanding PPIs is critical since they are responsible for practically everything living and have several uses in vaccines, cancer, immunology, and inflammatory illnesses. Machine Learning (ML) offers enormous potential for effectively simulating antibody-antigen interactions and improving in-silico optimization of therapeutic antibodies for desired features, including binding activity, stability, and low immunogenicity. This research looks at the use of AI algorithms to better understand antibody-antigen interactions, and it further expands and explains several difficulties encountered in the field. Furthermore, we contribute by presenting a method that outperforms existing state-of-the-art strategies in paratope prediction from sequence data.