909 resultados para audio segmentation
Resumo:
[EN]In this paper, a clothes segmentation method for fashion parsing is described. This method does not rely in a previous pose estimation but people segmentation. Therefore, novel and classic segmentation techniques have been considered and improved in order to achieve accurate people segmentation. Unlike other methods described in the literature, the output is the bounding box and the predominant color of the different clothes and not a pixel level segmentation. The proposal is based on dividing the person area into an initial fixed number of stripes, that are later fused according to similar color distribution. To assess the quality of the proposed method the experiments are carried out with the Fashionista dataset that is widely used in the fashion parsing community.
Resumo:
La tesi si propone di affrontare il tema del Live Streaming in sistemi P2P con particolare riferimento a Sopcast, un applicativo di P2PTV. Viene fatto un ricorso storico riguardo alla nascita dello streaming e al suo sviluppo, vengono descritte le caratteristiche, il protocollo di comunicazione e i modelli più diffusi per il live streaming P2P. Inoltre si tratterà come viene garantita la qualità del servizio e valutate le performance di un servizio P2PTV.
Resumo:
In this thesis two major topics inherent with medical ultrasound images are addressed: deconvolution and segmentation. In the first case a deconvolution algorithm is described allowing statistically consistent maximum a posteriori estimates of the tissue reflectivity to be restored. These estimates are proven to provide a reliable source of information for achieving an accurate characterization of biological tissues through the ultrasound echo. The second topic involves the definition of a semi automatic algorithm for myocardium segmentation in 2D echocardiographic images. The results show that the proposed method can reduce inter- and intra observer variability in myocardial contours delineation and is feasible and accurate even on clinical data.
Resumo:
Myocardial perfusion quantification by means of Contrast-Enhanced Cardiac Magnetic Resonance images relies on time consuming frame-by-frame manual tracing of regions of interest. In this Thesis, a novel automated technique for myocardial segmentation and non-rigid registration as a basis for perfusion quantification is presented. The proposed technique is based on three steps: reference frame selection, myocardial segmentation and non-rigid registration. In the first step, the reference frame in which both endo- and epicardial segmentation will be performed is chosen. Endocardial segmentation is achieved by means of a statistical region-based level-set technique followed by a curvature-based regularization motion. Epicardial segmentation is achieved by means of an edge-based level-set technique followed again by a regularization motion. To take into account the changes in position, size and shape of myocardium throughout the sequence due to out of plane respiratory motion, a non-rigid registration algorithm is required. The proposed non-rigid registration scheme consists in a novel multiscale extension of the normalized cross-correlation algorithm in combination with level-set methods. The myocardium is then divided into standard segments. Contrast enhancement curves are computed measuring the mean pixel intensity of each segment over time, and perfusion indices are extracted from each curve. The overall approach has been tested on synthetic and real datasets. For validation purposes, the sequences have been manually traced by an experienced interpreter, and contrast enhancement curves as well as perfusion indices have been computed. Comparisons between automatically extracted and manually obtained contours and enhancement curves showed high inter-technique agreement. Comparisons of perfusion indices computed using both approaches against quantitative coronary angiography and visual interpretation demonstrated that the two technique have similar diagnostic accuracy. In conclusion, the proposed technique allows fast, automated and accurate measurement of intra-myocardial contrast dynamics, and may thus address the strong clinical need for quantitative evaluation of myocardial perfusion.
Resumo:
La tesi descrive lo sviluppo di un'applicazione web per comporre musica tramite la tecnica del "live looping" che fornisce anche la possibilità di effettuare lo streaming di ciò che si crea in tempo reale e in maniera peer-to-peer. L'applicazione in oggetto (chiamata WebLooper) fa uso di due tecnologie web emergenti in ambito multimediale: Web Audio e WebRTC, attualmente in attesa di diventare standard W3C.
Resumo:
L'integrazione multisensoriale è la capacità da parte del sistema nervoso centrale di integrare informazioni provenienti da diverse sorgenti sensoriali. In particolare, l'integrazione audio-visiva avviene anche nelle cortecce visive e acustiche, in principio ritenute puramente unisensoriali. L'integrazione audio-visiva non è un'abilità innata, ma si sviluppa progressivamente nel tempo sulla base dell'esperienza. In questa Tesi viene presentato un modello matematico di rete neurale in grado di simulare lo sviluppo in un ambiente multisensoriale dei neuroni delle cortecce primarie visive e uditive nei primi mesi di vita di un neonato, e gli effetti dell'integrazione audio-visiva successivi a tale addestramento. In particolare il modello vuole mostrare, a partire da una condizione basale in cui i neuroni visivi e acustici non sono in grado di discriminare spazialmente la posizione degli input esterni e in cui non sussiste alcuna correlazione tra le due aree corticali primarie visive e uditive, come l'addestramento migliori la precisione della percezione spaziale degli stimoli esterni e come si stabiliscano tra le due aree in esame dei collegamenti stabili a lungo termine. Terminato l'addestramento, si verifica se la rete sia in grado di riprodurre gli effetti di integrazione audio-visiva nella corteccia primaria, quali la "cattura" dello stimolo acustico da parte di quello visivo (ventriloquismo) e il rafforzamento della risposta neurale allo stimolo acustico se contemporaneamente accompagnato da uno stimolo visivo nella stessa posizione spaziale (enhancement). Il modello potrebbe essere utilizzato in futuro anche per simulare altri fenomeni illusori come il fenomeno offline del ventriloquismo e il ventriloquismo a livello temporale.
Resumo:
Autism Spectrum Disorders (ASDs) describe a set of neurodevelopmental disorders. ASD represents a significant public health problem. Currently, ASDs are not diagnosed before the 2nd year of life but an early identification of ASDs would be crucial as interventions are much more effective than specific therapies starting in later childhood. To this aim, cheap an contact-less automatic approaches recently aroused great clinical interest. Among them, the cry and the movements of the newborn, both involving the central nervous system, are proposed as possible indicators of neurological disorders. This PhD work is a first step towards solving this challenging problem. An integrated system is presented enabling the recording of audio (crying) and video (movements) data of the newborn, their automatic analysis with innovative techniques for the extraction of clinically relevant parameters and their classification with data mining techniques. New robust algorithms were developed for the selection of the voiced parts of the cry signal, the estimation of acoustic parameters based on the wavelet transform and the analysis of the infant’s general movements (GMs) through a new body model for segmentation and 2D reconstruction. In addition to a thorough literature review this thesis presents the state of the art on these topics that shows that no studies exist concerning normative ranges for newborn infant cry in the first 6 months of life nor the correlation between cry and movements. Through the new automatic methods a population of control infants (“low-risk”, LR) was compared to a group of “high-risk” (HR) infants, i.e. siblings of children already diagnosed with ASD. A subset of LR infants clinically diagnosed as newborns with Typical Development (TD) and one affected by ASD were compared. The results show that the selected acoustic parameters allow good differentiation between the two groups. This result provides new perspectives both diagnostic and therapeutic.
Resumo:
L’obbiettivo di questa tesi è quello di studiare le tecnologie e i metodi necessari alla simulazione degli effetti audio lineari, normalmente utilizzati per strumenti a corda elettrici, ed implementarla sullo smartphone. I vantaggi di questa idea sono evidenti nella versatilità e nella comodità di utilizzo, rispetto ai classici dispositivi impiegati dai musicisti (come gli effetti a pedali). Per fare ciò è necessaria la conoscenza delle tecniche di rappresentazione digitale di un segnale, come la trasformata di Fourier, il processo di campionamento e la trasformata Z, esposte nel Capitolo 1. Il Capitolo 2 continua l’introduzione trattando dei metodi utilizzati per creare effetti audio lineari tramite lo studio dei filtri FIR e IIR. Nel capitolo 3 sarà disponibile una classificazione degli effetti più utilizzati, seguiti dal procedimento di sviluppo di due sistemi: un equalizzatore a 10 bande e un delay, che saranno implementati nello smartphone. L’ultimo Capitolo, il quarto, spiega come è sviluppato il progetto, perché iOS è l’unico sistema operativo che permetta di farlo, ed indica le principali classi che necessitano di essere utilizzate.
Resumo:
Negli ultimi anni, studi scientifici hanno evidenziato come il nostro sistema nervoso abbia la capacità di combinare e integrare informazioni di diversa natura sensoriale. Una interazione ampiamente studiata è quella audiovisiva. Oggetto principale di questa tesi è un esempio di interazione audiovisiva, ovvero un fenomeno illusorio visivo indotto dal suono che prende il nome “sound-induced flash illusion”: quando una coppia flash+beep è preceduta o seguita - ad una distanza temporale detta Stimulus Onset Asynchorny (SOA) - da un secondo beep, i soggetti spesso riportano la percezione di aver visto due flash. Il fenomeno illusorio tende a svanire al crescere dell’SOA, e si definisce “finestra temporale d’integrazione” l’intervallo di valori di SOA all’interno del quale si verifica l’illusione. Il fenomeno illusorio è presente anche nei soggetti autistici; questi, rispetto ai soggetti sani, presentano una maggiore propensione nel riportare l’illusione e una finestra temporale d’integrazione di durata maggiore. Obiettivo di questo lavoro è stato approfondire questi fenomeni di interazione mediante l’utilizzo di un modello di rete neurale precedentemente sviluppato dal gruppo di Bioingegneria dell’Università di Bologna. Tale modello era in grado di simulare il fenomeno illusorio, ma presentava il limite di non considerare l’intera finestra temporale in cui tale fenomeno si verifica. Un’analisi di sensitività del modello ha individuato quali variazioni dei parametri potessero spiegare l’illusione in un ampio intervallo temporale e interpretare le differenze tra soggetti sani e soggetti autistici. I risultati delle simulazioni hanno evidenziato un soddisfacente accordo con i dati di letteratura. Le analisi svolte possono contribuire a chiarire i meccanismi alla base del fenomeno illusorio e della finestra temporale in cui esso ha luogo e a fare luce sulle possibili alterazioni nelle singole aree cerebrali e nella interazione tra esse che possono interpretare le differenze osservate nei soggetti autistici rispetto ai sani.
Resumo:
In questo lavoro viene trattata l'elaborazione di segnali audio per la localizzazione di sorgenti sonore. Di certo gli elementi che concorrono maggiormente nella localizzazione del suono sono le nostre orecchie: esse sono separate dalla testa, che funge da ostacolo acustico. E' importante distinguere se la sorgente si trova davanti agli occhi dell'ascoltatore, ossia nel piano interaurale, o se altrimenti occupa una posizione più o meno laterale. In tali due casi i segnali audio raggiungeranno in modo diverso le due orecchie: avremo rispettivamente che essi, in un caso, raggiungeranno le due orecchie contemporaneamente; nell'altro una delle due orecchie riceverà un segnale ritardato ed attenuato. Tale elaborato si propone di ricreare uno scenario di classe virtuale in cui, attraverso l'utilizzo di MATLAB, vengono riprodotti i vari segnali cercando di fornire la sensazione di un ascolto reale, andando ad operare su di essi.
Resumo:
Questo progetto è stato ideato con lo scopo di implementare e simulare un algoritmo di stima della posizione di una sorgente sonora. E' stato scelto di utilizzare MATLAB come strumento di sviluppo. Tutti i dispositivi hardware utilizzati sono compatibili, interfacciabili tra loro ed ampiamente descritti all'interno di questo elaborato.