4 resultados para leave one out cross validation

em AMS Tesi di Laurea - Alm@DL - Università di Bologna


Relevância:

100.00% 100.00%

Publicador:

Resumo:

Il presente lavoro di tesi si inserisce nell’ambito della classificazione di dati ad alta dimensionalità, sviluppando un algoritmo basato sul metodo della Discriminant Analysis. Esso classifica i campioni attraverso le variabili prese a coppie formando un network a partire da quelle che hanno una performance sufficientemente elevata. Successivamente, l’algoritmo si avvale di proprietà topologiche dei network (in particolare la ricerca di subnetwork e misure di centralità di singoli nodi) per ottenere varie signature (sottoinsiemi delle variabili iniziali) con performance ottimali di classificazione e caratterizzate da una bassa dimensionalità (dell’ordine di 101, inferiore di almeno un fattore 103 rispetto alle variabili di partenza nei problemi trattati). Per fare ciò, l’algoritmo comprende una parte di definizione del network e un’altra di selezione e riduzione della signature, calcolando ad ogni passaggio la nuova capacità di classificazione operando test di cross-validazione (k-fold o leave- one-out). Considerato l’alto numero di variabili coinvolte nei problemi trattati – dell’ordine di 104 – l’algoritmo è stato necessariamente implementato su High-Performance Computer, con lo sviluppo in parallelo delle parti più onerose del codice C++, nella fattispecie il calcolo vero e proprio del di- scriminante e il sorting finale dei risultati. L’applicazione qui studiata è a dati high-throughput in ambito genetico, riguardanti l’espressione genica a livello cellulare, settore in cui i database frequentemente sono costituiti da un numero elevato di variabili (104 −105) a fronte di un basso numero di campioni (101 −102). In campo medico-clinico, la determinazione di signature a bassa dimensionalità per la discriminazione e classificazione di campioni (e.g. sano/malato, responder/not-responder, ecc.) è un problema di fondamentale importanza, ad esempio per la messa a punto di strategie terapeutiche personalizzate per specifici sottogruppi di pazienti attraverso la realizzazione di kit diagnostici per l’analisi di profili di espressione applicabili su larga scala. L’analisi effettuata in questa tesi su vari tipi di dati reali mostra che il metodo proposto, anche in confronto ad altri metodi esistenti basati o me- no sull’approccio a network, fornisce performance ottime, tenendo conto del fatto che il metodo produce signature con elevate performance di classifica- zione e contemporaneamente mantenendo molto ridotto il numero di variabili utilizzate per questo scopo.

Relevância:

100.00% 100.00%

Publicador:

Resumo:

Questo lavoro di tesi riguarda lo studio e l’implementazione di un algoritmo di multiple kernel learning (MKL) per la classificazione e la regressione di dati di neuroimaging ed, in particolare, di grafi di connettività funzionale. Gli algoritmi di MKL impiegano una somma pesata di vari kernel (ovvero misure di similarità) e permettono di selezionare le features utili alla discriminazione delle istanze durante l’addestramento del classificatore/regressore stesso. L’aspetto innovativo introdotto in questa tesi è stato lo studio di un nuovo kernel tra grafi di connettività funzionale, con la particolare caratteristica di conservare l’informazione relativa all’importanza di ogni singola region of interest (ROI) ed impiegando la norma lp come metodo per l’aggiornamento dei pesi, al fine di ottenere soluzioni sparsificate. L’algoritmo è stato validato utilizzando mappe di connettività sintetiche ed è stato applicato ad un dataset formato da 32 pazienti affetti da deterioramento cognitivo lieve e malattia dei piccoli vasi, di cui 16 sottoposti a riabilitazione cognitiva tra un’esame di risonanza ma- gnetica funzionale di baseline e uno di follow-up. Le mappe di con- nettività sono state ottenute con il toolbox CONN. Il classificatore è riuscito a discriminare i due gruppi di pazienti in una configurazione leave-one-out annidata con un’accuratezza dell’87.5%. Questo lavoro di tesi è stato svolto durante un periodo di ricerca presso la School of Computer Science and Electronic Engineering dell’University of Essex (Colchester, UK).

Relevância:

100.00% 100.00%

Publicador:

Resumo:

In recent times, the choices of consumers have been more conscious and oriented to foods with health benefits. The present paper deals with the study of oil from crushing of olive and huzelnut with the aim of obtaining a “functional food”. Different samples of oil derived from the crushing of olive (O), olive with 5% of hazelnut (O5N) and olive with 10% of hazelnut (O10N), exposed to different temperatures (28 and 35°C) and times (15 and 30 minutes) of malaxation. The samples of oil were initially subjected to a qualitative assessment by the analysis of peroxide and free acidity. Following further analyses were carried out namely the determination of fatty acids and triglycerides by FAST GC-FID, the determination of tocopherols by HPLC-FLC, the analysis of sterols by GC/MS and the spectroscopic analysis with FT-MIR combined with statistical analysis with PCA and PLS. The results showed that increasing the time and temperature of malaxation there aren’t relevant significant differences (p<0,05) in the composition of fatty acids, triglycerides and tocopherols in the different oils, but there are higher extraction yields. The increase of content of hazelnut in phase of crushing causes the decrease of triglycerides C50 and C52, the increase of the class C54, total tocopherols and of total sterols as well. The samples analysed with FT-MIR spectroscopy have showed, on the contrary to conventional analytical techniques, a good discrimination between different oils despite of the similar chemical composition of olive and hazelnuts. After the PLS models were built from spectra FT-MIR in order to estimate the content of triglycerides C50, C52 and C54 and total tocopherols, with good R2 in full cross validation (R2>0,821).

Relevância:

100.00% 100.00%

Publicador:

Resumo:

Il presente lavoro di tesi si pone nell'ambito dell'analisi dati attraverso un metodo (QDanet_PRO), elaborato dal Prof. Remondini in collaborazine coi Dott. Levi e Malagoli, basato sull'analisi discriminate a coppie e sulla Teoria dei Network, che ha come obiettivo la classificazione di dati contenuti in dataset dove il numero di campioni è molto ridotto rispetto al numero di variabili. Attraverso questo studio si vogliono identificare delle signature, ovvero un'insieme ridotto di variabili che siano in grado di classificare correttamente i campioni in base al comportamento delle variabili stesse. L'elaborazione dei diversi dataset avviene attraverso diverse fasi; si comincia con una un'analisi discriminante a coppie per identificare le performance di ogni coppia di variabili per poi passare alla ricerca delle coppie più performanti attraverso un processo che combina la Teoria dei Network con la Cross Validation. Una volta ottenuta la signature si conclude l'elaborazione con una validazione per avere un'analisi quantitativa del successo o meno del metodo.