Biblioteca Digital

952 resultados para Analisi Discriminante, Teoria dei Network, Cross-Validation, Validazione.

Applicazione del metodo QDanet_PRO alla classificazione di dati omici

Relevância:

100.00% 100.00%

Publicador:

Resumo:

Il presente lavoro di tesi si pone nell'ambito dell'analisi dati attraverso un metodo (QDanet_PRO), elaborato dal Prof. Remondini in collaborazine coi Dott. Levi e Malagoli, basato sull'analisi discriminate a coppie e sulla Teoria dei Network, che ha come obiettivo la classificazione di dati contenuti in dataset dove il numero di campioni è molto ridotto rispetto al numero di variabili. Attraverso questo studio si vogliono identificare delle signature, ovvero un'insieme ridotto di variabili che siano in grado di classificare correttamente i campioni in base al comportamento delle variabili stesse. L'elaborazione dei diversi dataset avviene attraverso diverse fasi; si comincia con una un'analisi discriminante a coppie per identificare le performance di ogni coppia di variabili per poi passare alla ricerca delle coppie più performanti attraverso un processo che combina la Teoria dei Network con la Cross Validation. Una volta ottenuta la signature si conclude l'elaborazione con una validazione per avere un'analisi quantitativa del successo o meno del metodo.

Caratterizzazione della misura di entropia di singolo nodo nell'ambito della teoria statistica dei network

Relevância:

100.00% 100.00%

Publicador:

Resumo:

In questo lavoro si è affrontata la definizione e la caratterizzazione di una misura di entropia di singolo nodo nell’ambito della teoria statistica dei network, per ottenere informazioni a livello di singolo nodo a fini di analisi e classificazione. Sono state introdotte e studiate alcune proprietà di questi osservabili in quanto la Network Entropy, precedentemente definita e utilizzata nello stesso contesto, fornisce un’informazione globale a livello dell’intero network. I risultati delle analisi svolte con questa definizione sono stati confrontati con una seconda definizione di entropia di singolo nodo proveniente dalla letteratura, applicando entrambe le misure allo stesso problema di caratterizzazione di due classi di nodi all’interno di un network

Analisi della rilevanza nei parchi d'attrazioni mediante la teoria dei grafi

Relevância:

100.00% 100.00%

Publicador:

Resumo:

Studio dell'applicabilità della teoria dei grafi nei parchi d'attrazioni.

Lezioni sulla teoria dei numeri algebrici e principi d'aritmetica analitica. Corso d'analisi 1920-21, 2⁰ semestre.

Relevância:

100.00% 100.00%

Publicador:

Resumo:

Lithographed.

Teoria dei gruppi di trasformazioni; lezioni di analisi superiore fatte nella R. Università di Messina, anno sc. 1897-98; raccolte dal Dott. Domenico Apreda.

Relevância:

100.00% 100.00%

Publicador:

Resumo:

Lithographed.

Gli esiti scolastici nelle scuole di secondo grado di Bologna: un'applicazione della teoria dei modelli a curva latente

Relevância:

100.00% 100.00%

Publicador:

Resumo:

Nella presente analisi si è avuta l’eccezionale disponibilità di dati longitudinali su molti individui (6000studenti frequentanti le scuole superiori bolognesi). Per ottenere un modello che al meglio spiegasse e riproducesse l’andamento degli esiti scolastici (promozione alla classe successiva) tenendo conto del percorso scolastico nel tempo, si è scelto il modello a curva latente condizionato. La variabile risposta è combinazione lineare dell’esito di fine anno (Promosso/Non promosso); riassume, per ogni studente/anno scolastico, classe frequentata ed esito finale. Le variabili esplicative sono state selezionate tra le informazioni disponibili per gli individui. Vengono presentati alcuni dati aggregati, poi descritti i dati individuali che entreranno nel modello, evidenziando la composizione degli studenti. La prima fase è la stima del modello logistico, con specificazione delle criticità, che hanno indotto alla scelta successiva del modello dipendente dal tempo. Dopo la descrizione della metodologia principale utilizzata, la teoria del conditionalLCM, e la selezione degli indicatori di fitting, viene delineata la procedura di stima, e raggiunto il modello ottimale. Le variabili significative per spiegare l’andamento delle promozioni individuali nel tempo risultano: cittadinanza (italiani con risultati significativamente migliori degli stranieri), sesso (ragazze con percorso scolastico mediamente migliore dei ragazzi: la differenza risulta però significativa soltanto negli istituti tecnici e professionali), tipologia di scuola frequentata (studenti del liceo con risultati significativamente migliori di chi frequenta altri tipi di istituto). I risultati risultano fortemente dipendenti dai dati impiegati, specie riguardo al limite territoriale. Precedenti analisi evidenziavano una forte differenziazione dei risultati scolastici tra studenti del nord e del sud Italia, oltre che tra studenti dei comuni maggiormente popolati e studenti dei comuni di provincia. Sarebbe interessante disporre di dati individuali analoghi a quelli qui utilizzati, ma riferiti all’intero territorio nazionale, oppure ad un zona maggiormente vasta dell’Italia, onde saggiare l’entità dell’influenza sul percorso scolastico,ed in particolare sulla regolarità, della differenza territoriale.

Analisi della stabilità dei risultati dei test di risposta termica: prove in campo, confronto e analisi critica per diversi metodi di esecuzione e modellizzazione

Relevância:

100.00% 100.00%

Publicador:

Resumo:

Il Test di Risposta Termica (Thermal Response Test-TRT) (Mogenson,1983) è il test esistente con il più alto grado di accuratezza per la caratterizzazione del reservoir geotermico superficiale. Il test consiste in una simulazione in situ del funzionamento di un sistema a circuito chiuso di sfruttamento dell’energia geotermica, per un periodo limitato di tempo, attraverso l’iniezione o estrazione di calore a potenza costante all’interno del geo-scambiatore (Borehole Heat Exchanger-BHE). Dall’analisi della variazione delle temperature del fluido circolante, è possibile avere una stima delle proprietà termiche medie del volume del reservoir geotermico interessato dal test. Le grandezze principali per la caratterizzazione di un serbatoio geotermico sono la conduttività termica (λ), la capacità termica volumetrica (c), la temperatura indisturbata del suolo (Tg) e la resistenza termica del pozzo (Rb); la loro determinazione è necessaria per il corretto progettazione degli geo-scambiatori. I risultati del TRT sono tuttavia sensibili alle condizioni al contorno spazio-temporali quali ad es.: variazione della temperatura del terreno, movimento d’acqua di falda, condizioni metereologiche, eventi stagionali, ecc. Questo lavoro vuole: i) introdurre uno studio sui problemi di caratterizzazione del reservoir geotermico superficiale, in particolare analizzando l’effetto che il movimento d’acqua di falda ha sui parametri termici; ii) analizzare la sensitività dei risultati del test alle variabilità dei parametri caratteristici del funzionamento delle attrezzature. Parte del lavoro della mia tesi è stata svolta in azienda per un periodo di 4 mesi presso la “Groenholland Geo Energy systems” che ha sede ad Amsterdam in Olanda. Tre diversi esperimenti sono stati realizzati sullo stesso sito (stratigrafia nota del terreno: argilla, sabbia fine e sabbia grossa) usando una sonda profonda 30 metri e diversi pozzi per l’estrazione d’acqua e per monitorare gli effetti in prossimità del geo scambiatore. I risultati degli esperimenti sono stati molto diversi tra di loro, non solo in termini di dati registrati (temperature del fluido termovettore), ma in termini dei valori dei parametri ottenuti elaborando i dati. In particolare non è sufficiente adottare il modello classico della sorgente lineare infinita (Infinite Line Source Solution- ILS) (Ingersoll and Plass, 1948), il quale descrive il trasferimento di calore per conduzione in un mezzo omogeneo indefinito a temperatura costante. Infatti, lo scambio di calore avviene anche tramite convezione causata dal movimento d’acqua di falda, non identificabile mediante gli approcci classici tipo CUSUM test (Cumulative Sum test) (Brown e altri,1975) Lo studio della tesi vuole dare un quadro di riferimento per correlare la variabilità dei risultati con la variabilità delle condizioni al contorno. L’analisi integra le metodologie classiche (ILS) con un approccio geostatistico utile a comprendere i fenomeni e fluttuazioni che caratterizzano il test. Lo studio delle principali variabili e parametri del test, quali temperatura in ingresso e uscita del fluido termovettore, portata del fluido e potenza iniettata o estratta, è stato sviluppato mediante: il variogramma temporale, ovvero la semivarianza dell’accrescimento, che esprime il tipo di autocorrelazione temporale della variabile in esame; la covarianza incrociata temporale, ovvero la covarianza fra due variabili del sistema, che ne definisce quantitativamente il grado di correlazione in funzionamento del loro sfasamento temporale. L’approccio geostatistico proposto considera la temperatura del fluido Tf come una funzione aleatoria (FA) non stazionaria nel tempo (Chiles, 1999), il cui trend è formalmente definito, ma deve essere identificato numericamente. Si considera quindi un classico modello a residuo; in cui la FA è modellizzata come la somma di un termine deterministico, la media (il valore atteso) m(t),coincidente col modello descritto dalla teoria della sorgente lineare infinità, e di un termine aleatorio, la fluttuazione, Y(t). Le variabili portata e potenza sono invece considerate delle funzioni aleatorie stazionarie nel tempo, ovvero a media costante. Da questo studio di Tesi si sono raggiunte delle conclusioni molto importanti per lo studio del TRT: Confronto tra gli esperimenti in estrazione di calore, con e senza movimento d’acqua di falda: si studia l’effetto indotto dalla falda sul TRT. E’ possibile caratterizzare quantitativamente l’incremento della conducibilità termica equivalente legata a fenomeni convettivi dovuti al movimento d’acqua di falda. Inoltre, i variogrammi sperimentali evidenziano periodicità simili nei due casi e legate al funzionamento della pompa di calore e della componentistica associata ed alla circolazione del fluido termovettore all’interno della sonda. Tuttavia, la componente advettiva ha un effetto di smorzamento sulle piccole periodicità dei variogrammi, ma di aumento dell’ampiezza delle periodicità maggiori a causa del funzionamento della pompa di calore che deve fornire maggiore energia al sistema per bilanciare le dispersioni dovute al movimento d’acqua di falda. Confronto fra estrazione ed iniezione di calore, con movimento d’acqua di falda: si studia la significatività dei risultati nei due casi. L’analisi delle variografie evidenzia significative differenze nella struttura dei variogrammi sperimentali. In particolare, nel test con iniezione di calore i variogrammi sperimentali delle temperature hanno valori sistematicamente inferiori, circostanza che assicura una migliore precisione nella stima dei parametri termici. Quindi eseguire il TRT in iniezione di calore risulta più preciso. Dall’analisi dei variogrammi sperimentali delle singole variabili quali temperatura del fluido in ingresso e uscita all’interno del geoscambiatore è stato confermato il fenomeno di smorzamento delle oscillazioni da parte del terreno. Dall’analisi delle singole variabili del test (temperature, potenza, portata) è stata confermata l’indipendenza temporale fra portate e temperature. Ciò è evidenziato dalle diverse strutture dei variogrammi diretti e dalle covarianze incrociate prossime a zero. Mediante correlogrami è stato dimostrato la possibilità di calcolare il tempo impiegato dal fluido termovettore per circolare all’interno della sonda. L’analisi geostatistica ha permesso quindi di studiare in dettaglio la sensitività dei risultati del TRT alle diverse condizioni al contorno, quelle legate al reservoir e quelle legate al funzionamento delle attrezzature

Teoria dei giochi ed evoluzione La selezione naturale

Relevância:

100.00% 100.00%

Publicador:

Resumo:

La tesi fornisce una chiave di lettura del rapporto che si instaura tra la biologia e la matematica, nello specificio nell'analisi della Teoria dell'Evoluzione proposta da Charles Darwin e del processo di Selezione Naturale attraverso l'utilizzo di modelli matematici forniti dalla Teoria dei giochi e la Teoria dei giochi Evolutivi.

Stratigrafia fisica ed analisi di facies dei depositi torbiditici della Formazione delle Arenarie del Monte Cervarola tra la Val Secchia e la Val Scoltenna (Aquitaniano-Burdigaliano, Appennino Settentrionale)

Relevância:

100.00% 100.00%

Publicador:

Resumo:

The Cervarola Sandstones Formation (CSF), Aquitanian-Burdigalian in age, was deposited in an elongate, NW-stretched foredeep basin formed in front of the growing Northern Apennines orogenic wedge. The stratigraphic succession of the CSF, in the same way of other Apennine foredeep deposits, records the progressive closure of the basin due to the propagation of thrust fronts toward north-east, i.e. toward the outer and shallower foreland ramp. This process produce a complex foredeep characterized by synsedimentary structural highs and depocenters that can strongly influence the lateral and vertical turbidite facies distribution. Of consequence the main aim of this work is to describe and discuss this influence on the basis of a new high-resolution stratigraphic framework performed by measuring ten stratigraphic logs, for a total thickness of about 2000m, between the Secchia and Scoltenna Valleys (30km apart). In particular, the relationship between the turbidite sedimentation and the ongoing tectonic activity during the foredeep evolution has been describe through various stratigraphic cross sections oriented parallel and perpendicular to the main tectonic structures. On the basis of the high resolution physical stratigraphy of the studied succession, we propose a facies tract and an evolutionary model for the Cervarola Sandstones in the studied area. Thanks to these results and the analogies with others foredeep deposits of the northern Apennines, such as the Marnoso-arenacea Formation, the Cervarola basin has been interpreted as a highly confined foredeep controlled by an intense synsedimentary tectonic activity. The most important evidences supporting this hypothesis are: 1) the upward increase, in the studied stratigraphic succession (about 1000m thick), of sandstone/mudstone ratio, grain sizes and Ophiomorpha-type trace fossils testifying the high degree of flow deceleration related to the progressive closure and uplift of the foredeep. 2) the occurrence in the upper part of the stratigraphic succession of coarse-grained massive sandstones overlain by tractive structures such as megaripples and traction carpets passing downcurrent into fine-grained laminated contained-reflected beds. This facies tract is interpreted as related to deceleration and decoupling of bipartite flows with the deposition of the basal dense flows and bypass of the upper turbulent flows. 3) the widespread occurrence of contained reflected beds related to morphological obstacles created by tectonic structures parallel and perpendicular to the basin axis (see for example the Pievepelago line). 4) occurrence of intra-formational slumps, constituted by highly deformed portion of fine-grained succession, indicating a syn-sedimentary tectonic activity of the tectonic structures able to destabilize the margins of the basin. These types of deposits increase towards the upper part of the stratigraphic succession (see points 1 and 2) 5) the impressive lateral facies changes between intrabasinal topographic highs characterized by fine-grained and thin sandstone beds and marlstones and depocenters characterized by thick to very thick coarse-grained massive sandstones. 6) the common occurrence of amalgamation surfaces, flow impact structures and mud-draped scours related to sudden deceleration of the turbidite flows induced by the structurally-controlled confinement and morphological irregularities. In conclusion, the CSF has many analogies with the facies associations occurring in other tectonically-controlled foredeeps such as those of Marnoso-arenacea Formation (northern Italy) and Annot Sandstones (southern France) showing how thrust fronts and transversal structures moving towards the foreland, were able to produce a segmented foredeep that can strongly influence the turbidity current deposition.

Network approaches for the analysis of resting state fMRI data

Relevância:

100.00% 100.00%

Publicador:

Resumo:

Negli ultimi anni la teoria dei network è stata applicata agli ambiti più diversi, mostrando proprietà caratterizzanti tutti i network reali. In questo lavoro abbiamo applicato gli strumenti della teoria dei network a dati cerebrali ottenuti tramite MRI funzionale “resting”, provenienti da due esperimenti. I dati di fMRI sono particolarmente adatti ad essere studiati tramite reti complesse, poiché in un esperimento si ottengono tipicamente più di centomila serie temporali per ogni individuo, da più di 100 valori ciascuna. I dati cerebrali negli umani sono molto variabili e ogni operazione di acquisizione dati, così come ogni passo della costruzione del network, richiede particolare attenzione. Per ottenere un network dai dati grezzi, ogni passo nel preprocessamento è stato effettuato tramite software appositi, e anche con nuovi metodi da noi implementati. Il primo set di dati analizzati è stato usato come riferimento per la caratterizzazione delle proprietà del network, in particolare delle misure di centralità, dal momento che pochi studi a riguardo sono stati condotti finora. Alcune delle misure usate indicano valori di centralità significativi, quando confrontati con un modello nullo. Questo comportamento `e stato investigato anche a istanti di tempo diversi, usando un approccio sliding window, applicando un test statistico basato su un modello nullo pi`u complesso. Il secondo set di dati analizzato riguarda individui in quattro diversi stati di riposo, da un livello di completa coscienza a uno di profonda incoscienza. E' stato quindi investigato il potere che queste misure di centralità hanno nel discriminare tra diversi stati, risultando essere dei potenziali bio-marcatori di stati di coscienza. E’ stato riscontrato inoltre che non tutte le misure hanno lo stesso potere discriminante. Secondo i lavori a noi noti, questo `e il primo studio che caratterizza differenze tra stati di coscienza nel cervello di individui sani per mezzo della teoria dei network.

La moderna teoria dei fenomeni fisici (radioattività, ioni, elettroni) di Augusto Righi un esempio di divulgazione della teoria dell'elettrone di Lorentz

Relevância:

100.00% 100.00%

Publicador:

Resumo:

Augusto Righi (1850 - 1920) è stato un fisico bolognese di prestigio e fama internazionale, i suoi contributi scientifici spaziarono in quasi tutti gli ambiti della fisica noti al tempo; inoltre, egli era rinomato per essere un insegnate chiaro e comprensibile, che si dedicò anche alla comunicazione scientifica con la società. In questo lavoro di tesi: si analizza l’opera La moderna teoria dei fenomeni fisici (radioattività, ioni, elettroni) di Augusto Righi, come esempio divulgativo di successo della teoria degli elettroni di Lorentz; si delinea il quadro culturale e sociale presente a cavallo tra l’Ottocento e il Novecento in Italia, Inghilterra e Francia; si selezionano alcune opere della scena internazionale per meglio collocare il contributo di Righi; si definiscono le differenze terminologiche tra la divulgazione scientifica e la Public Understanding of Science sorta negli ultimi decenni. Si procede dunque col definire una griglia di analisi tramite la quale si studia la trasposizione attuata dagli autori sui contenuti scientifici della teoria degli elettroni, nel momento in cui questi vengono comunicati alla società. Si mostra come la teoria degli elettroni sia stata sviluppata da Lorentz durante la fine dell’Ottocento e come questa sia sviluppata in diversi sui scritti; si ricostruiscono quindi i natali di tale teoria, per poi delinearne le caratteristiche principali esposte da Lorentz, Righi, Pearson e Poincaré. In questo confronto consiste la prima analisi presentata in questo scritto ed effettuata mantenendo una visione ampia sulle opere dei quattro scienziati; successivamente si propone un esempio di analisi più profonda e dettagliata, riguardante in particolare uno dei punti principali della teoria di Lorentz: il rapporto fra la carica elettrica e la massa dell’elettrone.

Analisi e riprogettazione dei flussi logistici interni: il caso Marposs Spa

Relevância:

100.00% 100.00%

Publicador:

Resumo:

Le aziende per rispondere ai bisogni dei clienti, che oltre ad essere plurimi sono imminenti, devono possedere un solido sistema logistico. In particolare, la logistica interna resta una delle aree con maggiore potenziale di miglioramento, in quanto le aziende riescono ad esercitare un migliore controllo sui propri processi. Per tale ragione l’azienda Marposs Spa, leader nella fornitura di strumenti di precisione per la misura, ispezione e testing, intende agire sulla leva dei flussi logistici interni, puntando alla loro ottimizzazione. Infatti, lo scopo del presente elaborato è quello di gestire e riorganizzare i flussi logistici interni in maniera efficiente, fornendo una risposta al dubbio aziendale riguardante lo stoccaggio dei codici presso le ubicazioni errate. Dubbio lecito, considerando la presenza in azienda di circa 100.000 codici materiali, distribuiti su 80 magazzini, in 2 principali stabilimenti, per un totale di 38.000 m². Attraverso l’analisi dettagliata delle quantità movimentate tra i vari magazzini aziendali e la successiva costruzione della From-to chart dei flussi AS-IS, si identificano i codici da esaminare. A questi si aggiunge lo studio dei codici ubicati nei magazzini dello stabilimento 1, al fine di ottimizzare, con la revisione del layout, i flussi logistici interni. La creazione di un nuovo magazzino “codici comuni”, da posizionare centralmente nell’area produttiva dello stabilimento 1, e la successiva distribuzione a raggiera della merce presso i tavoli di lavoro, permette la riduzione complessiva delle movimentazioni. Parallelamente si estraggono, attraverso la formulazione di due criteri, i codici che necessitano il cambio ubicazione (e quindi di stabilimento), quelli per i quali la posizione viene consolidata e quelli che conviene porre centralmente nell’area produttiva. Si calcolano, infine, i benefici economici, temporali e di movimentazione, utilizzando le From-to charts differenziali relative.

PREDICTION OF FAT-FREE MASS BY BIOELECTRICAL IMPEDANCE ANALYSIS IN OLDER ADULTS FROM DEVELOPING COUNTRIES: A CROSS-VALIDATION STUDY USING THE DEUTERIUM DILUTION METHOD

Relevância:

100.00% 100.00%

Publicador:

Resumo:

Objective: Several limitations of published bioelectrical impedance analysis (BIA) equations have been reported. The aims were to develop in a multiethnic, elderly population a new prediction equation and cross-validate it along with some published BIA equations for estimating fat-free mass using deuterium oxide dilution as the reference method. Design and setting: Cross-sectional study of elderly from five developing countries. Methods: Total body water (TBW) measured by deuterium dilution was used to determine fat-free mass (FFM) in 383 subjects. Anthropometric and BIA variables were also measured. Only 377 subjects were included for the analysis, randomly divided into development and cross-validation groups after stratified by gender. Stepwise model selection was used to generate the model and Bland Altman analysis was used to test agreement. Results: FFM = 2.95 - 3.89 (Gender) + 0.514 (Ht(2)/Z) + 0.090 (Waist) + 0.156 (Body weight). The model fit parameters were an R(2), total F-Ratio, and the SEE of 0.88, 314.3, and 3.3, respectively. None of the published BIA equations met the criteria for agreement. The new BIA equation underestimated FFM by just 0.3 kg in the cross-validation sample. The mean of the difference between FFM by TBW and the new BIA equation were not significantly different; 95% of the differences were between the limits of agreement of -6.3 to 6.9 kg of FFM. There was no significant association between the mean of the differences and their averages (r = 0.008 and p = 0.2). Conclusions: This new BIA equation offers a valid option compared with some of the current published BIA equations to estimate FFM in elderly subjects from five developing countries.

Cross-validation of bioelectrical impedance analysis for the assessment of body composition in a representative sample of 6- to 13-year-old children.

Relevância:

100.00% 100.00%

Publicador:

Resumo:

BACKGROUND/OBJECTIVES: (1) To cross-validate tetra- (4-BIA) and octopolar (8-BIA) bioelectrical impedance analysis vs dual-energy X-ray absorptiometry (DXA) for the assessment of total and appendicular body composition and (2) to evaluate the accuracy of external 4-BIA algorithms for the prediction of total body composition, in a representative sample of Swiss children. SUBJECTS/METHODS: A representative sample of 333 Swiss children aged 6-13 years from the Kinder-Sportstudie (KISS) (ISRCTN15360785). Whole-body fat-free mass (FFM) and appendicular lean tissue mass were measured with DXA. Body resistance (R) was measured at 50 kHz with 4-BIA and segmental body resistance at 5, 50, 250 and 500 kHz with 8-BIA. The resistance index (RI) was calculated as height(2)/R. Selection of predictors (gender, age, weight, RI4 and RI8) for BIA algorithms was performed using bootstrapped stepwise linear regression on 1000 samples. We calculated 95% confidence intervals (CI) of regression coefficients and measures of model fit using bootstrap analysis. Limits of agreement were used as measures of interchangeability of BIA with DXA. RESULTS: 8-BIA was more accurate than 4-BIA for the assessment of FFM (root mean square error (RMSE)=0.90 (95% CI 0.82-0.98) vs 1.12 kg (1.01-1.24); limits of agreement 1.80 to -1.80 kg vs 2.24 to -2.24 kg). 8-BIA also gave accurate estimates of appendicular body composition, with RMSE < or = 0.10 kg for arms and < or = 0.24 kg for legs. All external 4-BIA algorithms performed poorly with substantial negative proportional bias (r> or = 0.48, P<0.001). CONCLUSIONS: In a representative sample of young Swiss children (1) 8-BIA was superior to 4-BIA for the prediction of FFM, (2) external 4-BIA algorithms gave biased predictions of FFM and (3) 8-BIA was an accurate predictor of segmental body composition.

Batch effect confounding leads to strong bias in performance estimates obtained by cross-validation.

Relevância:

100.00% 100.00%

Publicador:

Resumo:

BACKGROUND: With the large amount of biological data that is currently publicly available, many investigators combine multiple data sets to increase the sample size and potentially also the power of their analyses. However, technical differences ("batch effects") as well as differences in sample composition between the data sets may significantly affect the ability to draw generalizable conclusions from such studies. FOCUS: The current study focuses on the construction of classifiers, and the use of cross-validation to estimate their performance. In particular, we investigate the impact of batch effects and differences in sample composition between batches on the accuracy of the classification performance estimate obtained via cross-validation. The focus on estimation bias is a main difference compared to previous studies, which have mostly focused on the predictive performance and how it relates to the presence of batch effects. DATA: We work on simulated data sets. To have realistic intensity distributions, we use real gene expression data as the basis for our simulation. Random samples from this expression matrix are selected and assigned to group 1 (e.g., 'control') or group 2 (e.g., 'treated'). We introduce batch effects and select some features to be differentially expressed between the two groups. We consider several scenarios for our study, most importantly different levels of confounding between groups and batch effects. METHODS: We focus on well-known classifiers: logistic regression, Support Vector Machines (SVM), k-nearest neighbors (kNN) and Random Forests (RF). Feature selection is performed with the Wilcoxon test or the lasso. Parameter tuning and feature selection, as well as the estimation of the prediction performance of each classifier, is performed within a nested cross-validation scheme. The estimated classification performance is then compared to what is obtained when applying the classifier to independent data.

«
1
2
3
4
5
6
7
8
...
63
64
»