890 resultados para Analisi statistica, Multiple Testing Correction, sviluppo Libreria


Relevância:

100.00% 100.00%

Publicador:

Resumo:

Nell'era genomica moderna, la mole di dati generata dal sequenziamento genetico è diventata estremamente elevata. L’analisi di dati genomici richiede l’utilizzo di metodi di significatività statistica per quantificare la robustezza delle correlazioni individuate nei dati. La significatività statistica ci permette di capire se le relazioni nei dati che stiamo analizzando abbiano effettivamente un peso statistico, cioè se l’evento che stiamo analizzando è successo “per caso” o è effettivamente corretto pensare che avvenga con una probabilità utile. Indipendentemente dal test statistico utilizzato, in presenza di test multipli di verifica (“Multiple Testing Hypothesis”) è necessario utilizzare metodi per la correzione della significatività statistica (“Multiple Testing Correction”). Lo scopo di questa tesi è quello di rendere disponibili le implementazioni dei più noti metodi di correzione della significatività statistica. È stata creata una raccolta di questi metodi, sottoforma di libreria, proprio perché nel panorama bioinformatico moderno non è stato trovato nulla del genere.

Relevância:

100.00% 100.00%

Publicador:

Resumo:

In this work we aim to propose a new approach for preliminary epidemiological studies on Standardized Mortality Ratios (SMR) collected in many spatial regions. A preliminary study on SMRs aims to formulate hypotheses to be investigated via individual epidemiological studies that avoid bias carried on by aggregated analyses. Starting from collecting disease counts and calculating expected disease counts by means of reference population disease rates, in each area an SMR is derived as the MLE under the Poisson assumption on each observation. Such estimators have high standard errors in small areas, i.e. where the expected count is low either because of the low population underlying the area or the rarity of the disease under study. Disease mapping models and other techniques for screening disease rates among the map aiming to detect anomalies and possible high-risk areas have been proposed in literature according to the classic and the Bayesian paradigm. Our proposal is approaching this issue by a decision-oriented method, which focus on multiple testing control, without however leaving the preliminary study perspective that an analysis on SMR indicators is asked to. We implement the control of the FDR, a quantity largely used to address multiple comparisons problems in the eld of microarray data analysis but which is not usually employed in disease mapping. Controlling the FDR means providing an estimate of the FDR for a set of rejected null hypotheses. The small areas issue arises diculties in applying traditional methods for FDR estimation, that are usually based only on the p-values knowledge (Benjamini and Hochberg, 1995; Storey, 2003). Tests evaluated by a traditional p-value provide weak power in small areas, where the expected number of disease cases is small. Moreover tests cannot be assumed as independent when spatial correlation between SMRs is expected, neither they are identical distributed when population underlying the map is heterogeneous. The Bayesian paradigm oers a way to overcome the inappropriateness of p-values based methods. Another peculiarity of the present work is to propose a hierarchical full Bayesian model for FDR estimation in testing many null hypothesis of absence of risk.We will use concepts of Bayesian models for disease mapping, referring in particular to the Besag York and Mollié model (1991) often used in practice for its exible prior assumption on the risks distribution across regions. The borrowing of strength between prior and likelihood typical of a hierarchical Bayesian model takes the advantage of evaluating a singular test (i.e. a test in a singular area) by means of all observations in the map under study, rather than just by means of the singular observation. This allows to improve the power test in small areas and addressing more appropriately the spatial correlation issue that suggests that relative risks are closer in spatially contiguous regions. The proposed model aims to estimate the FDR by means of the MCMC estimated posterior probabilities b i's of the null hypothesis (absence of risk) for each area. An estimate of the expected FDR conditional on data (\FDR) can be calculated in any set of b i's relative to areas declared at high-risk (where thenull hypothesis is rejected) by averaging the b i's themselves. The\FDR can be used to provide an easy decision rule for selecting high-risk areas, i.e. selecting as many as possible areas such that the\FDR is non-lower than a prexed value; we call them\FDR based decision (or selection) rules. The sensitivity and specicity of such rule depend on the accuracy of the FDR estimate, the over-estimation of FDR causing a loss of power and the under-estimation of FDR producing a loss of specicity. Moreover, our model has the interesting feature of still being able to provide an estimate of relative risk values as in the Besag York and Mollié model (1991). A simulation study to evaluate the model performance in FDR estimation accuracy, sensitivity and specificity of the decision rule, and goodness of estimation of relative risks, was set up. We chose a real map from which we generated several spatial scenarios whose counts of disease vary according to the spatial correlation degree, the size areas, the number of areas where the null hypothesis is true and the risk level in the latter areas. In summarizing simulation results we will always consider the FDR estimation in sets constituted by all b i's selected lower than a threshold t. We will show graphs of the\FDR and the true FDR (known by simulation) plotted against a threshold t to assess the FDR estimation. Varying the threshold we can learn which FDR values can be accurately estimated by the practitioner willing to apply the model (by the closeness between\FDR and true FDR). By plotting the calculated sensitivity and specicity (both known by simulation) vs the\FDR we can check the sensitivity and specicity of the corresponding\FDR based decision rules. For investigating the over-smoothing level of relative risk estimates we will compare box-plots of such estimates in high-risk areas (known by simulation), obtained by both our model and the classic Besag York Mollié model. All the summary tools are worked out for all simulated scenarios (in total 54 scenarios). Results show that FDR is well estimated (in the worst case we get an overestimation, hence a conservative FDR control) in small areas, low risk levels and spatially correlated risks scenarios, that are our primary aims. In such scenarios we have good estimates of the FDR for all values less or equal than 0.10. The sensitivity of\FDR based decision rules is generally low but specicity is high. In such scenario the use of\FDR = 0:05 or\FDR = 0:10 based selection rule can be suggested. In cases where the number of true alternative hypotheses (number of true high-risk areas) is small, also FDR = 0:15 values are well estimated, and \FDR = 0:15 based decision rules gains power maintaining an high specicity. On the other hand, in non-small areas and non-small risk level scenarios the FDR is under-estimated unless for very small values of it (much lower than 0.05); this resulting in a loss of specicity of a\FDR = 0:05 based decision rule. In such scenario\FDR = 0:05 or, even worse,\FDR = 0:1 based decision rules cannot be suggested because the true FDR is actually much higher. As regards the relative risk estimation, our model achieves almost the same results of the classic Besag York Molliè model. For this reason, our model is interesting for its ability to perform both the estimation of relative risk values and the FDR control, except for non-small areas and large risk level scenarios. A case of study is nally presented to show how the method can be used in epidemiology.

Relevância:

100.00% 100.00%

Publicador:

Resumo:

In this report, we describe a simple correction for multiple testing of single-nucleotide polymorphisms (SNPs) in linkage disequilibrium (LD) with each other, on the basis of the spectral decomposition (SpD) of matrices of pairwise LD between SNPs. This method provides a useful alternative to more computationally intensive permutation tests. Additionally, output from SNPSpD includes eigenvalues, principal-component coefficients, and factor "loadings" after varimax rotation, enabling the selection of a subset of SNPs that optimize the information in a genomic region.

Relevância:

100.00% 100.00%

Publicador:

Resumo:

La RNA interference è un processo attraverso il quale alcuni piccoli frammenti di RNA (19-25 nucleotidi) sono in grado di silenziare l'espressione genica. La sua scoperta, nel 1998, ha rivoluzionato le concezioni della biologia molecolare, minando le basi del cosiddetto Dogma Centrale. Si è visto che la RNAi riveste ruoli fondamentali in meccanismi di regolazione genica, nello spegnimento dell'espressione e funziona come meccanismo di difesa innata contro varie tipologie di virus. Proprio a causa di queste implicazioni richiama interesse non solo dal punto di vista scientifico, ma anche da quello medico, in quanto potrebbe essere impiegata per lo sviluppo di nuove cure. Nonostante la scoperta di tale azione desti la curiosità e l'interesse di molti, i vari processi coinvolti, soprattutto a livello molecolare, non sono ancora chiari. In questo lavoro si propongono i metodi di analisi di dati di un esperimento prodotto dall'Istituto di Biologia molecolare e cellulare di Strasburgo. Nell'esperimento in questione vengono studiate le funzioni che l'enzima Dicer-2 ha nel pathway - cioè la catena di reazioni biomolecolari - della RNA interference durante un'infezione virale nel moscerino della frutta Drosophila Melanogaster. Per comprendere in che modo Dicer-2 intervenga nel silenziamento bisogna capire in quali casi e quali parti di RNA vengono silenziate, a seconda del diverso tipo di mutazione dell'enzima stesso. Dunque è necessario sequenziare l'RNA nelle diverse condizioni sperimentali, ottenendo così i dati da analizzare. Parte dei metodi statistici che verranno proposti risultano poco convenzionali, come conseguenza della peculiarità e della difficoltà dei quesiti che l'esperimento mette in luce. Siccome le tematiche affrontate richiedono un approccio sempre più interdisciplinare, è aumentata considerevolmente la richiesta di esperti di altri settori scientifici come matematici, informatici, fisici, statistici e ingegneri. Questa collaborazione, grazie a una diversità di approccio ai problemi, può fornire nuovi strumenti di comprensione in ambiti che, fino a poco tempo fa, rientravano unicamente nella sfera di competenza dei biologi.

Relevância:

100.00% 100.00%

Publicador:

Resumo:

La tesi fornisce una panoramica delle principali metodologie di analisi dei dati utilizzando il software open source R e l’ambiente di sviluppo integrato (IDE) RStudio. Viene effettuata un’analisi descrittiva e quantitativa dei dati GICS, tassonomia industriale che cataloga le principali aziende per il processo di gestione e ricerca degli asset di investimento. Sono stati studiati i principali settori del mercato USA considerando il fatturato, le spese per il lobbying e tre indici che misurano il grado di collegamento fra industrie. Su questi dati si sono svolte delle analisi quantitative e si sono tentati alcuni modelli nell’ambito della regressione lineare semplice e multipla. Tale studio ha il compito di verificare eventuali interazioni fra le variabili o pattern di comportamento strategico societario durante il periodo 2007 - 2012, anni di rinnovo e miglioramento delle regolamentazioni in materia di lobbying negli Stati Uniti. Più nello specifico vengono presi in esame tre settori: IT, Health Care e Industrial dove viene studiato l’andamento del reddito medio e la spesa media in attività di lobbying dei settori. I risultati ottenuti mostrano l’utilità dei pacchetti di R per l’analisi dei dati: vengono individuati alcuni andamenti che, se confermati da ulteriori e necessarie analisi, potrebbero essere interessanti per capire non solo i meccanismi impliciti nell’attività di lobbying ma anche comportamenti anomali legati a questa attività.

Relevância:

100.00% 100.00%

Publicador:

Resumo:

Background

Biomedical researchers are now often faced with situations where it is necessary to test a large number of hypotheses simultaneously, eg, in comparative gene expression studies using high-throughput microarray technology. To properly control false positive errors the FDR (false discovery rate) approach has become widely used in multiple testing. The accurate estimation of FDR requires the proportion of true null hypotheses being accurately estimated. To date many methods for estimating this quantity have been proposed. Typically when a new method is introduced, some simulations are carried out to show the improved accuracy of the new method. However, the simulations are often very limited to covering only a few points in the parameter space.

Results

Here I have carried out extensive in silico experiments to compare some commonly used methods for estimating the proportion of true null hypotheses. The coverage of these simulations is unprecedented thorough over the parameter space compared to typical simulation studies in the literature. Thus this work enables us to draw conclusions globally as to the performance of these different methods. It was found that a very simple method gives the most accurate estimation in a dominantly large area of the parameter space. Given its simplicity and its overall superior accuracy I recommend its use as the first choice for estimating the proportion of true null hypotheses in multiple testing.

Relevância:

100.00% 100.00%

Publicador:

Resumo:

Most panel unit root tests are designed to test the joint null hypothesis of a unit root for each individual series in a panel. After a rejection, it will often be of interest to identify which series can be deemed to be stationary and which series can be deemed nonstationary. Researchers will sometimes carry out this classification on the basis of n individual (univariate) unit root tests based on some ad hoc significance level. In this paper, we demonstrate how to use the false discovery rate (FDR) in evaluating I(1)=I(0) classifications based on individual unit root tests when the size of the cross section (n) and time series (T) dimensions are large. We report results from a simulation experiment and illustrate the methods on two data sets.

Relevância:

100.00% 100.00%

Publicador:

Resumo:

This paper considers supply dynamics in the context of the Irish residential market. The analysis, in a multiple error-correction framework, reveals that although developers did respond to disequilibrium in supply, the rate of adjustment was relatively slow. In contrast, however, disequilibrium in demand did not impact upon supply, suggesting that inelastic supply conditions could explain the prolonged nature of the boom in the Irish market. Increased elasticity in the later stages of the boom may have been a contributory factor in the extent of the house price falls observed in recent years.

Relevância:

100.00% 100.00%

Publicador:

Resumo:

Il seguente lavoro di tesi si è concentrato sull'analisi statistica dei dati prodotti dall'imaging di risonanza magnetica di pazienti affetti da tumori di alto grado, in particolare glioblastoma multiforme. Le tipologie di acquisizione d'immagine utilizzate sono state l'imaging pesato in T1 e il Diffusion-Weighted Imaging (DWI). Lo studio è stato suddiviso in due fasi: nella prima è stato considerato un campione di pazienti affetti da glioblastoma multiforme che, dopo il trattamento, avessero manifestato una ricaduta della malattia; per questi pazienti è stato quantificato in che modo la dose erogata durante la terapia si sia distribuita sul target del trattamento, in particolare nella porzione di tessuto in cui andrà a svilupparsi la recidiva. Nella seconda fase, è stato selezionato un campione più ristretto che disponesse, per entrambe le modalità di imaging, di un'acquisizione pre-terapia e di un numero sufficiente di esami di follow up; questo al fine di seguire retrospettivamente l'evoluzione della patologia e analizzare tramite metodi statistici provenienti anche dalla texture analysis, i dati estratti dalle regioni tumorali. Entrambe le operazioni sono state svolte tramite la realizzazione di software dedicati, scritti in linguaggio Matlab. Nel primo capitolo vengono fornite le informazioni di base relative ai tumori cerebrali, con un'attenzione particolare al glioblastoma multiforme e alle sue modalità di trattamento. Nel secondo capitolo viene fatta una panoramica della fisica dell'imaging di risonanza magnetica e delle tecniche di formazione delle immagini, con un'ampia sezione è dedicata all'approfondimento dell'imaging in diffusione. Nel terzo capitolo viene descritto il progetto, i campioni e gli strumenti statistici e di texture analysis utilizzati in questo studio. Il quarto capitolo è dedicato alla descrizione puntuale dei software realizzati durante questo lavoro e nel quinto vengono mostrati i risultati ottenuti dall'applicazione di questi ultimi ai campioni di pazienti esaminati.

Relevância:

100.00% 100.00%

Publicador:

Resumo:

Nel presente documento verrà affrontata la messa a punto del banco di prova per la caratterizzazione del coefficiente d’attrito globale dei collegamenti bullonati, analizzando i parametri che influenzano la buona o cattiva realizzazione della prova e verrà stabilito se essi hanno influenza oppure no sulla prova; una volta ricavati e analizzati i parametri che influenzano la prova verranno effettuate prove per vedere l’intervallo di incertezza della misura del coefficiente d’attrito per comprendere l’affidabilità della prova; successivamente verrà studiata la differente lubrificazione nelle viti e analizzata quale zona di attrito ha un’incidenza maggiore e se è significativa, poi verranno analizzati due tipi di lubrificante e stabilito quale dei due da un migliore effetto e infine verranno analizzati alcuni parametri per vedere la loro influenza sul coefficiente d’attrito, verrà valutata se è significativa oppure no, e si valuterà quale ha più o meno effetto sul coefficiente d’attrito.

Relevância:

100.00% 100.00%

Publicador:

Resumo:

Si tratta di un'analisi della piattaforma di sviluppo per BPMN Activiti. Viene prima spiegata la notazione del Business Process Modeling e poi viene descritto il funzionamento e la struttura di Activiti. Infine viene spiegato come usare le API fornite insieme al motore.

Relevância:

100.00% 100.00%

Publicador:

Resumo:

An optimal multiple testing procedure is identified for linear hypotheses under the general linear model, maximizing the expected number of false null hypotheses rejected at any significance level. The optimal procedure depends on the unknown data-generating distribution, but can be consistently estimated. Drawing information together across many hypotheses, the estimated optimal procedure provides an empirical alternative hypothesis by adapting to underlying patterns of departure from the null. Proposed multiple testing procedures based on the empirical alternative are evaluated through simulations and an application to gene expression microarray data. Compared to a standard multiple testing procedure, it is not unusual for use of an empirical alternative hypothesis to increase by 50% or more the number of true positives identified at a given significance level.