998 resultados para Bayesian P-splines
Resumo:
Cette thèse porte sur l'analyse bayésienne de données fonctionnelles dans un contexte hydrologique. L'objectif principal est de modéliser des données d'écoulements d'eau d'une manière parcimonieuse tout en reproduisant adéquatement les caractéristiques statistiques de celles-ci. L'analyse de données fonctionnelles nous amène à considérer les séries chronologiques d'écoulements d'eau comme des fonctions à modéliser avec une méthode non paramétrique. Dans un premier temps, les fonctions sont rendues plus homogènes en les synchronisant. Ensuite, disposant d'un échantillon de courbes homogènes, nous procédons à la modélisation de leurs caractéristiques statistiques en faisant appel aux splines de régression bayésiennes dans un cadre probabiliste assez général. Plus spécifiquement, nous étudions une famille de distributions continues, qui inclut celles de la famille exponentielle, de laquelle les observations peuvent provenir. De plus, afin d'avoir un outil de modélisation non paramétrique flexible, nous traitons les noeuds intérieurs, qui définissent les éléments de la base des splines de régression, comme des quantités aléatoires. Nous utilisons alors le MCMC avec sauts réversibles afin d'explorer la distribution a posteriori des noeuds intérieurs. Afin de simplifier cette procédure dans notre contexte général de modélisation, nous considérons des approximations de la distribution marginale des observations, nommément une approximation basée sur le critère d'information de Schwarz et une autre qui fait appel à l'approximation de Laplace. En plus de modéliser la tendance centrale d'un échantillon de courbes, nous proposons aussi une méthodologie pour modéliser simultanément la tendance centrale et la dispersion de ces courbes, et ce dans notre cadre probabiliste général. Finalement, puisque nous étudions une diversité de distributions statistiques au niveau des observations, nous mettons de l'avant une approche afin de déterminer les distributions les plus adéquates pour un échantillon de courbes donné.
Resumo:
Au cours du siècle dernier, nous avons pu observer une diminution remarquable de la mortalité dans toutes les régions du monde, en particulier dans les pays développés. Cette chute a été caractérisée par des modifications importantes quant à la répartition des décès selon l'âge, ces derniers ne se produisant plus principalement durant les premiers âges de la vie mais plutôt au-delà de l'âge de 65 ans. Notre étude s'intéresse spécifiquement au suivi fin et détaillé des changements survenus dans la distribution des âges au décès chez les personnes âgées. Pour ce faire, nous proposons une nouvelle méthode de lissage non paramétrique souple qui repose sur l'utilisation des P-splines et qui mène à une expression précise de la mortalité, telle que décrite par les données observées. Les résultats de nos analyses sont présentés sous forme d'articles scientifiques, qui s'appuient sur les données de la Human Mortality Database, la Base de données sur la longévité canadienne et le Registre de la population du Québec ancien reconnues pour leur fiabilité. Les conclusions du premier article suggèrent que certains pays à faible mortalité auraient récemment franchi l'ère de la compression de la mortalité aux grands âges, ère durant laquelle les décès au sein des personnes âgées tendent à se concentrer dans un intervalle d'âge progressivement plus court. En effet, depuis le début des années 1990 au Japon, l'âge modal au décès continue d'augmenter alors que le niveau d'hétérogénéité des durées de vie au-delà de cet âge demeure inchangé. Nous assistons ainsi à un déplacement de l'ensemble des durées de vie adultes vers des âges plus élevés, sans réduction parallèle de la dispersion de la mortalité aux grands âges. En France et au Canada, les femmes affichent aussi de tels développements depuis le début des années 2000, mais le scénario de compression de la mortalité aux grands âges est toujours en cours chez les hommes. Aux États-Unis, les résultats de la dernière décennie s'avèrent inquiétants car pour plusieurs années consécutives, l'âge modal au décès, soit la durée de vie la plus commune des adultes, a diminué de manière importante chez les deux sexes. Le second article s'inscrit dans une perspective géographique plus fine et révèle que les disparités provinciales en matière de mortalité adulte au Canada entre 1930 et 2007, bien décrites à l'aide de surfaces de mortalité lissées, sont importantes et méritent d'être suivies de près. Plus spécifiquement, sur la base des trajectoires temporelles de l'âge modal au décès et de l'écart type des âges au décès situés au-delà du mode, les différentiels de mortalité aux grands âges entre provinces ont à peine diminué durant cette période, et cela, malgré la baisse notable de la mortalité dans toutes les provinces depuis le début du XXe siècle. Également, nous constatons que ce sont précisément les femmes issues de provinces de l'Ouest et du centre du pays qui semblent avoir franchi l'ère de la compression de la mortalité aux grands âges au Canada. Dans le cadre du troisième et dernier article de cette thèse, nous étudions la longévité des adultes au XVIIIe siècle et apportons un nouvel éclairage sur la durée de vie la plus commune des adultes à cette époque. À la lumière de nos résultats, l'âge le plus commun au décès parmi les adultes canadiens-français a augmenté entre 1740-1754 et 1785-1799 au Québec ancien. En effet, l'âge modal au décès est passé d'environ 73 ans à près de 76 ans chez les femmes et d'environ 70 ans à 74 ans chez les hommes. Les conditions de vie particulières de la population canadienne-française à cette époque pourraient expliquer cet accroissement.
Resumo:
Nous avons choisi de focaliser nos analyses sur les inégalités sociales de mortalité spécifiquement aux grands âges. Pour ce faire, l'utilisation de l'âge modal au décès combiné à la dispersion des décès au-delà de cet âge s'avère particulièrement adapté pour capter ces disparités puisque ces mesures ne sont pas tributaires de la mortalité prématurée. Ainsi, à partir de la distribution des âges au décès selon le niveau de défavorisation, au Québec au cours des périodes 2000-2002 et 2005-2007, nous avons déterminé l'âge le plus commun au décès et la dispersion des durées de vie au-delà de celui-ci. L'estimation de la distribution des décès selon l'âge et le niveau de défavorisation repose sur une approche non paramétrique de lissage par P-splines développée par Nadine Ouellette dans le cadre de sa thèse de doctorat. Nos résultats montrent que l'âge modal au décès ne permet pas de détecter des disparités dans la mortalité des femmes selon le niveau de défavorisation au Québec en 2000-2002 et en 2005-2007. Néanmoins, on assiste à un report de la mortalité vers des âges plus avancés alors que la compression de la mortalité semble s'être stabilisée. Pour les hommes, les inégalités sociales de mortalité sont particulièrement importantes entre le sous-groupe le plus favorisé et celui l'étant le moins. On constate un déplacement de la durée de vie la plus commune des hommes vers des âges plus élevés et ce, peu importe le niveau de défavorisation. Cependant, contrairement à leurs homologues féminins, le phénomène de compression de la mortalité semble toujours s'opérer.
Resumo:
Conselho Nacional de Desenvolvimento Científico e Tecnológico (CNPq)
Resumo:
Conselho Nacional de Desenvolvimento Científico e Tecnológico (CNPq)
Resumo:
Studies investigating the use of random regression models for genetic evaluation of milk production in Zebu cattle are scarce. In this study, 59,744 test-day milk yield records from 7,810 first lactations of purebred dairy Gyr (Bos indicus) and crossbred (dairy Gyr × Holstein) cows were used to compare random regression models in which additive genetic and permanent environmental effects were modeled using orthogonal Legendre polynomials or linear spline functions. Residual variances were modeled considering 1, 5, or 10 classes of days in milk. Five classes fitted the changes in residual variances over the lactation adequately and were used for model comparison. The model that fitted linear spline functions with 6 knots provided the lowest sum of residual variances across lactation. On the other hand, according to the deviance information criterion (DIC) and Bayesian information criterion (BIC), a model using third-order and fourth-order Legendre polynomials for additive genetic and permanent environmental effects, respectively, provided the best fit. However, the high rank correlation (0.998) between this model and that applying third-order Legendre polynomials for additive genetic and permanent environmental effects, indicates that, in practice, the same bulls would be selected by both models. The last model, which is less parameterized, is a parsimonious option for fitting dairy Gyr breed test-day milk yield records. © 2013 American Dairy Science Association.
Resumo:
The objective of this paper is to model variations in test-day milk yields of first lactations of Holstein cows by RR using B-spline functions and Bayesian inference in order to fit adequate and parsimonious models for the estimation of genetic parameters. They used 152,145 test day milk yield records from 7317 first lactations of Holstein cows. The model established in this study was additive, permanent environmental and residual random effects. In addition, contemporary group and linear and quadratic effects of the age of cow at calving were included as fixed effects. Authors modeled the average lactation curve of the population with a fourth-order orthogonal Legendre polynomial. They concluded that a cubic B-spline with seven random regression coefficients for both the additive genetic and permanent environment effects was to be the best according to residual mean square and residual variance estimates. Moreover they urged a lower order model (quadratic B-spline with seven random regression coefficients for both random effects) could be adopted because it yielded practically the same genetic parameter estimates with parsimony. (C) 2012 Elsevier B.V. All rights reserved.
Resumo:
Gene clustering is a useful exploratory technique to group together genes with similar expression levels under distinct cell cycle phases or distinct conditions. It helps the biologist to identify potentially meaningful relationships between genes. In this study, we propose a clustering method based on multivariate normal mixture models, where the number of clusters is predicted via sequential hypothesis tests: at each step, the method considers a mixture model of m components (m = 2 in the first step) and tests if in fact it should be m - 1. If the hypothesis is rejected, m is increased and a new test is carried out. The method continues (increasing m) until the hypothesis is accepted. The theoretical core of the method is the full Bayesian significance test, an intuitive Bayesian approach, which needs no model complexity penalization nor positive probabilities for sharp hypotheses. Numerical experiments were based on a cDNA microarray dataset consisting of expression levels of 205 genes belonging to four functional categories, for 10 distinct strains of Saccharomyces cerevisiae. To analyze the method's sensitivity to data dimension, we performed principal components analysis on the original dataset and predicted the number of classes using 2 to 10 principal components. Compared to Mclust (model-based clustering), our method shows more consistent results.
Resumo:
We propose and analyze two different Bayesian online algorithms for learning in discrete Hidden Markov Models and compare their performance with the already known Baldi-Chauvin Algorithm. Using the Kullback-Leibler divergence as a measure of generalization we draw learning curves in simplified situations for these algorithms and compare their performances.
Resumo:
Chagas disease is still a major public health problem in Latin America. Its causative agent, Trypanosoma cruzi, can be typed into three major groups, T. cruzi I, T. cruzi II and hybrids. These groups each have specific genetic characteristics and epidemiological distributions. Several highly virulent strains are found in the hybrid group; their origin is still a matter of debate. The null hypothesis is that the hybrids are of polyphyletic origin, evolving independently from various hybridization events. The alternative hypothesis is that all extant hybrid strains originated from a single hybridization event. We sequenced both alleles of genes encoding EF-1 alpha, actin and SSU rDNA of 26 T. cruzi strains and DHFR-TS and TR of 12 strains. This information was used for network genealogy analysis and Bayesian phylogenies. We found T. cruzi I and T. cruzi II to be monophyletic and that all hybrids had different combinations of T. cruzi I and T. cruzi II haplotypes plus hybrid-specific haplotypes. Bootstrap values (networks) and posterior probabilities (Bayesian phylogenies) of clades supporting the monophyly of hybrids were far below the 95% confidence interval, indicating that the hybrid group is polyphyletic. We hypothesize that T. cruzi I and T. cruzi II are two different species and that the hybrids are extant representatives of independent events of genome hybridization, which sporadically have sufficient fitness to impact on the epidemiology of Chagas disease.
Resumo:
Motivation: Understanding the patterns of association between polymorphisms at different loci in a population ( linkage disequilibrium, LD) is of fundamental importance in various genetic studies. Many coefficients were proposed for measuring the degree of LD, but they provide only a static view of the current LD structure. Generative models (GMs) were proposed to go beyond these measures, giving not only a description of the actual LD structure but also a tool to help understanding the process that generated such structure. GMs based in coalescent theory have been the most appealing because they link LD to evolutionary factors. Nevertheless, the inference and parameter estimation of such models is still computationally challenging. Results: We present a more practical method to build GM that describe LD. The method is based on learning weighted Bayesian network structures from haplotype data, extracting equivalence structure classes and using them to model LD. The results obtained in public data from the HapMap database showed that the method is a promising tool for modeling LD. The associations represented by the learned models are correlated with the traditional measure of LD D`. The method was able to represent LD blocks found by standard tools. The granularity of the association blocks and the readability of the models can be controlled in the method. The results suggest that the causality information gained by our method can be useful to tell about the conservability of the genetic markers and to guide the selection of subset of representative markers.
Resumo:
This paper describes the modeling of a weed infestation risk inference system that implements a collaborative inference scheme based on rules extracted from two Bayesian network classifiers. The first Bayesian classifier infers a categorical variable value for the weed-crop competitiveness using as input categorical variables for the total density of weeds and corresponding proportions of narrow and broad-leaved weeds. The inferred categorical variable values for the weed-crop competitiveness along with three other categorical variables extracted from estimated maps for the weed seed production and weed coverage are then used as input for a second Bayesian network classifier to infer categorical variables values for the risk of infestation. Weed biomass and yield loss data samples are used to learn the probability relationship among the nodes of the first and second Bayesian classifiers in a supervised fashion, respectively. For comparison purposes, two types of Bayesian network structures are considered, namely an expert-based Bayesian classifier and a naive Bayes classifier. The inference system focused on the knowledge interpretation by translating a Bayesian classifier into a set of classification rules. The results obtained for the risk inference in a corn-crop field are presented and discussed. (C) 2009 Elsevier Ltd. All rights reserved.
Resumo:
Joint generalized linear models and double generalized linear models (DGLMs) were designed to model outcomes for which the variability can be explained using factors and/or covariates. When such factors operate, the usual normal regression models, which inherently exhibit constant variance, will under-represent variation in the data and hence may lead to erroneous inferences. For count and proportion data, such noise factors can generate a so-called overdispersion effect, and the use of binomial and Poisson models underestimates the variability and, consequently, incorrectly indicate significant effects. In this manuscript, we propose a DGLM from a Bayesian perspective, focusing on the case of proportion data, where the overdispersion can be modeled using a random effect that depends on some noise factors. The posterior joint density function was sampled using Monte Carlo Markov Chain algorithms, allowing inferences over the model parameters. An application to a data set on apple tissue culture is presented, for which it is shown that the Bayesian approach is quite feasible, even when limited prior information is available, thereby generating valuable insight for the researcher about its experimental results.
Resumo:
This paper applies Hierarchical Bayesian Models to price farm-level yield insurance contracts. This methodology considers the temporal effect, the spatial dependence and spatio-temporal models. One of the major advantages of this framework is that an estimate of the premium rate is obtained directly from the posterior distribution. These methods were applied to a farm-level data set of soybean in the State of the Parana (Brazil), for the period between 1994 and 2003. The model selection was based on a posterior predictive criterion. This study improves considerably the estimation of the fair premium rates considering the small number of observations.
Resumo:
Over the years, crop insurance programs became the focus of agricultural policy in the USA, Spain, Mexico, and more recently in Brazil. Given the increasing interest in insurance, accurate calculation of the premium rate is of great importance. We address the crop-yield distribution issue and its implications in pricing an insurance contract considering the dynamic structure of the data and incorporating the spatial correlation in the Hierarchical Bayesian framework. Results show that empirical (insurers) rates are higher in low risk areas and lower in high risk areas. Such methodological improvement is primarily important in situations of limited data.