984 resultados para Count data
Resumo:
Cette thèse présente des méthodes de traitement de données de comptage en particulier et des données discrètes en général. Il s'inscrit dans le cadre d'un projet stratégique du CRNSG, nommé CC-Bio, dont l'objectif est d'évaluer l'impact des changements climatiques sur la répartition des espèces animales et végétales. Après une brève introduction aux notions de biogéographie et aux modèles linéaires mixtes généralisés aux chapitres 1 et 2 respectivement, ma thèse s'articulera autour de trois idées majeures. Premièrement, nous introduisons au chapitre 3 une nouvelle forme de distribution dont les composantes ont pour distributions marginales des lois de Poisson ou des lois de Skellam. Cette nouvelle spécification permet d'incorporer de l'information pertinente sur la nature des corrélations entre toutes les composantes. De plus, nous présentons certaines propriétés de ladite distribution. Contrairement à la distribution multidimensionnelle de Poisson qu'elle généralise, celle-ci permet de traiter les variables avec des corrélations positives et/ou négatives. Une simulation permet d'illustrer les méthodes d'estimation dans le cas bidimensionnel. Les résultats obtenus par les méthodes bayésiennes par les chaînes de Markov par Monte Carlo (CMMC) indiquent un biais relatif assez faible de moins de 5% pour les coefficients de régression des moyennes contrairement à ceux du terme de covariance qui semblent un peu plus volatils. Deuxièmement, le chapitre 4 présente une extension de la régression multidimensionnelle de Poisson avec des effets aléatoires ayant une densité gamma. En effet, conscients du fait que les données d'abondance des espèces présentent une forte dispersion, ce qui rendrait fallacieux les estimateurs et écarts types obtenus, nous privilégions une approche basée sur l'intégration par Monte Carlo grâce à l'échantillonnage préférentiel. L'approche demeure la même qu'au chapitre précédent, c'est-à-dire que l'idée est de simuler des variables latentes indépendantes et de se retrouver dans le cadre d'un modèle linéaire mixte généralisé (GLMM) conventionnel avec des effets aléatoires de densité gamma. Même si l'hypothèse d'une connaissance a priori des paramètres de dispersion semble trop forte, une analyse de sensibilité basée sur la qualité de l'ajustement permet de démontrer la robustesse de notre méthode. Troisièmement, dans le dernier chapitre, nous nous intéressons à la définition et à la construction d'une mesure de concordance donc de corrélation pour les données augmentées en zéro par la modélisation de copules gaussiennes. Contrairement au tau de Kendall dont les valeurs se situent dans un intervalle dont les bornes varient selon la fréquence d'observations d'égalité entre les paires, cette mesure a pour avantage de prendre ses valeurs sur (-1;1). Initialement introduite pour modéliser les corrélations entre des variables continues, son extension au cas discret implique certaines restrictions. En effet, la nouvelle mesure pourrait être interprétée comme la corrélation entre les variables aléatoires continues dont la discrétisation constitue nos observations discrètes non négatives. Deux méthodes d'estimation des modèles augmentés en zéro seront présentées dans les contextes fréquentiste et bayésien basées respectivement sur le maximum de vraisemblance et l'intégration de Gauss-Hermite. Enfin, une étude de simulation permet de montrer la robustesse et les limites de notre approche.
Resumo:
Ma thèse est composée de trois chapitres reliés à l'estimation des modèles espace-état et volatilité stochastique. Dans le première article, nous développons une procédure de lissage de l'état, avec efficacité computationnelle, dans un modèle espace-état linéaire et gaussien. Nous montrons comment exploiter la structure particulière des modèles espace-état pour tirer les états latents efficacement. Nous analysons l'efficacité computationnelle des méthodes basées sur le filtre de Kalman, l'algorithme facteur de Cholesky et notre nouvelle méthode utilisant le compte d'opérations et d'expériences de calcul. Nous montrons que pour de nombreux cas importants, notre méthode est plus efficace. Les gains sont particulièrement grands pour les cas où la dimension des variables observées est grande ou dans les cas où il faut faire des tirages répétés des états pour les mêmes valeurs de paramètres. Comme application, on considère un modèle multivarié de Poisson avec le temps des intensités variables, lequel est utilisé pour analyser le compte de données des transactions sur les marchés financières. Dans le deuxième chapitre, nous proposons une nouvelle technique pour analyser des modèles multivariés à volatilité stochastique. La méthode proposée est basée sur le tirage efficace de la volatilité de son densité conditionnelle sachant les paramètres et les données. Notre méthodologie s'applique aux modèles avec plusieurs types de dépendance dans la coupe transversale. Nous pouvons modeler des matrices de corrélation conditionnelles variant dans le temps en incorporant des facteurs dans l'équation de rendements, où les facteurs sont des processus de volatilité stochastique indépendants. Nous pouvons incorporer des copules pour permettre la dépendance conditionnelle des rendements sachant la volatilité, permettant avoir différent lois marginaux de Student avec des degrés de liberté spécifiques pour capturer l'hétérogénéité des rendements. On tire la volatilité comme un bloc dans la dimension du temps et un à la fois dans la dimension de la coupe transversale. Nous appliquons la méthode introduite par McCausland (2012) pour obtenir une bonne approximation de la distribution conditionnelle à posteriori de la volatilité d'un rendement sachant les volatilités d'autres rendements, les paramètres et les corrélations dynamiques. Le modèle est évalué en utilisant des données réelles pour dix taux de change. Nous rapportons des résultats pour des modèles univariés de volatilité stochastique et deux modèles multivariés. Dans le troisième chapitre, nous évaluons l'information contribuée par des variations de volatilite réalisée à l'évaluation et prévision de la volatilité quand des prix sont mesurés avec et sans erreur. Nous utilisons de modèles de volatilité stochastique. Nous considérons le point de vue d'un investisseur pour qui la volatilité est une variable latent inconnu et la volatilité réalisée est une quantité d'échantillon qui contient des informations sur lui. Nous employons des méthodes bayésiennes de Monte Carlo par chaîne de Markov pour estimer les modèles, qui permettent la formulation, non seulement des densités a posteriori de la volatilité, mais aussi les densités prédictives de la volatilité future. Nous comparons les prévisions de volatilité et les taux de succès des prévisions qui emploient et n'emploient pas l'information contenue dans la volatilité réalisée. Cette approche se distingue de celles existantes dans la littérature empirique en ce sens que ces dernières se limitent le plus souvent à documenter la capacité de la volatilité réalisée à se prévoir à elle-même. Nous présentons des applications empiriques en utilisant les rendements journaliers des indices et de taux de change. Les différents modèles concurrents sont appliqués à la seconde moitié de 2008, une période marquante dans la récente crise financière.
Resumo:
Les données comptées (count data) possèdent des distributions ayant des caractéristiques particulières comme la non-normalité, l’hétérogénéité des variances ainsi qu’un nombre important de zéros. Il est donc nécessaire d’utiliser les modèles appropriés afin d’obtenir des résultats non biaisés. Ce mémoire compare quatre modèles d’analyse pouvant être utilisés pour les données comptées : le modèle de Poisson, le modèle binomial négatif, le modèle de Poisson avec inflation du zéro et le modèle binomial négatif avec inflation du zéro. À des fins de comparaisons, la prédiction de la proportion du zéro, la confirmation ou l’infirmation des différentes hypothèses ainsi que la prédiction des moyennes furent utilisées afin de déterminer l’adéquation des différents modèles. Pour ce faire, le nombre d’arrestations des membres de gangs de rue sur le territoire de Montréal fut utilisé pour la période de 2005 à 2007. L’échantillon est composé de 470 hommes, âgés de 18 à 59 ans. Au terme des analyses, le modèle le plus adéquat est le modèle binomial négatif puisque celui-ci produit des résultats significatifs, s’adapte bien aux données observées et produit une proportion de zéro très similaire à celle observée.
Resumo:
El aseguramiento de portafolio trae consigo unos costos de transacción asociados que son reconocidos por la teoría financiera pero que no han sido objeto de estudio de muchas aproximaciones empíricas. Mediante modelos econométricos de series de tiempo se puede pronosticar el número de rebalanceos necesarios para mantener un portafolio asegurado, así como el tiempo que debe transcurrir entre cada uno de estos. Para tal fin se usan modelos de Datos de Cuenta de Poisson Autorregresivos (ACP) modificados para captar las características de la serie y modelos de Duración Autorregresivos (ACD). Los modelos capturan la autocorrelación de las series y pronostican adecuadamente el costo de transacción asociado a los rebalanceos.
Resumo:
El artículo analiza los determinantes de la presencia de hijos no deseados en Colombia. Se utiliza la información de la Encuesta Nacional de Demografía y Salud (ENDS, 2005), específicamente para las mujeres de 40 años o más. Dadas las características especiales de la variable que se analiza, se utilizan modelos de conteo para verificar si determinadas características socioeconómicas como la educación o el estrato económico explican la presencia de hijos no deseados. Se encuentra que la educación de la mujer y el área de residencia son determinantes significativos de los nacimientos no planeados. Además, la relación negativa entre el número de hijos no deseados y la educación de la mujer arroja implicaciones clave en materia de política social.
Resumo:
Even though antenatal care is universally regarded as important, determinants of demand for antenatal care have not been widely studied. Evidence concerning which and how socioeconomic conditions influence whether a pregnant woman attends or not at least one antenatal consultation or how these factors affect the absences to antenatal consultations is very limited. In order to generate this evidence, a two-stage analysis was performed with data from the Demographic and Health Survey carried out by Profamilia in Colombia during 2005. The first stage was run as a logit model showing the marginal effects on the probability of attending the first visit and an ordinary least squares model was performed for the second stage. It was found that mothers living in the pacific region as well as young mothers seem to have a lower probability of attending the first visit but these factors are not related to the number of absences to antenatal consultation once the first visit has been achieved. The effect of health insurance was surprising because of the differing effects that the health insurers showed. Some familiar and personal conditions such as willingness to have the last children and number of previous children, demonstrated to be important in the determination of demand. The effect of mother’s educational attainment was proved as important whereas the father’s educational achievement was not. This paper provides some elements for policy making in order to increase the demand inducement of antenatal care, as well as stimulating research on demand for specific issues on health.
Resumo:
Annual loss of nests by industrial (nonwoodlot) forest harvesting in Canada was estimated using two avian point-count data sources: (1) the Boreal Avian Monitoring Project (BAM) dataset for provinces operating in this biome and (2) available data summarized for the major (nonboreal) forest regions of British Columbia. Accounting for uncertainty in the proportion of harvest occurring during the breeding season and in avian nesting densities, our estimate ranges from 616 thousand to 2.09 million nests. Estimates of the impact on numbers of individuals recruited into the adult breeding population were made based on the application of survivorship estimates at various stages of the life cycle. Future improvements to this estimate are expected as better and more extensive avian breeding pair density estimates become available and as provincial forestry statistics become more refined, spatially and temporally. The effect of incidental take due to forestry is not uniform and is disproportionately centered in the southern boreal. Those species whose ranges occur primarily in these regions are most at risk for industrial forestry in general and for incidental take in particular. Refinements to the nest loss estimate for industrial forestry in Canada will be achieved primarily through the provision of more accurate estimates of the area of forest harvested annually during the breeding season stratified by forest type and Bird Conservation Region (BCR). A better understanding of survivorship among life-history stages for forest birds would also allow for better modeling of the effect of nest loss on adult recruitment. Finally, models are needed to project legacy effects of forest harvesting on avian populations that take into account forest succession and accompanying cumulative effects of landscape change.
Resumo:
This paper analyses the cut flower market as an example of an invasion pathway along which species of non-indigenous plant pests can travel to reach new areas. The paper examines the probability of pest detection by assessing information on pest detection and detection effort associated with the import of cut flowers. We test the link between the probability of plant pest arrivals as a precursor to potential invasion, and volume of traded flowers using count data regression models. The analysis is applied to the UK import of specific genera of cut flowers form Kenya between 1996 and 2004. There is a link between pest detection and the Genus of cut flower imported. Hence, pest detection efforts should focus on identifying and targeting those imported plants with a high risk of carrying pest species. For most of the plants studied efforts allocated to inspection have a significant influence on the probabilty of pest detction. However, by better targetting inspection efforts, it is shown that plant inspection effort could be reduced without increasing the risk of pest entry. Similarly, for most of the plants analysed, an increase in volume traded will not necessarily lead to an increase in the number of pests entering the UK. For some species, such as conclude that analysis at the rank of plant Genus is important both to understand the effectiveness of plant pest detection efforts and consequently to manage the risk of introduction of non-indigenous species.
Resumo:
1. The rapid expansion of systematic monitoring schemes necessitates robust methods to reliably assess species' status and trends. Insect monitoring poses a challenge where there are strong seasonal patterns, requiring repeated counts to reliably assess abundance. Butterfly monitoring schemes (BMSs) operate in an increasing number of countries with broadly the same methodology, yet they differ in their observation frequency and in the methods used to compute annual abundance indices. 2. Using simulated and observed data, we performed an extensive comparison of two approaches used to derive abundance indices from count data collected via BMS, under a range of sampling frequencies. Linear interpolation is most commonly used to estimate abundance indices from seasonal count series. A second method, hereafter the regional generalized additive model (GAM), fits a GAM to repeated counts within sites across a climatic region. For the two methods, we estimated bias in abundance indices and the statistical power for detecting trends, given different proportions of missing counts. We also compared the accuracy of trend estimates using systematically degraded observed counts of the Gatekeeper Pyronia tithonus (Linnaeus 1767). 3. The regional GAM method generally outperforms the linear interpolation method. When the proportion of missing counts increased beyond 50%, indices derived via the linear interpolation method showed substantially higher estimation error as well as clear biases, in comparison to the regional GAM method. The regional GAM method also showed higher power to detect trends when the proportion of missing counts was substantial. 4. Synthesis and applications. Monitoring offers invaluable data to support conservation policy and management, but requires robust analysis approaches and guidance for new and expanding schemes. Based on our findings, we recommend the regional generalized additive model approach when conducting integrative analyses across schemes, or when analysing scheme data with reduced sampling efforts. This method enables existing schemes to be expanded or new schemes to be developed with reduced within-year sampling frequency, as well as affording options to adapt protocols to more efficiently assess species status and trends across large geographical scales.
Resumo:
The humpback whale (Megaptera novaeangliae) population that uses Abrolhos Bank, off the east coast of Brazil as a breeding ground is increasing. To describe temporal changes in the relative abundance of humpback whales around Abrolhos, seven years (1998-2004) of whale count data were collected during July through to November. During one-hour-scans, observers determined group size within 9.3 km (5 n.m.) of a land-based observing station. A total Of 930 scans, comprising 7996 sightings of adults and 2044 calves were analysed using generalized linear models that included variables for time of day, day of the season, years and two-way interactions as possible predictors. The pattern observed was the gradual build-up and decline in whale counts within seasons. Patterns and peaks of adult and calf counts varied among years. Although fluctuation was observed, there was generally an increasing trend in adult counts among years. Calf counts increased only in 2004. These fluctuations may have been caused by some environmental conditions in humpback whales` summering grounds and also by changes in spatial-temporal concentrations in Abrolhos Bank. The general pattern observed within the study area mirrored what was observed in the whole Abrolhos Bank. Knowledge of the consistency with which humpback whales use this important nursing area should prove beneficial for designing future monitoring programmes especially related to whale watching activities around Abrolhos Archipelago.
Resumo:
We introduce in this paper a new class of discrete generalized nonlinear models to extend the binomial, Poisson and negative binomial models to cope with count data. This class of models includes some important models such as log-nonlinear models, logit, probit and negative binomial nonlinear models, generalized Poisson and generalized negative binomial regression models, among other models, which enables the fitting of a wide range of models to count data. We derive an iterative process for fitting these models by maximum likelihood and discuss inference on the parameters. The usefulness of the new class of models is illustrated with an application to a real data set. (C) 2008 Elsevier B.V. All rights reserved.
Resumo:
Conselho Nacional do Desenvolvimento Científico e Tecnológico (CNPq)
Resumo:
Conselho Nacional de Desenvolvimento Científico e Tecnológico (CNPq)
Resumo:
The resistance to infestations by ectoparasites and infections by gastrointestinal nematodes was studied in 45 animals (males and females) of two genetic groups: purebred Nelore (NI, n=28) and Three-Cross (1/2 Angus+1/4 Canchim+1/4 Nelore - TC, n=17). The animals were monitored for 24months, during which they were left to graze in tropical pastures without receiving treatment for parasites. Each month the animals were examined for infestations by external parasites, to count the numbers of cattle ticks Rhipicephalus microplus with diameter greater than 4.5mm present on the left side, horn flies (Haematobia irritans) present in the lumbar region and botfly larvae (Dermatobia hominis) present on the entire body. The H. irritans counts were performed with the aid of digital photographs. At the time of examination, fecal samples were collected to count the eggs per gram (EPG) and to perform coprocultures, and peripheral blood samples were drawn to determine the packed cell volume (PCV) and to count the eosinophils. For statistical analysis, the count data were transformed into log10 (n+1), where n is the number of parasites. For PCV, significant effects (P<0.05) were found for collection month (CO), genetic group (GG) and gender (SX), with means and respective standard errors of 41.5±0.65% for the NI animals, 39.3±0.83% for the TC, 41.5±0.72% for the females and 39.3±0.77% for the males. Regarding the eosinophil counts, only the effect of sex was significant (P<0.01), with means and respective standard errors of 926.0±46.2/μL, for males and 1088.0±43.8/μL of blood, for females. The NI animals presented lower mean counts for all the external parasites compared to the TC animals (P<0.01). For ticks, the transformed means followed by standard errors for the NI and TC animals were 0.06±0.01 and 0.34±0.02, while for horn flies these were 0.92±0.05 and 1.36±0.06 and for botfly larvae they were 0.05±0.03 and 0.45±0.05, respectively. The average EPG values were only influenced by CO (P<0.01). The coprocultures revealed the presence of the following endoparasites: Haemonchus spp., Cooperia spp., Oesophagostomum spp. and Trichostrongylus spp., the last in smaller proportion. There were no significant differences between the genetic groups for the endoparasite loads, except for Cooperia spp., which were present in greater number (P<0.05) in the NI group. The results obtained in this experiment confirm previous findings of greater susceptibility of the Nelore breed to Cooperia spp. and high resistance to ectoparasites. © 2013 Elsevier B.V.
Resumo:
Pós-graduação em Agronomia (Entomologia Agrícola) - FCAV