986 resultados para R-Statistical computing
Resumo:
Multivariate Methoden stellen ein wesentliches Instrumentarium zur Datenanalyse in der Ökologie dar. Sie werden in der Ökologie häufig eingesetzt und sind seit langem Gegenstand der Lehre in der Abteilung Geobotanik der Universität Freiburg. In den letzten Jahren wurde als Werkzeug das Programm R eingeführt. R ist ein frei verfügbares, kommandozeilenorientiertes Statistikprogramm, das für eine Reihe von Betriebssystemen angeboten wird (R-Development Core-Team 2007). Das Programm befindet sich in rascher Entwicklung (derzeit Version 2.10) und wird zunehmend auch von Ökologen eingesetzt. Bislang existiert kein deutschsprachiges Lehrbuch zur Anwendung multivariater Methoden mit R. Mit MultiStaR wird versucht, diese Lücke zu schließen und den Studierenden Lernmaterialien an die Hand zu geben, die Übungen mit dem eigentlichen Analysewerkzeug mit einschließen.
Resumo:
Stratigraphic Columns (SC) are the most useful and common ways to represent the eld descriptions (e.g., grain size, thickness of rock packages, and fossil and lithological components) of rock sequences and well logs. In these representations the width of SC vary according to the grain size (i.e., the wider the strata, the coarser the rocks (Miall 1990; Tucker 2011)), and the thickness of each layer is represented at the vertical axis of the diagram. Typically these representations are drawn 'manually' using vector graphic editors (e.g., Adobe Illustrator®, CorelDRAW®, Inskape). Nowadays there are various software which automatically plot SCs, but there are not versatile open-source tools and it is very di cult to both store and analyse stratigraphic information. This document presents Stratigraphic Data Analysis in R (SDAR), an analytical package1 designed for both plotting and facilitate the analysis of Stratigraphic Data in R (R Core Team 2014). SDAR, uses simple stratigraphic data and takes advantage of the exible plotting tools available in R to produce detailed SCs. The main bene ts of SDAR are: (i) used to generate accurate and complete SC plot including multiple features (e.g., sedimentary structures, samples, fossil content, color, structural data, contacts between beds), (ii) developed in a free software environment for statistical computing and graphics, (iii) run on a wide variety of platforms (i.e., UNIX, Windows, and MacOS), (iv) both plotting and analysing functions can be executed directly on R's command-line interface (CLI), consequently this feature enables users to integrate SDAR's functions with several others add-on packages available for R from The Comprehensive R Archive Network (CRAN).
Resumo:
This paper presents an analysis of motor vehicle insurance claims relating to vehicle damage and to associated medical expenses. We use univariate severity distributions estimated with parametric and non-parametric methods. The methods are implemented using the statistical package R. Parametric analysis is limited to estimation of normal and lognormal distributions for each of the two claim types. The nonparametric analysis presented involves kernel density estimation. We illustrate the benefits of applying transformations to data prior to employing kernel based methods. We use a log-transformation and an optimal transformation amongst a class of transformations that produces symmetry in the data. The central aim of this paper is to provide educators with material that can be used in the classroom to teach statistical estimation methods, goodness of fit analysis and importantly statistical computing in the context of insurance and risk management. To this end, we have included in the Appendix of this paper all the R code that has been used in the analysis so that readers, both students and educators, can fully explore the techniques described
Resumo:
Examples of compositional data. The simplex, a suitable sample space for compositional data and Aitchison's geometry. R, a free language and environment for statistical computing and graphics
Resumo:
The analysis of rockfall characteristics and spatial distribution is fundamental to understand and model the main factors that predispose to failure. In our study we analysed LiDAR point clouds aiming to: (1) detect and characterise single rockfalls; (2) investigate their spatial distribution. To this end, different cluster algorithms were applied: 1a) Nearest Neighbour Clutter Removal (NNCR) in combination with the Expectation?Maximization (EM) in order to separate feature points from clutter; 1b) a density based algorithm (DBSCAN) was applied to isolate the single clusters (i.e. the rockfall events); 2) finally we computed the Ripley's K-function to investigate the global spatial pattern of the extracted rockfalls. The method allowed proper identification and characterization of more than 600 rockfalls occurred on a cliff located in Puigcercos (Catalonia, Spain) during a time span of six months. The spatial distribution of these events proved that rockfall were clustered distributed at a welldefined distance-range. Computations were carried out using R free software for statistical computing and graphics. The understanding of the spatial distribution of precursory rockfalls may shed light on the forecasting of future failures.
Resumo:
Examples of compositional data. The simplex, a suitable sample space for compositional data and Aitchison's geometry. R, a free language and environment for statistical computing and graphics
Resumo:
R from http://www.r-project.org/ is ‘GNU S’ – a language and environment for statistical computing and graphics. The environment in which many classical and modern statistical techniques have been implemented, but many are supplied as packages. There are 8 standard packages and many more are available through the cran family of Internet sites http://cran.r-project.org . We started to develop a library of functions in R to support the analysis of mixtures and our goal is a MixeR package for compositional data analysis that provides support for operations on compositions: perturbation and power multiplication, subcomposition with or without residuals, centering of the data, computing Aitchison’s, Euclidean, Bhattacharyya distances, compositional Kullback-Leibler divergence etc. graphical presentation of compositions in ternary diagrams and tetrahedrons with additional features: barycenter, geometric mean of the data set, the percentiles lines, marking and coloring of subsets of the data set, theirs geometric means, notation of individual data in the set . . . dealing with zeros and missing values in compositional data sets with R procedures for simple and multiplicative replacement strategy, the time series analysis of compositional data. We’ll present the current status of MixeR development and illustrate its use on selected data sets
Resumo:
Collecting data via a questionnaire and analyzing them while preserving respondents’ privacy may increase the number of respondents and the truthfulness of their responses. It may also reduce the systematic differences between respondents and non-respondents. In this paper, we propose a privacy-preserving method for collecting and analyzing survey responses using secure multi-party computation (SMC). The method is secure under the semi-honest adversarial model. The proposed method computes a wide variety of statistics. Total and stratified statistical counts are computed using the secure protocols developed in this paper. Then, additional statistics, such as a contingency table, a chi-square test, an odds ratio, and logistic regression, are computed within the R statistical environment using the statistical counts as building blocks. The method was evaluated on a questionnaire dataset of 3,158 respondents sampled for a medical study and simulated questionnaire datasets of up to 50,000 respondents. The computation time for the statistical analyses linearly scales as the number of respondents increases. The results show that the method is efficient and scalable for practical use. It can also be used for other applications in which categorical data are collected.
Resumo:
In this work, cluster analysis is applied to a real dataset of biological features of several Portuguese reservoirs. All the statistical analysis is done using R statistical software. Several metrics and methods were explored, as well as the combination of Euclidean metric and the hierarchical Ward method. Although it did not present the best combination in terms of internal and stability validation, it was still a good solution and presented good results in terms of interpretation of the problem at hand.
Resumo:
Statistical computing when input/output is driven by a Graphical User Interface is considered. A proposal is made for automatic control ofcomputational flow to ensure that only strictly required computationsare actually carried on. The computational flow is modeled by a directed graph for implementation in any object-oriented programming language with symbolic manipulation capabilities. A complete implementation example is presented to compute and display frequency based piecewise linear density estimators such as histograms or frequency polygons.
Resumo:
Introducción: La enfermedad cardiovascular es la principal causa de muerte a nivel mundial, afectando principalmente la salud pública de países pobres con economías emergentes. La transición epidemiológica en Colombia ha incrementado la proporción de pacientes ancianos con enfermedad cardiovascular y que requieren cirugía cardíaca. Sin embargo, no existe consenso sobre la conducta para la selección de pacientes añosos para este tipo de intervenciones. El objetivo de este estudio fue definir el riesgo mortalidad asociado a cirugía cardíaca en este grupo de pacientes, basados en una revisión sistemática de la literatura. Materiales y Métodos: Se diseñó una revisión sistemática empleando las plataformas PubMed (Medline), EBSCO Discovery Service, Ovid SP-EBMR, Sciverse y MDConsult. Los términos de búsqueda fueron “Aged”, “Cardiac surgery” and “Mortality”, conjugados de acuerdo con el lenguaje de cada buscador. Las publicaciones fueron seleccionadas por consenso. Los resultados se analizaron en un modelo de Mantel-Haenszel. Resultados: La búsqueda arrojó un total de 8.565 publicaciones. Los datos analizados en el modelo incluyeron 81.547 pacientes (7.855 octogenarios y 73.692 más jóvenes). El riesgo de mortalidad asociado a cirugía cardíaca en octogenarios fue de 125% (OR=2,35, IC 95% [2,15 - 2,57]). Discusión: El sometimiento de pacientes octogenarios a cirugías cardíacas mayores es una decisión que requiere un juicio clínico minucioso en el que es importante destacar que la probabilidad de un resultado francamente desfavorable es alta. Se necesitan más estudios diseñados que permitan aumentar la solidez de la evidencia actual en cuanto al riesgo aquí encontrado.
Resumo:
Objetivos: Determinar la prevalencia y los factores asociados con el desarrollo de hipotiroidismo autoinmune (HA) en una cohorte de pacientes con lupus eritematoso sistémico (LES), y analizar la información actual en cuanto a la prevalencia e impacto de la enfermedad tiroidea autoinmune y la autoinmunidad tiroidea en pacientes con LES. Métodos: Este fue un estudio realizado en dos pasos. Primero, un total de 376 pacientes con LES fueron evaluados sistemáticamente por la presencia de: 1) HA confirmado, 2) positividad para anticuerpos tiroperoxidasa/tiroglobulina (TPOAb/TgAb) sin hipotiroidismo, 3) hipotiroidismo no autoinmune, y 4) pacientes con LES sin hipotiroidismo ni positividad para TPOAb/TgAb. Se construyeron modelos multivariados y árboles de regresión y clasificación para analizar los datos. Segundo, la información actual fue evaluada a través de una revisión sistemática de la literatura (RLS). Se siguieron las guías PRISMA para la búsqueda en las bases de datos PubMed, Scopus, SciELO y Librería Virtual en Salud. Resultados: En nuestra cohorte, la prevalencia de HA confirmado fue de 12% (Grupo 1). Sin embargo, la frecuencia de positividad para TPOAb y TgAb fue de 21% y 10%, respectivamente (Grupo 2). Los pacientes con LES sin HA, hipotiroidismo no autoinmune ni positividad para TPOAb/TgAb constituyeron el 40% de la corhorte. Los pacientes con HA confirmada fueron estadísticamente significativo de mayor edad y tuvieron un inicio tardío de la enfermedad. El tabaquismo (ORA 6.93, IC 95% 1.98-28.54, p= 0.004), la presencia de Síndrome de Sjögren (SS) (ORA 23.2, IC 95% 1.89-359.53, p= 0.015) y la positividad para anticuerpos anti-péptido cíclico citrulinado (anti-CCP) (ORA 10.35, IC 95% 1.04-121.26, p= 0.047) se asociaron con la coexistencia de LES-HA, ajustado por género y duración de la enfermedad. El tabaquismo y el SS fueron confirmados como factores predictivos para LES-HA (AUC del modelo CART = 0.72). En la RSL, la prevalencia de ETA en LES varío entre 1% al 60%. Los factores asociados con esta poliautoinmunidad fueron el género femenino, edad avanzada, tabaquismo, positividad para algunos anticuerpos, SS y el compromiso articular y cutáneo. Conclusiones: La ETA es frecuente en pacientes con LES, y no afecta la severidad del LES. Los factores de riesgo identificados ayudarán a los clínicos en la búsqueda de ETA. Nuestros resultados deben estimular políticas para la suspensión del tabaquismo en pacientes con LES.
Resumo:
Introducción: el lupus eritematoso sistémico (LES) es considerado una enfermedad de alto costo. La expresión clínica de la enfermedad depende de la ubicación geografía y la etnicidad. El objetivo de este estudio fue el calcular los costos ambulatorios relacionado al LES en una cohorte colombiana, identificar los predictores de costos y comparar nuestro resultados con otras poblaciones. Métodos: Se realizó una aproximación de tipo prevalencia en 100 pacientes LES en quienes se evaluaron los costos directos médicos, directos no médicos, indirectos e intangibles. Todos los costos médicos fueron evaluados usando una metodología abajo hacia arriba. Los costos directos fueron valorados desde una perspectiva social usando una metodología de micro-costeo. Los costos indirectos se evaluaron mediante una aproximación de capital humano, y los costos intangibles calculados a partir de los años de vida ajustados por calidad (AVAC). Se analizaron los datos por medio de un análisis multivariado. Para comparaciones con otras poblaciones todos los costos fueron expresados como la razón entre los costos y producto interno bruto nacional per cápita. Resultados: La media de costos totales fue 13.031±9.215 USD (ajustados por el factor de conversión de paridad del poder adquisitivo), lo cual representa el 1,66 del PIB per capita de Colombia. Los costos directos son el 64% de los costos totales. Los costos médicos representan el 80% de los costos directos,. Los costos indirectos fueron el 10% y los costos intangibles el 25% de los costos totales. Los medicamentos representaron el 45% de los costos directos. Mayores costos se relacionaron con el estrato socioeconómico, seguro médico privado, AVAC, alopecia, micofenolato mofetilo, y terapia anticoagulante. Los costos directos ajustados de los pacientes con LES en Colombia fueron mayores que en Norte América y en Europa. Conclusiones: el LES impone una carga económica importante para la sociedad. Los costos relacionados con la atención médica y AVAC fueron los principales contribuyentes al alto costo de la enfermedad. Estos resultados pueden ser referencia para determinar políticas en salud pública así como comparar el gasto en salud de forma internacional.
Resumo:
Introducción: El tratamiento con antagonistas del factor de necrosis tumoral alfa (anti TNF) ha impactado el pronóstico y la calidad de vida de los pacientes con artritis reumatoide (AR) positivamente, sin embargo, se interroga un incremento en el riesgo de desarrollar melanoma. Objetivo: Conocer la asociación entre el uso de anti TNF y el desarrollo de melanoma maligno en pacientes con AR. Metodología: Se realizó una búsqueda sistemática en MEDLINE, EMBASE, COCHRANE LIBRARY y LILACS para ensayos clínicos, estudios observacionales, revisiones y meta-análisis en pacientes adultos con diagnóstico de AR y manejo con anti TNF (Certolizumab pegol, Adalimumab, Etanercept, Infliximab y Golimumab). Resultados: 37 estudios clínicos cumplieron los criterios de inclusión para el meta-análisis, con una población de 16567 pacientes. El análisis de heterogeneidad no fue significativo (p=1), no se encontró diferencia en el riesgo entre los grupos comparados DR -0.00 (IC 95% -0.001; -0.001). Un análisis adicional de los estudios en los que se reportó al menos 1 caso de melanoma (4222 pacientes) tampoco mostró diferencia en el riesgo DR -0.00 (IC 95% -0.004 ; -0.003). Conclusión: En la evidencia disponible a la fecha no encontramos asociación significativa entre el tratamiento con anti TNF en pacientes con diagnóstico de AR y el desarrollo de melanoma cutáneo.