18 resultados para Multivariate analysis
em Universitat de Girona, Spain
Resumo:
These notes have been prepared as support to a short course on compositional data analysis. Their aim is to transmit the basic concepts and skills for simple applications, thus setting the premises for more advanced projects
Resumo:
One of the disadvantages of old age is that there is more past than future: this, however, may be turned into an advantage if the wealth of experience and, hopefully, wisdom gained in the past can be reflected upon and throw some light on possible future trends. To an extent, then, this talk is necessarily personal, certainly nostalgic, but also self critical and inquisitive about our understanding of the discipline of statistics. A number of almost philosophical themes will run through the talk: search for appropriate modelling in relation to the real problem envisaged, emphasis on sensible balances between simplicity and complexity, the relative roles of theory and practice, the nature of communication of inferential ideas to the statistical layman, the inter-related roles of teaching, consultation and research. A list of keywords might be: identification of sample space and its mathematical structure, choices between transform and stay, the role of parametric modelling, the role of a sample space metric, the underused hypothesis lattice, the nature of compositional change, particularly in relation to the modelling of processes. While the main theme will be relevance to compositional data analysis we shall point to substantial implications for general multivariate analysis arising from experience of the development of compositional data analysis…
Resumo:
Compositional data naturally arises from the scientific analysis of the chemical composition of archaeological material such as ceramic and glass artefacts. Data of this type can be explored using a variety of techniques, from standard multivariate methods such as principal components analysis and cluster analysis, to methods based upon the use of log-ratios. The general aim is to identify groups of chemically similar artefacts that could potentially be used to answer questions of provenance. This paper will demonstrate work in progress on the development of a documented library of methods, implemented using the statistical package R, for the analysis of compositional data. R is an open source package that makes available very powerful statistical facilities at no cost. We aim to show how, with the aid of statistical software such as R, traditional exploratory multivariate analysis can easily be used alongside, or in combination with, specialist techniques of compositional data analysis. The library has been developed from a core of basic R functionality, together with purpose-written routines arising from our own research (for example that reported at CoDaWork'03). In addition, we have included other appropriate publicly available techniques and libraries that have been implemented in R by other authors. Available functions range from standard multivariate techniques through to various approaches to log-ratio analysis and zero replacement. We also discuss and demonstrate a small selection of relatively new techniques that have hitherto been little-used in archaeometric applications involving compositional data. The application of the library to the analysis of data arising in archaeometry will be demonstrated; results from different analyses will be compared; and the utility of the various methods discussed
Resumo:
Pounamu (NZ jade), or nephrite, is a protected mineral in its natural form following the transfer of ownership back to Ngai Tahu under the Ngai Tahu (Pounamu Vesting) Act 1997. Any theft of nephrite is prosecutable under the Crimes Act 1961. Scientific evidence is essential in cases where origin is disputed. A robust method for discrimination of this material through the use of elemental analysis and compositional data analysis is required. Initial studies have characterised the variability within a given nephrite source. This has included investigation of both in situ outcrops and alluvial material. Methods for the discrimination of two geographically close nephrite sources are being developed. Key Words: forensic, jade, nephrite, laser ablation, inductively coupled plasma mass spectrometry, multivariate analysis, elemental analysis, compositional data analysis
Resumo:
This paper addresses the application of a PCA analysis on categorical data prior to diagnose a patients data set using a Case-Based Reasoning (CBR) system. The particularity is that the standard PCA techniques are designed to deal with numerical attributes, but our medical data set contains many categorical data and alternative methods as RS-PCA are required. Thus, we propose to hybridize RS-PCA (Regular Simplex PCA) and a simple CBR. Results show how the hybrid system produces similar results when diagnosing a medical data set, that the ones obtained when using the original attributes. These results are quite promising since they allow to diagnose with less computation effort and memory storage
Resumo:
In standard multivariate statistical analysis common hypotheses of interest concern changes in mean vectors and subvectors. In compositional data analysis it is now well established that compositional change is most readily described in terms of the simplicial operation of perturbation and that subcompositions replace the marginal concept of subvectors. To motivate the statistical developments of this paper we present two challenging compositional problems from food production processes. Against this background the relevance of perturbations and subcompositions can be clearly seen. Moreover we can identify a number of hypotheses of interest involving the specification of particular perturbations or differences between perturbations and also hypotheses of subcompositional stability. We identify the two problems as being the counterpart of the analysis of paired comparison or split plot experiments and of separate sample comparative experiments in the jargon of standard multivariate analysis. We then develop appropriate estimation and testing procedures for a complete lattice of relevant compositional hypotheses
Resumo:
The literature related to skew–normal distributions has grown rapidly in recent years but at the moment few applications concern the description of natural phenomena with this type of probability models, as well as the interpretation of their parameters. The skew–normal distributions family represents an extension of the normal family to which a parameter (λ) has been added to regulate the skewness. The development of this theoretical field has followed the general tendency in Statistics towards more flexible methods to represent features of the data, as adequately as possible, and to reduce unrealistic assumptions as the normality that underlies most methods of univariate and multivariate analysis. In this paper an investigation on the shape of the frequency distribution of the logratio ln(Cl−/Na+) whose components are related to waters composition for 26 wells, has been performed. Samples have been collected around the active center of Vulcano island (Aeolian archipelago, southern Italy) from 1977 up to now at time intervals of about six months. Data of the logratio have been tentatively modeled by evaluating the performance of the skew–normal model for each well. Values of the λ parameter have been compared by considering temperature and spatial position of the sampling points. Preliminary results indicate that changes in λ values can be related to the nature of environmental processes affecting the data
Resumo:
Theory of compositional data analysis is often focused on the composition only. However in practical applications we often treat a composition together with covariables with some other scale. This contribution systematically gathers and develop statistical tools for this situation. For instance, for the graphical display of the dependence of a composition with a categorical variable, a colored set of ternary diagrams might be a good idea for a first look at the data, but it will fast hide important aspects if the composition has many parts, or it takes extreme values. On the other hand colored scatterplots of ilr components could not be very instructive for the analyst, if the conventional, black-box ilr is used. Thinking on terms of the Euclidean structure of the simplex, we suggest to set up appropriate projections, which on one side show the compositional geometry and on the other side are still comprehensible by a non-expert analyst, readable for all locations and scales of the data. This is e.g. done by defining special balance displays with carefully- selected axes. Following this idea, we need to systematically ask how to display, explore, describe, and test the relation to complementary or explanatory data of categorical, real, ratio or again compositional scales. This contribution shows that it is sufficient to use some basic concepts and very few advanced tools from multivariate statistics (principal covariances, multivariate linear models, trellis or parallel plots, etc.) to build appropriate procedures for all these combinations of scales. This has some fundamental implications in their software implementation, and how might they be taught to analysts not already experts in multivariate analysis
Resumo:
Interaction effects are usually modeled by means of moderated regression analysis. Structural equation models with non-linear constraints make it possible to estimate interaction effects while correcting for measurement error. From the various specifications, Jöreskog and Yang's (1996, 1998), likely the most parsimonious, has been chosen and further simplified. Up to now, only direct effects have been specified, thus wasting much of the capability of the structural equation approach. This paper presents and discusses an extension of Jöreskog and Yang's specification that can handle direct, indirect and interaction effects simultaneously. The model is illustrated by a study of the effects of an interactive style of use of budgets on both company innovation and performance
Resumo:
In image segmentation, clustering algorithms are very popular because they are intuitive and, some of them, easy to implement. For instance, the k-means is one of the most used in the literature, and many authors successfully compare their new proposal with the results achieved by the k-means. However, it is well known that clustering image segmentation has many problems. For instance, the number of regions of the image has to be known a priori, as well as different initial seed placement (initial clusters) could produce different segmentation results. Most of these algorithms could be slightly improved by considering the coordinates of the image as features in the clustering process (to take spatial region information into account). In this paper we propose a significant improvement of clustering algorithms for image segmentation. The method is qualitatively and quantitative evaluated over a set of synthetic and real images, and compared with classical clustering approaches. Results demonstrate the validity of this new approach
Resumo:
Three multivariate statistical tools (principal component analysis, factor analysis, analysis discriminant) have been tested to characterize and model the sags registered in distribution substations. Those models use several features to represent the magnitude, duration and unbalanced grade of sags. They have been obtained from voltage and current waveforms. The techniques are tested and compared using 69 registers of sags. The advantages and drawbacks of each technique are listed
Resumo:
Compositional data, also called multiplicative ipsative data, are common in survey research instruments in areas such as time use, budget expenditure and social networks. Compositional data are usually expressed as proportions of a total, whose sum can only be 1. Owing to their constrained nature, statistical analysis in general, and estimation of measurement quality with a confirmatory factor analysis model for multitrait-multimethod (MTMM) designs in particular are challenging tasks. Compositional data are highly non-normal, as they range within the 0-1 interval. One component can only increase if some other(s) decrease, which results in spurious negative correlations among components which cannot be accounted for by the MTMM model parameters. In this article we show how researchers can use the correlated uniqueness model for MTMM designs in order to evaluate measurement quality of compositional indicators. We suggest using the additive log ratio transformation of the data, discuss several approaches to deal with zero components and explain how the interpretation of MTMM designs di ers from the application to standard unconstrained data. We show an illustration of the method on data of social network composition expressed in percentages of partner, family, friends and other members in which we conclude that the faceto-face collection mode is generally superior to the telephone mode, although primacy e ects are higher in the face-to-face mode. Compositions of strong ties (such as partner) are measured with higher quality than those of weaker ties (such as other network members)
Resumo:
L'algorisme de McLachlan per a l'alineament de dos conjunts de coordenades atòmiques és interpretat sota l'òptica de l'Anàlisi Multivariant, que posa de manifest que el plantejament d'aquest problema és equivalent al de l'anàlisi de Procrustes i que la solució proposada per Kabsch és anàloga a la de Sibson, desenvolupada independentment
Resumo:
Els estudis de supervivència s'interessen pel temps que passa des de l'inici de l'estudi (diagnòstic de la malaltia, inici del tractament,...) fins que es produeix l'esdeveniment d'interès (mort, curació, millora,...). No obstant això, moltes vegades aquest esdeveniment s'observa més d'una vegada en un mateix individu durant el període de seguiment (dades de supervivència multivariant). En aquest cas, és necessari utilitzar una metodologia diferent a la utilitzada en l'anàlisi de supervivència estàndard. El principal problema que l'estudi d'aquest tipus de dades comporta és que les observacions poden no ser independents. Fins ara, aquest problema s'ha solucionat de dues maneres diferents en funció de la variable dependent. Si aquesta variable segueix una distribució de la família exponencial s'utilitzen els models lineals generalitzats mixtes (GLMM); i si aquesta variable és el temps, variable amb una distribució de probabilitat no pertanyent a aquesta família, s'utilitza l'anàlisi de supervivència multivariant. El que es pretén en aquesta tesis és unificar aquests dos enfocs, és a dir, utilitzar una variable dependent que sigui el temps amb agrupacions d'individus o d'observacions, a partir d'un GLMM, amb la finalitat d'introduir nous mètodes pel tractament d'aquest tipus de dades.
Resumo:
Molts bacteris del grup fluorescent del gènere Pseudomonas són capaços de controlar malalties de les plantes causades per fongs i bacteris fitopatògens (ACBs) o mostren activitat com a bacteris promotors del creixement de les plantes (BPCPs). S'han descrit diversos metabòlits que intervenen de manera important en la seva activitat com a ACBs i BPCPs entre els quals en destaquen el 2,4-diacetilfloroglucinol (Phl), àcid fenazin-1-carboxílic (PCA), Pirrolnitrina (Prn), àcid cianhídric (HCN), àcid 3-indolacètic (IAA), sideròfors i quitinases. L'objectiu principal del nostre treball ha estat la comparació de les característiques d'un grup de Pseudomonas del grup fluorescent utilitzant una aproximació polifàsica amb la finalitat d'establir possibles relacions entre algunes de les característiques i la capacitat d'actuar com a ACB o BPCP. Atesa la importància en el biocontrol de la producció de metabòlits com Phl, PCA i Prn, l'objectiu preliminar ha estat la recerca i obtenció de soques productores d'aquests metabòlits. Per assolir aquest objectiu s'ha emprat una aproximació molecular basada en la detecció dels gens biosintètics implicats en la seva producció en lloc de la detecció directa dels metabòlits per evitar els efectes que poden tenir les condicions de cultiu en la inducció o repressió de la seva síntesi. S'han realitzat diferents protocols basats (i) en la cerca assistida de productors mitjançant l'ús de marcadors fenotípics i posterior confirmació per PCR i, (ii) en l'ús de la PCR per a la detecció dels gens directament dels extractes bacterians, d'enriquiments d'aquests extractes i la realització de la hibridació en colònies per al posterior aïllament. La cerca assistida de productors de Phl mitjançant marcadors fenotípics i posteriorment la utilització de tècniques moleculars (amplificació per PCR del gen phlD), ha estat el millor mètode en el tipus de mostres processades en el nostre treball, on la proporció de productors és relativament baixa. En total s'han aïllat a partir de diversos ambients 4 soques portadores dels gens de la síntesi de PCA, 15 de Phl i 1 de Prn. S'ha constituït una col·lecció de 72 soques de Pseudomonas del grup fluorescent que inclou 18 aïllats propis portadors dels gens biosintètics necessaris per la producció de Phl PCA i Prn; 6 soques de referència procedents de col·leccions de cultius tipus, 14 soques productores dels diferents antibiòtics cedides per altres investigadors i una selecció de 34 soques procedents d'un treball previ realitzat en el nostre grup de recerca. A la col·lecció s'hi troben soques candidates a ACB i BPCP de diverses malalties i plantes. Les 72 soques s'han caracteritzat fenotípica i genotípicament. La caracterització fenotípica s'ha portat a terme mitjançant la identificació a nivell d'espècie amb galeries API 20NE i proves bioquímiques específiques; la producció de metabòlits com PCA, Phl, Prn, IAA, HCN, quitinases i sideròfors mitjançant l'ús de diferents tècniques; antagonisme in vitro en diversos medis enfront dos fongs (Stemphylium vesicarium i Penicillium expansum) i tres bacteris fitopatògens (Erwinia amylovora, Pseudomonas syringae pv. syringae i Xanthomonas arboricola pv. juglandis); l'eficàcia de la inhibició de la infecció en bioassaigs in vivo sobre material vegetal enfront els fongs P. expansum en poma i S. vesicarium en fulles de perera i enfront el bacteri E. amylovora en fruits immadurs de perera i, finalment, en assaigs de promoció de creixement en dos portaempelts comercials de Prunus. Cal destacar que P. expansum causa la podridura blava en pomes i peres en postcollita, S. vesicarium la taca bruna de la perera i E. amylovora el foc bacterià de les rosàcies. El nombre de soques de Pseudomonas, sobre el total de les 72 estudiades, productores d'IAA (4) i quitinases (6) és baix, mentre que és elevat en el cas del HCN (32), que a més està associat a la producció de Phl. Els resultats obtinguts en l'antagonisme in vitro han mostrat en el cas dels bacteris que és dependent del patogen indicador i del medi de cultiu. La presència o absència de ferro no sembla ser un factor que potencií l'antagonisme. En el cas dels fongs no s'ha observat però, influència del medi de cultiu emprat. En el total de 72 soques s'ha observat un percentatge baix de soques que manifesten antagonisme en tots els medis assajats vers 3 o 4 dels patògens (7). Solament 2 d'aquestes 7 soques han mostrat ser també efectives en bioassaigs d'inhibició de les infeccions causades per 2 dels 3 patògens assajats. Algunes de les soques efectives en els bioassaigs no són antagonistes in vitro en cap dels medis assajats enfront el mateix patogen. En el cas de la promoció del creixement, s'han observat més soques promotores del creixement del portaempelts de prunera Marianna 2624 que no en l'híbrid de presseguer-ametller GF677 i les eficàcies assolides són també majors en el cas de Marianna 2624, detectant una elevada especificitat soca/portaempelts La caracterització genotípica s'ha realitzat mitjançant l'anàlisi dels polimorfismes en la longitud dels fragments de restricció de DNA ribosomal (RFLP-rDNA) i l'anàlisi dels polimorfismes en la longitud dels fragments de macrorestricció genòmica de DNA cromosòmic separats per electroforesi en camp polsant (MRFLP-PFGE). Ambdues anàlisis van mostrar una gran heterogeneïtat genètica entre les soques caracteritzades i no s'ha pogut relacionar les agrupacions obtingudes amb les característiques fenotípiques o capacitat d'actuar com a ACB o BPCP. Els patrons de macrorestricció genòmica (MRFLP-PFGE) del bacteri model P. fluorescens EPS288 són estables en el temps i independents de les condicions de cultiu assajades al laboratori o en mostres naturals, mostrant ser una tècnica eficaç en la identificació de reaïllats de mostres naturals inoculades prèviament amb el bacteri. Una selecció de soques que comparteixen el fet de produir floroglucinol s'han caracteritzat mitjançant RFLP i seqüenciació del gen phlD. S'ha establert una relació entre les agrupacions obtingudes en les anàlisis RFLP-rDNA, RFLP-phlD i les seqüències del gen. En l'anàlisi filogenètica de les seqüències del gen phlD s'ha observat un elevat grau de polimorfisme obtenint-se 3 agrupacions principals. Les agrupacions semblen relacionar-se amb els patrons de producció de metabòlits (Phl, HCN i Prn en una primera agrupació; Phl i HCN en la segona i solament Phl en la tercera), però aquestes no s'han pogut relacionar amb l'origen geogràfic de les soques o la seva activitat com a ACBs i/o BPCP. Amb les dades obtingudes de la caracterització fenotípica i genotípica s'ha realitzat una anàlisi multivariant (correspondències, correlacions d'Spearman i de freqüències amb variables categòriques). S'ha demostrat la importància de disposar d'una tècnica que permeti depurar una col·lecció de soques descartant les soques genèticament idèntiques, ja que influeixen en els resultats de les anàlisis. Pels tres patògens assajats com a indicadors i els dos portaempelts emprats, no s'ha observat cap correlació entre la inhibició de la infecció o la promoció del creixement amb les característiques fenotípiques i genotípiques de les soques que fos significatiu i consistent en les tres tècniques emprades.