6 resultados para principal components analysis (PCA) algorithm
em Université de Montréal, Canada
Resumo:
This paper describes a method for analyzing scoliosis trunk deformities using Independent Component Analysis (ICA). Our hypothesis is that ICA can capture the scoliosis deformities visible on the trunk. Unlike Principal Component Analysis (PCA), ICA gives local shape variation and assumes that the data distribution is not normal. 3D torso images of 56 subjects including 28 patients with adolescent idiopathic scoliosis and 28 healthy subjects are analyzed using ICA. First, we remark that the independent components capture the local scoliosis deformities as the shoulder variation, the scapula asymmetry and the waist deformation. Second, we note that the different scoliosis curve types are characterized by different combinations of specific independent components.
Resumo:
Peu d’études ont évalué les caractéristiques des parcs pouvant encourager l’activité physique spécifiquement chez les jeunes. Cette étude vise à estimer la fiabilité d’un outil d’observation des parcs orienté vers les jeunes, à identifier les domaines conceptuels des parcs capturés par cet outil à l’aide d’une opérationnalisation du modèle conceptuel des parcs et de l’activité physique et à identifier différents types de parcs. Un total de 576 parcs ont été évalués en utilisant un outil d’évaluation des parcs. La fiabilité intra-juges et la fiabilité inter-juges de cet outil ont été estimées. Une analyse exploratoire par composantes principales (ACP) a été effectuée en utilisant une rotation orthogonale varimax et les variables étaient retenues si elles saturaient à ≥0.3 sur une composante. Une analyse par grappes (AG) à l’aide de la méthode de Ward a ensuite été réalisée en utilisant les composantes principales et une mesure de l’aire des parcs. L’outil était généralement fiable et l’ACP a permis d'identifier dix composantes principales qui expliquaient 60% de la variance totale. L’AG a donné un résultat de neuf grappes qui expliquaient 40% de la variance totale. Les méthodes de l’ACP et l’AG sont donc faisables avec des données de parcs. Les résultats ont été interprétés en utilisant l’opérationnalisation du modèle conceptuel.
Resumo:
In this paper, we introduce a new approach for volatility modeling in discrete and continuous time. We follow the stochastic volatility literature by assuming that the variance is a function of a state variable. However, instead of assuming that the loading function is ad hoc (e.g., exponential or affine), we assume that it is a linear combination of the eigenfunctions of the conditional expectation (resp. infinitesimal generator) operator associated to the state variable in discrete (resp. continuous) time. Special examples are the popular log-normal and square-root models where the eigenfunctions are the Hermite and Laguerre polynomials respectively. The eigenfunction approach has at least six advantages: i) it is general since any square integrable function may be written as a linear combination of the eigenfunctions; ii) the orthogonality of the eigenfunctions leads to the traditional interpretations of the linear principal components analysis; iii) the implied dynamics of the variance and squared return processes are ARMA and, hence, simple for forecasting and inference purposes; (iv) more importantly, this generates fat tails for the variance and returns processes; v) in contrast to popular models, the variance of the variance is a flexible function of the variance; vi) these models are closed under temporal aggregation.
Resumo:
Une taxonomie révisée et une connaissance des limites d’espèces demeurent toujours importantes dans les points chauds en biodiversité comme les Antilles où de nombreuses espèces endémiques sont retrouvées. Des limites d’espèces divergentes impliquent un différent nombre d’espèces retrouvées dans un écosystème, ce qui peut exercer une influence sur les décisions prises face aux enjeux de conservation. Les genres Gesneria et Rhytidophyllum qui forment les principaux représentants de la famille des Gesneriaceae dans les Antilles comprennent plusieurs taxons aux limites d’espèces ambigües et quelques espèces qui ont des sous-espèces reconnues. C’est le cas de Gesneria viridiflora (Decne.) Kuntze qui comprend quatre sous-espèces géographiquement isolées et qui présentent des caractères végétatifs et reproducteurs similaires et variables. Une délimitation d’espèces approfondie de ce complexe d’espèce est effectuée ici à partir d’une approche de taxonomie intégrative considérant des données morphologiques, génétiques et bioclimatiques. Les données morphologiques quantitatives et qualitatives obtenues à partir de spécimens d’herbier sont utilisées pour délimiter des groupes morphologiques à l’aide d’une analyse en coordonnées principales. Ces groupes sont ensuite testés à l’aide de séquences d’ADN de quatre régions nucléaires en utilisant une méthode bayesienne basée sur la théorie de la coalescence. Finalement, les occurrences et les valeurs de variables de température et de précipitation qui y prévalent sont utilisées dans une analyse en composantes principales bioclimatique pour comparer les groupes délimités morphologiquement et génétiquement. Les résultats de l’analyse morphologique multivariée supportent la distinction entre les groupes formés par les sous-espèces actuellement reconnues de G. viridiflora. Les résultats, incluant des données génétiques, suggèrent une distinction jusqu’ici insoupçonnée des populations du Massif de la Hotte au sud-ouest d’Haïti qui sont génétiquement plus rapprochées des populations de Cuba que de celles d’Hispaniola. Bioclimatiquement, les groupes délimités par les analyses morphologiques et génétiques sont distincts. L’approche de taxonomie intégrative a permis de distinguer cinq espèces distinctes plutôt que les quatre sous-espèces acceptées jusqu’à aujourd’hui. Ces espèces sont : G. acrochordonanthe, G. quisqueyana, G. sintenisii, G. sylvicola et G. viridiflora. Une carte de distribution géographique, un tableau de la nouvelle taxonomie applicable et une clé d’identification des espèces sont présentés. La nouvelle taxonomie déterminée dans cette étude démontre un endémisme insoupçonné dans plusieurs régions du point chaud en biodiversité des Antilles et souligne l’importance d’investiguer les limites d’espèces dans les groupes diversifiés comprenant des taxons aux limites d’espèces incomprises.
Resumo:
We study the workings of the factor analysis of high-dimensional data using artificial series generated from a large, multi-sector dynamic stochastic general equilibrium (DSGE) model. The objective is to use the DSGE model as a laboratory that allow us to shed some light on the practical benefits and limitations of using factor analysis techniques on economic data. We explain in what sense the artificial data can be thought of having a factor structure, study the theoretical and finite sample properties of the principal components estimates of the factor space, investigate the substantive reason(s) for the good performance of di¤usion index forecasts, and assess the quality of the factor analysis of highly dissagregated data. In all our exercises, we explain the precise relationship between the factors and the basic macroeconomic shocks postulated by the model.
Resumo:
Dans un premier temps, nous avons modélisé la structure d’une famille d’ARN avec une grammaire de graphes afin d’identifier les séquences qui en font partie. Plusieurs autres méthodes de modélisation ont été développées, telles que des grammaires stochastiques hors-contexte, des modèles de covariance, des profils de structures secondaires et des réseaux de contraintes. Ces méthodes de modélisation se basent sur la structure secondaire classique comparativement à nos grammaires de graphes qui se basent sur les motifs cycliques de nucléotides. Pour exemplifier notre modèle, nous avons utilisé la boucle E du ribosome qui contient le motif Sarcin-Ricin qui a été largement étudié depuis sa découverte par cristallographie aux rayons X au début des années 90. Nous avons construit une grammaire de graphes pour la structure du motif Sarcin-Ricin et avons dérivé toutes les séquences qui peuvent s’y replier. La pertinence biologique de ces séquences a été confirmée par une comparaison des séquences d’un alignement de plus de 800 séquences ribosomiques bactériennes. Cette comparaison a soulevée des alignements alternatifs pour quelques unes des séquences que nous avons supportés par des prédictions de structures secondaires et tertiaires. Les motifs cycliques de nucléotides ont été observés par les membres de notre laboratoire dans l'ARN dont la structure tertiaire a été résolue expérimentalement. Une étude des séquences et des structures tertiaires de chaque cycle composant la structure du Sarcin-Ricin a révélé que l'espace des séquences dépend grandement des interactions entre tous les nucléotides à proximité dans l’espace tridimensionnel, c’est-à-dire pas uniquement entre deux paires de bases adjacentes. Le nombre de séquences générées par la grammaire de graphes est plus petit que ceux des méthodes basées sur la structure secondaire classique. Cela suggère l’importance du contexte pour la relation entre la séquence et la structure, d’où l’utilisation d’une grammaire de graphes contextuelle plus expressive que les grammaires hors-contexte. Les grammaires de graphes que nous avons développées ne tiennent compte que de la structure tertiaire et négligent les interactions de groupes chimiques spécifiques avec des éléments extra-moléculaires, comme d’autres macromolécules ou ligands. Dans un deuxième temps et pour tenir compte de ces interactions, nous avons développé un modèle qui tient compte de la position des groupes chimiques à la surface des structures tertiaires. L’hypothèse étant que les groupes chimiques à des positions conservées dans des séquences prédéterminées actives, qui sont déplacés dans des séquences inactives pour une fonction précise, ont de plus grandes chances d’être impliqués dans des interactions avec des facteurs. En poursuivant avec l’exemple de la boucle E, nous avons cherché les groupes de cette boucle qui pourraient être impliqués dans des interactions avec des facteurs d'élongation. Une fois les groupes identifiés, on peut prédire par modélisation tridimensionnelle les séquences qui positionnent correctement ces groupes dans leurs structures tertiaires. Il existe quelques modèles pour adresser ce problème, telles que des descripteurs de molécules, des matrices d’adjacences de nucléotides et ceux basé sur la thermodynamique. Cependant, tous ces modèles utilisent une représentation trop simplifiée de la structure d’ARN, ce qui limite leur applicabilité. Nous avons appliqué notre modèle sur les structures tertiaires d’un ensemble de variants d’une séquence d’une instance du Sarcin-Ricin d’un ribosome bactérien. L’équipe de Wool à l’université de Chicago a déjà étudié cette instance expérimentalement en testant la viabilité de 12 variants. Ils ont déterminé 4 variants viables et 8 létaux. Nous avons utilisé cet ensemble de 12 séquences pour l’entraînement de notre modèle et nous avons déterminé un ensemble de propriétés essentielles à leur fonction biologique. Pour chaque variant de l’ensemble d’entraînement nous avons construit des modèles de structures tertiaires. Nous avons ensuite mesuré les charges partielles des atomes exposés sur la surface et encodé cette information dans des vecteurs. Nous avons utilisé l’analyse des composantes principales pour transformer les vecteurs en un ensemble de variables non corrélées, qu’on appelle les composantes principales. En utilisant la distance Euclidienne pondérée et l’algorithme du plus proche voisin, nous avons appliqué la technique du « Leave-One-Out Cross-Validation » pour choisir les meilleurs paramètres pour prédire l’activité d’une nouvelle séquence en la faisant correspondre à ces composantes principales. Finalement, nous avons confirmé le pouvoir prédictif du modèle à l’aide d’un nouvel ensemble de 8 variants dont la viabilité à été vérifiée expérimentalement dans notre laboratoire. En conclusion, les grammaires de graphes permettent de modéliser la relation entre la séquence et la structure d’un élément structural d’ARN, comme la boucle E contenant le motif Sarcin-Ricin du ribosome. Les applications vont de la correction à l’aide à l'alignement de séquences jusqu’au design de séquences ayant une structure prédéterminée. Nous avons également développé un modèle pour tenir compte des interactions spécifiques liées à une fonction biologique donnée, soit avec des facteurs environnants. Notre modèle est basé sur la conservation de l'exposition des groupes chimiques qui sont impliqués dans ces interactions. Ce modèle nous a permis de prédire l’activité biologique d’un ensemble de variants de la boucle E du ribosome qui se lie à des facteurs d'élongation.