189 resultados para hierarchical classification structures
em Universit
Resumo:
MOTIVATION: Lipids are a large and diverse group of biological molecules with roles in membrane formation, energy storage and signaling. Cellular lipidomes may contain tens of thousands of structures, a staggering degree of complexity whose significance is not yet fully understood. High-throughput mass spectrometry-based platforms provide a means to study this complexity, but the interpretation of lipidomic data and its integration with prior knowledge of lipid biology suffers from a lack of appropriate tools to manage the data and extract knowledge from it. RESULTS: To facilitate the description and exploration of lipidomic data and its integration with prior biological knowledge, we have developed a knowledge resource for lipids and their biology-SwissLipids. SwissLipids provides curated knowledge of lipid structures and metabolism which is used to generate an in silico library of feasible lipid structures. These are arranged in a hierarchical classification that links mass spectrometry analytical outputs to all possible lipid structures, metabolic reactions and enzymes. SwissLipids provides a reference namespace for lipidomic data publication, data exploration and hypothesis generation. The current version of SwissLipids includes over 244 000 known and theoretically possible lipid structures, over 800 proteins, and curated links to published knowledge from over 620 peer-reviewed publications. We are continually updating the SwissLipids hierarchy with new lipid categories and new expert curated knowledge. AVAILABILITY: SwissLipids is freely available at http://www.swisslipids.org/. CONTACT: alan.bridge@isb-sib.ch SUPPLEMENTARY INFORMATION: Supplementary data are available at Bioinformatics online.
Resumo:
Unraveling the effect of selection vs. drift on the evolution of quantitative traits is commonly achieved by one of two methods. Either one contrasts population differentiation estimates for genetic markers and quantitative traits (the Q(st)-F(st) contrast) or multivariate methods are used to study the covariance between sets of traits. In particular, many studies have focused on the genetic variance-covariance matrix (the G matrix). However, both drift and selection can cause changes in G. To understand their joint effects, we recently combined the two methods into a single test (accompanying article by Martin et al.), which we apply here to a network of 16 natural populations of the freshwater snail Galba truncatula. Using this new neutrality test, extended to hierarchical population structures, we studied the multivariate equivalent of the Q(st)-F(st) contrast for several life-history traits of G. truncatula. We found strong evidence of selection acting on multivariate phenotypes. Selection was homogeneous among populations within each habitat and heterogeneous between habitats. We found that the G matrices were relatively stable within each habitat, with proportionality between the among-populations (D) and the within-populations (G) covariance matrices. The effect of habitat heterogeneity is to break this proportionality because of selection for habitat-dependent optima. Individual-based simulations mimicking our empirical system confirmed that these patterns are expected under the selective regime inferred. We show that homogenizing selection can mimic some effect of drift on the G matrix (G and D almost proportional), but that incorporating information from molecular markers (multivariate Q(st)-F(st)) allows disentangling the two effects.
Resumo:
The present study compares the higher-level dimensions and the hierarchical structures of the fifth edition of the 16 PF with those of the NEO PI-R. Both inventories measure personality according to five higher-level dimensions. These inventories were however constructed according to different methods (bottom-up vs. top-down). 386 participants filled out both questionnaires. Correlations, regressions and canonical correlations made it possible to compare the inventories. As expected they roughly measure the same aspects of personality. There is a coherent association among four of the five dimensions measured in the tests. However Agreeableness, the remaining dimension in the NEO PI-R, is not represented in the 16 PF 5. Our analyses confirmed the hierarchical structures of both instruments, but this confirmation was more complete in the case of the NEO PI-R. Indeed, a parallel analysis indicated that a four-factor solution should be considered in the case of the 16 PF 5. On the other hand, the NEO PI-R's five-factor solution was confirmed. The top-down construction of this instrument seems to make for a more legible structure. Of the two five-dimension constructs, the NEO PI-R thus seems the more reliable. This confirms the relevance of the Five Factor Model of personality.
Resumo:
Résumé de la thèse L'évolution des systèmes policiers donne une place prépondérante à l'information et au renseignement. Cette transformation implique de développer et de maintenir un ensemble de processus permanent d'analyse de la criminalité, en particulier pour traiter des événements répétitifs ou graves. Dans une organisation aux ressources limitées, le temps consacré au recueil des données, à leur codification et intégration, diminue le temps disponible pour l'analyse et la diffusion de renseignements. Les phases de collecte et d'intégration restent néanmoins indispensables, l'analyse n'étant pas possible sur des données volumineuses n'ayant aucune structure. Jusqu'à présent, ces problématiques d'analyse ont été abordées par des approches essentiellement spécialisées (calculs de hot-sports, data mining, ...) ou dirigées par un seul axe (par exemple, les sciences comportementales). Cette recherche s'inscrit sous un angle différent, une démarche interdisciplinaire a été adoptée. L'augmentation continuelle de la quantité de données à analyser tend à diminuer la capacité d'analyse des informations à disposition. Un bon découpage (classification) des problèmes rencontrés permet de délimiter les analyses sur des données pertinentes. Ces classes sont essentielles pour structurer la mémoire du système d'analyse. Les statistiques policières de la criminalité devraient déjà avoir répondu à ces questions de découpage de la délinquance (classification juridique). Cette décomposition a été comparée aux besoins d'un système de suivi permanent dans la criminalité. La recherche confirme que nos efforts pour comprendre la nature et la répartition du crime se butent à un obstacle, à savoir que la définition juridique des formes de criminalité n'est pas adaptée à son analyse, à son étude. Depuis près de vingt ans, les corps de police de Suisse romande utilisent et développent un système de classification basé sur l'expérience policière (découpage par phénomène). Cette recherche propose d'interpréter ce système dans le cadre des approches situationnelles (approche théorique) et de le confronter aux données « statistiques » disponibles pour vérifier sa capacité à distinguer les formes de criminalité. La recherche se limite aux cambriolages d'habitations, un délit répétitif fréquent. La théorie des opportunités soutien qu'il faut réunir dans le temps et dans l'espace au minimum les trois facteurs suivants : un délinquant potentiel, une cible intéressante et l'absence de gardien capable de prévenir ou d'empêcher le passage à l'acte. Ainsi, le délit n'est possible que dans certaines circonstances, c'est-à-dire dans un contexte bien précis. Identifier ces contextes permet catégoriser la criminalité. Chaque cas est unique, mais un groupe de cas montre des similitudes. Par exemple, certaines conditions avec certains environnements attirent certains types de cambrioleurs. Deux hypothèses ont été testées. La première est que les cambriolages d'habitations ne se répartissent pas uniformément dans les classes formées par des « paramètres situationnels » ; la deuxième que des niches apparaissent en recoupant les différents paramètres et qu'elles correspondent à la classification mise en place par la coordination judiciaire vaudoise et le CICOP. La base de données vaudoise des cambriolages enregistrés entre 1997 et 2006 par la police a été utilisée (25'369 cas). Des situations spécifiques ont été mises en évidence, elles correspondent aux classes définies empiriquement. Dans une deuxième phase, le lien entre une situation spécifique et d'activité d'un auteur au sein d'une même situation a été vérifié. Les observations réalisées dans cette recherche indiquent que les auteurs de cambriolages sont actifs dans des niches. Plusieurs auteurs sériels ont commis des délits qui ne sont pas dans leur niche, mais le nombre de ces infractions est faible par rapport au nombre de cas commis dans la niche. Un système de classification qui correspond à des réalités criminelles permet de décomposer les événements et de mettre en place un système d'alerte et de suivi « intelligent ». Une nouvelle série dans un phénomène sera détectée par une augmentation du nombre de cas de ce phénomène, en particulier dans une région et à une période donnée. Cette nouvelle série, mélangée parmi l'ensemble des délits, ne serait pas forcément détectable, en particulier si elle se déplace. Finalement, la coopération entre les structures de renseignement criminel opérationnel en Suisse romande a été améliorée par le développement d'une plateforme d'information commune et le système de classification y a été entièrement intégré.
Resumo:
Lipids available in fingermark residue represent important targets for enhancement and dating techniques. While it is well known that lipid composition varies among fingermarks of the same donor (intra-variability) and between fingermarks of different donors (inter-variability), the extent of this variability remains uncharacterised. Thus, this worked aimed at studying qualitatively and quantitatively the initial lipid composition of fingermark residue of 25 different donors. Among the 104 detected lipids, 43 were reported for the first time in the literature. Furthermore, palmitic acid, squalene, cholesterol, myristyl myristate and myristyl myristoleate were quantified and their correlation within fingermark residue was highlighted. Ten compounds were then selected and further studied as potential targets for dating or enhancement techniques. It was shown that their relative standard deviation was significantly lower for the intra-variability than for the inter-variability. Moreover, the use of data pretreatments could significantly reduce this variability. Based on these observations, an objective donor classification model was proposed. Hierarchical cluster analysis was conducted on the pre-treated data and the fingermarks of the 25 donors were classified into two main groups, corresponding to "poor" and "rich" lipid donors. The robustness of this classification was tested using fingermark replicates of selected donors. 86% of these replicates were correctly classified, showing the potential of such a donor classification model for research purposes in order to select representative donors based on compounds of interest.
Resumo:
When dealing with multi-angular image sequences, problems of reflectance changes due either to illumination and acquisition geometry, or to interactions with the atmosphere, naturally arise. These phenomena interplay with the scene and lead to a modification of the measured radiance: for example, according to the angle of acquisition, tall objects may be seen from top or from the side and different light scatterings may affect the surfaces. This results in shifts in the acquired radiance, that make the problem of multi-angular classification harder and might lead to catastrophic results, since surfaces with the same reflectance return significantly different signals. In this paper, rather than performing atmospheric or bi-directional reflection distribution function (BRDF) correction, a non-linear manifold learning approach is used to align data structures. This method maximizes the similarity between the different acquisitions by deforming their manifold, thus enhancing the transferability of classification models among the images of the sequence.
Resumo:
Axée dans un premier temps sur le formalisme et les méthodes, cette thèse est construite sur trois concepts formalisés: une table de contingence, une matrice de dissimilarités euclidiennes et une matrice d'échange. À partir de ces derniers, plusieurs méthodes d'Analyse des données ou d'apprentissage automatique sont exprimées et développées: l'analyse factorielle des correspondances (AFC), vue comme un cas particulier du multidimensional scaling; la classification supervisée, ou non, combinée aux transformations de Schoenberg; et les indices d'autocorrélation et d'autocorrélation croisée, adaptés à des analyses multivariées et permettant de considérer diverses familles de voisinages. Ces méthodes débouchent dans un second temps sur une pratique de l'analyse exploratoire de différentes données textuelles et musicales. Pour les données textuelles, on s'intéresse à la classification automatique en types de discours de propositions énoncées, en se basant sur les catégories morphosyntaxiques (CMS) qu'elles contiennent. Bien que le lien statistique entre les CMS et les types de discours soit confirmé, les résultats de la classification obtenus avec la méthode K- means, combinée à une transformation de Schoenberg, ainsi qu'avec une variante floue de l'algorithme K-means, sont plus difficiles à interpréter. On traite aussi de la classification supervisée multi-étiquette en actes de dialogue de tours de parole, en se basant à nouveau sur les CMS qu'ils contiennent, mais aussi sur les lemmes et le sens des verbes. Les résultats obtenus par l'intermédiaire de l'analyse discriminante combinée à une transformation de Schoenberg sont prometteurs. Finalement, on examine l'autocorrélation textuelle, sous l'angle des similarités entre diverses positions d'un texte, pensé comme une séquence d'unités. En particulier, le phénomène d'alternance de la longueur des mots dans un texte est observé pour des voisinages d'empan variable. On étudie aussi les similarités en fonction de l'apparition, ou non, de certaines parties du discours, ainsi que les similarités sémantiques des diverses positions d'un texte. Concernant les données musicales, on propose une représentation d'une partition musicale sous forme d'une table de contingence. On commence par utiliser l'AFC et l'indice d'autocorrélation pour découvrir les structures existant dans chaque partition. Ensuite, on opère le même type d'approche sur les différentes voix d'une partition, grâce à l'analyse des correspondances multiples, dans une variante floue, et à l'indice d'autocorrélation croisée. Qu'il s'agisse de la partition complète ou des différentes voix qu'elle contient, des structures répétées sont effectivement détectées, à condition qu'elles ne soient pas transposées. Finalement, on propose de classer automatiquement vingt partitions de quatre compositeurs différents, chacune représentée par une table de contingence, par l'intermédiaire d'un indice mesurant la similarité de deux configurations. Les résultats ainsi obtenus permettent de regrouper avec succès la plupart des oeuvres selon leur compositeur.
Resumo:
In this paper, we consider active sampling to label pixels grouped with hierarchical clustering. The objective of the method is to match the data relationships discovered by the clustering algorithm with the user's desired class semantics. The first is represented as a complete tree to be pruned and the second is iteratively provided by the user. The active learning algorithm proposed searches the pruning of the tree that best matches the labels of the sampled points. By choosing the part of the tree to sample from according to current pruning's uncertainty, sampling is focused on most uncertain clusters. This way, large clusters for which the class membership is already fixed are no longer queried and sampling is focused on division of clusters showing mixed labels. The model is tested on a VHR image in a multiclass classification setting. The method clearly outperforms random sampling in a transductive setting, but cannot generalize to unseen data, since it aims at optimizing the classification of a given cluster structure.
Resumo:
Abstract The main objective of this work is to show how the choice of the temporal dimension and of the spatial structure of the population influences an artificial evolutionary process. In the field of Artificial Evolution we can observe a common trend in synchronously evolv¬ing panmictic populations, i.e., populations in which any individual can be recombined with any other individual. Already in the '90s, the works of Spiessens and Manderick, Sarma and De Jong, and Gorges-Schleuter have pointed out that, if a population is struc¬tured according to a mono- or bi-dimensional regular lattice, the evolutionary process shows a different dynamic with respect to the panmictic case. In particular, Sarma and De Jong have studied the selection pressure (i.e., the diffusion of a best individual when the only selection operator is active) induced by a regular bi-dimensional structure of the population, proposing a logistic modeling of the selection pressure curves. This model supposes that the diffusion of a best individual in a population follows an exponential law. We show that such a model is inadequate to describe the process, since the growth speed must be quadratic or sub-quadratic in the case of a bi-dimensional regular lattice. New linear and sub-quadratic models are proposed for modeling the selection pressure curves in, respectively, mono- and bi-dimensional regu¬lar structures. These models are extended to describe the process when asynchronous evolutions are employed. Different dynamics of the populations imply different search strategies of the resulting algorithm, when the evolutionary process is used to solve optimisation problems. A benchmark of both discrete and continuous test problems is used to study the search characteristics of the different topologies and updates of the populations. In the last decade, the pioneering studies of Watts and Strogatz have shown that most real networks, both in the biological and sociological worlds as well as in man-made structures, have mathematical properties that set them apart from regular and random structures. In particular, they introduced the concepts of small-world graphs, and they showed that this new family of structures has interesting computing capabilities. Populations structured according to these new topologies are proposed, and their evolutionary dynamics are studied and modeled. We also propose asynchronous evolutions for these structures, and the resulting evolutionary behaviors are investigated. Many man-made networks have grown, and are still growing incrementally, and explanations have been proposed for their actual shape, such as Albert and Barabasi's preferential attachment growth rule. However, many actual networks seem to have undergone some kind of Darwinian variation and selection. Thus, how these networks might have come to be selected is an interesting yet unanswered question. In the last part of this work, we show how a simple evolutionary algorithm can enable the emrgence o these kinds of structures for two prototypical problems of the automata networks world, the majority classification and the synchronisation problems. Synopsis L'objectif principal de ce travail est de montrer l'influence du choix de la dimension temporelle et de la structure spatiale d'une population sur un processus évolutionnaire artificiel. Dans le domaine de l'Evolution Artificielle on peut observer une tendence à évoluer d'une façon synchrone des populations panmictiques, où chaque individu peut être récombiné avec tout autre individu dans la population. Déjà dans les année '90, Spiessens et Manderick, Sarma et De Jong, et Gorges-Schleuter ont observé que, si une population possède une structure régulière mono- ou bi-dimensionnelle, le processus évolutionnaire montre une dynamique différente de celle d'une population panmictique. En particulier, Sarma et De Jong ont étudié la pression de sélection (c-à-d la diffusion d'un individu optimal quand seul l'opérateur de sélection est actif) induite par une structure régulière bi-dimensionnelle de la population, proposant une modélisation logistique des courbes de pression de sélection. Ce modèle suppose que la diffusion d'un individu optimal suit une loi exponentielle. On montre que ce modèle est inadéquat pour décrire ce phénomène, étant donné que la vitesse de croissance doit obéir à une loi quadratique ou sous-quadratique dans le cas d'une structure régulière bi-dimensionnelle. De nouveaux modèles linéaires et sous-quadratique sont proposés pour des structures mono- et bi-dimensionnelles. Ces modèles sont étendus pour décrire des processus évolutionnaires asynchrones. Différentes dynamiques de la population impliquent strategies différentes de recherche de l'algorithme résultant lorsque le processus évolutionnaire est utilisé pour résoudre des problèmes d'optimisation. Un ensemble de problèmes discrets et continus est utilisé pour étudier les charactéristiques de recherche des différentes topologies et mises à jour des populations. Ces dernières années, les études de Watts et Strogatz ont montré que beaucoup de réseaux, aussi bien dans les mondes biologiques et sociologiques que dans les structures produites par l'homme, ont des propriétés mathématiques qui les séparent à la fois des structures régulières et des structures aléatoires. En particulier, ils ont introduit la notion de graphe sm,all-world et ont montré que cette nouvelle famille de structures possède des intéressantes propriétés dynamiques. Des populations ayant ces nouvelles topologies sont proposés, et leurs dynamiques évolutionnaires sont étudiées et modélisées. Pour des populations ayant ces structures, des méthodes d'évolution asynchrone sont proposées, et la dynamique résultante est étudiée. Beaucoup de réseaux produits par l'homme se sont formés d'une façon incrémentale, et des explications pour leur forme actuelle ont été proposées, comme le preferential attachment de Albert et Barabàsi. Toutefois, beaucoup de réseaux existants doivent être le produit d'un processus de variation et sélection darwiniennes. Ainsi, la façon dont ces structures ont pu être sélectionnées est une question intéressante restée sans réponse. Dans la dernière partie de ce travail, on montre comment un simple processus évolutif artificiel permet à ce type de topologies d'émerger dans le cas de deux problèmes prototypiques des réseaux d'automates, les tâches de densité et de synchronisation.
Resumo:
La hiérarchie de Wagner constitue à ce jour la plus fine classification des langages ω-réguliers. Par ailleurs, l'approche algébrique de la théorie de langages formels montre que ces ensembles ω-réguliers correspondent précisément aux langages reconnaissables par des ω-semigroupes finis pointés. Ce travail s'inscrit dans ce contexte en fournissant une description complète de la contrepartie algébrique de la hiérarchie de Wagner, et ce par le biais de la théorie descriptive des jeux de Wadge. Plus précisément, nous montrons d'abord que le degré de Wagner d'un langage ω-régulier est effectivement un invariant syntaxique. Nous définissons ensuite une relation de réduction entre ω-semigroupes pointés par le biais d'un jeu infini de type Wadge. La collection de ces structures algébriques ordonnée par cette relation apparaît alors comme étant isomorphe à la hiérarchie de Wagner, soit un quasi bon ordre décidable de largeur 2 et de hauteur ω. Nous exposons par la suite une procédure de décidabilité de cette hiérarchie algébrique : on décrit une représentation graphique des ω-semigroupes finis pointés, puis un algorithme sur ces structures graphiques qui calcule le degré de Wagner de n'importe quel élément. Ainsi le degré de Wagner de tout langage ω-régulier peut être calculé de manière effective directement sur son image syntaxique. Nous montrons ensuite comment construire directement et inductivement une structure de n''importe quel degré. Nous terminons par une description détaillée des invariants algébriques qui caractérisent tous les degrés de cette hiérarchie. Abstract The Wagner hierarchy is known so far to be the most refined topological classification of ω-rational languages. Also, the algebraic study of formal languages shows that these ω-rational sets correspond precisely to the languages recognizable by finite pointed ω-semigroups. Within this framework, we provide a construction of the algebraic counterpart of the Wagner hierarchy. We adopt a hierarchical game approach, by translating the Wadge theory from the ω-rational language to the ω-semigroup context. More precisely, we first show that the Wagner degree is indeed a syntactic invariant. We then define a reduction relation on finite pointed ω-semigroups by means of a Wadge-like infinite two-player game. The collection of these algebraic structures ordered by this reduction is then proven to be isomorphic to the Wagner hierarchy, namely a well-founded and decidable partial ordering of width 2 and height $\omega^\omega$. We also describe a decidability procedure of this hierarchy: we introduce a graph representation of finite pointed ω-semigroups allowing to compute their precise Wagner degrees. The Wagner degree of every ω-rational language can therefore be computed directly on its syntactic image. We then show how to build a finite pointed ω-semigroup of any given Wagner degree. We finally describe the algebraic invariants characterizing every Wagner degree of this hierarchy.
Resumo:
Peroxisome proliferator-activated receptors (PPARs) compose a family of nuclear receptors that mediate the effects of lipidic ligands at the transcriptional level. In this review, we highlight advances in the understanding of the PPAR ligand binding domain (LBD) structure at the atomic level. The overall structure of PPARs LBD is described, and important protein ligand interactions are presented. Structure-activity relationships between isotypes structures and ligand specificity are addressed. It is shown that the numerous experimental three-dimensional structures available, together with in silico simulations, help understanding the role played by the activating function-2 (AF-2) in PPARs activation and its underlying molecular mechanism. The relation between the PPARs constitutive activity and the intrinsic stability of the active conformation is discussed. Finally, the interactions of PPARs LBD with co-activators or co-repressors, as well as with the retinoid X receptor (RXR) are described and considered in relation to PPARs activation.
Resumo:
Anatomical structures and mechanisms linking genes to neuropsychiatric disorders are not deciphered. Reciprocal copy number variants at the 16p11.2 BP4-BP5 locus offer a unique opportunity to study the intermediate phenotypes in carriers at high risk for autism spectrum disorder (ASD) or schizophrenia (SZ). We investigated the variation in brain anatomy in 16p11.2 deletion and duplication carriers. Beyond gene dosage effects on global brain metrics, we show that the number of genomic copies negatively correlated to the gray matter volume and white matter tissue properties in cortico-subcortical regions implicated in reward, language and social cognition. Despite the near absence of ASD or SZ diagnoses in our 16p11.2 cohort, the pattern of brain anatomy changes in carriers spatially overlaps with the well-established structural abnormalities in ASD and SZ. Using measures of peripheral mRNA levels, we confirm our genomic copy number findings. This combined molecular, neuroimaging and clinical approach, applied to larger datasets, will help interpret the relative contributions of genes to neuropsychiatric conditions by measuring their effect on local brain anatomy.Molecular Psychiatry advance online publication, 25 November 2014; doi:10.1038/mp.2014.145.
Resumo:
The high density of slope failures in western Norway is due to the steep relief and to the concentration of various structures that followed protracted ductile and brittle tectonics. On the 72 investigated rock slope instabilities, 13 were developed in soft weathered mafic and phyllitic allochthons. Only the intrinsic weakness of such rocks increases the susceptibility to gravitational deformation. In contrast, the gravitational structures in the hard gneisses reactivate prominent ductile or/and brittle fabrics. At 30 rockslides along cataclinal slopes, weak mafic layers of foliation are reactivated as basal planes. Slope-parallel steep foliation forms back-cracks of unstable columns. Folds are specifically present in the Storfjord area, together with a clustering of potential slope failures. Folding increases the probability of having favourably orientated planes with respect to the gravitational forces and the slope. High water pressure is believed to seasonally build up along the shallow-dipping Caledonian detachments and may contribute to destabilization of the rock slope upwards. Regional cataclastic faults localized the gravitational structures at 45 sites. The volume of the slope instabilities tends to increase with the amount of reactivated prominent structures and the spacing of the latter controls the size of instabilities.
Resumo:
This paper presents a semisupervised support vector machine (SVM) that integrates the information of both labeled and unlabeled pixels efficiently. Method's performance is illustrated in the relevant problem of very high resolution image classification of urban areas. The SVM is trained with the linear combination of two kernels: a base kernel working only with labeled examples is deformed by a likelihood kernel encoding similarities between labeled and unlabeled examples. Results obtained on very high resolution (VHR) multispectral and hyperspectral images show the relevance of the method in the context of urban image classification. Also, its simplicity and the few parameters involved make the method versatile and workable by unexperienced users.