852 resultados para Algorithme de Metropolis-Hastings
Resumo:
Abstract : This work is concerned with the development and application of novel unsupervised learning methods, having in mind two target applications: the analysis of forensic case data and the classification of remote sensing images. First, a method based on a symbolic optimization of the inter-sample distance measure is proposed to improve the flexibility of spectral clustering algorithms, and applied to the problem of forensic case data. This distance is optimized using a loss function related to the preservation of neighborhood structure between the input space and the space of principal components, and solutions are found using genetic programming. Results are compared to a variety of state-of--the-art clustering algorithms. Subsequently, a new large-scale clustering method based on a joint optimization of feature extraction and classification is proposed and applied to various databases, including two hyperspectral remote sensing images. The algorithm makes uses of a functional model (e.g., a neural network) for clustering which is trained by stochastic gradient descent. Results indicate that such a technique can easily scale to huge databases, can avoid the so-called out-of-sample problem, and can compete with or even outperform existing clustering algorithms on both artificial data and real remote sensing images. This is verified on small databases as well as very large problems. Résumé : Ce travail de recherche porte sur le développement et l'application de méthodes d'apprentissage dites non supervisées. Les applications visées par ces méthodes sont l'analyse de données forensiques et la classification d'images hyperspectrales en télédétection. Dans un premier temps, une méthodologie de classification non supervisée fondée sur l'optimisation symbolique d'une mesure de distance inter-échantillons est proposée. Cette mesure est obtenue en optimisant une fonction de coût reliée à la préservation de la structure de voisinage d'un point entre l'espace des variables initiales et l'espace des composantes principales. Cette méthode est appliquée à l'analyse de données forensiques et comparée à un éventail de méthodes déjà existantes. En second lieu, une méthode fondée sur une optimisation conjointe des tâches de sélection de variables et de classification est implémentée dans un réseau de neurones et appliquée à diverses bases de données, dont deux images hyperspectrales. Le réseau de neurones est entraîné à l'aide d'un algorithme de gradient stochastique, ce qui rend cette technique applicable à des images de très haute résolution. Les résultats de l'application de cette dernière montrent que l'utilisation d'une telle technique permet de classifier de très grandes bases de données sans difficulté et donne des résultats avantageusement comparables aux méthodes existantes.
Resumo:
RÉSUMÉ Cette thèse porte sur le développement de méthodes algorithmiques pour découvrir automatiquement la structure morphologique des mots d'un corpus. On considère en particulier le cas des langues s'approchant du type introflexionnel, comme l'arabe ou l'hébreu. La tradition linguistique décrit la morphologie de ces langues en termes d'unités discontinues : les racines consonantiques et les schèmes vocaliques. Ce genre de structure constitue un défi pour les systèmes actuels d'apprentissage automatique, qui opèrent généralement avec des unités continues. La stratégie adoptée ici consiste à traiter le problème comme une séquence de deux sous-problèmes. Le premier est d'ordre phonologique : il s'agit de diviser les symboles (phonèmes, lettres) du corpus en deux groupes correspondant autant que possible aux consonnes et voyelles phonétiques. Le second est de nature morphologique et repose sur les résultats du premier : il s'agit d'établir l'inventaire des racines et schèmes du corpus et de déterminer leurs règles de combinaison. On examine la portée et les limites d'une approche basée sur deux hypothèses : (i) la distinction entre consonnes et voyelles peut être inférée sur la base de leur tendance à alterner dans la chaîne parlée; (ii) les racines et les schèmes peuvent être identifiés respectivement aux séquences de consonnes et voyelles découvertes précédemment. L'algorithme proposé utilise une méthode purement distributionnelle pour partitionner les symboles du corpus. Puis il applique des principes analogiques pour identifier un ensemble de candidats sérieux au titre de racine ou de schème, et pour élargir progressivement cet ensemble. Cette extension est soumise à une procédure d'évaluation basée sur le principe de la longueur de description minimale, dans- l'esprit de LINGUISTICA (Goldsmith, 2001). L'algorithme est implémenté sous la forme d'un programme informatique nommé ARABICA, et évalué sur un corpus de noms arabes, du point de vue de sa capacité à décrire le système du pluriel. Cette étude montre que des structures linguistiques complexes peuvent être découvertes en ne faisant qu'un minimum d'hypothèses a priori sur les phénomènes considérés. Elle illustre la synergie possible entre des mécanismes d'apprentissage portant sur des niveaux de description linguistique distincts, et cherche à déterminer quand et pourquoi cette coopération échoue. Elle conclut que la tension entre l'universalité de la distinction consonnes-voyelles et la spécificité de la structuration racine-schème est cruciale pour expliquer les forces et les faiblesses d'une telle approche. ABSTRACT This dissertation is concerned with the development of algorithmic methods for the unsupervised learning of natural language morphology, using a symbolically transcribed wordlist. It focuses on the case of languages approaching the introflectional type, such as Arabic or Hebrew. The morphology of such languages is traditionally described in terms of discontinuous units: consonantal roots and vocalic patterns. Inferring this kind of structure is a challenging task for current unsupervised learning systems, which generally operate with continuous units. In this study, the problem of learning root-and-pattern morphology is divided into a phonological and a morphological subproblem. The phonological component of the analysis seeks to partition the symbols of a corpus (phonemes, letters) into two subsets that correspond well with the phonetic definition of consonants and vowels; building around this result, the morphological component attempts to establish the list of roots and patterns in the corpus, and to infer the rules that govern their combinations. We assess the extent to which this can be done on the basis of two hypotheses: (i) the distinction between consonants and vowels can be learned by observing their tendency to alternate in speech; (ii) roots and patterns can be identified as sequences of the previously discovered consonants and vowels respectively. The proposed algorithm uses a purely distributional method for partitioning symbols. Then it applies analogical principles to identify a preliminary set of reliable roots and patterns, and gradually enlarge it. This extension process is guided by an evaluation procedure based on the minimum description length principle, in line with the approach to morphological learning embodied in LINGUISTICA (Goldsmith, 2001). The algorithm is implemented as a computer program named ARABICA; it is evaluated with regard to its ability to account for the system of plural formation in a corpus of Arabic nouns. This thesis shows that complex linguistic structures can be discovered without recourse to a rich set of a priori hypotheses about the phenomena under consideration. It illustrates the possible synergy between learning mechanisms operating at distinct levels of linguistic description, and attempts to determine where and why such a cooperation fails. It concludes that the tension between the universality of the consonant-vowel distinction and the specificity of root-and-pattern structure is crucial for understanding the advantages and weaknesses of this approach.
Resumo:
Axée dans un premier temps sur le formalisme et les méthodes, cette thèse est construite sur trois concepts formalisés: une table de contingence, une matrice de dissimilarités euclidiennes et une matrice d'échange. À partir de ces derniers, plusieurs méthodes d'Analyse des données ou d'apprentissage automatique sont exprimées et développées: l'analyse factorielle des correspondances (AFC), vue comme un cas particulier du multidimensional scaling; la classification supervisée, ou non, combinée aux transformations de Schoenberg; et les indices d'autocorrélation et d'autocorrélation croisée, adaptés à des analyses multivariées et permettant de considérer diverses familles de voisinages. Ces méthodes débouchent dans un second temps sur une pratique de l'analyse exploratoire de différentes données textuelles et musicales. Pour les données textuelles, on s'intéresse à la classification automatique en types de discours de propositions énoncées, en se basant sur les catégories morphosyntaxiques (CMS) qu'elles contiennent. Bien que le lien statistique entre les CMS et les types de discours soit confirmé, les résultats de la classification obtenus avec la méthode K- means, combinée à une transformation de Schoenberg, ainsi qu'avec une variante floue de l'algorithme K-means, sont plus difficiles à interpréter. On traite aussi de la classification supervisée multi-étiquette en actes de dialogue de tours de parole, en se basant à nouveau sur les CMS qu'ils contiennent, mais aussi sur les lemmes et le sens des verbes. Les résultats obtenus par l'intermédiaire de l'analyse discriminante combinée à une transformation de Schoenberg sont prometteurs. Finalement, on examine l'autocorrélation textuelle, sous l'angle des similarités entre diverses positions d'un texte, pensé comme une séquence d'unités. En particulier, le phénomène d'alternance de la longueur des mots dans un texte est observé pour des voisinages d'empan variable. On étudie aussi les similarités en fonction de l'apparition, ou non, de certaines parties du discours, ainsi que les similarités sémantiques des diverses positions d'un texte. Concernant les données musicales, on propose une représentation d'une partition musicale sous forme d'une table de contingence. On commence par utiliser l'AFC et l'indice d'autocorrélation pour découvrir les structures existant dans chaque partition. Ensuite, on opère le même type d'approche sur les différentes voix d'une partition, grâce à l'analyse des correspondances multiples, dans une variante floue, et à l'indice d'autocorrélation croisée. Qu'il s'agisse de la partition complète ou des différentes voix qu'elle contient, des structures répétées sont effectivement détectées, à condition qu'elles ne soient pas transposées. Finalement, on propose de classer automatiquement vingt partitions de quatre compositeurs différents, chacune représentée par une table de contingence, par l'intermédiaire d'un indice mesurant la similarité de deux configurations. Les résultats ainsi obtenus permettent de regrouper avec succès la plupart des oeuvres selon leur compositeur.
Resumo:
The objective of this work was to evaluate the water flow computer model, WATABLE, using experimental field observations on water table management plots from a site located near Hastings, FL, USA. The experimental field had scale drainage systems with provisions for subirrigation with buried microirrigation and conventional seepage irrigation systems. Potato (Solanum tuberosum L.) growing seasons from years 1996 and 1997 were used to simulate the hydrology of the area. Water table levels, precipitation, irrigation and runoff volumes were continuously monitored. The model simulated the water movement from a buried microirrigation line source and the response of the water table to irrigation, precipitation, evapotranspiration, and deep percolation. The model was calibrated and verified by comparing simulated results with experimental field observations. The model performed very well in simulating seasonal runoff, irrigation volumes, and water table levels during crop growth. The two-dimensional model can be used to investigate different irrigation strategies involving water table management control. Applications of the model include optimization of the water table depth for each growth stage, and duration, frequency, and rate of irrigation.
Resumo:
Copy-number variants (CNVs) represent a significant interpretative challenge, given that each CNV typically affects the dosage of multiple genes. Here we report on five individuals with coloboma, microcephaly, developmental delay, short stature, and craniofacial, cardiac, and renal defects who harbor overlapping microdeletions on 8q24.3. Fine mapping localized a commonly deleted 78 kb region that contains three genes: SCRIB, NRBP2, and PUF60. In vivo dissection of the CNV showed discrete contributions of the planar cell polarity effector SCRIB and the splicing factor PUF60 to the syndromic phenotype, and the combinatorial suppression of both genes exacerbated some, but not all, phenotypic components. Consistent with these findings, we identified an individual with microcephaly, short stature, intellectual disability, and heart defects with a de novo c.505C>T variant leading to a p.His169Tyr change in PUF60. Functional testing of this allele in vivo and in vitro showed that the mutation perturbs the relative dosage of two PUF60 isoforms and, subsequently, the splicing efficiency of downstream PUF60 targets. These data inform the functions of two genes not associated previously with human genetic disease and demonstrate how CNVs can exhibit complex genetic architecture, with the phenotype being the amalgam of both discrete dosage dysfunction of single transcripts and also of binary genetic interactions.
Resumo:
La syncope est un symptôme clinique fréquent mais son origine demeure indéterminée jusque dans 60% des cas de patients admis dans un centre d'urgences. Le développement de consultations spécialisées de la syncope a considérablement modifié l'évaluation des patients avec une syncope inexpliquée en les orientant vers des stratégies d'investigations non-invasives, tels que le tilt-test, le massage du sinus carotidien et le test ^hyperventilation. Cependant, il existe peu de données dans 10 la littérature concernant dans la performance diagnostique réelle de ces tests fonctionnels.Notre travail de recherche porte sur l'analyse des données des 939 premiers patients adressés à la consultation ambulatoire de la syncope du CHUV pour l'investigation d'une syncope d'origine indéterminée. L'objectif de notre travail de thèse est 1) d'évaluer la performance diagnostique de l'algorithme de prise en charge standardisé et de ses différents tests pratiqués dans le cadre de notre 15 consultation et 2) de déterminer les caractéristiques cliniques communes des patients avec un diagnostic final de syncope d'origine rythmique ou vaso-vagale.Notre travail de thèse démontre qu'un algorithme de prise en charge standardisé basé sur des tests non-invasifs permet de déterminer 2/3 des causes de syncope initialement d'origine indéterminée. Par ailleurs, notre travail montre que des étiologies bénignes, telles que la syncope d'origine vaso- 20 vagale ou psychogène, représentent la moitié des causes syncopales alors que les arythmies cardiaques demeurent peu fréquentes. Finalement, notre travail démontre que l'absence de symptomatologie prodromique, en particulier chez les patients âgés avec une limitation fonctionnelle ou un allongement de la durée de l'onde Ρ à l'électrocardiogramme, suggère une syncope d'origine rythmique. Ce travail de thèse contribuera à optimaliser notre algorithme de prise 25 en charge standardisée de la syncope d'origine indéterminée et ouvre de nouvelles perspectives de recherche dans le développement de modèles basés sur des facteurs cliniques permettant de prédire les principales causes syncopales.
Resumo:
Résumé Rupture traumatique du diaphragme La rupture traumatique du diaphragme a été décrite la première fois par Sennertus en 1541. Ambroise Paré, en 1579, décrivit le premier cas de rupture traumatique du diaphragme diagnostiqué à l'autopsie. Une rupture traumatique du diaphragme existe chez 3 à 5% des patients polytraumatisés. En général la réparation chirurgicale est simple. La mortalité globale atteint 20 à 25%, elle est en général liée aux lésions associées, à la sévérité de la défaillance cardio-respiratoire ou à l'apparition d'une strangulation d'organes herniés. Cette thèse analyse une série consécutive de 47 patients, victimes d'un accident de la voie publique ou d'une agression, chez qui le diagnostic de rupture traumatique du diaphragme a été établi au Centre Hospitalier Universitaire Vaudois, du 01.01.1980 au 31.12.95. Le diagnostic a été établi ou soupçonné avant l'intervention chez 32 patients et découvert durant l'intervention chez 15 patients. La majorité des interventions furent effectuées par laparotomie. Le côté le plus souvent atteint a été le gauche. L'estomac a été l'organe le plus souvent hernié (à gauche). L'organe intra-abdominal le plus souvent lésé a été la rate. L'atteinte extra-abdominale la plus souvent rencontrée fut des lésions du système nerveux central. Ce travail décrit dans le détail toutes les lésions associées à la rupture traumatique du diaphragme et la morbidité liée à ces traumatismes. Tous les patients ayant eu le diagnostic établi secondairement ont eu des complications respiratoires. La mortalité dans cette série est de 17% (8/47), tous des accidentés de la voie publique. Cette thèse attire l'attention sur l'importance d'établir le diagnostic le plus précocement possible et propose, à cet effet, un algorithme décisionnel.
Resumo:
Mycobacterium tuberculosis (Mtb) infection is known to have two main outcomes: latent infection (LTBI) where the pathogen is in a dormant form or active tuberculosis disease (TB), which is, most of the time, highly transmissible. Over one-third of the world's population asymptomatically harbours a latent form of Mtb with a 10% risk of disease reactivation. Efficient vaccine strategies remain unknown and the existing BCG vaccine is believed to protect against only some forms of TB (extra-pulmonary TB in children). Moreover, timely identification of TB remains complex with the actual diagnosis based on clinical observations associated to low efficient tests. Furthermore, current therapies are expensive, heavy and long for patients, and present lesser and lesser efficiency against new drug-resistant strains of Mtb. It is thus important to develop our knowledge on host -Mtb relationship to propose new vaccines, diagnosis tools and medications for the future. This thesis aims at improving our understanding of human immunology in the field of TB. All along this work, the same algorithm has been used and points towards the discovery of new correlates of protection through the comparison of T-cell immune responses in patients with LTBI or TB. We performed a comprehensive analysis of T-cell immune responses to Mtb using polychromatic flow cytometiy to study the functional profile of Μ/ό-specific CD4 Τ cells. We observed a polyfunctional profile in LTBI where CD4 Τ cells mainly co-produced IFN-γ, TNF-α and IL-2. In contrast, in TB, Mtó-specific CD4 Τ cells were mostly single TNF-a positive. Thus, analysis of the cytokine profiles was a strong immunological measure discriminating TB and LTBI. We next analyzed Thl7 cells. Mtò-specific Thl7 cells lacked immediate {i.e. ex vivo) IL-17A effector function in both LTBI and TB individuals. Moreover, they were also absent in bronchoalveolar lavages (BALs). Interestingly, we noticed that Mtb- specific Thl7 cells from LTBI but not from TB subjects acquired the ability to produce IL- 17A following Mtb-specific T-cell expansion. We finally performed a comprehensive characterization of Mfè-specific CD8 Τ cells that were detected in most (60%) TB patients and few (15%) LTBI subjects. We observed differences in the phenotype, the cytotoxicity and the proliferative capacities but not in the cytokine profile of Mtò-specific CD8 Τ cells between LTBI and TB. We concluded that the activity of Mtb infection (i.e. latent versus active) and the clinical presentation were associated to distinct profiles of Mtó-specific CD8 T-cell responses. To conclude, a multiparametric analysis including both CD4 and CD8 T-cell responses to Mtb lead to the development of a significantly improved diagnostic test discriminating between LTBI and TB. All together, these results provide new insights into the interaction between Mtb and the host immune response and expand upon our prior knowledge of tuberculosis. - L'infection par Mycobacterium tuberculosis peut résulter en une infection tuberculeuse latente et asymptomatique ou encore en une forme active et la plupart du temps contagieuse, la tuberculose. Un tiers de la population mondiale serait infectée de manière chronique avec 10 % de risques de développer la maladie durant la vie. Il n'existe actuellement aucun vaccin efficace, le BCG ne conférant qu'une protection partielle contre certaines formes extrapulmonaires de la maladie chez l'enfant. D'autre part, il n'existe pas de méthode diagnostique fiable et rapide, celle-ci se basant dans un premier temps sur l'analyse de la situation clinique des patients. Enfin, les thérapies actuelles sont couteuses et contraignantes pour les patients et tendent à ne plus être efficaces contre les souches émergentes de mycobactérie multi-résistantes. Aussi, il est important de bien comprendre la relation hôte-pathogène de manière à pouvoir proposer de nouveaux outils vaccinaux, diagnostiques et thérapeutiques. Ce manuscrit s'inscrit dans cette direction et vise à améliorer nos connaissances de la réponse immunitaire humaine dans le cadre de la tuberculose. Nous avons suivi un algorithme similaire tout au long des études proposées en comparant les réponses immunes des patients latents à celles des patients actifs, et ce, dans le but de mettre en évidence de potentiels corrélats de protection. Nous avons réalisé par cytométrie en flux une analyse du profil fonctionnel des cellules lymphocytaires CD4 dans la réponse au pathogène. Dans le cas de la tuberculose active, les cellules CD4 sécrètent majoritairement du TNF-α quand, au contraire, elles sécrètent à la fois du TNF-α, de l'IFN-γ et de l'IL-2 (poly-fonctionnalité) dans l'infection latente. Cette observation nous a permis de proposer un nouveau test diagnostique de la maladie active. Nous avons aussi étudié les cellules CD4 Thl7, impliquées dans la réponse immunitaire cellulaire contre les pathogènes extracellulaires et les champignons. Nous avons souligné une variation dans la production d'IL-17 entre infection latente et tuberculose active qui pourrait être impliquée dans la protection de l'individu contre le pathogène. D'autre part, ce manuscrit propose une caractérisation des cellules Τ CD8 dites cytotoxiques dans la tuberculose. Des divergences dans la fréquence des réponses observées, le phénotype mais aussi les capacités prolifératives et cytotoxiques ont pu être mises en évidence entre latence et tuberculose active. Ces observations soulignent le rôle important de ce groupe cellulaire dans l'évolution de la maladie et permettent de proposer une amélioration de l'outil diagnostic précédemment proposé et se basant à la fois sur le profil fonctionnel des cellules Τ CD4 ainsi que sur la présence potentielle d'une réponse CD8 spécifique au pathogène. Ces diverses études réalisées sur les cellules Τ humaines répondant spécifiquement à Mtb nous permettent de faire un pas supplémentaire dans la compréhension de notre réponse immunitaire face à ce pathogène particulièrement dangereux qui continue à l'heure actuelle à tuer chaque année des millions de personnes. - La tuberculose (TB) résulte d'une infection bactérienne par Mycobacterium tuberculosis (Mtb) et existe sous deux formes majeures: une forme latente, lorsque la bactérie est en phase de dormance ainsi qu'une forme active durant laquelle la bactérie se divise activement, entraînant les symptômes de la maladie. La personne infectée devient alors contagieuse dans la plupart des cas. Aujourd'hui des études épidémiologiques assument que plus d'un tiers de la population mondiale serait infectée par la forme latente de la bactérie et que 10% des cas réactiveront donnant lieu à diverses présentations de la maladie. Il n'existe actuellement aucun vaccin réellement efficace chez l'adulte. D'autre part, les traitements antibiotiques utilisés sont très lourds pour les patients et les cliniciens doivent faire face à l'émergence de nouvelles souches bactériennes multi-résistantes non affectées par les thérapies existantes. Les autorités sanitaires sont, d'autre part, confrontées à l'absence d'un outil diagnostique rapide, fiable et efficace. En effet, la méthode de référence reste la culture microbiologique du pathogène qui prend généralement plusieurs semaines, pendant lesquelles le patient pourra contaminer d'autres personnes. En résumé, la lutte contre la tuberculose doit passer par l'élaboration d'un vaccin efficace, de nouvelles thérapies, mais aussi par la mise en place de nouveaux tests diagnostics plus rapides afin d'éviter la dissémination de la maladie. Aussi, la relation hôte-bactérie qui n'est actuellement que peu comprise doit être investiguée. Ce travail de thèse a pour but d'étudier la réponse immunitaire chez l'homme infecté par Mtb et vise plus particulièrement l'étude d'une population clé de cellules immunitaires: les lymphocytes T. L'étude des cellules Τ CD4 nous a permis dans un premier temps de proposer un nouveau test diagnostic de la maladie active. Nous avons aussi analysé plus en détail une population spécifique des cellules Τ CD4 (les cellules Thl7), nous permettant d'associer leur fonction avec un possible état physiologique de protection contre le pathogène. En second lieu nous avons réalisé une caractérisation des cellules Τ CD8, à la fois chez les personnes avec des infections latentes et chez les personnes malades. Nous avons mis en évidence des différences fonctionnelles chez les deux groupes de patients, nous permettant ainsi une meilleure compréhension de l'immunité contre Mtb. Enfin, nous avons combiné les différents profils immunologiques obtenus pour développer un test diagnostic plus performant et sensible que celui proposé antérieurement. Ces diverses études réalisées sur les cellules Τ humaines nous permettent de faire un pas supplémentaire dans la compréhension de la réponse immunitaire face à ce pathogène particulièrement dangereux qui continue à tuer chaque année des millions de personnes.
Resumo:
La dècada de 1980 va significar un punt i a part per als governs metropolitans. Després de viure una època daurada durant els 60 i 70, la reestructuració del sistema politicoeconòmic va comportar que les estructures de govern metropolità fossin qüestionades i fins i tot suprimides. Quan tot semblava indicar que restarien només com a record, la lògica de competència entre grans ciutats i la necessitat de reinventar-se en base a un desenvolupament sostenible va suposar un inesperat renaixement de la política metropolitana. Si fins aleshores la seva necessitat s'havia justificat bàsicament des d'un punt de vista funcional, seguint pautes tecnòcrates i burocratitzades, la nova metropolítica se centra en la competitivitat i en la sostenibilitat, alhora que posa èmfasi en assajar mètodes de governança. Londres, ciutat que presenta certs paral·lelismes històrics amb Barcelona, ha estat una ciutat pionera i de la seva experiència es pot aprendre per la capital catalana
Resumo:
Résumé Cette thèse est consacrée à l'analyse, la modélisation et la visualisation de données environnementales à référence spatiale à l'aide d'algorithmes d'apprentissage automatique (Machine Learning). L'apprentissage automatique peut être considéré au sens large comme une sous-catégorie de l'intelligence artificielle qui concerne particulièrement le développement de techniques et d'algorithmes permettant à une machine d'apprendre à partir de données. Dans cette thèse, les algorithmes d'apprentissage automatique sont adaptés pour être appliqués à des données environnementales et à la prédiction spatiale. Pourquoi l'apprentissage automatique ? Parce que la majorité des algorithmes d'apprentissage automatiques sont universels, adaptatifs, non-linéaires, robustes et efficaces pour la modélisation. Ils peuvent résoudre des problèmes de classification, de régression et de modélisation de densité de probabilités dans des espaces à haute dimension, composés de variables informatives spatialisées (« géo-features ») en plus des coordonnées géographiques. De plus, ils sont idéaux pour être implémentés en tant qu'outils d'aide à la décision pour des questions environnementales allant de la reconnaissance de pattern à la modélisation et la prédiction en passant par la cartographie automatique. Leur efficacité est comparable au modèles géostatistiques dans l'espace des coordonnées géographiques, mais ils sont indispensables pour des données à hautes dimensions incluant des géo-features. Les algorithmes d'apprentissage automatique les plus importants et les plus populaires sont présentés théoriquement et implémentés sous forme de logiciels pour les sciences environnementales. Les principaux algorithmes décrits sont le Perceptron multicouches (MultiLayer Perceptron, MLP) - l'algorithme le plus connu dans l'intelligence artificielle, le réseau de neurones de régression généralisée (General Regression Neural Networks, GRNN), le réseau de neurones probabiliste (Probabilistic Neural Networks, PNN), les cartes auto-organisées (SelfOrganized Maps, SOM), les modèles à mixture Gaussiennes (Gaussian Mixture Models, GMM), les réseaux à fonctions de base radiales (Radial Basis Functions Networks, RBF) et les réseaux à mixture de densité (Mixture Density Networks, MDN). Cette gamme d'algorithmes permet de couvrir des tâches variées telle que la classification, la régression ou l'estimation de densité de probabilité. L'analyse exploratoire des données (Exploratory Data Analysis, EDA) est le premier pas de toute analyse de données. Dans cette thèse les concepts d'analyse exploratoire de données spatiales (Exploratory Spatial Data Analysis, ESDA) sont traités selon l'approche traditionnelle de la géostatistique avec la variographie expérimentale et selon les principes de l'apprentissage automatique. La variographie expérimentale, qui étudie les relations entre pairs de points, est un outil de base pour l'analyse géostatistique de corrélations spatiales anisotropiques qui permet de détecter la présence de patterns spatiaux descriptible par une statistique. L'approche de l'apprentissage automatique pour l'ESDA est présentée à travers l'application de la méthode des k plus proches voisins qui est très simple et possède d'excellentes qualités d'interprétation et de visualisation. Une part importante de la thèse traite de sujets d'actualité comme la cartographie automatique de données spatiales. Le réseau de neurones de régression généralisée est proposé pour résoudre cette tâche efficacement. Les performances du GRNN sont démontrées par des données de Comparaison d'Interpolation Spatiale (SIC) de 2004 pour lesquelles le GRNN bat significativement toutes les autres méthodes, particulièrement lors de situations d'urgence. La thèse est composée de quatre chapitres : théorie, applications, outils logiciels et des exemples guidés. Une partie importante du travail consiste en une collection de logiciels : Machine Learning Office. Cette collection de logiciels a été développée durant les 15 dernières années et a été utilisée pour l'enseignement de nombreux cours, dont des workshops internationaux en Chine, France, Italie, Irlande et Suisse ainsi que dans des projets de recherche fondamentaux et appliqués. Les cas d'études considérés couvrent un vaste spectre de problèmes géoenvironnementaux réels à basse et haute dimensionnalité, tels que la pollution de l'air, du sol et de l'eau par des produits radioactifs et des métaux lourds, la classification de types de sols et d'unités hydrogéologiques, la cartographie des incertitudes pour l'aide à la décision et l'estimation de risques naturels (glissements de terrain, avalanches). Des outils complémentaires pour l'analyse exploratoire des données et la visualisation ont également été développés en prenant soin de créer une interface conviviale et facile à l'utilisation. Machine Learning for geospatial data: algorithms, software tools and case studies Abstract The thesis is devoted to the analysis, modeling and visualisation of spatial environmental data using machine learning algorithms. In a broad sense machine learning can be considered as a subfield of artificial intelligence. It mainly concerns with the development of techniques and algorithms that allow computers to learn from data. In this thesis machine learning algorithms are adapted to learn from spatial environmental data and to make spatial predictions. Why machine learning? In few words most of machine learning algorithms are universal, adaptive, nonlinear, robust and efficient modeling tools. They can find solutions for the classification, regression, and probability density modeling problems in high-dimensional geo-feature spaces, composed of geographical space and additional relevant spatially referenced features. They are well-suited to be implemented as predictive engines in decision support systems, for the purposes of environmental data mining including pattern recognition, modeling and predictions as well as automatic data mapping. They have competitive efficiency to the geostatistical models in low dimensional geographical spaces but are indispensable in high-dimensional geo-feature spaces. The most important and popular machine learning algorithms and models interesting for geo- and environmental sciences are presented in details: from theoretical description of the concepts to the software implementation. The main algorithms and models considered are the following: multi-layer perceptron (a workhorse of machine learning), general regression neural networks, probabilistic neural networks, self-organising (Kohonen) maps, Gaussian mixture models, radial basis functions networks, mixture density networks. This set of models covers machine learning tasks such as classification, regression, and density estimation. Exploratory data analysis (EDA) is initial and very important part of data analysis. In this thesis the concepts of exploratory spatial data analysis (ESDA) is considered using both traditional geostatistical approach such as_experimental variography and machine learning. Experimental variography is a basic tool for geostatistical analysis of anisotropic spatial correlations which helps to understand the presence of spatial patterns, at least described by two-point statistics. A machine learning approach for ESDA is presented by applying the k-nearest neighbors (k-NN) method which is simple and has very good interpretation and visualization properties. Important part of the thesis deals with a hot topic of nowadays, namely, an automatic mapping of geospatial data. General regression neural networks (GRNN) is proposed as efficient model to solve this task. Performance of the GRNN model is demonstrated on Spatial Interpolation Comparison (SIC) 2004 data where GRNN model significantly outperformed all other approaches, especially in case of emergency conditions. The thesis consists of four chapters and has the following structure: theory, applications, software tools, and how-to-do-it examples. An important part of the work is a collection of software tools - Machine Learning Office. Machine Learning Office tools were developed during last 15 years and was used both for many teaching courses, including international workshops in China, France, Italy, Ireland, Switzerland and for realizing fundamental and applied research projects. Case studies considered cover wide spectrum of the real-life low and high-dimensional geo- and environmental problems, such as air, soil and water pollution by radionuclides and heavy metals, soil types and hydro-geological units classification, decision-oriented mapping with uncertainties, natural hazards (landslides, avalanches) assessments and susceptibility mapping. Complementary tools useful for the exploratory data analysis and visualisation were developed as well. The software is user friendly and easy to use.
Resumo:
3 Summary 3. 1 English The pharmaceutical industry has been facing several challenges during the last years, and the optimization of their drug discovery pipeline is believed to be the only viable solution. High-throughput techniques do participate actively to this optimization, especially when complemented by computational approaches aiming at rationalizing the enormous amount of information that they can produce. In siiico techniques, such as virtual screening or rational drug design, are now routinely used to guide drug discovery. Both heavily rely on the prediction of the molecular interaction (docking) occurring between drug-like molecules and a therapeutically relevant target. Several softwares are available to this end, but despite the very promising picture drawn in most benchmarks, they still hold several hidden weaknesses. As pointed out in several recent reviews, the docking problem is far from being solved, and there is now a need for methods able to identify binding modes with a high accuracy, which is essential to reliably compute the binding free energy of the ligand. This quantity is directly linked to its affinity and can be related to its biological activity. Accurate docking algorithms are thus critical for both the discovery and the rational optimization of new drugs. In this thesis, a new docking software aiming at this goal is presented, EADock. It uses a hybrid evolutionary algorithm with two fitness functions, in combination with a sophisticated management of the diversity. EADock is interfaced with .the CHARMM package for energy calculations and coordinate handling. A validation was carried out on 37 crystallized protein-ligand complexes featuring 11 different proteins. The search space was defined as a sphere of 15 R around the center of mass of the ligand position in the crystal structure, and conversely to other benchmarks, our algorithms was fed with optimized ligand positions up to 10 A root mean square deviation 2MSD) from the crystal structure. This validation illustrates the efficiency of our sampling heuristic, as correct binding modes, defined by a RMSD to the crystal structure lower than 2 A, were identified and ranked first for 68% of the complexes. The success rate increases to 78% when considering the five best-ranked clusters, and 92% when all clusters present in the last generation are taken into account. Most failures in this benchmark could be explained by the presence of crystal contacts in the experimental structure. EADock has been used to understand molecular interactions involved in the regulation of the Na,K ATPase, and in the activation of the nuclear hormone peroxisome proliferatoractivated receptors a (PPARa). It also helped to understand the action of common pollutants (phthalates) on PPARy, and the impact of biotransformations of the anticancer drug Imatinib (Gleevec®) on its binding mode to the Bcr-Abl tyrosine kinase. Finally, a fragment-based rational drug design approach using EADock was developed, and led to the successful design of new peptidic ligands for the a5ß1 integrin, and for the human PPARa. In both cases, the designed peptides presented activities comparable to that of well-established ligands such as the anticancer drug Cilengitide and Wy14,643, respectively. 3.2 French Les récentes difficultés de l'industrie pharmaceutique ne semblent pouvoir se résoudre que par l'optimisation de leur processus de développement de médicaments. Cette dernière implique de plus en plus. de techniques dites "haut-débit", particulièrement efficaces lorsqu'elles sont couplées aux outils informatiques permettant de gérer la masse de données produite. Désormais, les approches in silico telles que le criblage virtuel ou la conception rationnelle de nouvelles molécules sont utilisées couramment. Toutes deux reposent sur la capacité à prédire les détails de l'interaction moléculaire entre une molécule ressemblant à un principe actif (PA) et une protéine cible ayant un intérêt thérapeutique. Les comparatifs de logiciels s'attaquant à cette prédiction sont flatteurs, mais plusieurs problèmes subsistent. La littérature récente tend à remettre en cause leur fiabilité, affirmant l'émergence .d'un besoin pour des approches plus précises du mode d'interaction. Cette précision est essentielle au calcul de l'énergie libre de liaison, qui est directement liée à l'affinité du PA potentiel pour la protéine cible, et indirectement liée à son activité biologique. Une prédiction précise est d'une importance toute particulière pour la découverte et l'optimisation de nouvelles molécules actives. Cette thèse présente un nouveau logiciel, EADock, mettant en avant une telle précision. Cet algorithme évolutionnaire hybride utilise deux pressions de sélections, combinées à une gestion de la diversité sophistiquée. EADock repose sur CHARMM pour les calculs d'énergie et la gestion des coordonnées atomiques. Sa validation a été effectuée sur 37 complexes protéine-ligand cristallisés, incluant 11 protéines différentes. L'espace de recherche a été étendu à une sphère de 151 de rayon autour du centre de masse du ligand cristallisé, et contrairement aux comparatifs habituels, l'algorithme est parti de solutions optimisées présentant un RMSD jusqu'à 10 R par rapport à la structure cristalline. Cette validation a permis de mettre en évidence l'efficacité de notre heuristique de recherche car des modes d'interactions présentant un RMSD inférieur à 2 R par rapport à la structure cristalline ont été classés premier pour 68% des complexes. Lorsque les cinq meilleures solutions sont prises en compte, le taux de succès grimpe à 78%, et 92% lorsque la totalité de la dernière génération est prise en compte. La plupart des erreurs de prédiction sont imputables à la présence de contacts cristallins. Depuis, EADock a été utilisé pour comprendre les mécanismes moléculaires impliqués dans la régulation de la Na,K ATPase et dans l'activation du peroxisome proliferatoractivated receptor a (PPARa). Il a également permis de décrire l'interaction de polluants couramment rencontrés sur PPARy, ainsi que l'influence de la métabolisation de l'Imatinib (PA anticancéreux) sur la fixation à la kinase Bcr-Abl. Une approche basée sur la prédiction des interactions de fragments moléculaires avec protéine cible est également proposée. Elle a permis la découverte de nouveaux ligands peptidiques de PPARa et de l'intégrine a5ß1. Dans les deux cas, l'activité de ces nouveaux peptides est comparable à celles de ligands bien établis, comme le Wy14,643 pour le premier, et le Cilengitide (PA anticancéreux) pour la seconde.
Resumo:
This work consists of three essays investigating the ability of structural macroeconomic models to price zero coupon U.S. government bonds. 1. A small scale 3 factor DSGE model implying constant term premium is able to provide reasonable a fit for the term structure only at the expense of the persistence parameters of the structural shocks. The test of the structural model against one that has constant but unrestricted prices of risk parameters shows that the exogenous prices of risk-model is only weakly preferred. We provide an MLE based variance-covariance matrix of the Metropolis Proposal Density that improves convergence speeds in MCMC chains. 2. Affine in observable macro-variables, prices of risk specification is excessively flexible and provides term-structure fit without significantly altering the structural parameters. The exogenous component of the SDF is separating the macro part of the model from the term structure and the good term structure fit has as a driving force an extremely volatile SDF and an implied average short rate that is inexplicable. We conclude that the no arbitrage restrictions do not suffice to temper the SDF, thus there is need for more restrictions. We introduce a penalty-function methodology that proves useful in showing that affine prices of risk specifications are able to reconcile stable macro-dynamics with good term structure fit and a plausible SDF. 3. The level factor is reproduced most importantly by the preference shock to which it is strongly and positively related but technology and monetary shocks, with negative loadings, are also contributing to its replication. The slope factor is only related to the monetary policy shocks and it is poorly explained. We find that there are gains in in- and out-of-sample forecast of consumption and inflation if term structure information is used in a time varying hybrid prices of risk setting. In-sample yield forecast are better in models with non-stationary shocks for the period 1982-1988. After this period, time varying market price of risk models provide better in-sample forecasts. For the period 2005-2008, out of sample forecast of consumption and inflation are better if term structure information is incorporated in the DSGE model but yields are better forecasted by a pure macro DSGE model.
Resumo:
Résumé Des développements antérieurs, au sein de l'Institut de Géophysique de Lausanne, ont permis de développer des techniques d'acquisition sismique et de réaliser l'interprétation des données sismique 2D et 3D pour étudier la géologie de la région et notamment les différentes séquences sédimentaires du Lac Léman. Pour permettre un interprétation quantitative de la sismique en déterminant des paramètres physiques des sédiments la méthode AVO (Amplitude Versus Offset) a été appliquée. Deux campagnes sismiques lacustres, 2D et 3D, ont été acquises afin de tester la méthode AVO dans le Grand Lac sur les deltas des rivières. La géométrie d'acquisition a été repensée afin de pouvoir enregistrer les données à grands déports. Les flûtes sismiques, mises bout à bout, ont permis d'atteindre des angles d'incidence d'environ 40˚ . Des récepteurs GPS spécialement développés à cet effet, et disposés le long de la flûte, ont permis, après post-traitement des données, de déterminer la position de la flûte avec précision (± 0.5 m). L'étalonnage de nos hydrophones, réalisé dans une chambre anéchoïque, a permis de connaître leur réponse en amplitude en fonction de la fréquence. Une variation maximale de 10 dB a été mis en évidence entre les capteurs des flûtes et le signal de référence. Un traitement sismique dont l'amplitude a été conservée a été appliqué sur les données du lac. L'utilisation de l'algorithme en surface en consistante a permis de corriger les variations d'amplitude des tirs du canon à air. Les sections interceptes et gradients obtenues sur les deltas de l'Aubonne et de la Dranse ont permis de produire des cross-plots. Cette représentation permet de classer les anomalies d'amplitude en fonction du type de sédiments et de leur contenu potentiel en gaz. L'un des attributs qui peut être extrait des données 3D, est l'amplitude de la réflectivité d'une interface sismique. Ceci ajoute une composante quantitative à l'interprétation géologique d'une interface. Le fond d'eau sur le delta de l'Aubonne présente des anomalies en amplitude qui caractérisent les chenaux. L'inversion de l'équation de Zoeppritz par l'algorithme de Levenberg-Marquardt a été programmée afin d'extraire les paramètres physiques des sédiments sur ce delta. Une étude statistique des résultats de l'inversion permet de simuler la variation de l'amplitude en fonction du déport. On a obtenu un modèle dont la première couche est l'eau et dont la seconde est une couche pour laquelle V P = 1461 m∕s, ρ = 1182 kg∕m3 et V S = 383 m∕s. Abstract A system to record very high resolution (VHR) seismic data on lakes in 2D and 3D was developed at the Institute of Geophysics, University of Lausanne. Several seismic surveys carried out on Lake Geneva helped us to better understand the geology of the area and to identify sedimentary sequences. However, more sophisticated analysis of the data such as the AVO (Amplitude Versus Offset) method provides means of deciphering the detailed structure of the complex Quaternary sedimentary fill of the Lake Geneva trough. To study the physical parameters we applied the AVO method at some selected places of sediments. These areas are the Aubonne and Dranse River deltas where the configurations of the strata are relatively smooth and the discontinuities between them easy to pick. A specific layout was developed to acquire large incidence angle. 2D and 3D seismic data were acquired with streamers, deployed end to end, providing incidence angle up to 40˚ . One or more GPS antennas attached to the streamer enabled us to calculate individual hydrophone positions with an accuracy of 50 cm after post-processing of the navigation data. To ensure that our system provides correct amplitude information, our streamer sensors were calibrated in an anechoic chamber using a loudspeaker as a source. Amplitude variations between the each hydrophone were of the order of 10 dB. An amplitude correction for each hydrophone was computed and applied before processing. Amplitude preserving processing was then carried out. Intercept vs. gradient cross-plots enable us to determine that both geological discontinuities (lacustrine sediments/moraine and moraine/molasse) have well defined trends. A 3D volume collected on the Aubonne river delta was processed in order ro obtain AVO attributes. Quantitative interpretation using amplitude maps were produced and amplitude maps revealed high reflectivity in channels. Inversion of the water bottom of the Zoeppritz equation using the Levenberg-Marquadt algorithm was carried out to estimate V P , V S and ρ of sediments immediately under the lake bottom. Real-data inversion gave, under the water layer, a mud layer with V P = 1461 m∕s, ρ = 1182 kg∕m3 et V S = 383 m∕s.
Resumo:
To understand the biology and evolution of ruminants, the cattle genome was sequenced to about sevenfold coverage. The cattle genome contains a minimum of 22,000 genes, with a core set of 14,345 orthologs shared among seven mammalian species of which 1217 are absent or undetected in noneutherian (marsupial or monotreme) genomes. Cattle-specific evolutionary breakpoint regions in chromosomes have a higher density of segmental duplications, enrichment of repetitive elements, and species-specific variations in genes associated with lactation and immune responsiveness. Genes involved in metabolism are generally highly conserved, although five metabolic genes are deleted or extensively diverged from their human orthologs. The cattle genome sequence thus provides a resource for understanding mammalian evolution and accelerating livestock genetic improvement for milk and meat production.