920 resultados para Bayesian statistical decision theory
Resumo:
Due to the advances in sensor networks and remote sensing technologies, the acquisition and storage rates of meteorological and climatological data increases every day and ask for novel and efficient processing algorithms. A fundamental problem of data analysis and modeling is the spatial prediction of meteorological variables in complex orography, which serves among others to extended climatological analyses, for the assimilation of data into numerical weather prediction models, for preparing inputs to hydrological models and for real time monitoring and short-term forecasting of weather.In this thesis, a new framework for spatial estimation is proposed by taking advantage of a class of algorithms emerging from the statistical learning theory. Nonparametric kernel-based methods for nonlinear data classification, regression and target detection, known as support vector machines (SVM), are adapted for mapping of meteorological variables in complex orography.With the advent of high resolution digital elevation models, the field of spatial prediction met new horizons. In fact, by exploiting image processing tools along with physical heuristics, an incredible number of terrain features which account for the topographic conditions at multiple spatial scales can be extracted. Such features are highly relevant for the mapping of meteorological variables because they control a considerable part of the spatial variability of meteorological fields in the complex Alpine orography. For instance, patterns of orographic rainfall, wind speed and cold air pools are known to be correlated with particular terrain forms, e.g. convex/concave surfaces and upwind sides of mountain slopes.Kernel-based methods are employed to learn the nonlinear statistical dependence which links the multidimensional space of geographical and topographic explanatory variables to the variable of interest, that is the wind speed as measured at the weather stations or the occurrence of orographic rainfall patterns as extracted from sequences of radar images. Compared to low dimensional models integrating only the geographical coordinates, the proposed framework opens a way to regionalize meteorological variables which are multidimensional in nature and rarely show spatial auto-correlation in the original space making the use of classical geostatistics tangled.The challenges which are explored during the thesis are manifolds. First, the complexity of models is optimized to impose appropriate smoothness properties and reduce the impact of noisy measurements. Secondly, a multiple kernel extension of SVM is considered to select the multiscale features which explain most of the spatial variability of wind speed. Then, SVM target detection methods are implemented to describe the orographic conditions which cause persistent and stationary rainfall patterns. Finally, the optimal splitting of the data is studied to estimate realistic performances and confidence intervals characterizing the uncertainty of predictions.The resulting maps of average wind speeds find applications within renewable resources assessment and opens a route to decrease the temporal scale of analysis to meet hydrological requirements. Furthermore, the maps depicting the susceptibility to orographic rainfall enhancement can be used to improve current radar-based quantitative precipitation estimation and forecasting systems and to generate stochastic ensembles of precipitation fields conditioned upon the orography.
Resumo:
This paper introduces a mixture model based on the beta distribution, without preestablishedmeans and variances, to analyze a large set of Beauty-Contest data obtainedfrom diverse groups of experiments (Bosch-Domenech et al. 2002). This model gives a bettert of the experimental data, and more precision to the hypothesis that a large proportionof individuals follow a common pattern of reasoning, described as iterated best reply (degenerate),than mixture models based on the normal distribution. The analysis shows thatthe means of the distributions across the groups of experiments are pretty stable, while theproportions of choices at dierent levels of reasoning vary across groups.
Resumo:
Spatial data analysis mapping and visualization is of great importance in various fields: environment, pollution, natural hazards and risks, epidemiology, spatial econometrics, etc. A basic task of spatial mapping is to make predictions based on some empirical data (measurements). A number of state-of-the-art methods can be used for the task: deterministic interpolations, methods of geostatistics: the family of kriging estimators (Deutsch and Journel, 1997), machine learning algorithms such as artificial neural networks (ANN) of different architectures, hybrid ANN-geostatistics models (Kanevski and Maignan, 2004; Kanevski et al., 1996), etc. All the methods mentioned above can be used for solving the problem of spatial data mapping. Environmental empirical data are always contaminated/corrupted by noise, and often with noise of unknown nature. That's one of the reasons why deterministic models can be inconsistent, since they treat the measurements as values of some unknown function that should be interpolated. Kriging estimators treat the measurements as the realization of some spatial randomn process. To obtain the estimation with kriging one has to model the spatial structure of the data: spatial correlation function or (semi-)variogram. This task can be complicated if there is not sufficient number of measurements and variogram is sensitive to outliers and extremes. ANN is a powerful tool, but it also suffers from the number of reasons. of a special type ? multiplayer perceptrons ? are often used as a detrending tool in hybrid (ANN+geostatistics) models (Kanevski and Maignank, 2004). Therefore, development and adaptation of the method that would be nonlinear and robust to noise in measurements, would deal with the small empirical datasets and which has solid mathematical background is of great importance. The present paper deals with such model, based on Statistical Learning Theory (SLT) - Support Vector Regression. SLT is a general mathematical framework devoted to the problem of estimation of the dependencies from empirical data (Hastie et al, 2004; Vapnik, 1998). SLT models for classification - Support Vector Machines - have shown good results on different machine learning tasks. The results of SVM classification of spatial data are also promising (Kanevski et al, 2002). The properties of SVM for regression - Support Vector Regression (SVR) are less studied. First results of the application of SVR for spatial mapping of physical quantities were obtained by the authorsin for mapping of medium porosity (Kanevski et al, 1999), and for mapping of radioactively contaminated territories (Kanevski and Canu, 2000). The present paper is devoted to further understanding of the properties of SVR model for spatial data analysis and mapping. Detailed description of the SVR theory can be found in (Cristianini and Shawe-Taylor, 2000; Smola, 1996) and basic equations for the nonlinear modeling are given in section 2. Section 3 discusses the application of SVR for spatial data mapping on the real case study - soil pollution by Cs137 radionuclide. Section 4 discusses the properties of the modelapplied to noised data or data with outliers.
Resumo:
Työssä on käsitelty fluidien aineominaisuuksien vaikutuksia paperikoneiden kuivatusosissa käytettävien lämmönsiirtimien lämpöteknisessä simuloinnissa. Pääkohteena selvitettiin kostean ilman ja veden fysikaalisien aineominaisuuksien mallinnustarkkuuden vaikutuksia lämpövirtaan lauhduttamattomissa ja lauhduttavissa tapauksissa. Asiaa tutkittiin tekemällä herkkyysanalyysi työssä kehitetyille termodynaamisille malleille. Perinteisen herkkyysanalyysin lisäksi herkkyyksiä tutkittiin myös Bayesiläisellä tilastoanalyysillä. Työssä käsiteltiin myös aineominaisuuksien käyttäytymistä ja mallintamista lämmönsiirtimissä. Kirjallisuudesta etsittiin aineominaisuusmallit, joilla kostean ilman ja veden fysikaalisia aineominaisuuksia voidaan kuvata riittävän tarkasti. Työssä havaittiin, että yksittäisistä aineominaisuuksista selkeästi suurimmat vaikutukset on ominaisentalpioiden mallinnuksen epätarkkuuksilla. Myös kaikkien aineominaisuuksien epätarkkuuksilla havaittiin olevan huomattavan suuret yhteisvaikutukset lämpövirran laskentatarkkuuteen. Viiden prosentin epätarkkuus kaikkien aineominaisuuksien mallinnuksessa johtaa 3 - 7 %:n epätarkkuuteen lämpövirran laskennassa. Näin ollen kaikkien aineominaisuuksien mallintamiseen tulee kiinnittää huomiota.
Resumo:
This work presents new, efficient Markov chain Monte Carlo (MCMC) simulation methods for statistical analysis in various modelling applications. When using MCMC methods, the model is simulated repeatedly to explore the probability distribution describing the uncertainties in model parameters and predictions. In adaptive MCMC methods based on the Metropolis-Hastings algorithm, the proposal distribution needed by the algorithm learns from the target distribution as the simulation proceeds. Adaptive MCMC methods have been subject of intensive research lately, as they open a way for essentially easier use of the methodology. The lack of user-friendly computer programs has been a main obstacle for wider acceptance of the methods. This work provides two new adaptive MCMC methods: DRAM and AARJ. The DRAM method has been built especially to work in high dimensional and non-linear problems. The AARJ method is an extension to DRAM for model selection problems, where the mathematical formulation of the model is uncertain and we want simultaneously to fit several different models to the same observations. The methods were developed while keeping in mind the needs of modelling applications typical in environmental sciences. The development work has been pursued while working with several application projects. The applications presented in this work are: a winter time oxygen concentration model for Lake Tuusulanjärvi and adaptive control of the aerator; a nutrition model for Lake Pyhäjärvi and lake management planning; validation of the algorithms of the GOMOS ozone remote sensing instrument on board the Envisat satellite of European Space Agency and the study of the effects of aerosol model selection on the GOMOS algorithm.
Resumo:
BackgroundBipolar disorder is a highly heritable polygenic disorder. Recent enrichment analyses suggest that there may be true risk variants for bipolar disorder in the expression quantitative trait loci (eQTL) in the brain.AimsWe sought to assess the impact of eQTL variants on bipolar disorder risk by combining data from both bipolar disorder genome-wide association studies (GWAS) and brain eQTL.MethodTo detect single nucleotide polymorphisms (SNPs) that influence expression levels of genes associated with bipolar disorder, we jointly analysed data from a bipolar disorder GWAS (7481 cases and 9250 controls) and a genome-wide brain (cortical) eQTL (193 healthy controls) using a Bayesian statistical method, with independent follow-up replications. The identified risk SNP was then further tested for association with hippocampal volume (n = 5775) and cognitive performance (n = 342) among healthy individuals.ResultsIntegrative analysis revealed a significant association between a brain eQTL rs6088662 on chromosome 20q11.22 and bipolar disorder (log Bayes factor = 5.48; bipolar disorder P = 5.85×10(-5)). Follow-up studies across multiple independent samples confirmed the association of the risk SNP (rs6088662) with gene expression and bipolar disorder susceptibility (P = 3.54×10(-8)). Further exploratory analysis revealed that rs6088662 is also associated with hippocampal volume and cognitive performance in healthy individuals.ConclusionsOur findings suggest that 20q11.22 is likely a risk region for bipolar disorder; they also highlight the informative value of integrating functional annotation of genetic variants for gene expression in advancing our understanding of the biological basis underlying complex disorders, such as bipolar disorder.
Resumo:
Un árbol de decisión es una forma gráfica y analítica de representar todos los eventos (sucesos) que pueden surgir a partir de una decisión asumida en cierto momento. Nos ayudan a tomar la decisión más"acertada", desde un punto de vista probabilístico, ante un abanico de posibles decisiones. Estos árboles permiten examinar los resultados y determinar visualmente cómo fluye el modelo. Los resultados visuales ayudan a buscar subgrupos específicos y relaciones que tal vez no encontraríamos con estadísticos más tradicionales. Los árboles de decisión son una técnica estadística para la segmentación, la estratificación, la predicción, la reducción de datos y el filtrado de variables, la identificación de interacciones, la fusión de categorías y la discretización de variables continuas. La función árboles de decisión (Tree) en SPSS crea árboles de clasificación y de decisión para identificar grupos, descubrir las relaciones entre grupos y predecir eventos futuros. Existen diferentes tipos de árbol: CHAID, CHAID exhaustivo, CRT y QUEST, según el que mejor se ajuste a nuestros datos.
Resumo:
This dissertation examines knowledge and industrial knowledge creation processes. It looks at the way knowledge is created in industrial processes based on data, which is transformed into information and finally into knowledge. In the context of this dissertation the main tool for industrial knowledge creation are different statistical methods. This dissertation strives to define industrial statistics. This is done using an expert opinion survey, which was sent to a number of industrial statisticians. The survey was conducted to create a definition for this field of applied statistics and to demonstrate the wide applicability of statistical methods to industrial problems. In this part of the dissertation, traditional methods of industrial statistics are introduced. As industrial statistics are the main tool for knowledge creation, the basics of statistical decision making and statistical modeling are also included. The widely known Data Information Knowledge Wisdom (DIKW) hierarchy serves as a theoretical background for this dissertation. The way that data is transformed into information, information into knowledge and knowledge finally into wisdom is used as a theoretical frame of reference. Some scholars have, however, criticized the DIKW model. Based on these different perceptions of the knowledge creation process, a new knowledge creation process, based on statistical methods is proposed. In the context of this dissertation, the data is a source of knowledge in industrial processes. Because of this, the mathematical categorization of data into continuous and discrete types is explained. Different methods for gathering data from processes are clarified as well. There are two methods for data gathering in this dissertation: survey methods and measurements. The enclosed publications provide an example of the wide applicability of statistical methods in industry. In these publications data is gathered using surveys and measurements. Enclosed publications have been chosen so that in each publication, different statistical methods are employed in analyzing of data. There are some similarities between the analysis methods used in the publications, but mainly different methods are used. Based on this dissertation the use of statistical methods for industrial knowledge creation is strongly recommended. With statistical methods it is possible to handle large datasets and different types of statistical analysis results can easily be transformed into knowledge.
Resumo:
Dans ce texte, nous revoyons certains développements récents de l’économétrie qui peuvent être intéressants pour des chercheurs dans des domaines autres que l’économie et nous soulignons l’éclairage particulier que l’économétrie peut jeter sur certains thèmes généraux de méthodologie et de philosophie des sciences, tels la falsifiabilité comme critère du caractère scientifique d’une théorie (Popper), la sous-détermination des théories par les données (Quine) et l’instrumentalisme. En particulier, nous soulignons le contraste entre deux styles de modélisation - l’approche parcimonieuse et l’approche statistico-descriptive - et nous discutons les liens entre la théorie des tests statistiques et la philosophie des sciences.
Resumo:
Dans ce texte, nous analysons les développements récents de l’économétrie à la lumière de la théorie des tests statistiques. Nous revoyons d’abord quelques principes fondamentaux de philosophie des sciences et de théorie statistique, en mettant l’accent sur la parcimonie et la falsifiabilité comme critères d’évaluation des modèles, sur le rôle de la théorie des tests comme formalisation du principe de falsification de modèles probabilistes, ainsi que sur la justification logique des notions de base de la théorie des tests (tel le niveau d’un test). Nous montrons ensuite que certaines des méthodes statistiques et économétriques les plus utilisées sont fondamentalement inappropriées pour les problèmes et modèles considérés, tandis que de nombreuses hypothèses, pour lesquelles des procédures de test sont communément proposées, ne sont en fait pas du tout testables. De telles situations conduisent à des problèmes statistiques mal posés. Nous analysons quelques cas particuliers de tels problèmes : (1) la construction d’intervalles de confiance dans le cadre de modèles structurels qui posent des problèmes d’identification; (2) la construction de tests pour des hypothèses non paramétriques, incluant la construction de procédures robustes à l’hétéroscédasticité, à la non-normalité ou à la spécification dynamique. Nous indiquons que ces difficultés proviennent souvent de l’ambition d’affaiblir les conditions de régularité nécessaires à toute analyse statistique ainsi que d’une utilisation inappropriée de résultats de théorie distributionnelle asymptotique. Enfin, nous soulignons l’importance de formuler des hypothèses et modèles testables, et de proposer des techniques économétriques dont les propriétés sont démontrables dans les échantillons finis.
Resumo:
We employ the theory of rational choice to examine whether observable choices from feasible sets of prospects can be generated by the optimization of some underlying decision criterion under uncertainty. Rather than focusing on a specific theory of choice, our objective is to formulate a general approach that is designed to cover the various decision criteria that have been proposed in the literature. We use a mild dominance property to define a class of suitable choice criteria. In addition to rationalizability per se, we characterize transitive and Suzumura consistent rationalizability in the presence of dominance.
Différents procédés statistiques pour détecter la non-stationnarité dans les séries de précipitation
Resumo:
Ce mémoire a pour objectif de déterminer si les précipitations convectives estivales simulées par le modèle régional canadien du climat (MRCC) sont stationnaires ou non à travers le temps. Pour répondre à cette question, nous proposons une méthodologie statistique de type fréquentiste et une de type bayésien. Pour l'approche fréquentiste, nous avons utilisé le contrôle de qualité standard ainsi que le CUSUM afin de déterminer si la moyenne a augmenté à travers les années. Pour l'approche bayésienne, nous avons comparé la distribution a posteriori des précipitations dans le temps. Pour ce faire, nous avons modélisé la densité \emph{a posteriori} d'une période donnée et nous l'avons comparée à la densité a posteriori d'une autre période plus éloignée dans le temps. Pour faire la comparaison, nous avons utilisé une statistique basée sur la distance d'Hellinger, la J-divergence ainsi que la norme L2. Au cours de ce mémoire, nous avons utilisé l'ARL (longueur moyenne de la séquence) pour calibrer et pour comparer chacun de nos outils. Une grande partie de ce mémoire sera donc dédiée à l'étude de l'ARL. Une fois nos outils bien calibrés, nous avons utilisé les simulations pour les comparer. Finalement, nous avons analysé les données du MRCC pour déterminer si elles sont stationnaires ou non.
Resumo:
Les implications philosophiques de la Théorie de la Perspective de 1979, notamment celles qui concernent l’introduction d’une fonction de valeur sur les résultats et d’un coefficient de pondération sur les probabilités, n’ont à ce jour jamais été explorées. Le but de ce travail est de construire une théorie philosophique de la volonté à partir des résultats de la Théorie de la Perspective. Afin de comprendre comment cette théorie a pu être élaborée il faut étudier la Théorie de l’Utilité Attendue dont elle est l’aboutissement critique majeur, c’est-à-dire les axiomatisations de la décision de Ramsey (1926), von Neumann et Morgenstern (1947), et enfin Savage (1954), qui constituent les fondements de la théorie classique de la décision. C’est entre autres la critique – par l’économie et la psychologie cognitive – du principe d’indépendance, des axiomes d’ordonnancement et de transitivité qui a permis de faire émerger les éléments représentationnels subjectifs à partir desquels la Théorie de la Perspective a pu être élaborée. Ces critiques ont été menées par Allais (1953), Edwards (1954), Ellsberg (1961), et enfin Slovic et Lichtenstein (1968), l’étude de ces articles permet de comprendre comment s’est opéré le passage de la Théorie de l’Utilité Attendue, à la Théorie de la Perspective. À l’issue de ces analyses et de celle de la Théorie de la Perspective est introduite la notion de Système de Référence Décisionnel, qui est la généralisation naturelle des concepts de fonction de valeur et de coefficient de pondération issus de la Théorie de la Perspective. Ce système, dont le fonctionnement est parfois heuristique, sert à modéliser la prise de décision dans l’élément de la représentation, il s’articule autour de trois phases : la visée, l’édition et l’évaluation. À partir de cette structure est proposée une nouvelle typologie des décisions et une explication inédite des phénomènes d’akrasie et de procrastination fondée sur les concepts d’aversion au risque et de surévaluation du présent, tous deux issus de la Théorie de la Perspective.
Resumo:
De récents développements en théorie de la decision ont largement enrichi notre connaissance de la notion d'incertitude knightienne, usuellement appelée ambiguïté. Néanmoins ces dévelopement tardent à être intégrés au coeur de la théorie économique. Nous suggérons que l'analyse de phénonèmes économiques tel que l'innovation et la Recherche et Développement gagnerait à intégrer les modèles de décision en situation d'ambiguïté. Nous étayons notre propos en analysant l'allocation des droits de propriété d'une découverte. Les deux premières parties de la présentation s'inspire d'un modèle d'Aghion et de Tirole, The Management of Innovation, portant sur l'allocation des droits de propriété entre une unité de recherche et un investisseur. Il est démontré qu'un désaccord entre les agents sur la technologie de recherche affecte leur niveau d'effort, l'allocation des droits de propriété et l'allocation des revenus subséquents. Finalement, nous examinons une situation où plusieurs chercheurs sont en compétition en s'inspirant du traitement de l'incertitude de Savage. La présence d'ambuïgité affecte le comportement des agents et l'allocation des droits de propriétés de manière qui n'est pas captée en assumant l'hypothèse de risque.
Resumo:
Angepasste Kommunikationssysteme für den effizienten Einsatz in dezentralen elektrischen Versorgungsstrukturen - In öffentlichen Elektrizitätsnetzen wird der Informationsaustausch seit längerem durch historisch gewachsene und angepasste Systeme erfolgreich bewerkstelligt. Basierend auf einem weiten Erfahrungsspektrum und einer gut ausgebauten Kommunikationsinfrastruktur stellt die informationstechnische Anbindung eines Teilnehmers im öffentlichen Versorgungsnetz primär kein Hemmnis dar. Anders gestaltet sich dagegen die Situation in dezentralen Versorgungsstrukturen. Da die Elektrifizierung von dezentralen Versorgungsgebieten, mittels der Vernetzung vieler verteilter Erzeugungsanlagen und des Aufbaus von nicht an das öffentliche Elektrizitätsnetz angeschlossenen Verteilnetzen (Minigrids), erst in den letzten Jahren an Popularität gewonnen hat, sind nur wenige Projekte bis dato abgeschlossen. Für die informationstechnische Anbindung von Teilnehmern in diesen Strukturen bedeutet dies, dass nur in einem sehr begrenzten Umfang auf Erfahrungswerte bei der Systemauswahl zurückgegriffen werden kann. Im Rahmen der Dissertation ist deshalb ein Entscheidungsfindungsprozess (Leitfaden für die Systemauswahl) entwickelt worden, der neben einem direkten Vergleich von Kommunikationssystemen basierend auf abgeleiteten Bewertungskriterien und Typen, der Reduktion des Vergleichs auf zwei Systemwerte (relativer Erwartungsnutzenzuwachs und Gesamtkostenzuwachs), die Wahl eines geeigneten Kommunikationssystems für die Applikation in dezentralen elektrischen Versorgungsstrukturen ermöglicht. In Anlehnung an die klassische Entscheidungstheorie werden mit der Berechnung eines Erwartungsnutzens je Kommunikationssystems, aus der Gesamtsumme der Einzelprodukte der Nutzwerte und der Gewichtungsfaktor je System, sowohl die technischen Parameter und applikationsspezifischen Aspekte, als auch die subjektiven Bewertungen zu einem Wert vereint. Mit der Ermittlung der jährlich erforderlichen Gesamtaufwendungen für ein Kommunikationssystem bzw. für die anvisierten Kommunikationsaufgaben, in Abhängigkeit der Applikation wird neben dem ermittelten Erwartungsnutzen des Systems, ein weiterer Entscheidungsparameter für die Systemauswahl bereitgestellt. Die anschließende Wahl geeigneter Bezugsgrößen erlaubt die Entscheidungsfindung bzgl. der zur Auswahl stehenden Systeme auf einen Vergleich mit einem Bezugssystem zurückzuführen. Hierbei sind nicht die absoluten Differenzen des Erwartungsnutzen bzw. des jährlichen Gesamtaufwandes von Interesse, sondern vielmehr wie sich das entsprechende System gegenüber dem Normal (Bezugssystem) darstellt. Das heißt, der relative Zuwachs des Erwartungsnutzen bzw. der Gesamtkosten eines jeden Systems ist die entscheidende Kenngröße für die Systemauswahl. Mit dem Eintrag der berechneten relativen Erwartungsnutzen- und Gesamtkostenzuwächse in eine neu entwickelte 4-Quadranten-Matrix kann unter Berücksichtigung der Lage der korrespondierenden Wertepaare eine einfache (grafische) Entscheidung bzgl. der Wahl des für die Applikation optimalsten Kommunikationssystems erfolgen. Eine exemplarisch durchgeführte Systemauswahl, basierend auf den Analyseergebnissen von Kommunikationssystemen für den Einsatz in dezentralen elektrischen Versorgungsstrukturen, veranschaulicht und verifiziert die Handhabung des entwickelten Konzeptes. Die abschließende Realisierung, Modifikation und Test des zuvor ausgewählten Distribution Line Carrier Systems unterstreicht des Weiteren die Effizienz des entwickelten Entscheidungsfindungsprozesses. Dem Entscheidungsträger für die Systemauswahl wird insgesamt ein Werkzeug zur Verfügung gestellt, das eine einfache und praktikable Entscheidungsfindung erlaubt. Mit dem entwickelten Konzept ist erstmals eine ganzheitliche Betrachtung unter Berücksichtigung sowohl der technischen und applikationsspezifischen, als auch der ökonomischen Aspekte und Randbedingungen möglich, wobei das Entscheidungsfindungskonzept nicht nur auf die Systemfindung für dezentrale elektrische Energieversorgungsstrukturen begrenzt ist, sondern auch bei entsprechender Modifikation der Anforderungen, Systemkenngrößen etc. auf andere Applikationsanwendungen übertragen werden.