1000 resultados para Statistique non param


Relevância:

80.00% 80.00%

Publicador:

Resumo:

L’un des problèmes importants en apprentissage automatique est de déterminer la complexité du modèle à apprendre. Une trop grande complexité mène au surapprentissage, ce qui correspond à trouver des structures qui n’existent pas réellement dans les données, tandis qu’une trop faible complexité mène au sous-apprentissage, c’est-à-dire que l’expressivité du modèle est insuffisante pour capturer l’ensemble des structures présentes dans les données. Pour certains modèles probabilistes, la complexité du modèle se traduit par l’introduction d’une ou plusieurs variables cachées dont le rôle est d’expliquer le processus génératif des données. Il existe diverses approches permettant d’identifier le nombre approprié de variables cachées d’un modèle. Cette thèse s’intéresse aux méthodes Bayésiennes nonparamétriques permettant de déterminer le nombre de variables cachées à utiliser ainsi que leur dimensionnalité. La popularisation des statistiques Bayésiennes nonparamétriques au sein de la communauté de l’apprentissage automatique est assez récente. Leur principal attrait vient du fait qu’elles offrent des modèles hautement flexibles et dont la complexité s’ajuste proportionnellement à la quantité de données disponibles. Au cours des dernières années, la recherche sur les méthodes d’apprentissage Bayésiennes nonparamétriques a porté sur trois aspects principaux : la construction de nouveaux modèles, le développement d’algorithmes d’inférence et les applications. Cette thèse présente nos contributions à ces trois sujets de recherches dans le contexte d’apprentissage de modèles à variables cachées. Dans un premier temps, nous introduisons le Pitman-Yor process mixture of Gaussians, un modèle permettant l’apprentissage de mélanges infinis de Gaussiennes. Nous présentons aussi un algorithme d’inférence permettant de découvrir les composantes cachées du modèle que nous évaluons sur deux applications concrètes de robotique. Nos résultats démontrent que l’approche proposée surpasse en performance et en flexibilité les approches classiques d’apprentissage. Dans un deuxième temps, nous proposons l’extended cascading Indian buffet process, un modèle servant de distribution de probabilité a priori sur l’espace des graphes dirigés acycliques. Dans le contexte de réseaux Bayésien, ce prior permet d’identifier à la fois la présence de variables cachées et la structure du réseau parmi celles-ci. Un algorithme d’inférence Monte Carlo par chaîne de Markov est utilisé pour l’évaluation sur des problèmes d’identification de structures et d’estimation de densités. Dans un dernier temps, nous proposons le Indian chefs process, un modèle plus général que l’extended cascading Indian buffet process servant à l’apprentissage de graphes et d’ordres. L’avantage du nouveau modèle est qu’il admet les connections entres les variables observables et qu’il prend en compte l’ordre des variables. Nous présentons un algorithme d’inférence Monte Carlo par chaîne de Markov avec saut réversible permettant l’apprentissage conjoint de graphes et d’ordres. L’évaluation est faite sur des problèmes d’estimations de densité et de test d’indépendance. Ce modèle est le premier modèle Bayésien nonparamétrique permettant d’apprendre des réseaux Bayésiens disposant d’une structure complètement arbitraire.

Relevância:

30.00% 30.00%

Publicador:

Resumo:

Depuis 2004, la cohorte Lc65+, consacrée à l'étude du vieillissement, observe la santé des Lausannois nés entre 1934 et 1943 et produit des données utiles à l'accompagnement de la politique Vieillissement & Santé du canton de Vaud. En automne 2011, un financement de la Fondation Leenaards a permis d'étendre temporairement son échantillon à l'entier de la population âgée du canton, en incluant aussi des personnes vivant à Lausanne nées avant 1934 ainsi que des Vaudois vivant en dehors de la ville de Lausanne et nés avant 1944. Cette extension était destinée à l'étude de la qualité de vie et de ses liens avec la santé. L'observation a ainsi porté sur un large échantillon représentatif de la population âgée vivant à son domicile privé dans le canton de Vaud. Le mandat confié à l'Unité des services de santé de l'IUMSP est venu dans un troisième temps. Il a consisté à réinterroger en 2012 l'ensemble des personnes ayant participé à l'enquête sur la qualité de vie, alors âgées de 68 ans et plus. L'information recueillie est centrée sur leur expérience des soins, leur connaissance du domaine des prestations médico-sociales et leurs attentes. Le présent rapport présente les résultats de cette enquête sur les soins sous la forme d'indicateurs bruts, puis ventilés par région (Ville de Lausanne versus Hors Lausanne), par sexe et enfin par âge. Seules les différences atteignant le seuil de signification statistique de p<.005 sont présentées sous forme de graphiques et commentées. En annexe figure par ailleurs sous forme de tableau l'ensemble des résultats globaux chiffrés ainsi que, pour information, les résultats spécifiques par lieu du domicile, sexe et âge lorsque ces derniers montrent des différences répondant à un critère moins strict (p<.05); cependant, en raison du très grand nombre de comparaisons effectuées, les différences entre sous-groupes exposées dans ce tableau doivent être interprétées avec la prudence d'usage.

Relevância:

30.00% 30.00%

Publicador:

Resumo:

Cet ouvrage non seulement présente, de façon rigoureuse, les concepts et méthodes statistiques, mais aussi utilise des exemples concrets pour illustrer chaque concept théorique nouvellement introduit. Il présente de façon méticuleuse les notions fondamentales de la théorie des probabilités et de la statistique: bref rappel de l'histoire de la statistique, la statistique descriptive, les distributions discrètes et continues, estimation, tests d'hypothèses, l'analyse de corrélation, l'analyse de régression linéaire simple et multiple, et le modèle d'analyse de variance. Au moyen des exemples et exercices, le lecteur est guidé tout au long de la réalisation du problème. En même temps, l'apprentissage de l'utilisation de Stata se fait progressivement au fil des chapitres. La dernière partie de l'ouvrage propose une introduction à l'utilisation de Stata. Les corrections des exercices figurent à la fin de l'ouvrage, permettant au lecteur de vérifier le niveau de compréhension atteint après chaque étape.

Relevância:

30.00% 30.00%

Publicador:

Resumo:

Introduction Le tabac non fumé (smokeless tobacco) comprend les formes de tabac qui ne sont pas consommées par combustion. Les deux principaux types de consommation sont le snus, par application sur la muqueuse orale, et le tabac à sniffer. Le premier se consomme surtout en Suède et les pays scandinaves ; la consommation du second a récemment fait son apparition en Suisse malgré son interdiction. Méthodes Nous avons utilisé la base de données de la Cohort on substance use risk factors (C-surf), une cohorte de jeunes hommes suisses se présentant à 3 centres de recrutement de l'Armée Suisse (Lausanne, Windisch et Mels). Un total de 13 245 jeunes hommes ont été invités à participer à cette enquête sur la consommation de substances. Le taux de réponses a été de 45.2%. Nous avons inclu 5720 participants pour cette analyse et utilisé une approche statistique par régression logistique pour identifier les déterminants de consommation de tabac non fumé. Résultats L'âge moyen des participants était de 19.5 ans. 8% des participants ont déclaré consommer régulièrement du tabac à sniffer et 3% consommer du snus au moins une fois par mois. La consommation de tabac à sniffer était associée à la consommation non quotidienne de cigarettes [odds ratio (OR) 2.41, 95% confidence interval (Cl) 1.90-3.05], ainsi qu'à celle d'alcool à risque (OR 3.93, 95% Cl 1.86-8.32) etépisodique (OR 7.41, 95% Cl 4.11-13.38). Un BMI élevé, un revenu familial au-dessus de la moyenne et un faible niveau de formation étaient également associés à la consommation de tabac à sniffer, alors que la consommation occasionnelle de cannabis l'était négativement. Les facteurs associés à la consommation de snus étaient similaires à ceux du tabac à sniffer. Conclusions Un jeune homme suisse sur 12 consomme du tabac à sniffer et 3% consomment du snus. La consommation de tabac non fumé est associée à d'autres comportements à risque, en particulier la consommation d'alcool à risque. Les résultats de la régression logistique multivariée montrent une association de la consommation de tabac non fumé à la consommation d'alcool à risque. Le rôle du tabac non fumé dans l'induction de la dépendance à la nicotine et dans l'initiation à d'autres comportements à risque, ainsi que ses effets sur la santé devront être analysés sur la base d'études longitudinales.

Relevância:

30.00% 30.00%

Publicador:

Resumo:

In this paper we propose exact likelihood-based mean-variance efficiency tests of the market portfolio in the context of Capital Asset Pricing Model (CAPM), allowing for a wide class of error distributions which include normality as a special case. These tests are developed in the frame-work of multivariate linear regressions (MLR). It is well known however that despite their simple statistical structure, standard asymptotically justified MLR-based tests are unreliable. In financial econometrics, exact tests have been proposed for a few specific hypotheses [Jobson and Korkie (Journal of Financial Economics, 1982), MacKinlay (Journal of Financial Economics, 1987), Gib-bons, Ross and Shanken (Econometrica, 1989), Zhou (Journal of Finance 1993)], most of which depend on normality. For the gaussian model, our tests correspond to Gibbons, Ross and Shanken’s mean-variance efficiency tests. In non-gaussian contexts, we reconsider mean-variance efficiency tests allowing for multivariate Student-t and gaussian mixture errors. Our framework allows to cast more evidence on whether the normality assumption is too restrictive when testing the CAPM. We also propose exact multivariate diagnostic checks (including tests for multivariate GARCH and mul-tivariate generalization of the well known variance ratio tests) and goodness of fit tests as well as a set estimate for the intervening nuisance parameters. Our results [over five-year subperiods] show the following: (i) multivariate normality is rejected in most subperiods, (ii) residual checks reveal no significant departures from the multivariate i.i.d. assumption, and (iii) mean-variance efficiency tests of the market portfolio is not rejected as frequently once it is allowed for the possibility of non-normal errors.

Relevância:

30.00% 30.00%

Publicador:

Resumo:

En raison de la grande résolution des photographies des échantillons, celles-ci se trouvent dans un fichier complémentaire, puisque les conditions de forme imposées ne permettaient pas l'affichage intégral de ces images au sein du mémoire.

Relevância:

30.00% 30.00%

Publicador:

Resumo:

Réalisé en cotutelle avec l'Université Joseph Fourier École Doctorale Ingénierie pour la Santé,la Cognition et l'Environnement (France)

Relevância:

30.00% 30.00%

Publicador:

Resumo:

La traduction statistique vise l’automatisation de la traduction par le biais de modèles statistiques. Dans ce travail, nous relevons un des grands défis du domaine : la recherche (Brown et al., 1993). Les systèmes de traduction statistique de référence, tel Moses (Koehn et al., 2007), effectuent généralement la recherche en explorant l’espace des préfixes par programmation dynamique, une solution coûteuse sur le plan computationnel pour ce problème potentiellement NP-complet (Knight, 1999). Nous postulons qu’une approche par recherche locale (Langlais et al., 2007) peut mener à des solutions tout aussi intéressantes en un temps et un espace mémoire beaucoup moins importants (Russell et Norvig, 2010). De plus, ce type de recherche facilite l’incorporation de modèles globaux qui nécessitent des traductions complètes et permet d’effectuer des modifications sur ces dernières de manière non-continue, deux tâches ardues lors de l’exploration de l’espace des préfixes. Nos expériences nous révèlent que la recherche locale en traduction statistique est une approche viable, s’inscrivant dans l’état de l’art.

Relevância:

30.00% 30.00%

Publicador:

Resumo:

Le biais de confusion est un défi majeur des études observationnelles, surtout s'ils sont induits par des caractéristiques difficiles, voire impossibles, à mesurer dans les banques de données administratives de soins de santé. Un des biais de confusion souvent présents dans les études pharmacoépidémiologiques est la prescription sélective (en anglais « prescription channeling »), qui se manifeste lorsque le choix du traitement dépend de l'état de santé du patient et/ou de son expérience antérieure avec diverses options thérapeutiques. Parmi les méthodes de contrôle de ce biais, on retrouve le score de comorbidité, qui caractérise l'état de santé d'un patient à partir de médicaments délivrés ou de diagnostics médicaux rapportés dans les données de facturations des médecins. La performance des scores de comorbidité fait cependant l'objet de controverses car elle semble varier de façon importante selon la population d'intérêt. Les objectifs de cette thèse étaient de développer, valider, et comparer les performances de deux scores de comorbidité (un qui prédit le décès et l’autre qui prédit l’institutionnalisation), développés à partir des banques de services pharmaceutiques de la Régie de l'assurance-maladie du Québec (RAMQ) pour leur utilisation dans la population âgée. Cette thèse vise également à déterminer si l'inclusion de caractéristiques non rapportées ou peu valides dans les banques de données administratives (caractéristiques socio-démographiques, troubles mentaux ou du sommeil), améliore la performance des scores de comorbidité dans la population âgée. Une étude cas-témoins intra-cohorte fut réalisée. La cohorte source consistait en un échantillon aléatoire de 87 389 personnes âgées vivant à domicile, répartie en une cohorte de développement (n=61 172; 70%) et une cohorte de validation (n=26 217; 30%). Les données ont été obtenues à partir des banques de données de la RAMQ. Pour être inclus dans l’étude, les sujets devaient être âgés de 66 ans et plus, et être membres du régime public d'assurance-médicaments du Québec entre le 1er janvier 2000 et le 31 décembre 2009. Les scores ont été développés à partir de la méthode du Framingham Heart Study, et leur performance évaluée par la c-statistique et l’aire sous les courbes « Receiver Operating Curves ». Pour le dernier objectif qui est de documenter l’impact de l’ajout de variables non-mesurées ou peu valides dans les banques de données au score de comorbidité développé, une étude de cohorte prospective (2005-2008) a été réalisée. La population à l'étude, de même que les données, sont issues de l'Étude sur la Santé des Aînés (n=1 494). Les variables d'intérêt incluaient statut marital, soutien social, présence de troubles de santé mentale ainsi que troubles du sommeil. Tel que décrit dans l'article 1, le Geriatric Comorbidity Score (GCS) basé sur le décès, a été développé et a présenté une bonne performance (c-statistique=0.75; IC95% 0.73-0.78). Cette performance s'est avérée supérieure à celle du Chronic Disease Score (CDS) lorsqu'appliqué dans la population à l'étude (c-statistique du CDS : 0.47; IC 95%: 0.45-0.49). Une revue de littérature exhaustive a montré que les facteurs associés au décès étaient très différents de ceux associés à l’institutionnalisation, justifiant ainsi le développement d'un score spécifique pour prédire le risque d'institutionnalisation. La performance de ce dernier s'est avérée non statistiquement différente de celle du score de décès (c-statistique institutionnalisation : 0.79 IC95% 0.77-0.81). L'inclusion de variables non rapportées dans les banques de données administratives n'a amélioré que de 11% la performance du score de décès; le statut marital et le soutien social ayant le plus contribué à l'amélioration observée. En conclusion, de cette thèse, sont issues trois contributions majeures. D'une part, il a été démontré que la performance des scores de comorbidité basés sur le décès dépend de la population cible, d'où l'intérêt du Geriatric Comorbidity Score, qui fut développé pour la population âgée vivant à domicile. D'autre part, les médicaments associés au risque d'institutionnalisation diffèrent de ceux associés au risque de décès dans la population âgé, justifiant ainsi le développement de deux scores distincts. Cependant, les performances des deux scores sont semblables. Enfin, les résultats indiquent que, dans la population âgée, l'absence de certaines caractéristiques ne compromet pas de façon importante la performance des scores de comorbidité déterminés à partir de banques de données d'ordonnances. Par conséquent, les scores de comorbidité demeurent un outil de recherche important pour les études observationnelles.

Relevância:

30.00% 30.00%

Publicador:

Resumo:

Comment fonder théoriquement des indicateurs culturels? Issue de problèmes méthodologiques reliés à l’étude des rapports entre le temps de travail et le temps libre, cette question émerge à la suite du constat du déficit théorique de la statistique culturelle. En effet, l’étude du temps libre, comme du temps de travail, nécessite de questionner les fondements de cette répartition, en même temps qu’elle exige d’analyser concrètement les pratiques sociales reliées à ces catégories. Or, les ana-lyses sur l’emploi du temps libre sont souvent fondées sur des statistiques à propos des activités culturelles, statistiques dont la portée explicative est singulièrement limitée. Bien que des statistiques sur certaines de ces activités existent au moins depuis le début du XXe siècle, c’est à partir des années 1970 que les besoins de connaissance reliés à la mise en œuvre des politiques culturelles stimulent la production de statistiques plus nombreuses et plus détaillées. Afin de donner des significations à cette masse de statistiques, il est nécessaire de délimiter les frontières de ce qui est culture et communication parmi toutes les autres activités sociales. L’élaboration de cadres conceptuels de la culture par l’UNESCO et d’autres agences statistiques tente de répondre à cette exigence, tandis que les projets d’indicateurs avancés cherchent à donner un sens à l’information statistique. Ces tentatives se caractérisent toutefois par la faiblesse de leur assise théorique, problème qui se manifeste de manière aiguë dans la définition d’indicateurs qui ont nécessairement une portée normative. La résolution de cette impasse de la statistique culturelle passe au moins par une clarification des concepts reliés à la notion de culture. À cette fin, la méthodologie de la recherche repose sur une analyse critique de certains documents fondamentaux qui ont conduit à la création du cadre conceptuel pour la statistique culturelle de l’UNESCO, ainsi que sur des textes phares de Fernand Dumont, Pierre Bourdieu et Jürgen Habermas, choisis pour leur capacité à penser les activités culturelles dans l’ensemble social selon leur temporalité. La notion de temporalité est elle-même examinée sous l’angle de plusieurs approches théoriques. Il ressort de cet examen que la différenciation du temps en temps abstrait et temps concret permet d’entrevoir que les pratiques culturelles pourraient être mesurées non seulement selon la quantité de temps social qui leur est dévolue, mais aussi comme un temps qui a une valeur marchande. Les acquis de l’analyse critique des cadres conceptuels de la statistique culturelle et des textes de Dumont, Bourdieu et Habermas servent de points d’appui pour l’élaboration d’un projet d’indicateurs culturels pour le compte de l’Observatoire de la culture et des communications du Québec (OCCQ). Ce système d’indicateurs a été élaboré selon une grille qui définit ce qu’est un indicateur culturel, son objectif et sa signification. Les indicateurs ont été choisis au cours d’un processus de consultation mené par l’OCCQ auprès des agents gouvernementaux concernés et des représentants des associations professionnelles des secteurs de la culture et des communications du Québec.

Relevância:

30.00% 30.00%

Publicador:

Resumo:

Ce mémoire a pour objectif de déterminer si les précipitations convectives estivales simulées par le modèle régional canadien du climat (MRCC) sont stationnaires ou non à travers le temps. Pour répondre à cette question, nous proposons une méthodologie statistique de type fréquentiste et une de type bayésien. Pour l'approche fréquentiste, nous avons utilisé le contrôle de qualité standard ainsi que le CUSUM afin de déterminer si la moyenne a augmenté à travers les années. Pour l'approche bayésienne, nous avons comparé la distribution a posteriori des précipitations dans le temps. Pour ce faire, nous avons modélisé la densité \emph{a posteriori} d'une période donnée et nous l'avons comparée à la densité a posteriori d'une autre période plus éloignée dans le temps. Pour faire la comparaison, nous avons utilisé une statistique basée sur la distance d'Hellinger, la J-divergence ainsi que la norme L2. Au cours de ce mémoire, nous avons utilisé l'ARL (longueur moyenne de la séquence) pour calibrer et pour comparer chacun de nos outils. Une grande partie de ce mémoire sera donc dédiée à l'étude de l'ARL. Une fois nos outils bien calibrés, nous avons utilisé les simulations pour les comparer. Finalement, nous avons analysé les données du MRCC pour déterminer si elles sont stationnaires ou non.

Relevância:

30.00% 30.00%

Publicador:

Resumo:

L'objectif du présent mémoire vise à présenter des modèles de séries chronologiques multivariés impliquant des vecteurs aléatoires dont chaque composante est non-négative. Nous considérons les modèles vMEM (modèles vectoriels et multiplicatifs avec erreurs non-négatives) présentés par Cipollini, Engle et Gallo (2006) et Cipollini et Gallo (2010). Ces modèles représentent une généralisation au cas multivarié des modèles MEM introduits par Engle (2002). Ces modèles trouvent notamment des applications avec les séries chronologiques financières. Les modèles vMEM permettent de modéliser des séries chronologiques impliquant des volumes d'actif, des durées, des variances conditionnelles, pour ne citer que ces applications. Il est également possible de faire une modélisation conjointe et d'étudier les dynamiques présentes entre les séries chronologiques formant le système étudié. Afin de modéliser des séries chronologiques multivariées à composantes non-négatives, plusieurs spécifications du terme d'erreur vectoriel ont été proposées dans la littérature. Une première approche consiste à considérer l'utilisation de vecteurs aléatoires dont la distribution du terme d'erreur est telle que chaque composante est non-négative. Cependant, trouver une distribution multivariée suffisamment souple définie sur le support positif est plutôt difficile, au moins avec les applications citées précédemment. Comme indiqué par Cipollini, Engle et Gallo (2006), un candidat possible est une distribution gamma multivariée, qui impose cependant des restrictions sévères sur les corrélations contemporaines entre les variables. Compte tenu que les possibilités sont limitées, une approche possible est d'utiliser la théorie des copules. Ainsi, selon cette approche, des distributions marginales (ou marges) peuvent être spécifiées, dont les distributions en cause ont des supports non-négatifs, et une fonction de copule permet de tenir compte de la dépendance entre les composantes. Une technique d'estimation possible est la méthode du maximum de vraisemblance. Une approche alternative est la méthode des moments généralisés (GMM). Cette dernière méthode présente l'avantage d'être semi-paramétrique dans le sens que contrairement à l'approche imposant une loi multivariée, il n'est pas nécessaire de spécifier une distribution multivariée pour le terme d'erreur. De manière générale, l'estimation des modèles vMEM est compliquée. Les algorithmes existants doivent tenir compte du grand nombre de paramètres et de la nature élaborée de la fonction de vraisemblance. Dans le cas de l'estimation par la méthode GMM, le système à résoudre nécessite également l'utilisation de solveurs pour systèmes non-linéaires. Dans ce mémoire, beaucoup d'énergies ont été consacrées à l'élaboration de code informatique (dans le langage R) pour estimer les différents paramètres du modèle. Dans le premier chapitre, nous définissons les processus stationnaires, les processus autorégressifs, les processus autorégressifs conditionnellement hétéroscédastiques (ARCH) et les processus ARCH généralisés (GARCH). Nous présentons aussi les modèles de durées ACD et les modèles MEM. Dans le deuxième chapitre, nous présentons la théorie des copules nécessaire pour notre travail, dans le cadre des modèles vectoriels et multiplicatifs avec erreurs non-négatives vMEM. Nous discutons également des méthodes possibles d'estimation. Dans le troisième chapitre, nous discutons les résultats des simulations pour plusieurs méthodes d'estimation. Dans le dernier chapitre, des applications sur des séries financières sont présentées. Le code R est fourni dans une annexe. Une conclusion complète ce mémoire.