1000 resultados para Statistiques ethniques
Resumo:
Le neurofeedback (NF) suscite actuellement un vif intérêt dans la prise en charge du trouble déficitaire de l’attention avec hyperactivité (TDAH) chez l’enfant. Proposée comme méthode alternative à la médication par de nombreux cliniciens, notamment aux États-Unis, le NF est une intervention non-invasive de type électrophysiologique qui repose sur l’apprentissage par conditionnement opérant de l’autorégulation d’ondes cérébrales déviantes. Les études empiriques qui étayent cette pratique font toutefois l’objet de virulentes critiques de la part de spécialistes dans le domaine du TDAH en raison de résultats systématiquement positifs mais non spécifiques, auxquels s’ajoutent de nombreuses lacunes méthodologiques. Les travaux de cette thèse visent à appliquer une méthodologie stricte de type essai clinique contrôlé avec assignation aléatoire afin d’isoler les effets particuliers du NF, en appliquant un protocole d’entraînement propre au déficit primaire sous-tendant le TDAH, soit l’inhibition motrice, dans le but d’évaluer la spécificité de cette intervention. Dans un premier temps, les connaissances relatives à la nosologie du TDAH, à ses principaux traitements, au NF et aux capacités d’inhibition chez l’enfant ayant un TDAH sont présentées (Chapitre 1). Ensuite, les études réalisées dans le cadre de cette thèse sont exposées. Dans l’étude initiale, la spécificité du NF est évaluée sur les capacités d’inhibition grâce à des mesures subjectives, soit des questionnaires de comportements complétés par les parents, ainsi que des mesures objectives, à savoir des tâches neuropsychologiques (Chapitre 2). Afin de préciser davantage les conséquences d’un entraînement à l’autorégulation d’ondes cérébrales, l’étude subséquente s’est intéressée à l’impact neurophysiologiques de l’amélioration des capacités d’inhibition, par le biais d’une étude en potentiels évoqués employant une tâche de performance continue de type Stop-signal (Chapitre 3). Les principaux résultats reflètent un recrutement sous optimal, avec une puissance statistique insuffisante pour réaliser des statistiques quantitatives de groupe. Néanmoins, l’appréciation des données selon une approche d’étude de cas multiples permet de mettre en évidence la présence d’une réponse placebo sur les capacités d’inhibition suite à un entraînement en NF. Finalement, les implications de la taille de l’échantillon, ainsi que les limites et les critiques de ces études sont discutées au Chapitre 4.
Resumo:
Ce mémoire traite d'abord du problème de la modélisation de l'interprétation des pianistes à l'aide de l'apprentissage machine. Il s'occupe ensuite de présenter de nouveaux modèles temporels qui utilisent des auto-encodeurs pour améliorer l'apprentissage de séquences. Dans un premier temps, nous présentons le travail préalablement fait dans le domaine de la modélisation de l'expressivité musicale, notamment les modèles statistiques du professeur Widmer. Nous parlons ensuite de notre ensemble de données, unique au monde, qu'il a été nécessaire de créer pour accomplir notre tâche. Cet ensemble est composé de 13 pianistes différents enregistrés sur le fameux piano Bösendorfer 290SE. Enfin, nous expliquons en détail les résultats de l'apprentissage de réseaux de neurones et de réseaux de neurones récurrents. Ceux-ci sont appliqués sur les données mentionnées pour apprendre les variations expressives propres à un style de musique. Dans un deuxième temps, ce mémoire aborde la découverte de modèles statistiques expérimentaux qui impliquent l'utilisation d'auto-encodeurs sur des réseaux de neurones récurrents. Pour pouvoir tester la limite de leur capacité d'apprentissage, nous utilisons deux ensembles de données artificielles développées à l'Université de Toronto.
Resumo:
Les chutes chez les personnes âgées représentent un problème majeur. Il n’est donc pas étonnant que l’identification des facteurs qui en accroissent le risque ait mobilisé autant d’attention. Les aînés plus fragiles ayant besoin de soutien pour vivre dans la communauté sont néanmoins demeurés le parent pauvre de la recherche, bien que, plus récemment, les autorités québécoises en aient fait une cible d’intervention prioritaire. Les études d’observation prospectives sont particulièrement indiquées pour étudier les facteurs de risque de chutes chez les personnes âgées. Leur identification optimale est cependant compliquée par le fait que l’exposition aux facteurs de risque peut varier au cours du suivi et qu’un même individu peut subir plus d’un événement. Il y a 20 ans, des chercheurs ont tenté de sensibiliser leurs homologues à cet égard, mais leurs efforts sont demeurés vains. On continue aujourd’hui à faire peu de cas de ces considérations, se concentrant sur la proportion des personnes ayant fait une chute ou sur le temps écoulé jusqu’à la première chute. On écarte du coup une quantité importante d’information pertinente. Dans cette thèse, nous examinons les méthodes en usage et nous proposons une extension du modèle de risques de Cox. Nous illustrons cette méthode par une étude des facteurs de risque susceptibles d’être associés à des chutes parmi un groupe de 959 personnes âgées ayant eu recours aux services publics de soutien à domicile. Nous comparons les résultats obtenus avec la méthode de Wei, Lin et Weissfeld à ceux obtenus avec d’autres méthodes, dont la régression logistique conventionnelle, la régression logistique groupée, la régression binomiale négative et la régression d’Andersen et Gill. L’investigation est caractérisée par des prises de mesures répétées des facteurs de risque au domicile des participants et par des relances téléphoniques mensuelles visant à documenter la survenue des chutes. Les facteurs d’exposition étudiés, qu’ils soient fixes ou variables dans le temps, comprennent les caractéristiques sociodémographiques, l’indice de masse corporelle, le risque nutritionnel, la consommation d’alcool, les dangers de l’environnement domiciliaire, la démarche et l’équilibre, et la consommation de médicaments. La quasi-totalité (99,6 %) des usagers présentaient au moins un facteur à haut risque. L’exposition à des risques multiples était répandue, avec une moyenne de 2,7 facteurs à haut risque distincts par participant. Les facteurs statistiquement associés au risque de chutes incluent le sexe masculin, les tranches d’âge inférieures, l’histoire de chutes antérieures, un bas score à l’échelle d’équilibre de Berg, un faible indice de masse corporelle, la consommation de médicaments de type benzodiazépine, le nombre de dangers présents au domicile et le fait de vivre dans une résidence privée pour personnes âgées. Nos résultats révèlent cependant que les méthodes courantes d’analyse des facteurs de risque de chutes – et, dans certains cas, de chutes nécessitant un recours médical – créent des biais appréciables. Les biais pour les mesures d’association considérées proviennent de la manière dont l’exposition et le résultat sont mesurés et définis de même que de la manière dont les méthodes statistiques d’analyse en tiennent compte. Une dernière partie, tout aussi innovante que distincte de par la nature des outils statistiques utilisés, complète l’ouvrage. Nous y identifions des profils d’aînés à risque de devenir des chuteurs récurrents, soit ceux chez qui au moins deux chutes sont survenues dans les six mois suivant leur évaluation initiale. Une analyse par arbre de régression et de classification couplée à une analyse de survie a révélé l’existence de cinq profils distinctifs, dont le risque relatif varie de 0,7 à 5,1. Vivre dans une résidence pour aînés, avoir des antécédents de chutes multiples ou des troubles de l’équilibre et consommer de l’alcool sont les principaux facteurs associés à une probabilité accrue de chuter précocement et de devenir un chuteur récurrent. Qu’il s’agisse d’activité de dépistage des facteurs de risque de chutes ou de la population ciblée, cette thèse s’inscrit dans une perspective de gain de connaissances sur un thème hautement d’actualité en santé publique. Nous encourageons les chercheurs intéressés par l’identification des facteurs de risque de chutes chez les personnes âgées à recourir à la méthode statistique de Wei, Lin et Weissfeld car elle tient compte des expositions variables dans le temps et des événements récurrents. Davantage de recherches seront par ailleurs nécessaires pour déterminer le choix du meilleur test de dépistage pour un facteur de risque donné chez cette clientèle.
Resumo:
Les modèles à sur-représentation de zéros discrets et continus ont une large gamme d'applications et leurs propriétés sont bien connues. Bien qu'il existe des travaux portant sur les modèles discrets à sous-représentation de zéro et modifiés à zéro, la formulation usuelle des modèles continus à sur-représentation -- un mélange entre une densité continue et une masse de Dirac -- empêche de les généraliser afin de couvrir le cas de la sous-représentation de zéros. Une formulation alternative des modèles continus à sur-représentation de zéros, pouvant aisément être généralisée au cas de la sous-représentation, est présentée ici. L'estimation est d'abord abordée sous le paradigme classique, et plusieurs méthodes d'obtention des estimateurs du maximum de vraisemblance sont proposées. Le problème de l'estimation ponctuelle est également considéré du point de vue bayésien. Des tests d'hypothèses classiques et bayésiens visant à déterminer si des données sont à sur- ou sous-représentation de zéros sont présentées. Les méthodes d'estimation et de tests sont aussi évaluées au moyen d'études de simulation et appliquées à des données de précipitation agrégées. Les diverses méthodes s'accordent sur la sous-représentation de zéros des données, démontrant la pertinence du modèle proposé. Nous considérons ensuite la classification d'échantillons de données à sous-représentation de zéros. De telles données étant fortement non normales, il est possible de croire que les méthodes courantes de détermination du nombre de grappes s'avèrent peu performantes. Nous affirmons que la classification bayésienne, basée sur la distribution marginale des observations, tiendrait compte des particularités du modèle, ce qui se traduirait par une meilleure performance. Plusieurs méthodes de classification sont comparées au moyen d'une étude de simulation, et la méthode proposée est appliquée à des données de précipitation agrégées provenant de 28 stations de mesure en Colombie-Britannique.
Resumo:
Alors que certains mécanismes pourtant jugés cruciaux pour la transformation de la pluie en débit restent peu ou mal compris, le concept de connectivité hydrologique a récemment été proposé pour expliquer pourquoi certains processus sont déclenchés de manière épisodique en fonction des caractéristiques des événements de pluie et de la teneur en eau des sols avant l’événement. L’adoption de ce nouveau concept en hydrologie reste cependant difficile puisqu’il n’y a pas de consensus sur la définition de la connectivité, sa mesure, son intégration dans les modèles hydrologiques et son comportement lors des transferts d’échelles spatiales et temporelles. Le but de ce travail doctoral est donc de préciser la définition, la mesure, l’agrégation et la prédiction des processus liés à la connectivité hydrologique en s’attardant aux questions suivantes : 1) Quel cadre méthodologique adopter pour une étude sur la connectivité hydrologique ?, 2) Comment évaluer le degré de connectivité hydrologique des bassins versants à partir de données de terrain ?, et 3) Dans quelle mesure nos connaissances sur la connectivité hydrologique doivent-elles conduire à la modification des postulats de modélisation hydrologique ? Trois approches d’étude sont différenciées, soit i) une approche de type « boite noire », basée uniquement sur l’exploitation des données de pluie et de débits sans examiner le fonctionnement interne du bassin versant ; ii) une approche de type « boite grise » reposant sur l’étude de données géochimiques ponctuelles illustrant la dynamique interne du bassin versant ; et iii) une approche de type « boite blanche » axée sur l’analyse de patrons spatiaux exhaustifs de la topographie de surface, la topographie de subsurface et l’humidité du sol. Ces trois approches sont ensuite validées expérimentalement dans le bassin versant de l’Hermine (Basses Laurentides, Québec). Quatre types de réponses hydrologiques sont distingués en fonction de leur magnitude et de leur synchronisme, sachant que leur présence relative dépend des conditions antécédentes. Les forts débits enregistrés à l’exutoire du bassin versant sont associés à une contribution accrue de certaines sources de ruissellement, ce qui témoigne d’un lien hydraulique accru et donc d’un fort degré de connectivité hydrologique entre les sources concernées et le cours d’eau. Les aires saturées couvrant des superficies supérieures à 0,85 ha sont jugées critiques pour la genèse de forts débits de crue. La preuve est aussi faite que les propriétés statistiques des patrons d’humidité du sol en milieu forestier tempéré humide sont nettement différentes de celles observées en milieu de prairie tempéré sec, d’où la nécessité d’utiliser des méthodes de calcul différentes pour dériver des métriques spatiales de connectivité dans les deux types de milieux. Enfin, la double existence de sources contributives « linéaires » et « non linéaires » est mise en évidence à l’Hermine. Ces résultats suggèrent la révision de concepts qui sous-tendent l’élaboration et l’exécution des modèles hydrologiques. L’originalité de cette thèse est le fait même de son sujet. En effet, les objectifs de recherche poursuivis sont conformes à la théorie hydrologique renouvelée qui prône l’arrêt des études de particularismes de petite échelle au profit de l’examen des propriétés émergentes des bassins versants telles que la connectivité hydrologique. La contribution majeure de cette thèse consiste ainsi en la proposition d’une définition unifiée de la connectivité, d’un cadre méthodologique, d’approches de mesure sur le terrain, d’outils techniques et de pistes de solution pour la modélisation des systèmes hydrologiques.
Resumo:
Les séquences protéiques naturelles sont le résultat net de l’interaction entre les mécanismes de mutation, de sélection naturelle et de dérive stochastique au cours des temps évolutifs. Les modèles probabilistes d’évolution moléculaire qui tiennent compte de ces différents facteurs ont été substantiellement améliorés au cours des dernières années. En particulier, ont été proposés des modèles incorporant explicitement la structure des protéines et les interdépendances entre sites, ainsi que les outils statistiques pour évaluer la performance de ces modèles. Toutefois, en dépit des avancées significatives dans cette direction, seules des représentations très simplifiées de la structure protéique ont été utilisées jusqu’à présent. Dans ce contexte, le sujet général de cette thèse est la modélisation de la structure tridimensionnelle des protéines, en tenant compte des limitations pratiques imposées par l’utilisation de méthodes phylogénétiques très gourmandes en temps de calcul. Dans un premier temps, une méthode statistique générale est présentée, visant à optimiser les paramètres d’un potentiel statistique (qui est une pseudo-énergie mesurant la compatibilité séquence-structure). La forme fonctionnelle du potentiel est par la suite raffinée, en augmentant le niveau de détails dans la description structurale sans alourdir les coûts computationnels. Plusieurs éléments structuraux sont explorés : interactions entre pairs de résidus, accessibilité au solvant, conformation de la chaîne principale et flexibilité. Les potentiels sont ensuite inclus dans un modèle d’évolution et leur performance est évaluée en termes d’ajustement statistique à des données réelles, et contrastée avec des modèles d’évolution standards. Finalement, le nouveau modèle structurellement contraint ainsi obtenu est utilisé pour mieux comprendre les relations entre niveau d’expression des gènes et sélection et conservation de leur séquence protéique.
Resumo:
La traduction statistique vise l’automatisation de la traduction par le biais de modèles statistiques. Dans ce travail, nous relevons un des grands défis du domaine : la recherche (Brown et al., 1993). Les systèmes de traduction statistique de référence, tel Moses (Koehn et al., 2007), effectuent généralement la recherche en explorant l’espace des préfixes par programmation dynamique, une solution coûteuse sur le plan computationnel pour ce problème potentiellement NP-complet (Knight, 1999). Nous postulons qu’une approche par recherche locale (Langlais et al., 2007) peut mener à des solutions tout aussi intéressantes en un temps et un espace mémoire beaucoup moins importants (Russell et Norvig, 2010). De plus, ce type de recherche facilite l’incorporation de modèles globaux qui nécessitent des traductions complètes et permet d’effectuer des modifications sur ces dernières de manière non-continue, deux tâches ardues lors de l’exploration de l’espace des préfixes. Nos expériences nous révèlent que la recherche locale en traduction statistique est une approche viable, s’inscrivant dans l’état de l’art.
Resumo:
Les manifestations orales de la maladie de Crohn sont bien établies chez les adultes. Toutefois, aucune étude ne s’est concentrée sur les manifestations orales pathologiques chez la population infantile. En ce qui concerne la santé dentaire, très peu d’études ont évalué la prévalence de carie chez les patients atteints de la maladie de Crohn. Les objectifs de cette étude sont de décrire les manifestations orales des enfants et des adolescents atteints de la maladie de Crohn et tout lien possible avec le stade de la maladie (active ou rémission) ainsi que de déterminer s’il existe un lien entre la prévalence de carie et le score de potentiel cariogène de la diète des patients. Hypothèses • Les manifestations buccodentaires décrites chez les adultes sont présentes chez les enfants et adolescents du groupe de Ste-Justine. • Il existe différentes manifestations propres à la population infantile. • L’indice carieux des enfants atteints de la maladie de Crohn est supérieur à celui des enfants en bonne santé. • L’indice de potentiel cariogène est élevé chez les patients atteints de la maladie de Crohn • Le stade de la maladie influence la prévalence des manifestations. Méthodologie Un certificat d’éthique à la recherche fut obtenu de l’hôpital Ste-Justine. Sur 40 patients recrutés, 21 sujets (9 filles, 12 garçons) âgés de 5,1 à 17,3 ans ont participé à l’étude de type transversale. Un questionnaire médical, un examen buccal complet, l’analyse des journaux alimentaires ainsi qu’une revue des dossiers médicaux a permis d’établir la prévalence des lésions pathologiques, la prévalence de carie (indice CAO) et le score de potentiel cariogène (SPC) selon la méthode du Dre Monique Julien. Résultats Les analyses statistiques démontrent: • Aucune différence significative entre le CAO des patients atteints de la maladie et celui du groupe contrôle. • Aucune manifestation orale autre que celles présentées dans la littérature. • 57% des patients ont rapporté avoir eu des ulcères buccaux au cours de la maladie. • Les patients en phase active ne sont pas différents de ceux en rémission en ce qui concerne les manifestations orales, le CAO et le SPC. • Les enfants qui prennent du méthotrexate ont un CAO plus élevé. • Les patients qui ont plus de caries n’ont pas nécessairement une diète plus cariogène. Conclusion Selon les résultats de notre étude, nous n’avons pas observé de manifestations orales propre à la population infantile. De plus, les enfants atteints de la maladie ne semblent pas être un groupe à risque de carie dentaire. Davantage d’études sont nécessaires sur les manifestations orales de la maladie de Crohn chez la population pédiatrique.
Resumo:
L’Europe engendre des transformations majeures de l’État national, influence sa structure politique, sa conception de la démocratie et du droit, et produit des effets sur les rapports majorité minorités. Elle a pour effet d’éloigner l’État national du modèle traditionnel de l’État-Nation ethniquement ou culturellement homogène en l’amenant à reconnaître la pluralité de ses composantes nationales. Ces mutations sont le résultat du processus même d’intégration communautaire et des politiques de régionalisation et de décentralisation que favorisent les institutions européennes. Soumis au double processus d’intégration supranationale et de désagrégation infranationale, l’État national se transforme. Son rapport avec les minorités, également. L’Europe commande des aménagements de la diversité. Pour y arriver, elle impose un droit à la différence, lequel s’inscrit toujours dans la protection générale des droits de l’homme mais vise spécifiquement à reconnaître des droits identitaires ou poly ethniques aux personnes appartenant à des minorités, en tant que groupe, dans le but évident de les protéger contre la discrimination et l’intolérance. En faisant la promotion de ce droit à la différence, l’Europe propose un modèle alternatif à l’État-Nation traditionnel. La nation (majorité) peut désormais s’accommoder de la diversité. La nation n’est plus seulement politique, elle devient socioculturelle. En faisant la promotion du principe de subsidiarité, l’Europe incite à la décentralisation et à la régionalisation. En proposant un droit de la différence, l’Union européenne favorise la mise au point de mécanismes institutionnels permanents où la négociation continue de la normativité juridique entre groupes différents est possible et où l’opportunité est donnée aux minorités de contribuer à la définition de cette normativité. Le pluralisme juridique engendré par la communautarisation reste par ailleurs fortement institutionnel. L’État communautarisé détient encore le monopole de la production du droit mais permet des aménagements institutionnels de l’espace public au sein d’un ensemble démocratique plus vaste, donc l’instauration d’un dialogue entre les différentes communautés qui le composent, ce qui aurait été impensable selon la théorie classique de l’État-nation, du droit moniste et monologique. Ainsi, assistons-nous à la transformation progressive dans les faits de l’État-nation en État multinational. La question des minorités soulève un problème de fond : celui de l'organisation politique minoritaire. La volonté de respecter toutes les identités collectives, de donner un statut politique à toutes les minorités et de satisfaire toutes les revendications particularistes n’a pas de fin. L’État-Nation n’est certes pas le meilleur –ni le seul- modèle d’organisation politique. Mais l’État multinational constitue-t-il une alternative viable en tant que modèle d’organisation politique ?
Resumo:
Funding support for this doctoral thesis has been provided by the Canadian Institutes of Health Research-Public Health Agency of Canada, QICSS matching grant, and la Faculté des études supérieures et postdoctorales-Université de Montréal.
Resumo:
Placer une charge au niveau du membre inférieur est une approche sans fondement scientifique, utilisée par les cliniciens, pour renforcer certains muscles clés de la marche. Cette étude a déterminé les modifications du patron de marche lors de l’ajout d’une charge à la cheville parétique ou non parétique chez des personnes ayant une hémiparésie suite à un accident vasculaire cérébral et a comparé les résultats à ceux d’un groupe témoin. Il est supposé qu’une charge placée à la jambe parétique/non dominante (charge ipsilatérale) augmenterait les efforts (moments et puissance) à la hanche parétique/non dominante lors de l’oscillation et qu’une charge placée controlatéralement augmenterait les efforts lors de la phase d’appui principalement pour les abducteurs de hanche stabilisant le bassin dans le plan frontal. La marche avec et sans charge de cinq individus hémiparétiques chroniques et 5 personnes en santé a été analysée en laboratoire par l’enregistrement des forces de réaction du sol et des mouvements des membres inférieurs. Ces informations ont permis de calculer les paramètres temps-distance, les angles à la hanche parétique/non dominante et au tronc, les moments nets, les puissances et le travail mécanique à la hanche parétique/non dominante. Des tests statistiques non-paramétriques ont servi à déterminer l’effet de la condition, avec charge (ipsi- et controlatérale) ou sans charge et à comparer les résultats entre les deux groupes. L’ajout d’une charge n’a pas modifié la vitesse de marche des sujets. Les phases d’appui et d’oscillation étaient rendus plus symétriques par la charge, même si peu de différences apparaissaient dans le plan sagittal avec ou sans la charge. Dans le plan frontal, le moment abducteur de hanche des sujets hémiparétiques a diminué avec la charge controlatérale, tandis qu'il a augmenté chez les sujets en santé. L’utilisation d’une stratégie posturale ou dynamique au tronc pourrait expliquer la différence de l’effet de la charge sur le moment abducteur à la hanche. Au vu de ces résultats, il est nécessaire de poursuivre l’évaluation de cette approche de renforcement musculaire spécifique à la tâche avant d’en recommander son utilisation.
Resumo:
Il est connu que les problèmes d'ambiguïté de la langue ont un effet néfaste sur les résultats des systèmes de Recherche d'Information (RI). Toutefois, les efforts de recherche visant à intégrer des techniques de Désambiguisation de Sens (DS) à la RI n'ont pas porté fruit. La plupart des études sur le sujet obtiennent effectivement des résultats négatifs ou peu convaincants. De plus, des investigations basées sur l'ajout d'ambiguïté artificielle concluent qu'il faudrait une très haute précision de désambiguation pour arriver à un effet positif. Ce mémoire vise à développer de nouvelles approches plus performantes et efficaces, se concentrant sur l'utilisation de statistiques de cooccurrence afin de construire des modèles de contexte. Ces modèles pourront ensuite servir à effectuer une discrimination de sens entre une requête et les documents d'une collection. Dans ce mémoire à deux parties, nous ferons tout d'abord une investigation de la force de la relation entre un mot et les mots présents dans son contexte, proposant une méthode d'apprentissage du poids d'un mot de contexte en fonction de sa distance du mot modélisé dans le document. Cette méthode repose sur l'idée que des modèles de contextes faits à partir d'échantillons aléatoires de mots en contexte devraient être similaires. Des expériences en anglais et en japonais montrent que la force de relation en fonction de la distance suit généralement une loi de puissance négative. Les poids résultant des expériences sont ensuite utilisés dans la construction de systèmes de DS Bayes Naïfs. Des évaluations de ces systèmes sur les données de l'atelier Semeval en anglais pour la tâche Semeval-2007 English Lexical Sample, puis en japonais pour la tâche Semeval-2010 Japanese WSD, montrent que les systèmes ont des résultats comparables à l'état de l'art, bien qu'ils soient bien plus légers, et ne dépendent pas d'outils ou de ressources linguistiques. La deuxième partie de ce mémoire vise à adapter les méthodes développées à des applications de Recherche d'Information. Ces applications ont la difficulté additionnelle de ne pas pouvoir dépendre de données créées manuellement. Nous proposons donc des modèles de contextes à variables latentes basés sur l'Allocation Dirichlet Latente (LDA). Ceux-ci seront combinés à la méthodes de vraisemblance de requête par modèles de langue. En évaluant le système résultant sur trois collections de la conférence TREC (Text REtrieval Conference), nous observons une amélioration proportionnelle moyenne de 12% du MAP et 23% du GMAP. Les gains se font surtout sur les requêtes difficiles, augmentant la stabilité des résultats. Ces expériences seraient la première application positive de techniques de DS sur des tâches de RI standard.
Resumo:
L’imputation simple est très souvent utilisée dans les enquêtes pour compenser pour la non-réponse partielle. Dans certaines situations, la variable nécessitant l’imputation prend des valeurs nulles un très grand nombre de fois. Ceci est très fréquent dans les enquêtes entreprises qui collectent les variables économiques. Dans ce mémoire, nous étudions les propriétés de deux méthodes d’imputation souvent utilisées en pratique et nous montrons qu’elles produisent des estimateurs imputés biaisés en général. Motivé par un modèle de mélange, nous proposons trois méthodes d’imputation et étudions leurs propriétés en termes de biais. Pour ces méthodes d’imputation, nous considérons un estimateur jackknife de la variance convergent vers la vraie variance, sous l’hypothèse que la fraction de sondage est négligeable. Finalement, nous effectuons une étude par simulation pour étudier la performance des estimateurs ponctuels et de variance en termes de biais et d’erreur quadratique moyenne.
Resumo:
Les modèles de compréhension statistiques appliqués à des applications vocales nécessitent beaucoup de données pour être entraînés. Souvent, une même application doit pouvoir supporter plusieurs langues, c’est le cas avec les pays ayant plusieurs langues officielles. Il s’agit donc de gérer les mêmes requêtes des utilisateurs, lesquelles présentent une sémantique similaire, mais dans plusieurs langues différentes. Ce projet présente des techniques pour déployer automatiquement un modèle de compréhension statistique d’une langue source vers une langue cible. Ceci afin de réduire le nombre de données nécessaires ainsi que le temps relié au déploiement d’une application dans une nouvelle langue. Premièrement, une approche basée sur les techniques de traduction automatique est présentée. Ensuite une approche utilisant un espace sémantique commun pour comparer plusieurs langues a été développée. Ces deux méthodes sont comparées pour vérifier leurs limites et leurs faisabilités. L’apport de ce projet se situe dans l’amélioration d’un modèle de traduction grâce à l’ajout de données très proche de l’application ainsi que d’une nouvelle façon d’inférer un espace sémantique multilingue.
Resumo:
Cette thèse porte sur l'analyse bayésienne de données fonctionnelles dans un contexte hydrologique. L'objectif principal est de modéliser des données d'écoulements d'eau d'une manière parcimonieuse tout en reproduisant adéquatement les caractéristiques statistiques de celles-ci. L'analyse de données fonctionnelles nous amène à considérer les séries chronologiques d'écoulements d'eau comme des fonctions à modéliser avec une méthode non paramétrique. Dans un premier temps, les fonctions sont rendues plus homogènes en les synchronisant. Ensuite, disposant d'un échantillon de courbes homogènes, nous procédons à la modélisation de leurs caractéristiques statistiques en faisant appel aux splines de régression bayésiennes dans un cadre probabiliste assez général. Plus spécifiquement, nous étudions une famille de distributions continues, qui inclut celles de la famille exponentielle, de laquelle les observations peuvent provenir. De plus, afin d'avoir un outil de modélisation non paramétrique flexible, nous traitons les noeuds intérieurs, qui définissent les éléments de la base des splines de régression, comme des quantités aléatoires. Nous utilisons alors le MCMC avec sauts réversibles afin d'explorer la distribution a posteriori des noeuds intérieurs. Afin de simplifier cette procédure dans notre contexte général de modélisation, nous considérons des approximations de la distribution marginale des observations, nommément une approximation basée sur le critère d'information de Schwarz et une autre qui fait appel à l'approximation de Laplace. En plus de modéliser la tendance centrale d'un échantillon de courbes, nous proposons aussi une méthodologie pour modéliser simultanément la tendance centrale et la dispersion de ces courbes, et ce dans notre cadre probabiliste général. Finalement, puisque nous étudions une diversité de distributions statistiques au niveau des observations, nous mettons de l'avant une approche afin de déterminer les distributions les plus adéquates pour un échantillon de courbes donné.