6 resultados para Naïve Bayes classifier

em Université de Montréal, Canada


Relevância:

100.00% 100.00%

Publicador:

Resumo:

Mémoire numérisé par la Division de la gestion de documents et des archives de l'Université de Montréal

Relevância:

100.00% 100.00%

Publicador:

Resumo:

Mémoire numérisé par la Direction des bibliothèques de l'Université de Montréal.

Relevância:

80.00% 80.00%

Publicador:

Resumo:

Il est connu que les problèmes d'ambiguïté de la langue ont un effet néfaste sur les résultats des systèmes de Recherche d'Information (RI). Toutefois, les efforts de recherche visant à intégrer des techniques de Désambiguisation de Sens (DS) à la RI n'ont pas porté fruit. La plupart des études sur le sujet obtiennent effectivement des résultats négatifs ou peu convaincants. De plus, des investigations basées sur l'ajout d'ambiguïté artificielle concluent qu'il faudrait une très haute précision de désambiguation pour arriver à un effet positif. Ce mémoire vise à développer de nouvelles approches plus performantes et efficaces, se concentrant sur l'utilisation de statistiques de cooccurrence afin de construire des modèles de contexte. Ces modèles pourront ensuite servir à effectuer une discrimination de sens entre une requête et les documents d'une collection. Dans ce mémoire à deux parties, nous ferons tout d'abord une investigation de la force de la relation entre un mot et les mots présents dans son contexte, proposant une méthode d'apprentissage du poids d'un mot de contexte en fonction de sa distance du mot modélisé dans le document. Cette méthode repose sur l'idée que des modèles de contextes faits à partir d'échantillons aléatoires de mots en contexte devraient être similaires. Des expériences en anglais et en japonais montrent que la force de relation en fonction de la distance suit généralement une loi de puissance négative. Les poids résultant des expériences sont ensuite utilisés dans la construction de systèmes de DS Bayes Naïfs. Des évaluations de ces systèmes sur les données de l'atelier Semeval en anglais pour la tâche Semeval-2007 English Lexical Sample, puis en japonais pour la tâche Semeval-2010 Japanese WSD, montrent que les systèmes ont des résultats comparables à l'état de l'art, bien qu'ils soient bien plus légers, et ne dépendent pas d'outils ou de ressources linguistiques. La deuxième partie de ce mémoire vise à adapter les méthodes développées à des applications de Recherche d'Information. Ces applications ont la difficulté additionnelle de ne pas pouvoir dépendre de données créées manuellement. Nous proposons donc des modèles de contextes à variables latentes basés sur l'Allocation Dirichlet Latente (LDA). Ceux-ci seront combinés à la méthodes de vraisemblance de requête par modèles de langue. En évaluant le système résultant sur trois collections de la conférence TREC (Text REtrieval Conference), nous observons une amélioration proportionnelle moyenne de 12% du MAP et 23% du GMAP. Les gains se font surtout sur les requêtes difficiles, augmentant la stabilité des résultats. Ces expériences seraient la première application positive de techniques de DS sur des tâches de RI standard.

Relevância:

20.00% 20.00%

Publicador:

Resumo:

Affiliation: Mark Daniel: Département de médecine sociale et préventive, Faculté de médecine, Université de Montréal et Centre de recherche du Centre hospitalier de l'Université de Montréal

Relevância:

20.00% 20.00%

Publicador:

Resumo:

L'application de classifieurs linéaires à l'analyse des données d'imagerie cérébrale (fMRI) a mené à plusieurs percées intéressantes au cours des dernières années. Ces classifieurs combinent linéairement les réponses des voxels pour détecter et catégoriser différents états du cerveau. Ils sont plus agnostics que les méthodes d'analyses conventionnelles qui traitent systématiquement les patterns faibles et distribués comme du bruit. Dans le présent projet, nous utilisons ces classifieurs pour valider une hypothèse portant sur l'encodage des sons dans le cerveau humain. Plus précisément, nous cherchons à localiser des neurones, dans le cortex auditif primaire, qui détecteraient les modulations spectrales et temporelles présentes dans les sons. Nous utilisons les enregistrements fMRI de sujets soumis à 49 modulations spectro-temporelles différentes. L'analyse fMRI au moyen de classifieurs linéaires n'est pas standard, jusqu'à maintenant, dans ce domaine. De plus, à long terme, nous avons aussi pour objectif le développement de nouveaux algorithmes d'apprentissage automatique spécialisés pour les données fMRI. Pour ces raisons, une bonne partie des expériences vise surtout à étudier le comportement des classifieurs. Nous nous intéressons principalement à 3 classifieurs linéaires standards, soient l'algorithme machine à vecteurs de support (linéaire), l'algorithme régression logistique (régularisée) et le modèle bayésien gaussien naïf (variances partagées).

Relevância:

20.00% 20.00%

Publicador:

Resumo:

Les adultes peuvent éprouver des difficultés à discriminer des phonèmes d’une langue seconde (L2) qui ne servent pas à distinguer des items lexicaux dans leur langue maternelle (L1). Le Feature Model (FM) de Brown (1998) propose que les adultes peuvent réussir à créer des nouvelles catégories de sons seulement si celles-ci peuvent être construites à partir de traits distinctifs existant dans la L1 des auditeurs. Cette hypothèse a été testée sur plusieurs contrastes consonantiques dans différentes langues; cependant, il semble que les traits qui s’appliquent sur les voyelles n’aient jamais été examinés dans cette perspective et encore moins les traits qui opèrent à la fois dans les systèmes vocalique et consonantique et qui peuvent avoir un statut distinctif ou non-distinctif. Le principal objectif de la présente étude était de tester la validité du FM concernant le contraste vocalique oral-nasal du portugais brésilien (PB). La perception naïve du contraste /i/-/ĩ/ par des locuteurs du français, de l’anglais, de l’espagnol caribéen et de l’espagnol conservateur a été examinée, étant donné que ces quatre langues diffèrent en ce qui a trait au statut de la nasalité. De plus, la perception du contraste non-naïf /e/-/ẽ/ a été inclus afin de comparer les performances dans la perception naïve et non-naïve. Les résultats obtenus pour la discrimination naïve de /i/-/ĩ/ a permis de tirer les conclusions suivantes pour la première exposition à un contraste non natif : (1) le trait [nasal] qui opère de façon distinctive dans la grammaire d’une certaine L1 peut être redéployé au sein du système vocalique, (2) le trait [nasal] qui opère de façon distinctive dans la grammaire d’une certaine L1 ne peut pas être redéployé à travers les systèmes (consonne à voyelle) et (3) le trait [nasal] qui opère de façon non-distinctive dans la grammaire d’une certaine L1 peut être ou ne pas être redéployé au statut distinctif. En dernier lieu, la discrimination non-naïve de /e/-/ẽ/ a été réussie par tous les groupes, suggérant que les trois types de redéploiement s’avèrent possibles avec plus d’expérience dans la L2.