12 resultados para Distributed Representations
em Université de Montréal, Canada
Resumo:
Cette thèse porte sur une classe d'algorithmes d'apprentissage appelés architectures profondes. Il existe des résultats qui indiquent que les représentations peu profondes et locales ne sont pas suffisantes pour la modélisation des fonctions comportant plusieurs facteurs de variation. Nous sommes particulièrement intéressés par ce genre de données car nous espérons qu'un agent intelligent sera en mesure d'apprendre à les modéliser automatiquement; l'hypothèse est que les architectures profondes sont mieux adaptées pour les modéliser. Les travaux de Hinton (2006) furent une véritable percée, car l'idée d'utiliser un algorithme d'apprentissage non-supervisé, les machines de Boltzmann restreintes, pour l'initialisation des poids d'un réseau de neurones supervisé a été cruciale pour entraîner l'architecture profonde la plus populaire, soit les réseaux de neurones artificiels avec des poids totalement connectés. Cette idée a été reprise et reproduite avec succès dans plusieurs contextes et avec une variété de modèles. Dans le cadre de cette thèse, nous considérons les architectures profondes comme des biais inductifs. Ces biais sont représentés non seulement par les modèles eux-mêmes, mais aussi par les méthodes d'entraînement qui sont souvent utilisés en conjonction avec ceux-ci. Nous désirons définir les raisons pour lesquelles cette classe de fonctions généralise bien, les situations auxquelles ces fonctions pourront être appliquées, ainsi que les descriptions qualitatives de telles fonctions. L'objectif de cette thèse est d'obtenir une meilleure compréhension du succès des architectures profondes. Dans le premier article, nous testons la concordance entre nos intuitions---que les réseaux profonds sont nécessaires pour mieux apprendre avec des données comportant plusieurs facteurs de variation---et les résultats empiriques. Le second article est une étude approfondie de la question: pourquoi l'apprentissage non-supervisé aide à mieux généraliser dans un réseau profond? Nous explorons et évaluons plusieurs hypothèses tentant d'élucider le fonctionnement de ces modèles. Finalement, le troisième article cherche à définir de façon qualitative les fonctions modélisées par un réseau profond. Ces visualisations facilitent l'interprétation des représentations et invariances modélisées par une architecture profonde.
Resumo:
Affiliation: Margaret Cargo : Département de médecine sociale et préventive, Faculté de médecine, Université de Montréal
Resumo:
Les études portant sur la régionalisation de l’immigration au Québec ont largement traité de la question des avantages démographiques, politiques et économiques d’une telle pratique en matière de repeuplement des régions touchées par l’exode des jeunes, alors que celles portant sur la dimension sociale de l’établissement d’immigrants en région se font plus rares. Par ailleurs, la recension des écrits portant sur la régionalisation de l’immigration a fait ressortir l’absence d’études au sujet de certaines régions du Québec. De là le double intérêt du présent mémoire, qui propose d’une part d’enrichir le corpus de connaissances en étudiant les contextes de Drummondville et de Gatineau, et d’autre part d’examiner la question de la régionalisation de l’immigration au Québec d’une perspective relationnelle entre immigrants et natifs. Pour ce faire, il a été question d’examiner les discours des immigrants et des non-immigrants de Drummondville et de Gatineau sur l’intégration des nouveaux arrivants en région dans le but d’identifier s’il existe une homogénéité des propos au sein de chacun des deux groupes, afin de comprendre les dynamiques des dichotomisations nous/eux dans le contexte des relations interethniques en région au Québec et d’en questionner la pertinence. L’élaboration du cadre conceptuel a ainsi permis de définir sociologiquement les notions des représentations sociales, de l’identité culturelle, des relations interethniques et intraethniques et de l’intégration, et un travail de terrain de plusieurs mois a permis la cueillette du matériau d’analyse. Des entretiens semi-dirigés ont été menés auprès de vingt-quatre sujets, répartis également entre immigrants et natifs du Canada. Enfin, l’analyse qualitative a été structurée selon cinq thèmes : pratiques résidentielles; fréquentations et affinités; emploi et engagement communautaire; gestion de la diversité; politique et identité. L’hypothèse de départ voulant que les interactions fréquentes avec l’exogroupe génèrent des représentations sociales positives à leur égard s’est avérée invérifiable dans la mesure où les sujets qui ont accepté d’être interviewés entretenaient pour la plupart déjà des interactions fréquentes avec l’exogroupe. Et ces interactions s’avéraient de nature positive. D’autre part, le postulat concernant la présence d’une crainte généralisée chez les natifs du Québec face aux immigrants et le conservatisme associé aux secteurs situés hors de la métropole montréalaise s’est avéré faux. Il ressort que ces deux milieux possèdent des institutions et des individus activement engagés dans ce projet, et que la peur ou le rejet des immigrants, malgré le fait que ma recherche ait été menée dans une période de haute tension (accommodements raisonnables, affaire d’Hérouxville, etc.), était extrêmement minoritaire. Par ailleurs, les participants non-immigrants habitant Drummondville ont paru aussi ouverts d’esprit que ceux habitant Gatineau, en dépit de la proximité de la seconde d’Ottawa, une grande ville multiculturelle et réceptrice de l’immigration depuis plus longtemps.
Resumo:
Mémoire numérisé par la Division de la gestion de documents et des archives de l'Université de Montréal
Resumo:
Dans la sémantique des cadres de Fillmore, les mots prennent leur sens par rapport au contexte événementiel ou situationnel dans lequel ils s’inscrivent. FrameNet, une ressource lexicale pour l’anglais, définit environ 1000 cadres conceptuels, couvrant l’essentiel des contextes possibles. Dans un cadre conceptuel, un prédicat appelle des arguments pour remplir les différents rôles sémantiques associés au cadre (par exemple : Victime, Manière, Receveur, Locuteur). Nous cherchons à annoter automatiquement ces rôles sémantiques, étant donné le cadre sémantique et le prédicat. Pour cela, nous entrainons un algorithme d’apprentissage machine sur des arguments dont le rôle est connu, pour généraliser aux arguments dont le rôle est inconnu. On utilisera notamment des propriétés lexicales de proximité sémantique des mots les plus représentatifs des arguments, en particulier en utilisant des représentations vectorielles des mots du lexique.
Resumo:
La chimie est un sujet difficile étant donné ses concepts nombreux et souvent peu intuitifs. Mais au-delà de ces difficultés d’ordre épistémologique, l’apprentissage de la chimie peut être en péril lorsqu’il s’appuie sur des fondations instables, mêlées de conceptions alternatives. Les conceptions alternatives sont les représentations internes, tacites, des étudiants, qui sont en désaccord avec la théorie scientifiquement acceptée. Leur présence dans leur esprit peut nuire à la compréhension conceptuelle, et elle peut mener les étudiants à expliquer le comportement de la matière incorrectement et à faire des prédictions inexactes en chimie. Les conceptions alternatives sont réputées répandues et difficiles à repérer dans un cadre traditionnel d’enseignement. De nombreuses conceptions alternatives en chimie ont été mises en lumière par différents groupes de chercheurs internationaux, sans toutefois qu’une telle opération n’ait jamais été réalisée avec des étudiants collégiaux québécois. Le système d’éducation postsecondaire québécois représentant un contexte unique, une étude des difficultés particulières de ces étudiants était nécessaire pour tracer un portrait juste de la situation. De plus, des chercheurs proposent aujourd’hui de ne pas faire uniquement l’inventaire des conceptions, mais de s’attarder aussi à étudier comment, par quel processus, elles mènent à de mauvaises prédictions ou explications. En effet, ils soutiennent que les catalogues de conceptions ne peuvent pas être facilement utilisés par les enseignants, ce qui devrait pourtant être la raison pour les mettre en lumière : qu’elles soient prises en compte dans l’enseignement. Toutefois, aucune typologie satisfaisante des raisonnements et des conceptions alternatives en chimie, qui serait appuyée sur des résultats expérimentaux, n’existe actuellement dans les écrits de recherche. Plusieurs chercheurs en didactique de la chimie suggèrent qu’une telle typologie est nécessaire et devrait rendre explicites les modes de raisonnement qui mettent en jeu ces conceptions alternatives. L’explicitation du raisonnement employé par les étudiants serait ainsi la voie permettant de repérer la conception alternative sur laquelle ce raisonnement s’appuie. Le raisonnement est le passage des idées tacites aux réponses manifestes. Ce ne sont pas toutes les mauvaises réponses en chimie qui proviennent de conceptions alternatives : certaines proviennent d’un manque de connaissances, d’autres d’un agencement incorrect de concepts pourtant corrects. Comme toutes les sortes de mauvaises réponses d’étudiants sont problématiques lors de l’enseignement, il est pertinent de toutes les considérer. Ainsi, ces préoccupations ont inspiré la question de recherche suivante : Quelles conceptions alternatives et quels processus de raisonnement mènent les étudiants à faire de mauvaises prédictions en chimie ou à donner de mauvaises explications du comportement de la matière? C’est pour fournir une réponse à cette question que cette recherche doctorale a été menée. Au total, 2413 étudiants ont participé à la recherche, qui était divisée en trois phases : la phase préliminaire, la phase pilote et la phase principale. Des entrevues cliniques ont été menées à la phase préliminaire, pour explorer les conceptions alternatives des étudiants en chimie. Lors de la phase pilote, des questionnaires à choix multiples avec justification ouverte des réponses ont été utilisés pour délimiter le sujet, notamment à propos des notions de chimie les plus pertinentes sur lesquelles concentrer la recherche et pour mettre en lumière les façons de raisonner des étudiants à propos de ces notions. La phase principale, quant à elle, a utilisé le questionnaire à deux paliers à choix multiples « Molécules, polarité et phénomènes » (MPP) développé spécifiquement pour cette recherche. Ce questionnaire a été distribué aux étudiants via une adaptation de la plateforme Web ConSOL, développée durant la recherche par le groupe de recherche dont fait partie la chercheuse principale. Les résultats montrent que les étudiants de sciences de la nature ont de nombreuses conceptions alternatives et autres difficultés conceptuelles, certaines étant très répandues parmi leur population. En particulier, une forte proportion d’étudiants croient que l’évaporation d’un composé entraîne le bris des liaisons covalentes de ses molécules (61,1 %), que tout regroupement d’atomes est une molécule (78,9 %) et que les atomes ont des propriétés macroscopiques pareilles à celles de l’élément qu’ils constituent (66,0 %). D’un autre côté, ce ne sont pas toutes les mauvaises réponses au MPP qui montrent des conceptions alternatives. Certaines d’entre elles s’expliquent plutôt par une carence dans les connaissances antérieures (par exemple, lorsque les étudiants montrent une méconnaissance d’éléments chimiques communs, à 21,8 %) ou par un raisonnement logique incomplet (lorsqu’ils croient que le seul fait de posséder des liaisons polaires rend nécessairement une molécule polaire, ce qu’on observe chez 24,1 % d’entre eux). Les conceptions alternatives et les raisonnements qui mènent à des réponses incorrectes s’observent chez les étudiants de première année et chez ceux de deuxième année du programme de sciences, dans certains cas avec une fréquence diminuant entre les deux années, et dans d’autres, à la même fréquence chez les deux sous-populations. Ces résultats permettent de mitiger l’affirmation, généralement reconnue dans les écrits de recherche, selon laquelle les conceptions alternatives sont résistantes à l’enseignement traditionnel : selon les résultats de la présente recherche, certaines d’entre elles semblent en effet se résoudre à travers un tel contexte d’enseignement. Il demeure que plusieurs conceptions alternatives, carences dans les connaissances antérieures de base et erreurs de raisonnement ont été mises en lumière par cette recherche. Ces problèmes dans l’apprentissage mènent les étudiants collégiaux à faire des prédictions incorrectes du comportement de la matière, ou à expliquer ce comportement de façon incorrecte. Au regard de ces résultats, une réflexion sur l’enseignement de la chimie au niveau collégial, qui pourrait faire une plus grande place à la réflexion conceptuelle et à l’utilisation du raisonnement pour la prédiction et l’explication des phénomènes étudiés, serait pertinente à tenir.
Resumo:
L’objectif de cette thèse par articles est de présenter modestement quelques étapes du parcours qui mènera (on espère) à une solution générale du problème de l’intelligence artificielle. Cette thèse contient quatre articles qui présentent chacun une différente nouvelle méthode d’inférence perceptive en utilisant l’apprentissage machine et, plus particulièrement, les réseaux neuronaux profonds. Chacun de ces documents met en évidence l’utilité de sa méthode proposée dans le cadre d’une tâche de vision par ordinateur. Ces méthodes sont applicables dans un contexte plus général, et dans certains cas elles on tété appliquées ailleurs, mais ceci ne sera pas abordé dans le contexte de cette de thèse. Dans le premier article, nous présentons deux nouveaux algorithmes d’inférence variationelle pour le modèle génératif d’images appelé codage parcimonieux “spike- and-slab” (CPSS). Ces méthodes d’inférence plus rapides nous permettent d’utiliser des modèles CPSS de tailles beaucoup plus grandes qu’auparavant. Nous démontrons qu’elles sont meilleures pour extraire des détecteur de caractéristiques quand très peu d’exemples étiquetés sont disponibles pour l’entraînement. Partant d’un modèle CPSS, nous construisons ensuite une architecture profonde, la machine de Boltzmann profonde partiellement dirigée (MBP-PD). Ce modèle a été conçu de manière à simplifier d’entraînement des machines de Boltzmann profondes qui nécessitent normalement une phase de pré-entraînement glouton pour chaque couche. Ce problème est réglé dans une certaine mesure, mais le coût d’inférence dans le nouveau modèle est relativement trop élevé pour permettre de l’utiliser de manière pratique. Dans le deuxième article, nous revenons au problème d’entraînement joint de machines de Boltzmann profondes. Cette fois, au lieu de changer de famille de modèles, nous introduisons un nouveau critère d’entraînement qui donne naissance aux machines de Boltzmann profondes à multiples prédictions (MBP-MP). Les MBP-MP sont entraînables en une seule étape et ont un meilleur taux de succès en classification que les MBP classiques. Elles s’entraînent aussi avec des méthodes variationelles standard au lieu de nécessiter un classificateur discriminant pour obtenir un bon taux de succès en classification. Par contre, un des inconvénients de tels modèles est leur incapacité de générer deséchantillons, mais ceci n’est pas trop grave puisque la performance de classification des machines de Boltzmann profondes n’est plus une priorité étant donné les dernières avancées en apprentissage supervisé. Malgré cela, les MBP-MP demeurent intéressantes parce qu’elles sont capable d’accomplir certaines tâches que des modèles purement supervisés ne peuvent pas faire, telles que celle de classifier des données incomplètes ou encore celle de combler intelligemment l’information manquante dans ces données incomplètes. Le travail présenté dans cette thèse s’est déroulé au milieu d’une période de transformations importantes du domaine de l’apprentissage à réseaux neuronaux profonds qui a été déclenchée par la découverte de l’algorithme de “dropout” par Geoffrey Hinton. Dropout rend possible un entraînement purement supervisé d’architectures de propagation unidirectionnel sans être exposé au danger de sur- entraînement. Le troisième article présenté dans cette thèse introduit une nouvelle fonction d’activation spécialement con ̧cue pour aller avec l’algorithme de Dropout. Cette fonction d’activation, appelée maxout, permet l’utilisation de aggrégation multi-canal dans un contexte d’apprentissage purement supervisé. Nous démontrons comment plusieurs tâches de reconnaissance d’objets sont mieux accomplies par l’utilisation de maxout. Pour terminer, sont présentons un vrai cas d’utilisation dans l’industrie pour la transcription d’adresses de maisons à plusieurs chiffres. En combinant maxout avec une nouvelle sorte de couche de sortie pour des réseaux neuronaux de convolution, nous démontrons qu’il est possible d’atteindre un taux de succès comparable à celui des humains sur un ensemble de données coriace constitué de photos prises par les voitures de Google. Ce système a été déployé avec succès chez Google pour lire environ cent million d’adresses de maisons.
Resumo:
L'objectif de cette thèse est de présenter différentes applications du programme de recherche de calcul conditionnel distribué. On espère que ces applications, ainsi que la théorie présentée ici, mènera à une solution générale du problème d'intelligence artificielle, en particulier en ce qui a trait à la nécessité d'efficience. La vision du calcul conditionnel distribué consiste à accélérer l'évaluation et l'entraînement de modèles profonds, ce qui est très différent de l'objectif usuel d'améliorer sa capacité de généralisation et d'optimisation. Le travail présenté ici a des liens étroits avec les modèles de type mélange d'experts. Dans le chapitre 2, nous présentons un nouvel algorithme d'apprentissage profond qui utilise une forme simple d'apprentissage par renforcement sur un modèle d'arbre de décisions à base de réseau de neurones. Nous démontrons la nécessité d'une contrainte d'équilibre pour maintenir la distribution d'exemples aux experts uniforme et empêcher les monopoles. Pour rendre le calcul efficient, l'entrainement et l'évaluation sont contraints à être éparse en utilisant un routeur échantillonnant des experts d'une distribution multinomiale étant donné un exemple. Dans le chapitre 3, nous présentons un nouveau modèle profond constitué d'une représentation éparse divisée en segments d'experts. Un modèle de langue à base de réseau de neurones est construit à partir des transformations éparses entre ces segments. L'opération éparse par bloc est implémentée pour utilisation sur des cartes graphiques. Sa vitesse est comparée à deux opérations denses du même calibre pour démontrer le gain réel de calcul qui peut être obtenu. Un modèle profond utilisant des opérations éparses contrôlées par un routeur distinct des experts est entraîné sur un ensemble de données d'un milliard de mots. Un nouvel algorithme de partitionnement de données est appliqué sur un ensemble de mots pour hiérarchiser la couche de sortie d'un modèle de langage, la rendant ainsi beaucoup plus efficiente. Le travail présenté dans cette thèse est au centre de la vision de calcul conditionnel distribué émis par Yoshua Bengio. Elle tente d'appliquer la recherche dans le domaine des mélanges d'experts aux modèles profonds pour améliorer leur vitesse ainsi que leur capacité d'optimisation. Nous croyons que la théorie et les expériences de cette thèse sont une étape importante sur la voie du calcul conditionnel distribué car elle cadre bien le problème, surtout en ce qui concerne la compétitivité des systèmes d'experts.
Resumo:
Ma thèse porte sur les représentations de curanderismo dans Chicana/o textes. Une tradition de guérison, une vision du monde, un système de croyances et de pratiques d'origines diverses, curanderismo répond aux besoins médicaux, religieux, culturels, sociaux et politiques des Chicanas/os à la fois sur le plan individuel et communautaire. Dans mon analyse de textes littéraires (Bless Me, Ultima de Rudolfo Anaya, les poèmes sélectionnés de Pat Mora, The Hungry Woman: A Mexican Medea de Cherríe Moraga) et du cours académique sur curanderismo enseigné à l'Université du Nouveau-Mexique à Albuquerque, que j’approche comme un texte culturel, curanderismo reflète les façons complexes et souvent ambiguës de représenter Chicana/o recherche d'identité, d’affirmation de soi et d’émancipation, résultat d'une longue histoire de domination et de discrimination de Chicana/o aux Etats-Unis. Dans les textes que j’aborde dans ma thèse curanderismo assume le rôle d'une puissante métaphore qui réunit une variété de valeurs, attitudes, concepts et notions dans le but ultimede célébrer le potentiel de soi-même.