49 resultados para supervised apprenticeship
Resumo:
Les humains communiquent via différents types de canaux: les mots, la voix, les gestes du corps, des émotions, etc. Pour cette raison, un ordinateur doit percevoir ces divers canaux de communication pour pouvoir interagir intelligemment avec les humains, par exemple en faisant usage de microphones et de webcams. Dans cette thèse, nous nous intéressons à déterminer les émotions humaines à partir d’images ou de vidéo de visages afin d’ensuite utiliser ces informations dans différents domaines d’applications. Ce mémoire débute par une brève introduction à l'apprentissage machine en s’attardant aux modèles et algorithmes que nous avons utilisés tels que les perceptrons multicouches, réseaux de neurones à convolution et autoencodeurs. Elle présente ensuite les résultats de l'application de ces modèles sur plusieurs ensembles de données d'expressions et émotions faciales. Nous nous concentrons sur l'étude des différents types d’autoencodeurs (autoencodeur débruitant, autoencodeur contractant, etc) afin de révéler certaines de leurs limitations, comme la possibilité d'obtenir de la coadaptation entre les filtres ou encore d’obtenir une courbe spectrale trop lisse, et étudions de nouvelles idées pour répondre à ces problèmes. Nous proposons également une nouvelle approche pour surmonter une limite des autoencodeurs traditionnellement entrainés de façon purement non-supervisée, c'est-à-dire sans utiliser aucune connaissance de la tâche que nous voulons finalement résoudre (comme la prévision des étiquettes de classe) en développant un nouveau critère d'apprentissage semi-supervisé qui exploite un faible nombre de données étiquetées en combinaison avec une grande quantité de données non-étiquetées afin d'apprendre une représentation adaptée à la tâche de classification, et d'obtenir une meilleure performance de classification. Finalement, nous décrivons le fonctionnement général de notre système de détection d'émotions et proposons de nouvelles idées pouvant mener à de futurs travaux.
Resumo:
Ce mémoire de recherche-création vise d’abord à inventorier et à analyser les processus et procédés narratifs, rhétoriques et formels grâce auxquels trois films mettent en scène le savoir-faire musical, et particulièrement la situation d’apprentissage de la musique et la relation maître-élève. Ces trois films sont : All That Jazz, de Bob Fosse (1979), Bird, de Clint Eastwood (1988) et Tous les matins du monde, d’Alain Corneau (1991). Au terme de cet inventaire et de cette analyse, nous aurons repéré une dominante thématique : dans ces films, et peut-être au cinéma en général, la musique et l’enseignement de la musique sont représentés sous des traits socio-psychologiques particuliers : d’une part, la possession de l’autre, la soumission, le sacrifice et la perpétuelle insatisfaction. Mais aussi les multiples gratifications dont l’éducation et la formation du corps et de l’esprit sont gages. Il conviendra alors de vérifier une hypothèse : Est-ce que certains modes d’expression cinématographiques — ayant à voir avec certaines pratiques de cadrage, certaines figures du champ- contrechamp, etc. —, et certains modes de narration filmiques n’expliqueraient pas cette capacité du cinéma à mettre en scène les menaces affectives et sociales qui pèsent sur le maître de musique et l’apprenti musicien ? Ce sont ces mêmes processus et procédés, ce même thème et cette même hypothèse, qui seront explorés dans un scénario de long métrage, en faisant cette fois-ci confiance à la capacité de problématisation de l’écriture poétique.
Resumo:
L’apprentissage supervisé de réseaux hiérarchiques à grande échelle connaît présentement un succès fulgurant. Malgré cette effervescence, l’apprentissage non-supervisé représente toujours, selon plusieurs chercheurs, un élément clé de l’Intelligence Artificielle, où les agents doivent apprendre à partir d’un nombre potentiellement limité de données. Cette thèse s’inscrit dans cette pensée et aborde divers sujets de recherche liés au problème d’estimation de densité par l’entremise des machines de Boltzmann (BM), modèles graphiques probabilistes au coeur de l’apprentissage profond. Nos contributions touchent les domaines de l’échantillonnage, l’estimation de fonctions de partition, l’optimisation ainsi que l’apprentissage de représentations invariantes. Cette thèse débute par l’exposition d’un nouvel algorithme d'échantillonnage adaptatif, qui ajuste (de fa ̧con automatique) la température des chaînes de Markov sous simulation, afin de maintenir une vitesse de convergence élevée tout au long de l’apprentissage. Lorsqu’utilisé dans le contexte de l’apprentissage par maximum de vraisemblance stochastique (SML), notre algorithme engendre une robustesse accrue face à la sélection du taux d’apprentissage, ainsi qu’une meilleure vitesse de convergence. Nos résultats sont présent ́es dans le domaine des BMs, mais la méthode est générale et applicable à l’apprentissage de tout modèle probabiliste exploitant l’échantillonnage par chaînes de Markov. Tandis que le gradient du maximum de vraisemblance peut-être approximé par échantillonnage, l’évaluation de la log-vraisemblance nécessite un estimé de la fonction de partition. Contrairement aux approches traditionnelles qui considèrent un modèle donné comme une boîte noire, nous proposons plutôt d’exploiter la dynamique de l’apprentissage en estimant les changements successifs de log-partition encourus à chaque mise à jour des paramètres. Le problème d’estimation est reformulé comme un problème d’inférence similaire au filtre de Kalman, mais sur un graphe bi-dimensionnel, où les dimensions correspondent aux axes du temps et au paramètre de température. Sur le thème de l’optimisation, nous présentons également un algorithme permettant d’appliquer, de manière efficace, le gradient naturel à des machines de Boltzmann comportant des milliers d’unités. Jusqu’à présent, son adoption était limitée par son haut coût computationel ainsi que sa demande en mémoire. Notre algorithme, Metric-Free Natural Gradient (MFNG), permet d’éviter le calcul explicite de la matrice d’information de Fisher (et son inverse) en exploitant un solveur linéaire combiné à un produit matrice-vecteur efficace. L’algorithme est prometteur: en terme du nombre d’évaluations de fonctions, MFNG converge plus rapidement que SML. Son implémentation demeure malheureusement inefficace en temps de calcul. Ces travaux explorent également les mécanismes sous-jacents à l’apprentissage de représentations invariantes. À cette fin, nous utilisons la famille de machines de Boltzmann restreintes “spike & slab” (ssRBM), que nous modifions afin de pouvoir modéliser des distributions binaires et parcimonieuses. Les variables latentes binaires de la ssRBM peuvent être rendues invariantes à un sous-espace vectoriel, en associant à chacune d’elles, un vecteur de variables latentes continues (dénommées “slabs”). Ceci se traduit par une invariance accrue au niveau de la représentation et un meilleur taux de classification lorsque peu de données étiquetées sont disponibles. Nous terminons cette thèse sur un sujet ambitieux: l’apprentissage de représentations pouvant séparer les facteurs de variations présents dans le signal d’entrée. Nous proposons une solution à base de ssRBM bilinéaire (avec deux groupes de facteurs latents) et formulons le problème comme l’un de “pooling” dans des sous-espaces vectoriels complémentaires.
Resumo:
Dans la sémantique des cadres de Fillmore, les mots prennent leur sens par rapport au contexte événementiel ou situationnel dans lequel ils s’inscrivent. FrameNet, une ressource lexicale pour l’anglais, définit environ 1000 cadres conceptuels, couvrant l’essentiel des contextes possibles. Dans un cadre conceptuel, un prédicat appelle des arguments pour remplir les différents rôles sémantiques associés au cadre (par exemple : Victime, Manière, Receveur, Locuteur). Nous cherchons à annoter automatiquement ces rôles sémantiques, étant donné le cadre sémantique et le prédicat. Pour cela, nous entrainons un algorithme d’apprentissage machine sur des arguments dont le rôle est connu, pour généraliser aux arguments dont le rôle est inconnu. On utilisera notamment des propriétés lexicales de proximité sémantique des mots les plus représentatifs des arguments, en particulier en utilisant des représentations vectorielles des mots du lexique.
Resumo:
Le présent mémoire s’intéresse aux interventions policières en contexte de crise. Il s’attarde plus particulièrement à l’usage de la force par les structures d’intervention spécialisée. L’intérêt de cette étude découle principalement du manque de connaissances empiriques sur le sujet. L’objectif général de cette étude est de comprendre les éléments qui peuvent expliquer le recours à la force par les structures d’intervention spécialisées et de vérifier si ces facteurs varient selon le type de menace auquel font face les policiers. Nous nous sommes intéressés à 438 événements de crise suicidaire, de barricade et de prise d’otage qui se sont déroulés au Québec, de 1990 à 2011, et durant lesquels est intervenu le groupe tactique d’intervention (GTI) de la Sûreté du Québec (SQ). Pour une meilleure compréhension de cette problématique, il sera en premier lieu question de comparer, selon leur niveau de risque, les personnes présentant une menace uniquement pour elles-mêmes avec celles présentant une menace pour autrui et les personnes qui présentent une menace tant pour elles-mêmes que pour autrui. En second lieu, malgré le fait que près de 90 % des situations de crise se terminent par une reddition pacifique, il est pertinent de connaître les facteurs qui expliquent l’usage de la force de la part des policiers et de voir si ces facteurs varient selon le niveau de risque de l’individu. Des analyses descriptives ont permis d’établir que les situations où l’individu en crise présente uniquement une menace pour lui-même diffèrent des autres groupes sur la base de certaines variables. Cet individu est davantage jugé comme suicidaire et il possède plus souvent des antécédents psychiatriques. L’élément déclencheur est souvent associé aux problèmes conjugaux, ce qui coïncide avec le fait que c’est souvent la conjointe ou l’ex-conjointe qui appelle les autorités. Des analyses bivariées n’ont pas illustré de profils distincts selon la problématique de la crise. Or, certains facteurs se démarquent des autres de manière générale pour l’ensemble de l’échantillon et les différents groupes. La possession d’une arme par l’individu, le degré d’intoxication, la présence d’antécédents psychiatriques, la durée du premier contact avec les policiers et la qualité de la négociation sont effectivement des facteurs qui semblent influencer à un certain point les opérations. Les analyses de régression logistique indiquent que les policiers interviennent davantage lorsqu’il n’y aucun contact n’est établi avec l’individu. Nous observons également que ces derniers restent davantage en retrait lorsque l’individu, présentant une menace pour lui-même, est en possession d’une arme à feu. D’autre part, il semble que les policiers réagissent plus souvent auprès des individus présentant une menace pour autrui lorsque la négociation est jugée non satisfaisante. Nous pouvons en conclure qu’ils semblent davantage s’attarder à des facteurs précis qu’au type de menace, ce qui rejoint un certain segment de la littérature à ce sujet.
Resumo:
Travail dirigé présenté à la Faculté des sciences infirmières en vue de l'obtention du grade Maître ès sciences (M.Sc.) en sciences infirmières option formation en soins infirmiers.
Resumo:
La présente recherche traite des conflits d’aménagement pouvant être décelés dans les cuisines domiciliaires modernes. L’ajout d’objets mécanisés au rituel alimentaire quotidien a su changer la dynamique du lieu. En effet, l’architecture des cuisines modernes en Occident présente de grandes contradictions. Basées sur des standards architecturaux, les cuisines modulaires ne reflètent pas la variété et l’unicité des aliments auxquels les cuisines sont dédiées. Les cuisines devraient être le miroir de la vivacité naturelle des aliments et des échanges humains que la nourriture génère à travers le plaisir et le partage. Dans l’espoir de proposer des outils afin de rééquilibrer la dynamique de cette pièce, un cadre théorique basé sur les théories architecturales de l’architecte et mathématicien anglais Christopher Alexander a été établi. Supportant la présente recherche, ces théories architecturales s’inspirent de la structure et de la composition des choses de la nature et des monuments anciens afin d’établir des balises d’aménagement simples et équilibrées (qualité de vie, patterns, configuration des événements, configurations de l’espace, ...). Ces théories ont aidé à concevoir une formule d’ateliers participatifs qui visent à outiller les occupants, qui sont très souvent des non-professionnels du domaine de l’architecture et du design. Ces ateliers proposent un cheminement bien encadré qui permet aux participants de retravailler leur espace de cuisine respectif selon leurs goûts et leurs besoins. En fournissant un plan de l’étage où se situe la cuisine, quelques crayons, règles et autres matériel de dessin, les participants ont pour tâche de réaménager leur cuisine en un espace de cuisine idéal. La deuxième étape, qui elle se réalise en équipe avec tous les occupants participants de la demeure, consiste à réduire l’ampleur des changements afin d’arriver à un résultat réaliste. L’enthousiasme noté tout au long de ce processus a ainsi permis de confirmer que les non-professionnels du domaine de l’architecture et du design peuvent développer un intérêt marqué pour l’amélioration de leurs interactions quotidiennes, avec l’espace et entre les occupants, lorsque bien accompagnés dans cette tâche. Grâce aux propos et aux plans recueillis durant les séances d’ateliers participatifs ainsi qu’à l’analyse de ces données, une série d’interprétations ont émergé. Les données ont notamment démontrées l’influence positive de l’utilisation des patterns d’Alexander. L’analyse permet, en outre, de noter les tendances d’aménagement ayant émergé de l’utilisation des patterns dans les espaces de cuisine : définitivement, les cuisines se sont transformées en espace de vie partagé et polyvalent. Finalement, la présente recherche se conclut grâce à une série de recommandations qui traitent de la structure des cuisines, des ateliers participatifs et des patterns. Tout d’abord, l’impact de ces notions sur les espaces retravaillés par les participants est impressionnant. Les espaces sont bien organisés, vastes et, surtout, reflètent les occupants qui y vivent au quotidien. De plus, ayant démontré la facilité d’utilisation et la polyvalence des patterns, il a été jugé que certains aspects devraient être améliorés tels que l’actualisation de certains patterns, le prolongement du processus d’ateliers, le perfectionnement de la méthode et la diffusion des résultats.
Resumo:
L'apprentissage profond est un domaine de recherche en forte croissance en apprentissage automatique qui est parvenu à des résultats impressionnants dans différentes tâches allant de la classification d'images à la parole, en passant par la modélisation du langage. Les réseaux de neurones récurrents, une sous-classe d'architecture profonde, s'avèrent particulièrement prometteurs. Les réseaux récurrents peuvent capter la structure temporelle dans les données. Ils ont potentiellement la capacité d'apprendre des corrélations entre des événements éloignés dans le temps et d'emmagasiner indéfiniment des informations dans leur mémoire interne. Dans ce travail, nous tentons d'abord de comprendre pourquoi la profondeur est utile. Similairement à d'autres travaux de la littérature, nos résultats démontrent que les modèles profonds peuvent être plus efficaces pour représenter certaines familles de fonctions comparativement aux modèles peu profonds. Contrairement à ces travaux, nous effectuons notre analyse théorique sur des réseaux profonds acycliques munis de fonctions d'activation linéaires par parties, puisque ce type de modèle est actuellement l'état de l'art dans différentes tâches de classification. La deuxième partie de cette thèse porte sur le processus d'apprentissage. Nous analysons quelques techniques d'optimisation proposées récemment, telles l'optimisation Hessian free, la descente de gradient naturel et la descente des sous-espaces de Krylov. Nous proposons le cadre théorique des méthodes à région de confiance généralisées et nous montrons que plusieurs de ces algorithmes développés récemment peuvent être vus dans cette perspective. Nous argumentons que certains membres de cette famille d'approches peuvent être mieux adaptés que d'autres à l'optimisation non convexe. La dernière partie de ce document se concentre sur les réseaux de neurones récurrents. Nous étudions d'abord le concept de mémoire et tentons de répondre aux questions suivantes: Les réseaux récurrents peuvent-ils démontrer une mémoire sans limite? Ce comportement peut-il être appris? Nous montrons que cela est possible si des indices sont fournis durant l'apprentissage. Ensuite, nous explorons deux problèmes spécifiques à l'entraînement des réseaux récurrents, à savoir la dissipation et l'explosion du gradient. Notre analyse se termine par une solution au problème d'explosion du gradient qui implique de borner la norme du gradient. Nous proposons également un terme de régularisation conçu spécifiquement pour réduire le problème de dissipation du gradient. Sur un ensemble de données synthétique, nous montrons empiriquement que ces mécanismes peuvent permettre aux réseaux récurrents d'apprendre de façon autonome à mémoriser des informations pour une période de temps indéfinie. Finalement, nous explorons la notion de profondeur dans les réseaux de neurones récurrents. Comparativement aux réseaux acycliques, la définition de profondeur dans les réseaux récurrents est souvent ambiguë. Nous proposons différentes façons d'ajouter de la profondeur dans les réseaux récurrents et nous évaluons empiriquement ces propositions.
Resumo:
This research project aimed to conduct a strategic analysis of the implementation of a supervised injecting facility (SIF) in Montérégie. Using a mixed design, we first completed a portrait of the injection drug user (IDU) population. We then explored the perceptions of IDU and stakeholders with regard to the relevance of implementing a SIF in the region. Although some similarities were found with the IDU populations of Montreal and the province of Quebec, this population in Montérégie is characterized by a lower frequency of injections in public, less homeless people and lower rates of HIV and HCV infections. Despite these differences, the IDU population in Montérégie was found to have important physical and psychosocial needs. Although the relevance of a SIF in Montérégie is undeniable, improvements regarding the accessibility, continuity and appreciation of the actual services dedicated to IDU remain a priority.
Resumo:
Résumé Introduction : L’entrainement avec le ballon d’exercice pendant la grossesse a des effets positifs sur le déroulement de l’accouchement. Le but de l’étude était d’identifier si une association existe entre le volume d’entrainement avec le ballon d’exercice durant la grossesse en milieu naturel sur l’issue du déroulement de l’accouchement, soit la durée des phases 1 (dilatation/phase active) et 2 (expulsion), ainsi que l’usage de la péridurale et de la césarienne. Méthode: Cette étude quasi-expérimentale a été menée auprès d'un échantillon de convenance composée de 32 femmes enceintes qui ont pris part entre un et 28 cours d'exercice supervisé durant la grossesse (programme Ballon Forme), avec la possibilité d'effectuer des exercices supplémentaires à la maison avec le ballon d’exercice. Un questionnaire et un journal de bord ont été remplis par les participantes, avec l'aide d'une infirmière de l’hôpital pour les données médicales. Résultats: Un volume d’entrainement élevé, incluant l’entraînement sous forme de cours et à domicile, a été significativement associé à une durée plus courte d’accouchement, que ce soit pour le temps total de l’accouchement (r = -0,408, p = 0,031) ou pour les deux phases spécifiques de l’accouchement [la phase 1: r = -0,372 ; p = 0,043 et la phase 2: r = -0,415, p = 0,028]. Un volume d’entrainement élevé a aussi été lié à une réduction de la deuxième phase chez les femmes qui donnaient naissance pour la première fois. La durée totale des exercices exécutés lors des cours a été significativement associée à cette réduction comparativement aux exercices à la maison. Aucun effet indésirable n'a été observé avec le volume d’entrainement élevé sur les paramètres de l’accouchement et la santé du bébé (Apgar et poids du bébé à la naissance). En fait, un nombre très faible de césarienne (6%), de recours à la péridurale (47%) et d'extraction instrumentale (forceps ou ventouse: 13%) a été observé dans notre échantillon de femmes. Conclusion: La pratique du ballon d’exercice est une avenue prometteuse pour les femmes enceintes et un niveau élevé d’entraînement est associé à un accouchement plus rapide et sans complications pour le bébé. L’implantation de ce programme pourrait éventuellement contribuer à réduire considérablement les coûts de santé au Québec en favorisant l’accouchement naturel. Des interventions et des recherches ultérieures devront considérer et examiner cette modalité spécifique d’entrainement pour les femmes enceintes.
Resumo:
L’objectif de cette thèse par articles est de présenter modestement quelques étapes du parcours qui mènera (on espère) à une solution générale du problème de l’intelligence artificielle. Cette thèse contient quatre articles qui présentent chacun une différente nouvelle méthode d’inférence perceptive en utilisant l’apprentissage machine et, plus particulièrement, les réseaux neuronaux profonds. Chacun de ces documents met en évidence l’utilité de sa méthode proposée dans le cadre d’une tâche de vision par ordinateur. Ces méthodes sont applicables dans un contexte plus général, et dans certains cas elles on tété appliquées ailleurs, mais ceci ne sera pas abordé dans le contexte de cette de thèse. Dans le premier article, nous présentons deux nouveaux algorithmes d’inférence variationelle pour le modèle génératif d’images appelé codage parcimonieux “spike- and-slab” (CPSS). Ces méthodes d’inférence plus rapides nous permettent d’utiliser des modèles CPSS de tailles beaucoup plus grandes qu’auparavant. Nous démontrons qu’elles sont meilleures pour extraire des détecteur de caractéristiques quand très peu d’exemples étiquetés sont disponibles pour l’entraînement. Partant d’un modèle CPSS, nous construisons ensuite une architecture profonde, la machine de Boltzmann profonde partiellement dirigée (MBP-PD). Ce modèle a été conçu de manière à simplifier d’entraînement des machines de Boltzmann profondes qui nécessitent normalement une phase de pré-entraînement glouton pour chaque couche. Ce problème est réglé dans une certaine mesure, mais le coût d’inférence dans le nouveau modèle est relativement trop élevé pour permettre de l’utiliser de manière pratique. Dans le deuxième article, nous revenons au problème d’entraînement joint de machines de Boltzmann profondes. Cette fois, au lieu de changer de famille de modèles, nous introduisons un nouveau critère d’entraînement qui donne naissance aux machines de Boltzmann profondes à multiples prédictions (MBP-MP). Les MBP-MP sont entraînables en une seule étape et ont un meilleur taux de succès en classification que les MBP classiques. Elles s’entraînent aussi avec des méthodes variationelles standard au lieu de nécessiter un classificateur discriminant pour obtenir un bon taux de succès en classification. Par contre, un des inconvénients de tels modèles est leur incapacité de générer deséchantillons, mais ceci n’est pas trop grave puisque la performance de classification des machines de Boltzmann profondes n’est plus une priorité étant donné les dernières avancées en apprentissage supervisé. Malgré cela, les MBP-MP demeurent intéressantes parce qu’elles sont capable d’accomplir certaines tâches que des modèles purement supervisés ne peuvent pas faire, telles que celle de classifier des données incomplètes ou encore celle de combler intelligemment l’information manquante dans ces données incomplètes. Le travail présenté dans cette thèse s’est déroulé au milieu d’une période de transformations importantes du domaine de l’apprentissage à réseaux neuronaux profonds qui a été déclenchée par la découverte de l’algorithme de “dropout” par Geoffrey Hinton. Dropout rend possible un entraînement purement supervisé d’architectures de propagation unidirectionnel sans être exposé au danger de sur- entraînement. Le troisième article présenté dans cette thèse introduit une nouvelle fonction d’activation spécialement con ̧cue pour aller avec l’algorithme de Dropout. Cette fonction d’activation, appelée maxout, permet l’utilisation de aggrégation multi-canal dans un contexte d’apprentissage purement supervisé. Nous démontrons comment plusieurs tâches de reconnaissance d’objets sont mieux accomplies par l’utilisation de maxout. Pour terminer, sont présentons un vrai cas d’utilisation dans l’industrie pour la transcription d’adresses de maisons à plusieurs chiffres. En combinant maxout avec une nouvelle sorte de couche de sortie pour des réseaux neuronaux de convolution, nous démontrons qu’il est possible d’atteindre un taux de succès comparable à celui des humains sur un ensemble de données coriace constitué de photos prises par les voitures de Google. Ce système a été déployé avec succès chez Google pour lire environ cent million d’adresses de maisons.
Resumo:
L'objectif de cette thèse est de présenter différentes applications du programme de recherche de calcul conditionnel distribué. On espère que ces applications, ainsi que la théorie présentée ici, mènera à une solution générale du problème d'intelligence artificielle, en particulier en ce qui a trait à la nécessité d'efficience. La vision du calcul conditionnel distribué consiste à accélérer l'évaluation et l'entraînement de modèles profonds, ce qui est très différent de l'objectif usuel d'améliorer sa capacité de généralisation et d'optimisation. Le travail présenté ici a des liens étroits avec les modèles de type mélange d'experts. Dans le chapitre 2, nous présentons un nouvel algorithme d'apprentissage profond qui utilise une forme simple d'apprentissage par renforcement sur un modèle d'arbre de décisions à base de réseau de neurones. Nous démontrons la nécessité d'une contrainte d'équilibre pour maintenir la distribution d'exemples aux experts uniforme et empêcher les monopoles. Pour rendre le calcul efficient, l'entrainement et l'évaluation sont contraints à être éparse en utilisant un routeur échantillonnant des experts d'une distribution multinomiale étant donné un exemple. Dans le chapitre 3, nous présentons un nouveau modèle profond constitué d'une représentation éparse divisée en segments d'experts. Un modèle de langue à base de réseau de neurones est construit à partir des transformations éparses entre ces segments. L'opération éparse par bloc est implémentée pour utilisation sur des cartes graphiques. Sa vitesse est comparée à deux opérations denses du même calibre pour démontrer le gain réel de calcul qui peut être obtenu. Un modèle profond utilisant des opérations éparses contrôlées par un routeur distinct des experts est entraîné sur un ensemble de données d'un milliard de mots. Un nouvel algorithme de partitionnement de données est appliqué sur un ensemble de mots pour hiérarchiser la couche de sortie d'un modèle de langage, la rendant ainsi beaucoup plus efficiente. Le travail présenté dans cette thèse est au centre de la vision de calcul conditionnel distribué émis par Yoshua Bengio. Elle tente d'appliquer la recherche dans le domaine des mélanges d'experts aux modèles profonds pour améliorer leur vitesse ainsi que leur capacité d'optimisation. Nous croyons que la théorie et les expériences de cette thèse sont une étape importante sur la voie du calcul conditionnel distribué car elle cadre bien le problème, surtout en ce qui concerne la compétitivité des systèmes d'experts.
Resumo:
En apprentissage automatique, domaine qui consiste à utiliser des données pour apprendre une solution aux problèmes que nous voulons confier à la machine, le modèle des Réseaux de Neurones Artificiels (ANN) est un outil précieux. Il a été inventé voilà maintenant près de soixante ans, et pourtant, il est encore de nos jours le sujet d'une recherche active. Récemment, avec l'apprentissage profond, il a en effet permis d'améliorer l'état de l'art dans de nombreux champs d'applications comme la vision par ordinateur, le traitement de la parole et le traitement des langues naturelles. La quantité toujours grandissante de données disponibles et les améliorations du matériel informatique ont permis de faciliter l'apprentissage de modèles à haute capacité comme les ANNs profonds. Cependant, des difficultés inhérentes à l'entraînement de tels modèles, comme les minima locaux, ont encore un impact important. L'apprentissage profond vise donc à trouver des solutions, en régularisant ou en facilitant l'optimisation. Le pré-entraînnement non-supervisé, ou la technique du ``Dropout'', en sont des exemples. Les deux premiers travaux présentés dans cette thèse suivent cette ligne de recherche. Le premier étudie les problèmes de gradients diminuants/explosants dans les architectures profondes. Il montre que des choix simples, comme la fonction d'activation ou l'initialisation des poids du réseaux, ont une grande influence. Nous proposons l'initialisation normalisée pour faciliter l'apprentissage. Le second se focalise sur le choix de la fonction d'activation et présente le rectifieur, ou unité rectificatrice linéaire. Cette étude a été la première à mettre l'accent sur les fonctions d'activations linéaires par morceaux pour les réseaux de neurones profonds en apprentissage supervisé. Aujourd'hui, ce type de fonction d'activation est une composante essentielle des réseaux de neurones profonds. Les deux derniers travaux présentés se concentrent sur les applications des ANNs en traitement des langues naturelles. Le premier aborde le sujet de l'adaptation de domaine pour l'analyse de sentiment, en utilisant des Auto-Encodeurs Débruitants. Celui-ci est encore l'état de l'art de nos jours. Le second traite de l'apprentissage de données multi-relationnelles avec un modèle à base d'énergie, pouvant être utilisé pour la tâche de désambiguation de sens.
Resumo:
Travail dirigé présenté à la Faculté des sciences infirmières en vue de l’obtention du grade de Maître ès sciences (M.Sc.) en sciences infirmières option formation des sciences infirmières
Resumo:
La réalité des marchés de la drogue, opérés par des adolescents sur les lieux mêmes de leur école secondaire, demeure méconnue. L’actuelle recherche fut entreprise avec l’objectif d’explorer cet univers particulier. Pour y parvenir, cette étude a donné la parole à douze jeunes vendeurs adolescents, ayant transigé sur leur lieu d’enseignement. Les quatre objectifs spécifiques, définis au préalable, ont été atteints. Premièrement, selon les propos recueillis de la part des jeunes vendeurs, un phénomène de normalisation de la consommation de cannabis et certaines autres drogues serait bien présent au sein de cette population. Toutefois, les jeunes expliquent que leur définition de « normal » fluctuerait selon leur étape de vie du moment. Deuxièmement, toujours selon la compréhension des adolescents rencontrés, leur implication au sein du trafic de drogue s’expliquerait par trois facteurs: financier, réseautage, prestige et pouvoir. Troisièmement, les jeunes trafiquants rencontrés ont émis leur opinion sur l’efficacité des moyens de répression et de prévention situationnelle instaurés dans les écoles, ainsi que sur leurs astuces pour les déjouer. Ils ont aussi relaté une réalité de violence qui serait présente au sein de ces réseaux. Finalement, les jeunes interviewés ont explicité leur compréhension de l’impact des interventions tentées par l’école secondaire, pour les détourner de leur trajectoire criminelle. La conclusion essentielle de ce mémoire demeure le besoin, exprimé par ces adolescents, d’être encadrés et limités par leur environnement scolaire, parental et autres adultes de leur entourage. Comme il leur serait difficile de se discipliner; ils demandent qu’on les protège d’eux-mêmes.