14 resultados para Régularisation

em Université de Montréal, Canada


Relevância:

10.00% 10.00%

Publicador:

Resumo:

The focus of the paper is the nonparametric estimation of an instrumental regression function P defined by conditional moment restrictions stemming from a structural econometric model : E[Y-P(Z)|W]=0 and involving endogenous variables Y and Z and instruments W. The function P is the solution of an ill-posed inverse problem and we propose an estimation procedure based on Tikhonov regularization. The paper analyses identification and overidentification of this model and presents asymptotic properties of the estimated nonparametric instrumental regression function.

Relevância:

10.00% 10.00%

Publicador:

Resumo:

Cette thèse analyse la capacité d’action collective des populations marginalisées situées respectivement dans un bidonville appelé Cité de l’Éternel à Port-au-Prince (Haïti) et dans des campements à la Sierra Santa Catarina, Iztapalapa (Mexico). À Port-au-Prince, avant la chute de la dictature des Duvalier, des «tontons macoutes» envahirent un terrain situé en bordure du quai de la capitale, près du boulevard Harry Truman. Après s’y être installés, ils ont procédé à la vente de parcelles destinées à la construction de logement à des particuliers. Mais après la chute de Jean-Claude Duvalier, en 1986, des gens de la populace en ont profité pour envahir ce qui restait de ces terrains marécageux. Après l’occupation, ils se sont organisés pour défendre collectivement leur propriété avant d’entreprendre, par la suite, des démarches pour y amener des services et obtenir la régularisation de leur situation sur ces territoires. À la Sierra Santa Catarina, des populations conduites par des militants d’un Front populaire ont occupé des terrains situés au pied d’une montagne de sable afin d’accéder à la propriété et de construire leur demeure. À l’instar des populations de la Cité, ces gens se sont organisés pour aménager des espaces, y ériger des logements provisoires, monter la garde afin de ne pas être déguerpis par les forces de police. Tout en travaillant pour accéder à leur manière aux services de base, elles entreprennent des actions auprès des institutions publiques afin d’obtenir la régularisation de leur situation. Par rapport à la capacité d’action collective de ces populations, les théories sociologiques sont divisées. D’un côté, certains auteurs soutiennent la thèse de l’incapacité de ces populations d’avoir des intérêts collectifs et d’agir en conséquence. Selon eux, sans une médiation sociale ou à défaut d’une agrégation et d’une représentation politiques, ces populations sont incapables d’avoir une subjectivité collective. De l’autre, des auteurs pensent qu’à partir des liens d’amitié de parenté et de voisinage, indépendamment de leurs situations socioéconomiques, ces populations peuvent créer des stratégies de subsistance et de luttes qui leur permettent de trouver des solutions à des problèmes tant individuels que collectifs. S’agissant des populations qui envahissent des terrains en milieu urbain pour habiter, les actions de ces gens là sont définis déjà comme une forme d’action collective inscrite dans des rapports sociaux qui se caractérisent par la différenciation entre les groupes sociaux dans l’accès à la propriété. Ainsi, leurs revendications de reconnaissance et de régularisation auprès des instances étatiques sont déterminées par leur mode d’accès aux biens et aux richesses inégalement réparties en Haïti et au Mexique. Les populations des deux territoires ont entrepris diverses démarches auprès de certaines institutions et réalisé des actions collectives soit pour amener des services de base tels que l’eau et l’électricité, soit pour obtenir de l’État la reconnaissance des territoires envahis, c’est-à-dire leur jonction à la cartographie de la ville. Cette reconnaissance implique non seulement l’installation des services réguliers au bénéfice de la population mais aussi l’octroi à chaque propriétaire de son titre de propriété. Si dans le cas de la Sierra Santa Catarina les démarches sont entreprises auprès des institutions publiques, dans celui de Port-au-Prince, ce sont les ONG ou les agence de coopération qui sont touchées et qui fournissent certains services à la population conformément à la priorité de leurs bailleurs de fonds. Les interventions auprès de l’État se font plutôt dans le but d’obtenir une autorisation de fonctionnement d’une association locale. Il ressort des approches théoriques et des actions collectives réalisées par ces populations qu’on ne peut pas dire qu’elles sont incapables d’avoir une subjectivité collective et des intérêts communs sans une agrégation et une représentation politique. À partir de différents liens entre les individus, des associations sont créées lesquelles permettent d’établir une médiation entre les populations et d’autres organismes. Dans le cas des campements, les actions collectives sont certainement mises à contribution par quelques leaders. Cela participe de toute une tradition politique au Mexique. Néanmoins, dans certains campements, des populations parviennent à tenir tête jusqu’à révoquer certains leaders. Au-delà de leur situation socioéconomique, de l’emprise de certains dirigeants de campement, de l’indifférence de l’État (dans le cas de Port-au-Prince, notamment), ces populations font preuve d’une étonnante capacité critique de leur situation tant dans leurs relations avec les dirigeants des associations et des campements que par rapport à l’État. Ceci pourrait soulever des doutes quant à la possibilité qu’elles soient réellement ou inconsciemment manipulées. Cela suggère la possibilité d’actions collectives autonomes de portée critique là où les circonstances le permettent Mots clés : Marginalisation, action collective, reconnaissance, Débrouille, capacité critique, bidonvilles, instrumentalisation politique, reconnaissance fragmentée.

Relevância:

10.00% 10.00%

Publicador:

Resumo:

The attached file is created with Scientific Workplace Latex

Relevância:

10.00% 10.00%

Publicador:

Resumo:

Cette étude cherche à clarifier les trajectoires de l’intégration des immigrants iraniens travaillant comme chauffeurs de taxi à Montréal. En effet, les conclusions de certaines études portant sur l’amélioration de l’insertion professionnelle des immigrants à moyen et à long terme étaient en opposition avec l’état actuel d’immigrants qualifiés travaillant toujours dans l’industrie du taxi après cinq, dix, quinze ans ou même plus après leur arrivée, bien que plusieurs avaient déjà une formation universitaire avant leur arrivé au Canada. Effectuée dans le cadre des études sur l’intégration des immigrants en général et en particulier au Canada et au Québec, cette recherche fait ressortir des résultats plus larges que les expériences de ce groupe après son arrivée dans le pays d’accueil en incluant les attentes et les motifs avant le départ. L’utilisation d’une démarche plutôt qualitative à partir des expériences et des trajectoires d’environ une quarantaine de chauffeurs de taxi travaillant dans une société de taxi montréalaise dont la majorité des travailleurs sont iraniens a permis de dépasser les difficultés liées à l’étude de ce groupe ainsi que d’en approfondir la connaissance. Cette étude se divise en deux parties. La première familiarise le lecteur avec l’histoire de l’immigration et celle des Iraniens au Canada ainsi qu’avec le cadre conceptuel et l’approche méthodologique de cette recherche. La deuxième partie, présentant les résultats, révèle le fait que plusieurs dans ce groupe d’immigrants n’ont pas eu accès aux droits de scolarité réduits offerts aux résidents québécois avant la régularisation de leur demande d’asile, ce qui a eu pour résultat de freiner leur grand désir de poursuivre des études au Canada. Ce blocage les a confinés dans des emplois de bas niveaux. Les cours peu avancés de français offerts aux immigrants n’ont pas pu les préparer à accéder aux bons emplois. Également, ce groupe a rejeté l’aide des agents d’emploi à cause des bas niveaux d’emplois que ceux-ci offraient. Alors que les périodes de chômage ont pu encourager certains à poursuivre leurs études, la discrimination après le 11 septembre 2001 a barré leur accès aux emplois qualifiés. La communauté iranienne n’a pas contribué à l’accès de ses membres aux emplois qualifiés à cause de son émergence récente au Canada. Ainsi, pour certains, le partenariat avec des compatriotes qu’ils connaissaient à peine et non experts dans la création d’entreprises, qui de plus ne se préoccupaient pas des exigences du métier, a abouti à leur fermeture. La comparaison entre les emplois déjà occupés et les avantages matériels et non matériels du taxi a mené ce groupe à recourir à ce métier. Pourtant, ses désavantages ont causé le départ non réfléchi de certains du Québec, mais ils sont revenus par la suite. Les traits culturels de ce groupe dans une société ethnique de taxi bien réglementée ont permis d’améliorer le fonctionnement de cette société. Enfin, malgré le désir de bon nombre de ces immigrants de changer d’emploi, l’analyse suggère que la probabilité reste, pour la majorité, peu élevée.

Relevância:

10.00% 10.00%

Publicador:

Resumo:

Thèse numérisée par la Division de la gestion de documents et des archives de l'Université de Montréal

Relevância:

10.00% 10.00%

Publicador:

Resumo:

L’utilisation d’une méthode d’assimilation de données, associée à un modèle de convection anélastique, nous permet la reconstruction des structures physiques d’une partie de la zone convective située en dessous d’une région solaire active. Les résultats obtenus nous informent sur les processus d’émergence des tubes de champ magnétique au travers de la zone convective ainsi que sur les mécanismes de formation des régions actives. Les données solaires utilisées proviennent de l’instrument MDI à bord de l’observatoire spatial SOHO et concernent principalement la région active AR9077 lors de l’ ́évènement du “jour de la Bastille”, le 14 juillet 2000. Cet évènement a conduit à l’avènement d’une éruption solaire, suivie par une importante éjection de masse coronale. Les données assimilées (magnétogrammes, cartes de températures et de vitesses verticales) couvrent une surface de 175 méga-mètres de coté acquises au niveau photosphérique. La méthode d’assimilation de données employée est le “coup de coude direct et rétrograde”, une méthode de relaxation Newtonienne similaire à la méthode “quasi-linéaire inverse 3D”. Elle présente l’originalité de ne pas nécessiter le calcul des équations adjointes au modèle physique. Aussi, la simplicité de la méthode est un avantage numérique conséquent. Notre étude montre au travers d’un test simple l’applicabilité de cette méthode à un modèle de convection utilisé dans le cadre de l’approximation anélastique. Nous montrons ainsi l’efficacité de cette méthode et révélons son potentiel pour l’assimilation de données solaires. Afin d’assurer l’unicité mathématique de la solution obtenue nous imposons une régularisation dans tout le domaine simulé. Nous montrons enfin que l’intérêt de la méthode employée ne se limite pas à la reconstruction des structures convectives, mais qu’elle permet également l’interpolation optimale des magnétogrammes photosphériques, voir même la prédiction de leur évolution temporelle.

Relevância:

10.00% 10.00%

Publicador:

Resumo:

Le manuscrit suivant porte sur le développement d’une méthodologie de cartographie de la susceptibilité magnétique. Cette méthodologie a été appliquée au niveau des seins à des fins de détection de microcalcifications. Afin de valider ces algorithmes, un fantôme numérique ainsi qu’un fantôme réel ont été créés. À l’aide de ces images, les paramètres modifiables de notre méthodologie ont été ajustés. Par la suite, les problèmes reliés à l’imagerie du sein ont été explorés, tel la présence de gras ainsi que la proximité des poumons. Finalement, des images in vivo, acquises à 1.5 et 7.0 Tesla ont été analysées par notre méthodologie. Sur ces images 1.5T, nous avons réussi à observer la présence de microcalcifications. D’un autre côté, les images 7.0T nous ont permis de présenter un meilleur contraste que les images standards de magnitude.

Relevância:

10.00% 10.00%

Publicador:

Resumo:

Cette thèse de doctorat consiste en trois chapitres qui traitent des sujets de choix de portefeuilles de grande taille, et de mesure de risque. Le premier chapitre traite du problème d’erreur d’estimation dans les portefeuilles de grande taille, et utilise le cadre d'analyse moyenne-variance. Le second chapitre explore l'importance du risque de devise pour les portefeuilles d'actifs domestiques, et étudie les liens entre la stabilité des poids de portefeuille de grande taille et le risque de devise. Pour finir, sous l'hypothèse que le preneur de décision est pessimiste, le troisième chapitre dérive la prime de risque, une mesure du pessimisme, et propose une méthodologie pour estimer les mesures dérivées. Le premier chapitre améliore le choix optimal de portefeuille dans le cadre du principe moyenne-variance de Markowitz (1952). Ceci est motivé par les résultats très décevants obtenus, lorsque la moyenne et la variance sont remplacées par leurs estimations empiriques. Ce problème est amplifié lorsque le nombre d’actifs est grand et que la matrice de covariance empirique est singulière ou presque singulière. Dans ce chapitre, nous examinons quatre techniques de régularisation pour stabiliser l’inverse de la matrice de covariance: le ridge, spectral cut-off, Landweber-Fridman et LARS Lasso. Ces méthodes font chacune intervenir un paramètre d’ajustement, qui doit être sélectionné. La contribution principale de cette partie, est de dériver une méthode basée uniquement sur les données pour sélectionner le paramètre de régularisation de manière optimale, i.e. pour minimiser la perte espérée d’utilité. Précisément, un critère de validation croisée qui prend une même forme pour les quatre méthodes de régularisation est dérivé. Les règles régularisées obtenues sont alors comparées à la règle utilisant directement les données et à la stratégie naïve 1/N, selon leur perte espérée d’utilité et leur ratio de Sharpe. Ces performances sont mesurée dans l’échantillon (in-sample) et hors-échantillon (out-of-sample) en considérant différentes tailles d’échantillon et nombre d’actifs. Des simulations et de l’illustration empirique menées, il ressort principalement que la régularisation de la matrice de covariance améliore de manière significative la règle de Markowitz basée sur les données, et donne de meilleurs résultats que le portefeuille naïf, surtout dans les cas le problème d’erreur d’estimation est très sévère. Dans le second chapitre, nous investiguons dans quelle mesure, les portefeuilles optimaux et stables d'actifs domestiques, peuvent réduire ou éliminer le risque de devise. Pour cela nous utilisons des rendements mensuelles de 48 industries américaines, au cours de la période 1976-2008. Pour résoudre les problèmes d'instabilité inhérents aux portefeuilles de grandes tailles, nous adoptons la méthode de régularisation spectral cut-off. Ceci aboutit à une famille de portefeuilles optimaux et stables, en permettant aux investisseurs de choisir différents pourcentages des composantes principales (ou dégrées de stabilité). Nos tests empiriques sont basés sur un modèle International d'évaluation d'actifs financiers (IAPM). Dans ce modèle, le risque de devise est décomposé en deux facteurs représentant les devises des pays industrialisés d'une part, et celles des pays émergents d'autres part. Nos résultats indiquent que le risque de devise est primé et varie à travers le temps pour les portefeuilles stables de risque minimum. De plus ces stratégies conduisent à une réduction significative de l'exposition au risque de change, tandis que la contribution de la prime risque de change reste en moyenne inchangée. Les poids de portefeuille optimaux sont une alternative aux poids de capitalisation boursière. Par conséquent ce chapitre complète la littérature selon laquelle la prime de risque est importante au niveau de l'industrie et au niveau national dans la plupart des pays. Dans le dernier chapitre, nous dérivons une mesure de la prime de risque pour des préférences dépendent du rang et proposons une mesure du degré de pessimisme, étant donné une fonction de distorsion. Les mesures introduites généralisent la mesure de prime de risque dérivée dans le cadre de la théorie de l'utilité espérée, qui est fréquemment violée aussi bien dans des situations expérimentales que dans des situations réelles. Dans la grande famille des préférences considérées, une attention particulière est accordée à la CVaR (valeur à risque conditionnelle). Cette dernière mesure de risque est de plus en plus utilisée pour la construction de portefeuilles et est préconisée pour compléter la VaR (valeur à risque) utilisée depuis 1996 par le comité de Bâle. De plus, nous fournissons le cadre statistique nécessaire pour faire de l’inférence sur les mesures proposées. Pour finir, les propriétés des estimateurs proposés sont évaluées à travers une étude Monte-Carlo, et une illustration empirique en utilisant les rendements journaliers du marché boursier américain sur de la période 2000-2011.

Relevância:

10.00% 10.00%

Publicador:

Resumo:

Cette thèse étudie des modèles de séquences de haute dimension basés sur des réseaux de neurones récurrents (RNN) et leur application à la musique et à la parole. Bien qu'en principe les RNN puissent représenter les dépendances à long terme et la dynamique temporelle complexe propres aux séquences d'intérêt comme la vidéo, l'audio et la langue naturelle, ceux-ci n'ont pas été utilisés à leur plein potentiel depuis leur introduction par Rumelhart et al. (1986a) en raison de la difficulté de les entraîner efficacement par descente de gradient. Récemment, l'application fructueuse de l'optimisation Hessian-free et d'autres techniques d'entraînement avancées ont entraîné la recrudescence de leur utilisation dans plusieurs systèmes de l'état de l'art. Le travail de cette thèse prend part à ce développement. L'idée centrale consiste à exploiter la flexibilité des RNN pour apprendre une description probabiliste de séquences de symboles, c'est-à-dire une information de haut niveau associée aux signaux observés, qui en retour pourra servir d'à priori pour améliorer la précision de la recherche d'information. Par exemple, en modélisant l'évolution de groupes de notes dans la musique polyphonique, d'accords dans une progression harmonique, de phonèmes dans un énoncé oral ou encore de sources individuelles dans un mélange audio, nous pouvons améliorer significativement les méthodes de transcription polyphonique, de reconnaissance d'accords, de reconnaissance de la parole et de séparation de sources audio respectivement. L'application pratique de nos modèles à ces tâches est détaillée dans les quatre derniers articles présentés dans cette thèse. Dans le premier article, nous remplaçons la couche de sortie d'un RNN par des machines de Boltzmann restreintes conditionnelles pour décrire des distributions de sortie multimodales beaucoup plus riches. Dans le deuxième article, nous évaluons et proposons des méthodes avancées pour entraîner les RNN. Dans les quatre derniers articles, nous examinons différentes façons de combiner nos modèles symboliques à des réseaux profonds et à la factorisation matricielle non-négative, notamment par des produits d'experts, des architectures entrée/sortie et des cadres génératifs généralisant les modèles de Markov cachés. Nous proposons et analysons également des méthodes d'inférence efficaces pour ces modèles, telles la recherche vorace chronologique, la recherche en faisceau à haute dimension, la recherche en faisceau élagué et la descente de gradient. Finalement, nous abordons les questions de l'étiquette biaisée, du maître imposant, du lissage temporel, de la régularisation et du pré-entraînement.

Relevância:

10.00% 10.00%

Publicador:

Resumo:

Les écologistes reconnaissent depuis longtemps que les organismes sont soutenus par le flux, l’emmagasinage et le renouvellement d’énergie et de matériel de l’écosystème, puisqu’ils sont nécessaires au métabolisme biologique et à la construction de biomasse. L’importance des organismes dans la régularisation des processus écosystémiques est maintenant de plus en plus considérée. Situé au centre des chaînes trophiques aquatiques, le zooplancton influence les flux d’énergie et de matériel dans les écosystèmes. Plusieurs de leurs caractéristiques sont connues comme étant de bons indicateurs de leur effet sur l’environnement, notamment leur taille, contenu corporel et taux métabolique. La plupart de ces caractéristiques peuvent être appelées « traits fonctionnels ». Alors que l’emploi des traits devient de plus en plus populaire en écologie des communautés aquatiques, peu ont su utiliser cette approche afin de concrètement lier la structure des communautés zooplanctoniques aux processus écosystémiques. Dans cette étude, nous avons colligé les données provenant d’une grande variété de littérature afin de construire une base de données sur les traits du zooplancton crustacé contribuant directement ou indirectement aux flux de C, N et P dans les écosystèmes. Notre méta-analyse a permis d’assembler plus de 9000 observations sur 287 espèces et d’identifier par le fait même ce qu’il manque à nos connaissances. Nous avons examiné une série de corrélations croisées entre 16 traits, dont 35 étaient significatives, et avons exploré les relations entre les unités taxonomiques de même qu’entre les espèces marines et d’eaux douces. Notre synthèse a entre autres révélé des patrons significativement différents entre le zooplancton marin et dulcicole quant à leur taux de respiration et leur allométrie (masse vs. longueur corporelle). Nous proposons de plus une nouvelle classification de traits liant les fonctions des organismes à celles de l’écosystème. Notre but est d’offrir une base de données sur les traits du zooplancton, des outils afin de mieux lier les organismes aux processus écosystémiques et de stimuler la recherche de patrons généraux et de compromis entre les traits.

Relevância:

10.00% 10.00%

Publicador:

Resumo:

Cette thèse est organisée en trois chapitres. Les deux premiers s'intéressent à l'évaluation, par des méthodes d'estimations, de l'effet causal ou de l'effet d'un traitement, dans un environnement riche en données. Le dernier chapitre se rapporte à l'économie de l'éducation. Plus précisément dans ce chapitre j'évalue l'effet de la spécialisation au secondaire sur le choix de filière à l'université et la performance. Dans le premier chapitre, j'étudie l'estimation efficace d'un paramètre de dimension finie dans un modèle linéaire où le nombre d'instruments peut être très grand ou infini. L'utilisation d'un grand nombre de conditions de moments améliore l'efficacité asymptotique des estimateurs par variables instrumentales, mais accroit le biais. Je propose une version régularisée de l'estimateur LIML basée sur trois méthodes de régularisations différentes, Tikhonov, Landweber Fridman, et composantes principales, qui réduisent le biais. Le deuxième chapitre étend les travaux précédents, en permettant la présence d'un grand nombre d'instruments faibles. Le problème des instruments faibles est la consequence d'un très faible paramètre de concentration. Afin d'augmenter la taille du paramètre de concentration, je propose d'augmenter le nombre d'instruments. Je montre par la suite que les estimateurs 2SLS et LIML régularisés sont convergents et asymptotiquement normaux. Le troisième chapitre de cette thèse analyse l'effet de la spécialisation au secondaire sur le choix de filière à l'université. En utilisant des données américaines, j'évalue la relation entre la performance à l'université et les différents types de cours suivis pendant les études secondaires. Les résultats suggèrent que les étudiants choisissent les filières dans lesquelles ils ont acquis plus de compétences au secondaire. Cependant, on a une relation en U entre la diversification et la performance à l'université, suggérant une tension entre la spécialisation et la diversification. Le compromis sous-jacent est évalué par l'estimation d'un modèle structurel de l'acquisition du capital humain au secondaire et de choix de filière. Des analyses contrefactuelles impliquent qu'un cours de plus en matière quantitative augmente les inscriptions dans les filières scientifiques et technologiques de 4 points de pourcentage.

Relevância:

10.00% 10.00%

Publicador:

Resumo:

L'apprentissage profond est un domaine de recherche en forte croissance en apprentissage automatique qui est parvenu à des résultats impressionnants dans différentes tâches allant de la classification d'images à la parole, en passant par la modélisation du langage. Les réseaux de neurones récurrents, une sous-classe d'architecture profonde, s'avèrent particulièrement prometteurs. Les réseaux récurrents peuvent capter la structure temporelle dans les données. Ils ont potentiellement la capacité d'apprendre des corrélations entre des événements éloignés dans le temps et d'emmagasiner indéfiniment des informations dans leur mémoire interne. Dans ce travail, nous tentons d'abord de comprendre pourquoi la profondeur est utile. Similairement à d'autres travaux de la littérature, nos résultats démontrent que les modèles profonds peuvent être plus efficaces pour représenter certaines familles de fonctions comparativement aux modèles peu profonds. Contrairement à ces travaux, nous effectuons notre analyse théorique sur des réseaux profonds acycliques munis de fonctions d'activation linéaires par parties, puisque ce type de modèle est actuellement l'état de l'art dans différentes tâches de classification. La deuxième partie de cette thèse porte sur le processus d'apprentissage. Nous analysons quelques techniques d'optimisation proposées récemment, telles l'optimisation Hessian free, la descente de gradient naturel et la descente des sous-espaces de Krylov. Nous proposons le cadre théorique des méthodes à région de confiance généralisées et nous montrons que plusieurs de ces algorithmes développés récemment peuvent être vus dans cette perspective. Nous argumentons que certains membres de cette famille d'approches peuvent être mieux adaptés que d'autres à l'optimisation non convexe. La dernière partie de ce document se concentre sur les réseaux de neurones récurrents. Nous étudions d'abord le concept de mémoire et tentons de répondre aux questions suivantes: Les réseaux récurrents peuvent-ils démontrer une mémoire sans limite? Ce comportement peut-il être appris? Nous montrons que cela est possible si des indices sont fournis durant l'apprentissage. Ensuite, nous explorons deux problèmes spécifiques à l'entraînement des réseaux récurrents, à savoir la dissipation et l'explosion du gradient. Notre analyse se termine par une solution au problème d'explosion du gradient qui implique de borner la norme du gradient. Nous proposons également un terme de régularisation conçu spécifiquement pour réduire le problème de dissipation du gradient. Sur un ensemble de données synthétique, nous montrons empiriquement que ces mécanismes peuvent permettre aux réseaux récurrents d'apprendre de façon autonome à mémoriser des informations pour une période de temps indéfinie. Finalement, nous explorons la notion de profondeur dans les réseaux de neurones récurrents. Comparativement aux réseaux acycliques, la définition de profondeur dans les réseaux récurrents est souvent ambiguë. Nous proposons différentes façons d'ajouter de la profondeur dans les réseaux récurrents et nous évaluons empiriquement ces propositions.

Relevância:

10.00% 10.00%

Publicador:

Resumo:

Les algorithmes d'apprentissage profond forment un nouvel ensemble de méthodes puissantes pour l'apprentissage automatique. L'idée est de combiner des couches de facteurs latents en hierarchies. Cela requiert souvent un coût computationel plus elevé et augmente aussi le nombre de paramètres du modèle. Ainsi, l'utilisation de ces méthodes sur des problèmes à plus grande échelle demande de réduire leur coût et aussi d'améliorer leur régularisation et leur optimization. Cette thèse adresse cette question sur ces trois perspectives. Nous étudions tout d'abord le problème de réduire le coût de certains algorithmes profonds. Nous proposons deux méthodes pour entrainer des machines de Boltzmann restreintes et des auto-encodeurs débruitants sur des distributions sparses à haute dimension. Ceci est important pour l'application de ces algorithmes pour le traitement de langues naturelles. Ces deux méthodes (Dauphin et al., 2011; Dauphin and Bengio, 2013) utilisent l'échantillonage par importance pour échantilloner l'objectif de ces modèles. Nous observons que cela réduit significativement le temps d'entrainement. L'accéleration atteint 2 ordres de magnitude sur plusieurs bancs d'essai. Deuxièmement, nous introduisont un puissant régularisateur pour les méthodes profondes. Les résultats expérimentaux démontrent qu'un bon régularisateur est crucial pour obtenir de bonnes performances avec des gros réseaux (Hinton et al., 2012). Dans Rifai et al. (2011), nous proposons un nouveau régularisateur qui combine l'apprentissage non-supervisé et la propagation de tangente (Simard et al., 1992). Cette méthode exploite des principes géometriques et permit au moment de la publication d'atteindre des résultats à l'état de l'art. Finalement, nous considérons le problème d'optimiser des surfaces non-convexes à haute dimensionalité comme celle des réseaux de neurones. Tradionellement, l'abondance de minimum locaux était considéré comme la principale difficulté dans ces problèmes. Dans Dauphin et al. (2014a) nous argumentons à partir de résultats en statistique physique, de la théorie des matrices aléatoires, de la théorie des réseaux de neurones et à partir de résultats expérimentaux qu'une difficulté plus profonde provient de la prolifération de points-selle. Dans ce papier nous proposons aussi une nouvelle méthode pour l'optimisation non-convexe.

Relevância:

10.00% 10.00%

Publicador:

Resumo:

Cette thèse contribue a la recherche vers l'intelligence artificielle en utilisant des méthodes connexionnistes. Les réseaux de neurones récurrents sont un ensemble de modèles séquentiels de plus en plus populaires capable en principe d'apprendre des algorithmes arbitraires. Ces modèles effectuent un apprentissage en profondeur, un type d'apprentissage machine. Sa généralité et son succès empirique en font un sujet intéressant pour la recherche et un outil prometteur pour la création de l'intelligence artificielle plus générale. Le premier chapitre de cette thèse donne un bref aperçu des sujets de fonds: l'intelligence artificielle, l'apprentissage machine, l'apprentissage en profondeur et les réseaux de neurones récurrents. Les trois chapitres suivants couvrent ces sujets de manière de plus en plus spécifiques. Enfin, nous présentons quelques contributions apportées aux réseaux de neurones récurrents. Le chapitre \ref{arxiv1} présente nos travaux de régularisation des réseaux de neurones récurrents. La régularisation vise à améliorer la capacité de généralisation du modèle, et joue un role clé dans la performance de plusieurs applications des réseaux de neurones récurrents, en particulier en reconnaissance vocale. Notre approche donne l'état de l'art sur TIMIT, un benchmark standard pour cette tâche. Le chapitre \ref{cpgp} présente une seconde ligne de travail, toujours en cours, qui explore une nouvelle architecture pour les réseaux de neurones récurrents. Les réseaux de neurones récurrents maintiennent un état caché qui représente leurs observations antérieures. L'idée de ce travail est de coder certaines dynamiques abstraites dans l'état caché, donnant au réseau une manière naturelle d'encoder des tendances cohérentes de l'état de son environnement. Notre travail est fondé sur un modèle existant; nous décrivons ce travail et nos contributions avec notamment une expérience préliminaire.