9 resultados para Sparse Representation
em Université de Montréal, Canada
Resumo:
L'objectif de cette thèse est de présenter différentes applications du programme de recherche de calcul conditionnel distribué. On espère que ces applications, ainsi que la théorie présentée ici, mènera à une solution générale du problème d'intelligence artificielle, en particulier en ce qui a trait à la nécessité d'efficience. La vision du calcul conditionnel distribué consiste à accélérer l'évaluation et l'entraînement de modèles profonds, ce qui est très différent de l'objectif usuel d'améliorer sa capacité de généralisation et d'optimisation. Le travail présenté ici a des liens étroits avec les modèles de type mélange d'experts. Dans le chapitre 2, nous présentons un nouvel algorithme d'apprentissage profond qui utilise une forme simple d'apprentissage par renforcement sur un modèle d'arbre de décisions à base de réseau de neurones. Nous démontrons la nécessité d'une contrainte d'équilibre pour maintenir la distribution d'exemples aux experts uniforme et empêcher les monopoles. Pour rendre le calcul efficient, l'entrainement et l'évaluation sont contraints à être éparse en utilisant un routeur échantillonnant des experts d'une distribution multinomiale étant donné un exemple. Dans le chapitre 3, nous présentons un nouveau modèle profond constitué d'une représentation éparse divisée en segments d'experts. Un modèle de langue à base de réseau de neurones est construit à partir des transformations éparses entre ces segments. L'opération éparse par bloc est implémentée pour utilisation sur des cartes graphiques. Sa vitesse est comparée à deux opérations denses du même calibre pour démontrer le gain réel de calcul qui peut être obtenu. Un modèle profond utilisant des opérations éparses contrôlées par un routeur distinct des experts est entraîné sur un ensemble de données d'un milliard de mots. Un nouvel algorithme de partitionnement de données est appliqué sur un ensemble de mots pour hiérarchiser la couche de sortie d'un modèle de langage, la rendant ainsi beaucoup plus efficiente. Le travail présenté dans cette thèse est au centre de la vision de calcul conditionnel distribué émis par Yoshua Bengio. Elle tente d'appliquer la recherche dans le domaine des mélanges d'experts aux modèles profonds pour améliorer leur vitesse ainsi que leur capacité d'optimisation. Nous croyons que la théorie et les expériences de cette thèse sont une étape importante sur la voie du calcul conditionnel distribué car elle cadre bien le problème, surtout en ce qui concerne la compétitivité des systèmes d'experts.
Resumo:
This paper proves a new representation theorem for domains with both discrete and continuous variables. The result generalizes Debreu's well-known representation theorem on connected domains. A strengthening of the standard continuity axiom is used in order to guarantee the existence of a representation. A generalization of the main theorem and an application of the more general result are also presented.
Resumo:
This paper derives the ARMA representation of integrated and realized variances when the spot variance depends linearly on two autoregressive factors, i.e., SR SARV(2) models. This class of processes includes affine, GARCH diffusion, CEV models, as well as the eigenfunction stochastic volatility and the positive Ornstein-Uhlenbeck models. We also study the leverage effect case, the relationship between weak GARCH representation of returns and the ARMA representation of realized variances. Finally, various empirical implications of these ARMA representations are considered. We find that it is possible that some parameters of the ARMA representation are negative. Hence, the positiveness of the expected values of integrated or realized variances is not guaranteed. We also find that for some frequencies of observations, the continuous time model parameters may be weakly or not identified through the ARMA representation of realized variances.
Resumo:
This paper presents a new model of voter behaviour under methods of proportional representation (PR). We abstract away from rounding, and assume that a party securing k percent of the vote wins exactly k percent of the available seats. Under this assumption PR is not manipulable by any voter aiming at maximisation of the number of seats in the parliament of her most preferred party. However in this paper we assume that voters are concerned, first and foremost, with the distribution of power in the post-election parliament. We show that, irrespective of which positional scoring rule is adopted, there will always exist circumstances where a voter would have an incentive to vote insincerely. We demonstrate that a voter’s attitude toward uncertainty can influence her incentives to make an insincere vote. Finally, we show that the introduction of a threshold - a rule that a party must secure at least a certain percentage of the vote in order to reach parliament - creates new opportunities for strategic voting. We use the model to explain voter behaviour at the most recent New Zealand general election.
Resumo:
Groupe de recherche sur le système nerveux central, Département d'informatique et de recherche opérationnelle, Département de physiologie.
Resumo:
We provide a representation theorem for risk measures satisfying (i) monotonicity; (ii) positive homogeneity; and (iii) translation invariance. As a simple corollary to our theorem, we obtain the usual representation of coherent risk measures (i.e., risk measures that are, in addition, sub-additive; see Artzner et al. [2]).
Resumo:
L’apprentissage supervisé de réseaux hiérarchiques à grande échelle connaît présentement un succès fulgurant. Malgré cette effervescence, l’apprentissage non-supervisé représente toujours, selon plusieurs chercheurs, un élément clé de l’Intelligence Artificielle, où les agents doivent apprendre à partir d’un nombre potentiellement limité de données. Cette thèse s’inscrit dans cette pensée et aborde divers sujets de recherche liés au problème d’estimation de densité par l’entremise des machines de Boltzmann (BM), modèles graphiques probabilistes au coeur de l’apprentissage profond. Nos contributions touchent les domaines de l’échantillonnage, l’estimation de fonctions de partition, l’optimisation ainsi que l’apprentissage de représentations invariantes. Cette thèse débute par l’exposition d’un nouvel algorithme d'échantillonnage adaptatif, qui ajuste (de fa ̧con automatique) la température des chaînes de Markov sous simulation, afin de maintenir une vitesse de convergence élevée tout au long de l’apprentissage. Lorsqu’utilisé dans le contexte de l’apprentissage par maximum de vraisemblance stochastique (SML), notre algorithme engendre une robustesse accrue face à la sélection du taux d’apprentissage, ainsi qu’une meilleure vitesse de convergence. Nos résultats sont présent ́es dans le domaine des BMs, mais la méthode est générale et applicable à l’apprentissage de tout modèle probabiliste exploitant l’échantillonnage par chaînes de Markov. Tandis que le gradient du maximum de vraisemblance peut-être approximé par échantillonnage, l’évaluation de la log-vraisemblance nécessite un estimé de la fonction de partition. Contrairement aux approches traditionnelles qui considèrent un modèle donné comme une boîte noire, nous proposons plutôt d’exploiter la dynamique de l’apprentissage en estimant les changements successifs de log-partition encourus à chaque mise à jour des paramètres. Le problème d’estimation est reformulé comme un problème d’inférence similaire au filtre de Kalman, mais sur un graphe bi-dimensionnel, où les dimensions correspondent aux axes du temps et au paramètre de température. Sur le thème de l’optimisation, nous présentons également un algorithme permettant d’appliquer, de manière efficace, le gradient naturel à des machines de Boltzmann comportant des milliers d’unités. Jusqu’à présent, son adoption était limitée par son haut coût computationel ainsi que sa demande en mémoire. Notre algorithme, Metric-Free Natural Gradient (MFNG), permet d’éviter le calcul explicite de la matrice d’information de Fisher (et son inverse) en exploitant un solveur linéaire combiné à un produit matrice-vecteur efficace. L’algorithme est prometteur: en terme du nombre d’évaluations de fonctions, MFNG converge plus rapidement que SML. Son implémentation demeure malheureusement inefficace en temps de calcul. Ces travaux explorent également les mécanismes sous-jacents à l’apprentissage de représentations invariantes. À cette fin, nous utilisons la famille de machines de Boltzmann restreintes “spike & slab” (ssRBM), que nous modifions afin de pouvoir modéliser des distributions binaires et parcimonieuses. Les variables latentes binaires de la ssRBM peuvent être rendues invariantes à un sous-espace vectoriel, en associant à chacune d’elles, un vecteur de variables latentes continues (dénommées “slabs”). Ceci se traduit par une invariance accrue au niveau de la représentation et un meilleur taux de classification lorsque peu de données étiquetées sont disponibles. Nous terminons cette thèse sur un sujet ambitieux: l’apprentissage de représentations pouvant séparer les facteurs de variations présents dans le signal d’entrée. Nous proposons une solution à base de ssRBM bilinéaire (avec deux groupes de facteurs latents) et formulons le problème comme l’un de “pooling” dans des sous-espaces vectoriels complémentaires.
Resumo:
Comment pouvons-nous représenter un principe moral universel de manière à le rendre applicable à des cas concrets ? Ce problème revêt une forme aiguë dans la philosophie morale d’Emmanuel Kant (1724-1804), tout particulièrement dans sa théorie du jugement moral, car il soutient que l’on doit appliquer la loi morale « suprasensible » à des actions dans le monde sensible afin de déterminer celles-ci comme moralement bonnes ou mauvaises. Kant aborde ce problème dans un chapitre de la Critique de la raison pratique (1788) intitulé « De la typique de la faculté de juger pratique pure » (KpV 5: 67-71). La première partie de la thèse vise à fournir un commentaire compréhensif et détaillé de ce texte important, mais trop peu étudié. Étant donné que la loi morale, en tant qu’Idée suprasensible de la raison, ne peut pas être appliquée directement à des actions dans l’intuition sensible, Kant a recours à une forme particulière de représentation indirecte et symbolique. Sa solution inédite consiste à fournir la faculté de juger avec un « type [Typus] », ou analogue formel, de la loi morale. Ce type est la loi de la causalité naturelle : en tant que loi, il sert d’étalon formel pour tester l’universalisabilité des maximes ; et, en tant que loi de la nature, il peut aussi s’appliquer à toute action dans l’expérience sensible. Dès lors, le jugement moral s’effectue par le biais d’une expérience de pensée dans laquelle on se demande si l’on peut vouloir que sa maxime devienne une loi universelle d’une nature contrefactuelle dont on ferait soi-même partie. Cette expérience de pensée fonctionne comme une « épreuve [Probe] » de la forme des maximes et, par ce moyen, du statut moral des actions. Kant soutient que tout un chacun, même « l’entendement le plus commun », emploie cette procédure pour l’appréciation morale. De plus, la typique prémunit contre deux menaces à l’éthique rationaliste de Kant, à savoir l’empirisme (c’est-à-dire le conséquentialisme) et le mysticisme. La seconde partie de la thèse se penche sur l’indication de Kant que la typique « ne sert que comme un symbole ». Un bon nombre de commentateurs ont voulu assimiler la typique à la notion d’« hypotypose symbolique » présentée dans le § 59 de la Critique de la faculté de juger (1790). La typique serait un processus de symbolisation esthétique consistant à présenter, de façon indirecte, la représentation abstraite de la loi morale sous la forme d’un symbole concret et intuitif. Dans un premier chapitre, cette interprétation est présentée et soumise à un examen critique qui cherche à montrer qu’elle est erronée et peu judicieuse. Dans le second chapitre, nous poursuivons une voie d’interprétation jusqu’ici ignorée, montrant que la typique a de plus grandes continuités avec la notion d’« anthropomorphisme symbolique », une procédure strictement analogique introduite auparavant dans les Prolégomènes (1783). Nous en concluons, d’une part, que la typique fut un moment décisif dans l’évolution de la théorie kantienne de la représentation symbolique et que, d’autre part, elle marque la réalisation, chez Kant, d’une conception proprement critique de la nature et de la morale comme deux sphères distinctes, dont la médiation s’opère par le biais des concepts de loi et de conformité à la loi (Gesetzmässigkeit). En un mot, la typique s’avère l’instrument par excellence du « rationalisme de la faculté de juger ».
Resumo:
Cette recherche examine la traduction et la réception en France, en Grande Bretagne et aux États-Unis de la littérature contemporaine d’expression arabe écrite par des femmes, afin de répondre à deux questions principales: comment les écrivaines provenant de pays arabes perdent-elles leur agentivité dans les processus de traduction et de réception? Et comment la traduction et la réception de leurs textes contribuent-elles à la construction d’une altérité arabe? Pour y répondre, l’auteure examine trois romans présentant des traits thématiques et formels très différents, à savoir Fawḍā al-Ḥawāss (1997) par Ahlem Mosteghanemi, Innahā Lundun Yā ‘Azīzī (2001) par Hanan al-Shaykh et Banāt al-Riyāḍ (2005) par Rajaa Alsanea. L’analyse, basée sur le modèle à trois dimensions de Norman Fairclough, vise à découvrir comment les écrivaines expriment leur agentivité à travers l’écriture, et quelles images elles projettent d’elles-mêmes et plus généralement des femmes dans leurs sociétés respectives. L’auteure se penche ensuite sur les traductions anglaise et française de chaque roman. Elle examine les déplacements qui s’opèrent principalement sur le plan de la texture et le plan pragma-sémiotique, et interroge en quoi ces déplacements ébranlent l’autorité des écrivaines. Enfin, une étude de la réception de ces traductions en France, en Grande Bretagne et aux États-Unis vient enrichir l’analyse textuelle. À cette étape, les critiques éditoriales et universitaires ainsi que les choix éditoriaux relatifs au paratexte sont scrutés de façon à mettre en lumière les processus décisionnels, les discours et les tropes sous-tendant la mise en marché et la consommation de ces traductions. L’analyse des originaux révèle tout d’abord qu’à travers leurs textes, les auteures sont des agentes actives de changement social. Elles s’insurgent, chacune à sa manière, contre les discours hégémoniques tant locaux qu’occidentaux, et (ré-)imaginent leurs sociétés et leurs nations. Ce faisant, elles se créent leur propre espace discursif dans la sphère publique. Toutefois, la thèse montre que dans la plupart des traductions, les discours dissidents sont neutralisés, l’agentivité et la subjectivité des écrivaines minées au profit d’un discours dominant orientaliste. Ce même discours semble sous-tendre la réception des romans en traduction. Dans ce discours réifiant, l’expression de la différence culturelle est inextricablement imbriquée dans l’expression de la différence sexuelle: la « femme arabe » est la victime d’une religion islamique et d’une culture arabe essentiellement misogynes et arriérées. L’étude suggère, cependant, que ce sont moins les interventions des traductrices que les décisions des éditeurs, le travail de médiation opéré par les critiques, et l’intérêt (ou le désintérêt) des universitaires qui influencent le plus la manière dont ces romans sont mis en marché et reçus dans les nouveaux contextes. L’auteure conclut par rappeler l’importance d’une éthique de la traduction qui transcende toute approche binaire et se fonde sur une lecture éthique des textes qui fait ressortir le lien entre la poétique et la politique. Enfin, elle propose une lecture basée sur la reconnaissance du caractère situé du texte traduit comme du sujet lisant/traduisant.