71 resultados para Boltzmann s H theorem
Resumo:
Les tâches de vision artificielle telles que la reconnaissance d’objets demeurent irrésolues à ce jour. Les algorithmes d’apprentissage tels que les Réseaux de Neurones Artificiels (RNA), représentent une approche prometteuse permettant d’apprendre des caractéristiques utiles pour ces tâches. Ce processus d’optimisation est néanmoins difficile. Les réseaux profonds à base de Machine de Boltzmann Restreintes (RBM) ont récemment été proposés afin de guider l’extraction de représentations intermédiaires, grâce à un algorithme d’apprentissage non-supervisé. Ce mémoire présente, par l’entremise de trois articles, des contributions à ce domaine de recherche. Le premier article traite de la RBM convolutionelle. L’usage de champs réceptifs locaux ainsi que le regroupement d’unités cachées en couches partageant les même paramètres, réduit considérablement le nombre de paramètres à apprendre et engendre des détecteurs de caractéristiques locaux et équivariant aux translations. Ceci mène à des modèles ayant une meilleure vraisemblance, comparativement aux RBMs entraînées sur des segments d’images. Le deuxième article est motivé par des découvertes récentes en neurosciences. Il analyse l’impact d’unités quadratiques sur des tâches de classification visuelles, ainsi que celui d’une nouvelle fonction d’activation. Nous observons que les RNAs à base d’unités quadratiques utilisant la fonction softsign, donnent de meilleures performances de généralisation. Le dernière article quand à lui, offre une vision critique des algorithmes populaires d’entraînement de RBMs. Nous montrons que l’algorithme de Divergence Contrastive (CD) et la CD Persistente ne sont pas robustes : tous deux nécessitent une surface d’énergie relativement plate afin que leur chaîne négative puisse mixer. La PCD à "poids rapides" contourne ce problème en perturbant légèrement le modèle, cependant, ceci génère des échantillons bruités. L’usage de chaînes tempérées dans la phase négative est une façon robuste d’adresser ces problèmes et mène à de meilleurs modèles génératifs.
Resumo:
Dans ce mémoire, nous étudierons quelques propriétés algébriques, géométriques et topologiques des surfaces de Riemann compactes. Deux grand sujets seront traités. Tout d'abord, en utilisant le fait que toute surface de Riemann compacte de genre g plus grand ou égal à 2 possède un nombre fini de points de Weierstrass, nous allons pouvoir conclure que ces surfaces possèdent un nombre fini d'automorphismes. Ensuite, nous allons étudier de plus près la formule de trace d'Eichler. Ce théorème nous permet de trouver le caractère d'un automorphisme agissant sur l'espace des q-différentielles holomorphes. Nous commencerons notre étude en utilisant la quartique de Klein. Nous effectuerons un exemple de calcul utilisant le théorème d'Eichler, ce qui nous permettra de nous familiariser avec l'énoncé du théorème. Finalement, nous allons démontrer la formule de trace d'Eichler, en prenant soin de traiter le cas où l'automorphisme agit sans point fixe séparément du cas où l'automorphisme possède des points fixes.
Resumo:
La construction d'un quotient, en topologie, est relativement simple; si $G$ est un groupe topologique agissant sur un espace topologique $X$, on peut considérer l'application naturelle de $X$ dans $X/G$, l'espace d'orbites muni de la topologie quotient. En géométrie algébrique, malheureusement, il n'est généralement pas possible de munir l'espace d'orbites d'une structure de variété. Dans le cas de l'action d'un groupe linéairement réductif $G$ sur une variété projective $X$, la théorie géométrique des invariants nous permet toutefois de construire un morphisme de variété d'un ouvert $U$ de $X$ vers une variété projective $X//U$, se rapprochant autant que possible d'une application quotient, au sens topologique du terme. Considérons par exemple $X\subseteq P^{n}$, une $k$-variété projective sur laquelle agit un groupe linéairement réductif $G$ et supposons que cette action soit induite par une action linéaire de $G$ sur $A^{n+1}$. Soit $\widehat{X}\subseteq A^{n+1}$, le cône affine au dessus de $\X$. Par un théorème de la théorie classique des invariants, il existe alors des invariants homogènes $f_{1},...,f_{r}\in C[\widehat{X}]^{G}$ tels que $$C[\widehat{X}]^{G}= C[f_{1},...,f_{r}].$$ On appellera le nilcone, que l'on notera $N$, la sous-variété de $\X$ définie par le locus des invariants $f_{1},...,f_{r}$. Soit $Proj(C[\widehat{X}]^{G})$, le spectre projectif de l'anneau des invariants. L'application rationnelle $$\pi:X\dashrightarrow Proj(C[f_{1},...,f_{r}])$$ induite par l'inclusion de $C[\widehat{X}]^{G}$ dans $C[\widehat{X}]$ est alors surjective, constante sur les orbites et sépare les orbites autant qu'il est possible de le faire; plus précisément, chaque fibre contient exactement une orbite fermée. Pour obtenir une application régulière satisfaisant les mêmes propriétés, il est nécessaire de jeter les points du nilcone. On obtient alors l'application quotient $$\pi:X\backslash N\rightarrow Proj(C[f_{1},...,f_{r}]).$$ Le critère de Hilbert-Mumford, dû à Hilbert et repris par Mumford près d'un demi-siècle plus tard, permet de décrire $N$ sans connaître les $f_{1},...,f_{r}$. Ce critère est d'autant plus utile que les générateurs de l'anneau des invariants ne sont connus que dans certains cas particuliers. Malgré les applications concrètes de ce théorème en géométrie algébrique classique, les démonstrations que l'on en trouve dans la littérature sont généralement données dans le cadre peu accessible des schémas. L'objectif de ce mémoire sera, entre autres, de donner une démonstration de ce critère en utilisant autant que possible les outils de la géométrie algébrique classique et de l'algèbre commutative. La version que nous démontrerons est un peu plus générale que la version originale de Hilbert \cite{hilbert} et se retrouve, par exemple, dans \cite{kempf}. Notre preuve est valide sur $C$ mais pourrait être généralisée à un corps $k$ de caractéristique nulle, pas nécessairement algébriquement clos. Dans la seconde partie de ce mémoire, nous étudierons la relation entre la construction précédente et celle obtenue en incluant les covariants en plus des invariants. Nous démontrerons dans ce cas un critère analogue au critère de Hilbert-Mumford (Théorème 6.3.2). C'est un théorème de Brion pour lequel nous donnerons une version un peu plus générale. Cette version, de même qu'une preuve simplifiée d'un théorème de Grosshans (Théorème 6.1.7), sont les éléments de ce mémoire que l'on ne retrouve pas dans la littérature.
Resumo:
L'un des modèles d'apprentissage non-supervisé générant le plus de recherche active est la machine de Boltzmann --- en particulier la machine de Boltzmann restreinte, ou RBM. Un aspect important de l'entraînement ainsi que l'exploitation d'un tel modèle est la prise d'échantillons. Deux développements récents, la divergence contrastive persistante rapide (FPCD) et le herding, visent à améliorer cet aspect, se concentrant principalement sur le processus d'apprentissage en tant que tel. Notamment, le herding renonce à obtenir un estimé précis des paramètres de la RBM, définissant plutôt une distribution par un système dynamique guidé par les exemples d'entraînement. Nous généralisons ces idées afin d'obtenir des algorithmes permettant d'exploiter la distribution de probabilités définie par une RBM pré-entraînée, par tirage d'échantillons qui en sont représentatifs, et ce sans que l'ensemble d'entraînement ne soit nécessaire. Nous présentons trois méthodes: la pénalisation d'échantillon (basée sur une intuition théorique) ainsi que la FPCD et le herding utilisant des statistiques constantes pour la phase positive. Ces méthodes définissent des systèmes dynamiques produisant des échantillons ayant les statistiques voulues et nous les évaluons à l'aide d'une méthode d'estimation de densité non-paramétrique. Nous montrons que ces méthodes mixent substantiellement mieux que la méthode conventionnelle, l'échantillonnage de Gibbs.
Resumo:
La théorie de l'information quantique étudie les limites fondamentales qu'imposent les lois de la physique sur les tâches de traitement de données comme la compression et la transmission de données sur un canal bruité. Cette thèse présente des techniques générales permettant de résoudre plusieurs problèmes fondamentaux de la théorie de l'information quantique dans un seul et même cadre. Le théorème central de cette thèse énonce l'existence d'un protocole permettant de transmettre des données quantiques que le receveur connaît déjà partiellement à l'aide d'une seule utilisation d'un canal quantique bruité. Ce théorème a de plus comme corollaires immédiats plusieurs théorèmes centraux de la théorie de l'information quantique. Les chapitres suivants utilisent ce théorème pour prouver l'existence de nouveaux protocoles pour deux autres types de canaux quantiques, soit les canaux de diffusion quantiques et les canaux quantiques avec information supplémentaire fournie au transmetteur. Ces protocoles traitent aussi de la transmission de données quantiques partiellement connues du receveur à l'aide d'une seule utilisation du canal, et ont comme corollaires des versions asymptotiques avec et sans intrication auxiliaire. Les versions asymptotiques avec intrication auxiliaire peuvent, dans les deux cas, être considérées comme des versions quantiques des meilleurs théorèmes de codage connus pour les versions classiques de ces problèmes. Le dernier chapitre traite d'un phénomène purement quantique appelé verrouillage: il est possible d'encoder un message classique dans un état quantique de sorte qu'en lui enlevant un sous-système de taille logarithmique par rapport à sa taille totale, on puisse s'assurer qu'aucune mesure ne puisse avoir de corrélation significative avec le message. Le message se trouve donc «verrouillé» par une clé de taille logarithmique. Cette thèse présente le premier protocole de verrouillage dont le critère de succès est que la distance trace entre la distribution jointe du message et du résultat de la mesure et le produit de leur marginales soit suffisamment petite.
Resumo:
Ordered conflict resolution: understanding her tenets cost Keynes his life and Arrow to live under extortionate threat. Now that the Supreme Court of the United States has conquered the Informal Capital Market Cartel’s stranglehold on academic freedom, the literature can now vindicate impossibility- resolved social choice theory in the venue of a marriage between ethics and economics; as Sen has pled need be the case. This paper introduces ordered conflict resolution and her two impossibility-resolving axioms in effecting (individual: societal) well-being transitivity.
Resumo:
Le principe de contraction de Banach, qui garantit l'existence d'un point fixe d'une contraction d'un espace métrique complet à valeur dans lui-même, est certainement le plus connu des théorèmes de point fixe. Dans plusieurs situations concrètes, nous sommes cependant amenés à considérer une contraction qui n'est définie que sur un sous-ensemble de cet espace. Afin de garantir l'existence d'un point fixe, nous verrons que d'autres hypothèses sont évidemment nécessaires. Le théorème de Caristi, qui garantit l'existence d'un point fixe d'une fonction d'un espace métrique complet à valeur dans lui-même et respectant une condition particulière sur d(x,f(x)), a plus tard été généralisé aux fonctions multivoques. Nous énoncerons des théorèmes de point fixe pour des fonctions multivoques définies sur un sous-ensemble d'un espace métrique grâce, entre autres, à l'introduction de notions de fonctions entrantes. Cette piste de recherche s'inscrit dans les travaux très récents de mathématiciens français et polonais. Nous avons obtenu des généralisations aux espaces de Fréchet et aux espaces de jauge de quelques théorèmes, dont les théorèmes de Caristi et le principe variationnel d'Ekeland. Nous avons également généralisé des théorèmes de point fixe pour des fonctions qui sont définies sur un sous-ensemble d'un espace de Fréchet ou de jauge. Pour ce faire, nous avons eu recours à de nouveaux types de contractions; les contractions sur les espaces de Fréchet introduites par Cain et Nashed [CaNa] en 1971 et les contractions généralisées sur les espaces de jauge introduites par Frigon [Fr] en 2000.
Resumo:
Une nouvelle notion d'enlacement pour les paires d'ensembles $A\subset B$, $P\subset Q$ dans un espace de Hilbert de type $X=Y\oplus Y^{\perp}$ avec $Y$ séparable, appellée $\tau$-enlacement, est définie. Le modèle pour cette définition est la généralisation de l'enlacement homotopique et de l'enlacement au sens de Benci-Rabinowitz faite par Frigon. En utilisant la théorie du degré développée dans un article de Kryszewski et Szulkin, plusieurs exemples de paires $\tau$-enlacées sont donnés. Un lemme de déformation est établi et utilisé conjointement à la notion de $\tau$-enlacement pour prouver un théorème d'existence de point critique pour une certaine classe de fonctionnelles sur $X$. De plus, une caractérisation de type minimax de la valeur critique correspondante est donnée. Comme corollaire de ce théorème, des conditions sont énoncées sous lesquelles l'existence de deux points critiques distincts est garantie. Deux autres théorèmes de point critiques sont démontrés dont l'un généralise le théorème principal de l'article de Kryszewski et Szulkin mentionné ci-haut.
Resumo:
Ordered conflict resolution: understanding her tenets cost Keynes his life and Arrow to live under extortionate threat. Now that the Supreme Court of the United States has conquered the Informal Capital Market Cartel’s stranglehold on academic freedom, the literature can now vindicate impossibility- resolved social choice theory in the venue of a marriage between ethics and economics; as Sen has pled need be the case. This paper introduces ordered conflict resolution and her two impossibility-resolving axioms in effecting (individual: societal) well-being transitivity.
Resumo:
Les avancés dans le domaine de l’intelligence artificielle, permettent à des systèmes informatiques de résoudre des tâches de plus en plus complexes liées par exemple à la vision, à la compréhension de signaux sonores ou au traitement de la langue. Parmi les modèles existants, on retrouve les Réseaux de Neurones Artificiels (RNA), dont la popularité a fait un grand bond en avant avec la découverte de Hinton et al. [22], soit l’utilisation de Machines de Boltzmann Restreintes (RBM) pour un pré-entraînement non-supervisé couche après couche, facilitant grandement l’entraînement supervisé du réseau à plusieurs couches cachées (DBN), entraînement qui s’avérait jusqu’alors très difficile à réussir. Depuis cette découverte, des chercheurs ont étudié l’efficacité de nouvelles stratégies de pré-entraînement, telles que l’empilement d’auto-encodeurs traditionnels(SAE) [5, 38], et l’empilement d’auto-encodeur débruiteur (SDAE) [44]. C’est dans ce contexte qu’a débuté la présente étude. Après un bref passage en revue des notions de base du domaine de l’apprentissage machine et des méthodes de pré-entraînement employées jusqu’à présent avec les modules RBM, AE et DAE, nous avons approfondi notre compréhension du pré-entraînement de type SDAE, exploré ses différentes propriétés et étudié des variantes de SDAE comme stratégie d’initialisation d’architecture profonde. Nous avons ainsi pu, entre autres choses, mettre en lumière l’influence du niveau de bruit, du nombre de couches et du nombre d’unités cachées sur l’erreur de généralisation du SDAE. Nous avons constaté une amélioration de la performance sur la tâche supervisée avec l’utilisation des bruits poivre et sel (PS) et gaussien (GS), bruits s’avérant mieux justifiés que celui utilisé jusqu’à présent, soit le masque à zéro (MN). De plus, nous avons démontré que la performance profitait d’une emphase imposée sur la reconstruction des données corrompues durant l’entraînement des différents DAE. Nos travaux ont aussi permis de révéler que le DAE était en mesure d’apprendre, sur des images naturelles, des filtres semblables à ceux retrouvés dans les cellules V1 du cortex visuel, soit des filtres détecteurs de bordures. Nous aurons par ailleurs pu montrer que les représentations apprises du SDAE, composées des caractéristiques ainsi extraites, s’avéraient fort utiles à l’apprentissage d’une machine à vecteurs de support (SVM) linéaire ou à noyau gaussien, améliorant grandement sa performance de généralisation. Aussi, nous aurons observé que similairement au DBN, et contrairement au SAE, le SDAE possédait une bonne capacité en tant que modèle générateur. Nous avons également ouvert la porte à de nouvelles stratégies de pré-entraînement et découvert le potentiel de l’une d’entre elles, soit l’empilement d’auto-encodeurs rebruiteurs (SRAE).
Resumo:
La caractérisation de matériaux par spectroscopie optique d’émission d’un plasma induit par laser (LIPS) suscite un intérêt qui ne va que s’amplifiant, et dont les applications se multiplient. L’objectif de ce mémoire est de vérifier l’influence du choix des raies spectrales sur certaines mesures du plasma, soit la densité électronique et la température d’excitation des atomes neutres et ionisés une fois, ainsi que la température d’ionisation. Nos mesures sont intégrées spatialement et résolues temporellement, ce qui est typique des conditions opératoires du LIPS, et nous avons utilisé pour nos travaux des cibles binaires d’aluminium contenant des éléments à l’état de trace (Al-Fe et Al-Mg). Premièrement, nous avons mesuré la densité électronique à l’aide de l’élargissement Stark de raies de plusieurs espèces (Al II, Fe II, Mg II, Fe I, Mg I, Halpha). Nous avons observé que les densités absolues avaient un comportement temporel différent en fonction de l’espèce. Les raies ioniques donnent des densités électroniques systématiquement plus élevées (jusqu’à 50 % à 200 ns après l’allumage du plasma), et décroissent plus rapidement que les densités issues des raies neutres. Par ailleurs, les densités obtenues par les éléments traces Fe et Mg sont moindres que les densités obtenues par l’observation de la raie communément utilisée Al II à 281,618 nm. Nous avons parallèlement étudié la densité électronique déterminée à l’aide de la raie de l’hydrogène Halpha, et la densité électronique ainsi obtenue a un comportement temporel similaire à celle obtenue par la raie Al II à 281,618 nm. Les deux espèces partagent probablement la même distribution spatiale à l’intérieur du plasma. Finalement, nous avons mesuré la température d’excitation du fer (neutre et ionisé, à l’état de trace dans nos cibles), ainsi que la température d’ionisation, à l’aide de diagrammes de Boltzmann et de Saha-Boltzmann, respectivement. À l’instar de travaux antérieurs (Barthélémy et al., 2005), il nous est apparu que les différentes températures convergeaient vers une température unique (considérant nos incertitudes) après 2-3 microsecondes. Les différentes températures mesurées de 0 à 2 microsecondes ne se recoupent pas, ce qui pourrait s’expliquer soit par un écart à l’équilibre thermodynamique local, soit en considérant un plasma inhomogène où la distribution des éléments dans la plume n’est pas similaire d’un élément à l’autre, les espèces énergétiques se retrouvant au cœur du plasma, plus chaud, alors que les espèces de moindre énergie se retrouvant principalement en périphérie.
Resumo:
A classical argument of de Finetti holds that Rationality implies Subjective Expected Utility (SEU). In contrast, the Knightian distinction between Risk and Ambiguity suggests that a rational decision maker would obey the SEU paradigm when the information available is in some sense good, and would depart from it when the information available is not good. Unlike de Finetti's, however, this view does not rely on a formal argument. In this paper, we study the set of all information structures that might be availabe to a decision maker, and show that they are of two types: those compatible with SEU theory and those for which SEU theory must fail. We also show that the former correspond to "good" information, while the latter correspond to information that is not good. Thus, our results provide a formalization of the distinction between Risk and Ambiguity. As a consequence of our main theorem (Theorem 2, Section 8), behavior not-conforming to SEU theory is bound to emerge in the presence of Ambiguity. We give two examples of situations of Ambiguity. One concerns the uncertainty on the class of measure zero events, the other is a variation on Ellberg's three-color urn experiment. We also briefly link our results to two other strands of literature: the study of ambiguous events and the problem of unforeseen contingencies. We conclude the paper by re-considering de Finetti's argument in light of our findings.
Resumo:
In the context of decision making under uncertainty, we formalize the concept of analogy: an analogy between two decision problems is a mapping that transforms one problem into the other while preserving the problem's structure. We identify the basic structure of a decision problem, and provide a representation of the mappings that pre- serve this structure. We then consider decision makers who use multiple analogies. Our main results are a representation theorem for "aggregators" of analogies satisfying certain minimal requirements, and the identification of preferences emerging from analogical reasoning. We show that a large variety of multiple-prior preferences can be thought of as emerging from analogical reasoning.
Resumo:
Cette thèse traite de la classification analytique du déploiement de systèmes différentiels linéaires ayant une singularité irrégulière. Elle est composée de deux articles sur le sujet: le premier présente des résultats obtenus lors de l'étude de la confluence de l'équation hypergéométrique et peut être considéré comme un cas particulier du second; le deuxième contient les théorèmes et résultats principaux. Dans les deux articles, nous considérons la confluence de deux points singuliers réguliers en un point singulier irrégulier et nous étudions les conséquences de la divergence des solutions au point singulier irrégulier sur le comportement des solutions du système déployé. Pour ce faire, nous recouvrons un voisinage de l'origine (de manière ramifiée) dans l'espace du paramètre de déploiement $\epsilon$. La monodromie d'une base de solutions bien choisie est directement reliée aux matrices de Stokes déployées. Ces dernières donnent une interprétation géométrique aux matrices de Stokes, incluant le lien (existant au moins pour les cas génériques) entre la divergence des solutions à $\epsilon=0$ et la présence de solutions logarithmiques autour des points singuliers réguliers lors de la résonance. La monodromie d'intégrales premières de systèmes de Riccati correspondants est aussi interprétée en fonction des éléments des matrices de Stokes déployées. De plus, dans le second article, nous donnons le système complet d'invariants analytiques pour le déploiement de systèmes différentiels linéaires $x^2y'=A(x)y$ ayant une singularité irrégulière de rang de Poincaré $1$ à l'origine au-dessus d'un voisinage fixé $\mathbb{D}_r$ dans la variable $x$. Ce système est constitué d'une partie formelle, donnée par des polynômes, et d'une partie analytique, donnée par une classe d'équivalence de matrices de Stokes déployées. Pour chaque valeur du paramètre $\epsilon$ dans un secteur pointé à l'origine d'ouverture plus grande que $2\pi$, nous recouvrons l'espace de la variable, $\mathbb{D}_r$, avec deux secteurs et, au-dessus de chacun, nous choisissons une base de solutions du système déployé. Cette base sert à définir les matrices de Stokes déployées. Finalement, nous prouvons un théorème de réalisation des invariants qui satisfont une condition nécessaire et suffisante, identifiant ainsi l'ensemble des modules.
Resumo:
Cette thèse porte sur une classe d'algorithmes d'apprentissage appelés architectures profondes. Il existe des résultats qui indiquent que les représentations peu profondes et locales ne sont pas suffisantes pour la modélisation des fonctions comportant plusieurs facteurs de variation. Nous sommes particulièrement intéressés par ce genre de données car nous espérons qu'un agent intelligent sera en mesure d'apprendre à les modéliser automatiquement; l'hypothèse est que les architectures profondes sont mieux adaptées pour les modéliser. Les travaux de Hinton (2006) furent une véritable percée, car l'idée d'utiliser un algorithme d'apprentissage non-supervisé, les machines de Boltzmann restreintes, pour l'initialisation des poids d'un réseau de neurones supervisé a été cruciale pour entraîner l'architecture profonde la plus populaire, soit les réseaux de neurones artificiels avec des poids totalement connectés. Cette idée a été reprise et reproduite avec succès dans plusieurs contextes et avec une variété de modèles. Dans le cadre de cette thèse, nous considérons les architectures profondes comme des biais inductifs. Ces biais sont représentés non seulement par les modèles eux-mêmes, mais aussi par les méthodes d'entraînement qui sont souvent utilisés en conjonction avec ceux-ci. Nous désirons définir les raisons pour lesquelles cette classe de fonctions généralise bien, les situations auxquelles ces fonctions pourront être appliquées, ainsi que les descriptions qualitatives de telles fonctions. L'objectif de cette thèse est d'obtenir une meilleure compréhension du succès des architectures profondes. Dans le premier article, nous testons la concordance entre nos intuitions---que les réseaux profonds sont nécessaires pour mieux apprendre avec des données comportant plusieurs facteurs de variation---et les résultats empiriques. Le second article est une étude approfondie de la question: pourquoi l'apprentissage non-supervisé aide à mieux généraliser dans un réseau profond? Nous explorons et évaluons plusieurs hypothèses tentant d'élucider le fonctionnement de ces modèles. Finalement, le troisième article cherche à définir de façon qualitative les fonctions modélisées par un réseau profond. Ces visualisations facilitent l'interprétation des représentations et invariances modélisées par une architecture profonde.