28 resultados para Datasets
Resumo:
Malgré des progrès constants en termes de capacité de calcul, mémoire et quantité de données disponibles, les algorithmes d'apprentissage machine doivent se montrer efficaces dans l'utilisation de ces ressources. La minimisation des coûts est évidemment un facteur important, mais une autre motivation est la recherche de mécanismes d'apprentissage capables de reproduire le comportement d'êtres intelligents. Cette thèse aborde le problème de l'efficacité à travers plusieurs articles traitant d'algorithmes d'apprentissage variés : ce problème est vu non seulement du point de vue de l'efficacité computationnelle (temps de calcul et mémoire utilisés), mais aussi de celui de l'efficacité statistique (nombre d'exemples requis pour accomplir une tâche donnée). Une première contribution apportée par cette thèse est la mise en lumière d'inefficacités statistiques dans des algorithmes existants. Nous montrons ainsi que les arbres de décision généralisent mal pour certains types de tâches (chapitre 3), de même que les algorithmes classiques d'apprentissage semi-supervisé à base de graphe (chapitre 5), chacun étant affecté par une forme particulière de la malédiction de la dimensionalité. Pour une certaine classe de réseaux de neurones, appelés réseaux sommes-produits, nous montrons qu'il peut être exponentiellement moins efficace de représenter certaines fonctions par des réseaux à une seule couche cachée, comparé à des réseaux profonds (chapitre 4). Nos analyses permettent de mieux comprendre certains problèmes intrinsèques liés à ces algorithmes, et d'orienter la recherche dans des directions qui pourraient permettre de les résoudre. Nous identifions également des inefficacités computationnelles dans les algorithmes d'apprentissage semi-supervisé à base de graphe (chapitre 5), et dans l'apprentissage de mélanges de Gaussiennes en présence de valeurs manquantes (chapitre 6). Dans les deux cas, nous proposons de nouveaux algorithmes capables de traiter des ensembles de données significativement plus grands. Les deux derniers chapitres traitent de l'efficacité computationnelle sous un angle différent. Dans le chapitre 7, nous analysons de manière théorique un algorithme existant pour l'apprentissage efficace dans les machines de Boltzmann restreintes (la divergence contrastive), afin de mieux comprendre les raisons qui expliquent le succès de cet algorithme. Finalement, dans le chapitre 8 nous présentons une application de l'apprentissage machine dans le domaine des jeux vidéo, pour laquelle le problème de l'efficacité computationnelle est relié à des considérations d'ingénierie logicielle et matérielle, souvent ignorées en recherche mais ô combien importantes en pratique.
Resumo:
La phosphorylation est une modification post-traductionnelle modulant l’activité, la conformation ou la localisation d’une protéine et régulant divers processus. Les kinases et phosphatases sont responsables de la dynamique de phosphorylation et agissent de manière coordonnée. L’activation anormale ou la dérégulation de kinases peuvent conduire au développement de cancers ou de désordres métaboliques. Les récepteurs tyrosine kinase (RTKs) sont souvent impliqués dans des maladies et la compréhension des mécanismes régissant leur régulation permet de déterminer les effets anticipés sur leurs substrats. Dans ce contexte, le but de cette thèse est d’identifier les évènements de phosphorylation intervenant dans la voie de l’insuline chez la drosophile impliquant un RTK : le récepteur de l’insuline (InR). La cascade de phosphorylation déclenchée suite à l’activation du récepteur est conservée chez le mammifère. Afin d’étudier le phosphoprotéome de cellules S2 de drosophile, nous avons utilisé une étape d’enrichissement de phosphopeptides sur dioxyde de titane suivie de leur séparation par chromatographie liquide (LC) et mobilité ionique (FAIMS). Les phosphopeptides sont analysés par spectrométrie de masse en tandem à haute résolution. Nous avons d’abord démontré les bénéfices de l’utilisation du FAIMS comparativement à une étude conventionnelle en rapportant une augmentation de 50 % dans le nombre de phosphopeptides identifiés avec FAIMS. Cette technique permet de séparer des phosphoisomères difficilement distinguables par LC et l’acquisition de spectres MS/MS distincts où la localisation précise du phosphate est déterminée. Nous avons appliqué cette approche pour l’étude des phosphoprotéomes de cellules S2 contrôles ou traitées à l’insuline et avons identifié 32 phosphopeptides (sur 2 660 quantifiés) pour lesquels la phosphorylation est modulée. Étonnamment, 50 % des cibles régulées possèdent un site consensus pour la kinase CK2. Une stratégie d’inhibition par RNAi a été implémentée afin d’investiguer le rôle de CK2 dans la voie de l’insuline. Nous avons identifié 6 phosphoprotéines (CG30085, su(var)205, scny, protein CDV3 homolog, D1 et mu2) positivement régulées suite à l’insuline et négativement modulées après le traitement par RNAi CK2. Par essai kinase in vitro, nous avons identifié 29 cibles directes de CK2 dont 15 corrélaient avec les résultats obtenus par RNAi. Nous avons démontré que la phosphorylation de su(var)205 (S15) était modulée par l’insuline en plus d’être une cible directe de CK2 suite à l’expérience RNAi et à l’essai kinase. L’analyse des données phosphoprotéomiques a mis en évidence des phosphopeptides isomériques dont certains étaient séparables par FAIMS. Nous avons déterminé leur fréquence lors d’études à grande échelle grâce à deux algorithmes. Le script basé sur les différences de temps de rétention entre isomères a identifié 64 phosphoisomères séparés par LC chez la souris et le rat (moins de 1 % des peptides identifiés). Chez la drosophile, 117 ont été répertoriés en combinaison avec une approche ciblée impliquant des listes d’inclusion. Le second algorithme basé sur la présence d’ions caractéristiques suite à la fragmentation de formes qui co-éluent a rapporté 23 paires isomériques. L’importance de pouvoir distinguer des phosphoisomères est capitale dans le but d’associer une fonction biologique à un site de phosphorylation précis qui doit être identifié avec confiance.
Resumo:
Naïvement perçu, le processus d’évolution est une succession d’événements de duplication et de mutations graduelles dans le génome qui mènent à des changements dans les fonctions et les interactions du protéome. La famille des hydrolases de guanosine triphosphate (GTPases) similaire à Ras constitue un bon modèle de travail afin de comprendre ce phénomène fondamental, car cette famille de protéines contient un nombre limité d’éléments qui diffèrent en fonctionnalité et en interactions. Globalement, nous désirons comprendre comment les mutations singulières au niveau des GTPases affectent la morphologie des cellules ainsi que leur degré d’impact sur les populations asynchrones. Mon travail de maîtrise vise à classifier de manière significative différents phénotypes de la levure Saccaromyces cerevisiae via l’analyse de plusieurs critères morphologiques de souches exprimant des GTPases mutées et natives. Notre approche à base de microscopie et d’analyses bioinformatique des images DIC (microscopie d’interférence différentielle de contraste) permet de distinguer les phénotypes propres aux cellules natives et aux mutants. L’emploi de cette méthode a permis une détection automatisée et une caractérisation des phénotypes mutants associés à la sur-expression de GTPases constitutivement actives. Les mutants de GTPases constitutivement actifs Cdc42 Q61L, Rho5 Q91H, Ras1 Q68L et Rsr1 G12V ont été analysés avec succès. En effet, l’implémentation de différents algorithmes de partitionnement, permet d’analyser des données qui combinent les mesures morphologiques de population native et mutantes. Nos résultats démontrent que l’algorithme Fuzzy C-Means performe un partitionnement efficace des cellules natives ou mutantes, où les différents types de cellules sont classifiés en fonction de plusieurs facteurs de formes cellulaires obtenus à partir des images DIC. Cette analyse démontre que les mutations Cdc42 Q61L, Rho5 Q91H, Ras1 Q68L et Rsr1 G12V induisent respectivement des phénotypes amorphe, allongé, rond et large qui sont représentés par des vecteurs de facteurs de forme distincts. Ces distinctions sont observées avec différentes proportions (morphologie mutante / morphologie native) dans les populations de mutants. Le développement de nouvelles méthodes automatisées d’analyse morphologique des cellules natives et mutantes s’avère extrêmement utile pour l’étude de la famille des GTPases ainsi que des résidus spécifiques qui dictent leurs fonctions et réseau d’interaction. Nous pouvons maintenant envisager de produire des mutants de GTPases qui inversent leur fonction en ciblant des résidus divergents. La substitution fonctionnelle est ensuite détectée au niveau morphologique grâce à notre nouvelle stratégie quantitative. Ce type d’analyse peut également être transposé à d’autres familles de protéines et contribuer de manière significative au domaine de la biologie évolutive.
Resumo:
Pendant la dernière décennie nous avons vu une transformation incroyable du monde de la musique qui est passé des cassettes et disques compacts à la musique numérique en ligne. Avec l'explosion de la musique numérique, nous avons besoin de systèmes de recommandation de musique pour choisir les chansons susceptibles d’être appréciés à partir de ces énormes bases de données en ligne ou personnelles. Actuellement, la plupart des systèmes de recommandation de musique utilisent l’algorithme de filtrage collaboratif ou celui du filtrage à base de contenu. Dans ce mémoire, nous proposons un algorithme hybride et original qui combine le filtrage collaboratif avec le filtrage basé sur étiquetage, amélioré par la technique de filtrage basée sur le contexte d’utilisation afin de produire de meilleures recommandations. Notre approche suppose que les préférences de l'utilisateur changent selon le contexte d'utilisation. Par exemple, un utilisateur écoute un genre de musique en conduisant vers son travail, un autre type en voyageant avec la famille en vacances, un autre pendant une soirée romantique ou aux fêtes. De plus, si la sélection a été générée pour plus d'un utilisateur (voyage en famille, fête) le système proposera des chansons en fonction des préférences de tous ces utilisateurs. L'objectif principal de notre système est de recommander à l'utilisateur de la musique à partir de sa collection personnelle ou à partir de la collection du système, les nouveautés et les prochains concerts. Un autre objectif de notre système sera de collecter des données provenant de sources extérieures, en s'appuyant sur des techniques de crawling et sur les flux RSS pour offrir des informations reliées à la musique tels que: les nouveautés, les prochains concerts, les paroles et les artistes similaires. Nous essayerons d’unifier des ensembles de données disponibles gratuitement sur le Web tels que les habitudes d’écoute de Last.fm, la base de données de la musique de MusicBrainz et les étiquettes des MusicStrands afin d'obtenir des identificateurs uniques pour les chansons, les albums et les artistes.
Resumo:
Site web associé au mémoire: http://daou.st/JSreal
Resumo:
L'un des principaux défis de l'interprétation radiographique réside dans la compréhension de l’anatomie radiographique, laquelle est intrinsèquement liée à la disposition tridimensionnelle des structures anatomiques et à l’impact du positionnement du tube radiogène vis-à-vis de ces structures lors de l'acquisition de l'image. Traditionnellement, des radiographies obtenues selon des projections standard sont employées pour enseigner l'anatomie radiographique en médecine vétérinaire. La tomodensitométrie − ou communément appelée CT (Computed Tomography) − partage plusieurs des caractéristiques de la radiographie en ce qui a trait à la génération des images. À l’aide d'un plug-in spécialement développé (ORS Visual ©), la matrice contenant les images CT est déformée pour reproduire les effets géométriques propres au positionnement du tube et du détecteur vis-à-vis du patient radiographié, tout particulièrement les effets de magnification et de distorsion. Afin d'évaluer le rendu des images simulées, différentes régions corporelles ont été imagées au CT chez deux chiens, un chat et un cheval, avant d'être radiographiées suivant des protocoles d'examens standards. Pour valider le potentiel éducatif des simulations, dix radiologistes certifiés ont comparé à l'aveugle neuf séries d'images radiographiques simulées aux séries radiographiques standard. Plusieurs critères ont été évalués, soient le grade de visualisation des marqueurs anatomiques, le réalisme et la qualité radiographique des images, le positionnement du patient et le potentiel éducatif de celles-ci pour différents niveaux de formation vétérinaire. Les résultats généraux indiquent que les images radiographiques simulées à partir de ce modèle sont suffisamment représentatives de la réalité pour être employées dans l’enseignement de l’anatomie radiographique en médecine vétérinaire.
Resumo:
Deux tiers des cancers du sein expriment des récepteurs hormonaux ostrogéniques (tumeur ER-positive) et la croissance de ces tumeurs est stimulée par l’estrogène. Des traitements adjuvant avec des anti-estrogènes, tel que le Tamoxifen et les Inhibiteurs de l’Aromatase peuvent améliorer la survie des patientes atteinte de cancer du sein. Toutefois la thérapie hormonale n’est pas efficace dans toutes les tumeurs mammaires ER-positives. Les tumeurs peuvent présenter avec une résistance intrinsèque ou acquise au Tamoxifen. Présentement, c’est impossible de prédire quelle patiente va bénéficier ou non du Tamoxifen. Des études préliminaires du laboratoire de Dr. Mader, ont identifié le niveau d’expression de 20 gènes, qui peuvent prédire la réponse thérapeutique au Tamoxifen (survie sans récidive). Ces marqueurs, identifié en utilisant une analyse bioinformatique de bases de données publiques de profils d’expression des gènes, sont capables de discriminer quelles patientes vont mieux répondre au Tamoxifen. Le but principal de cette étude est de développer un outil de PCR qui peut évaluer le niveau d’expression de ces 20 gènes prédictif et de tester cette signature de 20 gènes dans une étude rétrospective, en utilisant des tumeurs de cancer du sein en bloc de paraffine, de patients avec une histoire médicale connue. Cet outil aurait donc un impact direct dans la pratique clinique. Des traitements futiles pourraient être éviter et l’indentification de tumeurs ER+ avec peu de chance de répondre à un traitement anti-estrogène amélioré. En conséquence, de la recherche plus appropriée pour les tumeurs résistantes au Tamoxifen, pourront se faire.
Resumo:
Les humains communiquent via différents types de canaux: les mots, la voix, les gestes du corps, des émotions, etc. Pour cette raison, un ordinateur doit percevoir ces divers canaux de communication pour pouvoir interagir intelligemment avec les humains, par exemple en faisant usage de microphones et de webcams. Dans cette thèse, nous nous intéressons à déterminer les émotions humaines à partir d’images ou de vidéo de visages afin d’ensuite utiliser ces informations dans différents domaines d’applications. Ce mémoire débute par une brève introduction à l'apprentissage machine en s’attardant aux modèles et algorithmes que nous avons utilisés tels que les perceptrons multicouches, réseaux de neurones à convolution et autoencodeurs. Elle présente ensuite les résultats de l'application de ces modèles sur plusieurs ensembles de données d'expressions et émotions faciales. Nous nous concentrons sur l'étude des différents types d’autoencodeurs (autoencodeur débruitant, autoencodeur contractant, etc) afin de révéler certaines de leurs limitations, comme la possibilité d'obtenir de la coadaptation entre les filtres ou encore d’obtenir une courbe spectrale trop lisse, et étudions de nouvelles idées pour répondre à ces problèmes. Nous proposons également une nouvelle approche pour surmonter une limite des autoencodeurs traditionnellement entrainés de façon purement non-supervisée, c'est-à-dire sans utiliser aucune connaissance de la tâche que nous voulons finalement résoudre (comme la prévision des étiquettes de classe) en développant un nouveau critère d'apprentissage semi-supervisé qui exploite un faible nombre de données étiquetées en combinaison avec une grande quantité de données non-étiquetées afin d'apprendre une représentation adaptée à la tâche de classification, et d'obtenir une meilleure performance de classification. Finalement, nous décrivons le fonctionnement général de notre système de détection d'émotions et proposons de nouvelles idées pouvant mener à de futurs travaux.
Resumo:
Ce mémoire est composé de trois articles et présente les résultats de travaux de recherche effectués dans le but d'améliorer les techniques actuelles permettant d'utiliser des données associées à certaines tâches dans le but d'aider à l'entraînement de réseaux de neurones sur une tâche différente. Les deux premiers articles présentent de nouveaux ensembles de données créés pour permettre une meilleure évaluation de ce type de techniques d'apprentissage machine. Le premier article introduit une suite d'ensembles de données pour la tâche de reconnaissance automatique de chiffres écrits à la main. Ces ensembles de données ont été générés à partir d'un ensemble de données déjà existant, MNIST, auquel des nouveaux facteurs de variation ont été ajoutés. Le deuxième article introduit un ensemble de données pour la tâche de reconnaissance automatique d'expressions faciales. Cet ensemble de données est composé d'images de visages qui ont été collectées automatiquement à partir du Web et ensuite étiquetées. Le troisième et dernier article présente deux nouvelles approches, dans le contexte de l'apprentissage multi-tâches, pour tirer avantage de données pour une tâche donnée afin d'améliorer les performances d'un modèle sur une tâche différente. La première approche est une généralisation des neurones Maxout récemment proposées alors que la deuxième consiste en l'application dans un contexte supervisé d'une technique permettant d'inciter des neurones à apprendre des fonctions orthogonales, à l'origine proposée pour utilisation dans un contexte semi-supervisé.
Resumo:
Des efforts de recherche considérables ont été déployés afin d'améliorer les résultats de traitement de cancers pulmonaires. L'étude de la déformation de l'anatomie du patient causée par la ventilation pulmonaire est au coeur du processus de planification de traitement radio-oncologique. À l'aide d'images de tomodensitométrie quadridimensionnelles (4DCT), une simulation dosimétrique peut être calculée sur les 10 ensembles d'images du 4DCT. Une méthode doit être employée afin de recombiner la dose de radiation calculée sur les 10 anatomies représentant une phase du cycle respiratoire. L'utilisation de recalage déformable d'images (DIR), une méthode de traitement d'images numériques, génère neuf champs vectoriels de déformation permettant de rapporter neuf ensembles d'images sur un ensemble de référence correspondant habituellement à la phase d'expiration profonde du cycle respiratoire. L'objectif de ce projet est d'établir une méthode de génération de champs de déformation à l'aide de la DIR conjointement à une méthode de validation de leur précision. Pour y parvenir, une méthode de segmentation automatique basée sur la déformation surfacique de surface à été créée. Cet algorithme permet d'obtenir un champ de déformation surfacique qui décrit le mouvement de l'enveloppe pulmonaire. Une interpolation volumétrique est ensuite appliquée dans le volume pulmonaire afin d'approximer la déformation interne des poumons. Finalement, une représentation en graphe de la vascularisation interne du poumon a été développée afin de permettre la validation du champ de déformation. Chez 15 patients, une erreur de recouvrement volumique de 7.6 ± 2.5[%] / 6.8 ± 2.1[%] et une différence relative des volumes de 6.8 ± 2.4 [%] / 5.9 ± 1.9 [%] ont été calculées pour le poumon gauche et droit respectivement. Une distance symétrique moyenne 0.8 ± 0.2 [mm] / 0.8 ± 0.2 [mm], une distance symétrique moyenne quadratique de 1.2 ± 0.2 [mm] / 1.3 ± 0.3 [mm] et une distance symétrique maximale 7.7 ± 2.4 [mm] / 10.2 ± 5.2 [mm] ont aussi été calculées pour le poumon gauche et droit respectivement. Finalement, 320 ± 51 bifurcations ont été détectées dans le poumons droit d'un patient, soit 92 ± 10 et 228 ± 45 bifurcations dans la portion supérieure et inférieure respectivement. Nous avons été en mesure d'obtenir des champs de déformation nécessaires pour la recombinaison de dose lors de la planification de traitement radio-oncologique à l'aide de la méthode de déformation hiérarchique des surfaces. Nous avons été en mesure de détecter les bifurcations de la vascularisation pour la validation de ces champs de déformation.
Resumo:
Suite à un stage avec la compagnie Hatch, nous possédons des jeux de données composés de séries chronologiques de vitesses de vent mesurées à divers sites dans le monde, sur plusieurs années. Les ingénieurs éoliens de la compagnie Hatch utilisent ces jeux de données conjointement aux banques de données d’Environnement Canada pour évaluer le potentiel éolien afin de savoir s’il vaut la peine d’installer des éoliennes à ces endroits. Depuis quelques années, des compagnies offrent des simulations méso-échelle de vitesses de vent, basées sur divers indices environnementaux de l’endroit à évaluer. Les ingénieurs éoliens veulent savoir s’il vaut la peine de payer pour ces données simulées, donc si celles-ci peuvent être utiles lors de l’estimation de la production d’énergie éolienne et si elles pourraient être utilisées lors de la prévision de la vitesse du vent long terme. De plus, comme l’on possède des données mesurées de vitesses de vent, l’on en profitera pour tester à partir de diverses méthodes statistiques différentes étapes de l’estimation de la production d’énergie. L’on verra les méthodes d’extrapolation de la vitesse du vent à la hauteur d’une turbine éolienne et l’on évaluera ces méthodes à l’aide de l’erreur quadratique moyenne. Aussi, on étudiera la modélisation de la vitesse du vent par la distributionWeibull et la variation de la distribution de la vitesse dans le temps. Finalement, l’on verra à partir de la validation croisée et du bootstrap si l’utilisation de données méso-échelle est préférable à celle de données des stations de référence, en plus de tester un modèle où les deux types de données sont utilisées pour prédire la vitesse du vent. Nous testerons la méthodologie globale présentement utilisée par les ingénieurs éoliens pour l’estimation de la production d’énergie d’un point de vue statistique, puis tenterons de proposer des changements à cette méthodologie, qui pourraient améliorer l’estimation de la production d’énergie annuelle.
Resumo:
Les champignons mycorhiziens arbusculaires (CMA) sont très répandus dans le sol où ils forment des associations symbiotiques avec la majorité des plantes appelées mycorhizes arbusculaires. Le développement des CMA dépend fortement de la plante hôte, de telle sorte qu'ils ne peuvent vivre à l'état saprotrophique, par conséquent ils sont considérés comme des biotrophes obligatoires. Les CMA forment une lignée évolutive basale des champignons et ils appartiennent au phylum Glomeromycota. Leurs mycélia sont formés d’un réseau d’hyphes cénocytiques dans lesquelles les noyaux et les organites cellulaires peuvent se déplacer librement d’un compartiment à l’autre. Les CMA permettent à la plante hôte de bénéficier d'une meilleure nutrition minérale, grâce au réseau d'hyphes extraradiculaires, qui s'étend au-delà de la zone du sol explorée par les racines. Ces hyphes possèdent une grande capacité d'absorption d’éléments nutritifs qui vont être transportés par ceux-ci jusqu’aux racines. De ce fait, les CMA améliorent la croissance des plantes tout en les protégeant des stresses biotiques et abiotiques. Malgré l’importance des CMA, leurs génétique et évolution demeurent peu connues. Leurs études sont ardues à cause de leur mode de vie qui empêche leur culture en absence des plantes hôtes. En plus leur diversité génétique intra-isolat des génomes nucléaires, complique d’avantage ces études, en particulier le développement des marqueurs moléculaires pour des études biologiques, écologiques ainsi que les fonctions des CMA. C’est pour ces raisons que les génomes mitochondriaux offrent des opportunités et alternatives intéressantes pour étudier les CMA. En effet, les génomes mitochondriaux (mt) publiés à date, ne montrent pas de polymorphismes génétique intra-isolats. Cependant, des exceptions peuvent exister. Pour aller de l’avant avec la génomique mitochondriale, nous avons besoin de générer beaucoup de données de séquençages de l’ADN mitochondrial (ADNmt) afin d’étudier les méchanismes évolutifs, la génétique des population, l’écologie des communautés et la fonction des CMA. Dans ce contexte, l’objectif de mon projet de doctorat consiste à: 1) étudier l’évolution des génomes mt en utilisant l’approche de la génomique comparative au niveau des espèces proches, des isolats ainsi que des espèces phylogénétiquement éloignées chez les CMA; 2) étudier l’hérédité génétique des génomes mt au sein des isolats de l’espèce modèle Rhizophagus irregularis par le biais des anastomoses ; 3) étudier l’organisation des ADNmt et les gènes mt pour le développement des marqueurs moléculaires pour des études phylogénétiques. Nous avons utilisé l’approche dite ‘whole genome shotgun’ en pyroséquençage 454 et Illumina HiSeq pour séquencer plusieurs taxons de CMA sélectionnés selon leur importance et leur disponibilité. Les assemblages de novo, le séquençage conventionnel Sanger, l’annotation et la génomique comparative ont été réalisés pour caractériser des ADNmt complets. Nous avons découvert plusieurs mécanismes évolutifs intéressant chez l’espèce Gigaspora rosea dans laquelle le génome mt est complètement remanié en comparaison avec Rhizophagus irregularis isolat DAOM 197198. En plus nous avons mis en évidence que deux gènes cox1 et rns sont fragmentés en deux morceaux. Nous avons démontré que les ARN transcrits les deux fragments de cox1 se relient entre eux par épissage en trans ‘Trans-splicing’ à l’aide de l’ARN du gene nad5 I3 qui met ensemble les deux ARN cox1.1 et cox1.2 en formant un ARN complet et fonctionnel. Nous avons aussi trouvé une organisation de l’ADNmt très particulière chez l’espèce Rhizophagus sp. Isolat DAOM 213198 dont le génome mt est constitué par deux chromosomes circulaires. En plus nous avons trouvé une quantité considérable des séquences apparentées aux plasmides ‘plasmid-related sequences’ chez les Glomeraceae par rapport aux Gigasporaceae, contribuant ainsi à une évolution rapide des ADNmt chez les Glomeromycota. Nous avons aussi séquencé plusieurs isolats de l’espèces R. irregularis et Rhizophagus sp. pour décortiquer leur position phylogénéque et inférer des relations évolutives entre celles-ci. La comparaison génomique mt nous montré l’existence de plusieurs éléments mobiles comme : des cadres de lecture ‘open reading frames (mORFs)’, des séquences courtes inversées ‘short inverted repeats (SIRs)’, et des séquences apparentées aux plasimdes ‘plasmid-related sequences (dpo)’ qui impactent l’ordre des gènes mt et permettent le remaniement chromosomiques des ADNmt. Tous ces divers mécanismes évolutifs observés au niveau des isolats, nous permettent de développer des marqueurs moléculaires spécifiques à chaque isolat ou espèce de CMA. Les données générées dans mon projet de doctorat ont permis d’avancer les connaissances fondamentales des génomes mitochondriaux non seulement chez les Glomeromycètes, mais aussi de chez le règne des Fungi et les eucaryotes en général. Les trousses moléculaires développées dans ce projet peuvent servir à des études de la génétique des populations, des échanges génétiques et l’écologie des CMA ce qui va contribuer à la compréhension du rôle primorial des CMA en agriculture et environnement.
Resumo:
Les algorithmes d'apprentissage profond forment un nouvel ensemble de méthodes puissantes pour l'apprentissage automatique. L'idée est de combiner des couches de facteurs latents en hierarchies. Cela requiert souvent un coût computationel plus elevé et augmente aussi le nombre de paramètres du modèle. Ainsi, l'utilisation de ces méthodes sur des problèmes à plus grande échelle demande de réduire leur coût et aussi d'améliorer leur régularisation et leur optimization. Cette thèse adresse cette question sur ces trois perspectives. Nous étudions tout d'abord le problème de réduire le coût de certains algorithmes profonds. Nous proposons deux méthodes pour entrainer des machines de Boltzmann restreintes et des auto-encodeurs débruitants sur des distributions sparses à haute dimension. Ceci est important pour l'application de ces algorithmes pour le traitement de langues naturelles. Ces deux méthodes (Dauphin et al., 2011; Dauphin and Bengio, 2013) utilisent l'échantillonage par importance pour échantilloner l'objectif de ces modèles. Nous observons que cela réduit significativement le temps d'entrainement. L'accéleration atteint 2 ordres de magnitude sur plusieurs bancs d'essai. Deuxièmement, nous introduisont un puissant régularisateur pour les méthodes profondes. Les résultats expérimentaux démontrent qu'un bon régularisateur est crucial pour obtenir de bonnes performances avec des gros réseaux (Hinton et al., 2012). Dans Rifai et al. (2011), nous proposons un nouveau régularisateur qui combine l'apprentissage non-supervisé et la propagation de tangente (Simard et al., 1992). Cette méthode exploite des principes géometriques et permit au moment de la publication d'atteindre des résultats à l'état de l'art. Finalement, nous considérons le problème d'optimiser des surfaces non-convexes à haute dimensionalité comme celle des réseaux de neurones. Tradionellement, l'abondance de minimum locaux était considéré comme la principale difficulté dans ces problèmes. Dans Dauphin et al. (2014a) nous argumentons à partir de résultats en statistique physique, de la théorie des matrices aléatoires, de la théorie des réseaux de neurones et à partir de résultats expérimentaux qu'une difficulté plus profonde provient de la prolifération de points-selle. Dans ce papier nous proposons aussi une nouvelle méthode pour l'optimisation non-convexe.