225 resultados para indexation automatique


Relevância:

10.00% 10.00%

Publicador:

Resumo:

L'apprentissage profond est un domaine de recherche en forte croissance en apprentissage automatique qui est parvenu à des résultats impressionnants dans différentes tâches allant de la classification d'images à la parole, en passant par la modélisation du langage. Les réseaux de neurones récurrents, une sous-classe d'architecture profonde, s'avèrent particulièrement prometteurs. Les réseaux récurrents peuvent capter la structure temporelle dans les données. Ils ont potentiellement la capacité d'apprendre des corrélations entre des événements éloignés dans le temps et d'emmagasiner indéfiniment des informations dans leur mémoire interne. Dans ce travail, nous tentons d'abord de comprendre pourquoi la profondeur est utile. Similairement à d'autres travaux de la littérature, nos résultats démontrent que les modèles profonds peuvent être plus efficaces pour représenter certaines familles de fonctions comparativement aux modèles peu profonds. Contrairement à ces travaux, nous effectuons notre analyse théorique sur des réseaux profonds acycliques munis de fonctions d'activation linéaires par parties, puisque ce type de modèle est actuellement l'état de l'art dans différentes tâches de classification. La deuxième partie de cette thèse porte sur le processus d'apprentissage. Nous analysons quelques techniques d'optimisation proposées récemment, telles l'optimisation Hessian free, la descente de gradient naturel et la descente des sous-espaces de Krylov. Nous proposons le cadre théorique des méthodes à région de confiance généralisées et nous montrons que plusieurs de ces algorithmes développés récemment peuvent être vus dans cette perspective. Nous argumentons que certains membres de cette famille d'approches peuvent être mieux adaptés que d'autres à l'optimisation non convexe. La dernière partie de ce document se concentre sur les réseaux de neurones récurrents. Nous étudions d'abord le concept de mémoire et tentons de répondre aux questions suivantes: Les réseaux récurrents peuvent-ils démontrer une mémoire sans limite? Ce comportement peut-il être appris? Nous montrons que cela est possible si des indices sont fournis durant l'apprentissage. Ensuite, nous explorons deux problèmes spécifiques à l'entraînement des réseaux récurrents, à savoir la dissipation et l'explosion du gradient. Notre analyse se termine par une solution au problème d'explosion du gradient qui implique de borner la norme du gradient. Nous proposons également un terme de régularisation conçu spécifiquement pour réduire le problème de dissipation du gradient. Sur un ensemble de données synthétique, nous montrons empiriquement que ces mécanismes peuvent permettre aux réseaux récurrents d'apprendre de façon autonome à mémoriser des informations pour une période de temps indéfinie. Finalement, nous explorons la notion de profondeur dans les réseaux de neurones récurrents. Comparativement aux réseaux acycliques, la définition de profondeur dans les réseaux récurrents est souvent ambiguë. Nous proposons différentes façons d'ajouter de la profondeur dans les réseaux récurrents et nous évaluons empiriquement ces propositions.

Relevância:

10.00% 10.00%

Publicador:

Resumo:

Ce mémoire porte sur l’analyse documentaire en milieu universitaire. Deux approches générales sont d’abord étudiées : l’approche centrée sur le document (premier chapitre), prédominante dans la tradition bibliothéconomique, et l’approche centrée sur l’usager (deuxième chapitre), influencée par le développement d’outils le plus souvent associés au Web 2.0. L’opposition entre ces deux démarches reflète une dichotomie qui se trouve au cœur de la notion de sujet, c’est-à-dire les dimensions objective et subjective du sujet. Ce mémoire prend par conséquent la forme d’une dissertation dont l’avantage principal est de considérer à la fois d’importants acquis qui appartiennent à la tradition bibliothéconomique, à la fois des développements plus récents ayant un impact important sur l’évolution de l’analyse documentaire en milieu universitaire. Notre hypothèse est que ces deux tendances générales doivent être mises en relief afin d’approfondir la problématique de l’appariement, laquelle définit la difficulté d’accorder le vocabulaire qu’utilise l’usager dans ses recherches documentaires avec celui issu de l’analyse documentaire (métadonnées sujet). Dans le troisième chapitre, nous examinons certaines particularités liées à l’utilisation de la documentation en milieu universitaire dans le but de repérer certaines possibilités et certaines exigences de l’analyse documentaire dans un tel milieu. À partir d’éléments basés sur l’analyse des domaines d’études et sur la démarche analytico-synthétique, il s’agit d’accentuer l’interaction potentielle entre usagers et analystes documentaires sur le plan du vocabulaire utilisé de part et d’autre.

Relevância:

10.00% 10.00%

Publicador:

Resumo:

Ce cahier de recherche fait état des travaux menés au cours de la première étape (2013-2014) du projet « Archives et création : nouvelles perspectives sur l’archivistique ». Il comprend les textes suivants : Yvon Lemay et Anne Klein, « Introduction », p. 4-6; Yvon Lemay, « Archives et création : nouvelles perspectives sur l’archivistique », p. 7-19; Anne-Marie Lacombe, « Exploitation des archives à des fins de création : un aperçu de la littérature », p. 20-59; Simon Côté-Lapointe, « Archives sonores et création : une pratique à la croisée des chemins », p. 60-83; Hélène Brousseau, « Fibres, archives et société », p. 84-104; Annie Lecompte-Chauvin, « Comment les archives entrent dans nos vies par le biais de la littérature », p. 105-120; Aude Bertrand, « Valeurs, usages et usagers des archives », p. 121-150; Laure Guitard, « Indexation, émotions, archives », p. 151-168; Anne Klein, Denis Lessard et Anne-Marie Lacombe, « Archives et mise en archives dans le champ culturel. Synthèse du colloque « Archives et création, regards croisés : tournant archivistique, courant artistique », p. 169-178. De plus, dans le but de situer le projet dans un contexte plus large, le cahier inclut une bibliographie des travaux effectués sur les archives et la création depuis 2007, p. 179-182.

Relevância:

10.00% 10.00%

Publicador:

Resumo:

Ce mémoire est composé de trois articles et présente les résultats de travaux de recherche effectués dans le but d'améliorer les techniques actuelles permettant d'utiliser des données associées à certaines tâches dans le but d'aider à l'entraînement de réseaux de neurones sur une tâche différente. Les deux premiers articles présentent de nouveaux ensembles de données créés pour permettre une meilleure évaluation de ce type de techniques d'apprentissage machine. Le premier article introduit une suite d'ensembles de données pour la tâche de reconnaissance automatique de chiffres écrits à la main. Ces ensembles de données ont été générés à partir d'un ensemble de données déjà existant, MNIST, auquel des nouveaux facteurs de variation ont été ajoutés. Le deuxième article introduit un ensemble de données pour la tâche de reconnaissance automatique d'expressions faciales. Cet ensemble de données est composé d'images de visages qui ont été collectées automatiquement à partir du Web et ensuite étiquetées. Le troisième et dernier article présente deux nouvelles approches, dans le contexte de l'apprentissage multi-tâches, pour tirer avantage de données pour une tâche donnée afin d'améliorer les performances d'un modèle sur une tâche différente. La première approche est une généralisation des neurones Maxout récemment proposées alors que la deuxième consiste en l'application dans un contexte supervisé d'une technique permettant d'inciter des neurones à apprendre des fonctions orthogonales, à l'origine proposée pour utilisation dans un contexte semi-supervisé.

Relevância:

10.00% 10.00%

Publicador:

Resumo:

Les sondages téléphoniques visent habituellement l’enregistrement de réponses selon leur contenu linguistique littéral (« oui », « jamais », nom de politiciens, etc.). Cependant, les réponses orales contiennent également des aspects acoustiques qui expriment le degré de conviction des répondants. Dans les techniques actuelles de sondage, cette information, dite « extralinguistique », n’est pas retenue bien qu’elle puisse servir à la prédiction des comportements des répondants. Le présent mémoire a pour objectif de démontrer que des mesures acoustiques de la conviction exprimée par les répondants peuvent servir à améliorer la prédiction de comportements telle qu’estimée par les techniques de sondage. Cette démonstration se fait en deux étapes et implique deux expériences. L’Expérience 1, réalisée en laboratoire (n = 25), avait pour but d’isoler les variables vocales associées à l’expression de la conviction. Ce test a permis d’isoler des variables mesurables pertinentes et les distributions catégoriques de valeurs permettant une catégorisation des réponses selon un « degré de conviction ». L’Expérience 2 a porté sur l’application de ces mesures acoustiques dans l’analyse de réponses enregistrées lors d’un sondage téléphonique préélectoral fait par la firme Léger en 2010 (un corpus de 400 entrevues). Cette deuxième expérience a démontré qu’une catégorisation des réponses nominatives (n = 188) sur la base des variables associées à l’expression de la conviction (telles que définies à l’Expérience 1) peut améliorer la prédiction des comportements des électeurs. Les résultats suggèrent que les réponses orales à un sondage contiennent des indices acoustiques mesurables qui expriment un degré de conviction relié à une volonté de produire certains comportements. La nature de ces variables présente aussi la possibilité d’une détection automatique.

Relevância:

10.00% 10.00%

Publicador:

Resumo:

La fonction des canaux ioniques est finement régulée par des changements structuraux de sites clés contrôlant l’ouverture du pore. Ces modulations structurales découlent de l’interaction du canal avec l’environnement local, puisque certains domaines peuvent être suffisamment sensibles à des propriétés physico-chimiques spécifiques. Les mouvements engendrés dans la structure sont notamment perceptibles fonctionnellement lorsque le canal ouvre un passage à certains ions, générant ainsi un courant ionique mesurable selon le potentiel électrochimique. Une description détaillée de ces relations structure-fonction est cependant difficile à obtenir à partir de mesures sur des ensembles de canaux identiques, puisque les fluctuations et les distributions de différentes propriétés individuelles demeurent cachées dans une moyenne. Pour distinguer ces propriétés, des mesures à l’échelle de la molécule unique sont nécessaires. Le but principal de la présente thèse est d’étudier la structure et les mécanismes moléculaires de canaux ioniques par mesures de spectroscopie de fluorescence à l’échelle de la molécule unique. Les études sont particulièrement dirigées vers le développement de nouvelles méthodes ou leur amélioration. Une classe de toxine formeuse de pores a servi de premier modèle d’étude. La fluorescence à l’échelle de la molécule unique a aussi été utilisée pour l’étude d’un récepteur glutamate, d’un récepteur à la glycine et d’un canal potassique procaryote. Le premier volet porte sur l’étude de la stœchiométrie par mesures de photoblanchiment en temps résolu. Cette méthode permet de déterminer directement le nombre de monomères fluorescents dans un complexe isolé par le décompte des sauts discrets de fluorescence suivant les événements de photoblanchiment. Nous présentons ici la première description, à notre connaissance, de l’assemblage dynamique d’une protéine membranaire dans un environnement lipidique. La toxine monomérique purifiée Cry1Aa s’assemble à d’autres monomères selon la concentration et sature en conformation tétramérique. Un programme automatique est ensuite développé pour déterminer la stœchiométrie de protéines membranaires fusionnées à GFP et exprimées à la surface de cellules mammifères. Bien que ce système d’expression soit approprié pour l’étude de protéines d’origine mammifère, le bruit de fluorescence y est particulièrement important et augmente significativement le risque d’erreur dans le décompte manuel des monomères fluorescents. La méthode présentée permet une analyse rapide et automatique basée sur des critères fixes. L’algorithme chargé d’effectuer le décompte des monomères fluorescents a été optimisé à partir de simulations et ajuste ses paramètres de détection automatiquement selon la trace de fluorescence. La composition de deux canaux ioniques a été vérifiée avec succès par ce programme. Finalement, la fluorescence à l’échelle de la molécule unique est mesurée conjointement au courant ionique de canaux potassiques KcsA avec un système de fluorométrie en voltage imposé. Ces enregistrements combinés permettent de décrire la fonction de canaux ioniques simultanément à leur position et densité alors qu’ils diffusent dans une membrane lipidique dont la composition est choisie. Nous avons observé le regroupement de canaux KcsA pour différentes compositions lipidiques. Ce regroupement ne paraît pas être causé par des interactions protéine-protéine, mais plutôt par des microdomaines induits par la forme des canaux reconstitués dans la membrane. Il semble que des canaux regroupés puissent ensuite devenir couplés, se traduisant en ouvertures et fermetures simultanées où les niveaux de conductance sont un multiple de la conductance « normale » d’un canal isolé. De plus, contrairement à ce qui est actuellement suggéré, KcsA ne requiert pas de phospholipide chargé négativement pour sa fonction. Plusieurs mesures indiquent plutôt que des lipides de forme conique dans la phase cristalline liquide sont suffisants pour permettre l’ouverture de canaux KcsA isolés. Des canaux regroupés peuvent quant à eux surmonter la barrière d’énergie pour s’ouvrir de manière coopérative dans des lipides non chargés de forme cylindrique.

Relevância:

10.00% 10.00%

Publicador:

Resumo:

Marquée par la mise en place et par le développement graduel d’importantes transformations de type socioéconomique et démographique, la deuxième moitié du 19e siècle constitue le scénario à partir duquel nous analysons et comparons le phénomène de la mobilité sociale intergénérationnelle au Québec et en Ontario, plus précisément dans la période 1852-1881. Grâce à la disponibilité de bases de microdonnées censitaires largement représentatives de la population qui habitait dans chacune de ces deux provinces en 1852 et en 1881 ainsi qu’au développement récent d’une technique de jumelage automatique, nous avons réussi à obtenir un échantillon de 4226 individus jumelés entre les recensements canadiens de 1852 et de 1881. Ces individus sont les garçons âgés de 0 à 15 ans en 1852, qui habitaient majoritairement en milieu rural au Québec ou en Ontario et qui se trouvent dans l’échantillon de 20% du recensement canadien de 1852. Cet échantillon jumelé nous a permis d’observer les caractéristiques de la famille d’origine de ces garçons en 1852 – par exemple, le statut socioprofessionnel du père et la fréquentation scolaire – ainsi que leur propre statut socioprofessionnel (en tant qu’adultes) en 1881. Malgré certains défis posés par la disponibilité et le type de données ainsi que par la procédure de jumelage, cet échantillon illustre bien les changements majeurs qui ont eu lieu durant la période étudiée dans le marché du travail, soit le déclin du groupe des cultivateurs au profit des travailleurs non-manuels et des travailleurs manuels (surtout les qualifiés). De plus, cet échantillon nous a permis d’identifier que malgré le déclin du groupe des cultivateurs entre les pères (en 1852) et les fils (en 1881), l’agriculture aurait continué à être importante durant cette période et aurait même été ouverte à des individus ayant des origines socioprofessionnelles ou socioéconomiques différentes, c'est-à-dire, à des fils de non-cultivateurs. Cette importance soutenue et cette ouverture de l’agriculture semble avoir été plus importante en Ontario qu’au Québec, ce qui pourrait être associé aux différences entre les provinces en ce qui a trait aux caractéristiques et au développement du secteur agricole entre 1852 et 1881.

Relevância:

10.00% 10.00%

Publicador:

Resumo:

Des efforts de recherche considérables ont été déployés afin d'améliorer les résultats de traitement de cancers pulmonaires. L'étude de la déformation de l'anatomie du patient causée par la ventilation pulmonaire est au coeur du processus de planification de traitement radio-oncologique. À l'aide d'images de tomodensitométrie quadridimensionnelles (4DCT), une simulation dosimétrique peut être calculée sur les 10 ensembles d'images du 4DCT. Une méthode doit être employée afin de recombiner la dose de radiation calculée sur les 10 anatomies représentant une phase du cycle respiratoire. L'utilisation de recalage déformable d'images (DIR), une méthode de traitement d'images numériques, génère neuf champs vectoriels de déformation permettant de rapporter neuf ensembles d'images sur un ensemble de référence correspondant habituellement à la phase d'expiration profonde du cycle respiratoire. L'objectif de ce projet est d'établir une méthode de génération de champs de déformation à l'aide de la DIR conjointement à une méthode de validation de leur précision. Pour y parvenir, une méthode de segmentation automatique basée sur la déformation surfacique de surface à été créée. Cet algorithme permet d'obtenir un champ de déformation surfacique qui décrit le mouvement de l'enveloppe pulmonaire. Une interpolation volumétrique est ensuite appliquée dans le volume pulmonaire afin d'approximer la déformation interne des poumons. Finalement, une représentation en graphe de la vascularisation interne du poumon a été développée afin de permettre la validation du champ de déformation. Chez 15 patients, une erreur de recouvrement volumique de 7.6 ± 2.5[%] / 6.8 ± 2.1[%] et une différence relative des volumes de 6.8 ± 2.4 [%] / 5.9 ± 1.9 [%] ont été calculées pour le poumon gauche et droit respectivement. Une distance symétrique moyenne 0.8 ± 0.2 [mm] / 0.8 ± 0.2 [mm], une distance symétrique moyenne quadratique de 1.2 ± 0.2 [mm] / 1.3 ± 0.3 [mm] et une distance symétrique maximale 7.7 ± 2.4 [mm] / 10.2 ± 5.2 [mm] ont aussi été calculées pour le poumon gauche et droit respectivement. Finalement, 320 ± 51 bifurcations ont été détectées dans le poumons droit d'un patient, soit 92 ± 10 et 228 ± 45 bifurcations dans la portion supérieure et inférieure respectivement. Nous avons été en mesure d'obtenir des champs de déformation nécessaires pour la recombinaison de dose lors de la planification de traitement radio-oncologique à l'aide de la méthode de déformation hiérarchique des surfaces. Nous avons été en mesure de détecter les bifurcations de la vascularisation pour la validation de ces champs de déformation.

Relevância:

10.00% 10.00%

Publicador:

Resumo:

En la actualidad, el uso de las tecnologías ha sido primordial para el avance de las sociedades, estas han permitido que personas sin conocimientos informáticos o usuarios llamados “no expertos” se interesen en su uso, razón por la cual los investigadores científicos se han visto en la necesidad de producir estudios que permitan la adaptación de sistemas, a la problemática existente dentro del ámbito informático. Una necesidad recurrente de todo usuario de un sistema es la gestión de la información, la cual se puede administrar por medio de una base de datos y lenguaje específico, como lo es el SQL (Structured Query Language), pero esto obliga al usuario sin conocimientos a acudir a un especialista para su diseño y construcción, lo cual se ve reflejado en costos y métodos complejos, entonces se plantea una pregunta ¿qué hacer cuando los proyectos son pequeñas y los recursos y procesos son limitados? Teniendo como base la investigación realizada por la universidad de Washington[39], donde sintetizan sentencias SQL a partir de ejemplos de entrada y salida, se pretende con esta memoria automatizar el proceso y aplicar una técnica diferente de aprendizaje, para lo cual utiliza una aproximación evolucionista, donde la aplicación de un algoritmo genético adaptado origina sentencias SQL válidas que responden a las condiciones establecidas por los ejemplos de entrada y salida dados por el usuario. Se obtuvo como resultado de la aproximación, una herramienta denominada EvoSQL que fue validada en este estudio. Sobre los 28 ejercicios empleados por la investigación [39], 23 de los cuales se obtuvieron resultados perfectos y 5 ejercicios sin éxito, esto representa un 82.1% de efectividad. Esta efectividad es superior en un 10.7% al establecido por la herramienta desarrollada en [39] SQLSynthesizer y 75% más alto que la herramienta siguiente más próxima Query by Output QBO[31]. El promedio obtenido en la ejecución de cada ejercicio fue de 3 minutos y 11 segundos, este tiempo es superior al establecido por SQLSynthesizer; sin embargo, en la medida un algoritmo genético supone la existencia de fases que amplían los rangos de tiempos, por lo cual el tiempo obtenido es aceptable con relación a las aplicaciones de este tipo. En conclusión y según lo anteriormente expuesto, se obtuvo una herramienta automática con una aproximación evolucionista, con buenos resultados y un proceso simple para el usuario “no experto”.

Relevância:

10.00% 10.00%

Publicador:

Resumo:

La radiothérapie stéréotaxique corporelle (SBRT) est une technique couramment employée pour le traitement de tumeurs aux poumons lorsque la chirurgie n’est pas possible ou refusée par le patient. Une complication de l’utilisation de cette méthode provient du mouvement de la tumeur causé par la respiration. Dans ce contexte, la radiothérapie asservie à la respiration (RGRT) peut être bénéfique. Toutefois, la RGRT augmente le temps de traitement en raison de la plus petite proportion de temps pour laquelle le faisceau est actif. En utilisant un faisceau de photons sans filtre égalisateur (FFF), ce problème peut être compensé par le débit de dose plus élevé d’un faisceau FFF. Ce mémoire traite de la faisabilité d’employer la technique de RGRT en combinaison avec l’utilisation un faisceau FFF sur un accélérateur Synergy S (Elekta, Stockholm, Suède) avec une ceinture pneumatique, le Bellows Belt (Philips, Amsterdam, Pays-Bas), comme dispositif de suivi du signal respiratoire. Un Synergy S a été modifié afin de pouvoir livrer un faisceau 6 MV FFF. Des mesures de profils de dose et de rendements en profondeur ont été acquises en cuve à eau pour différentes tailles de champs. Ces mesures ont été utilisées pour créer un modèle du faisceau 6 MV FFF dans le système de planification de traitement Pinnacle3 de Philips. Les mesures ont été comparées au modèle à l’aide de l’analyse gamma avec un critère de 2%, 2 mm. Par la suite, cinq plans SBRT avec thérapie en arc par modulation volumétrique (VMAT) ont été créés avec le modèle 6 MV du Synergy S, avec et sans filtre. Une comparaison des paramètres dosimétriques a été réalisée entre les plans avec et sans filtre pour évaluer la qualité des plans FFF. Les résultats révèlent qu’il est possible de créer des plans SBRT VMAT avec le faisceau 6 MV FFF du Synergy S qui sont cliniquement acceptables (les crières du Radiation Therapy Oncology Group 0618 sont respectés). Aussi, une interface physique de RGRT a été mise au point pour remplir deux fonctions : lire le signal numérique de la ceinture pneumatique Bellows Belt et envoyer une commande d’irradiation binaire au linac. L’activation/désactivation du faisceau du linac se fait par l’entremise d’un relais électromécanique. L’interface comprend un circuit électronique imprimé fait maison qui fonctionne en tandem avec un Raspberry Pi. Un logiciel de RGRT a été développé pour opérer sur le Raspberry Pi. Celui-ci affiche le signal numérique du Bellows Belt et donne l’option de choisir les limites supérieure et inférieure de la fenêtre d’irradiation, de sorte que lorsque le signal de la ceinture se trouve entre ces limites, le faisceau est actif, et inversement lorsque le signal est hors de ces limites. Le logiciel envoie donc une commande d’irradiation au linac de manière automatique en fonction de l’amplitude du signal respiratoire. Finalement, la comparaison entre la livraison d’un traitement standard sans RGRT avec filtre par rapport à un autre plan standard sans RGRT sans filtre démontre que le temps de traitement en mode FFF est réduit en moyenne de 54.1% pour un arc. De la même manière, la comparaison entre la livraison d’un traitement standard sans RGRT avec filtre par rapport à un plan de RGRT (fenêtre d’irradiation de 75%) sans filtre montre que le temps de traitement de RGRT en mode FFF est réduit en moyenne de 27.3% par arc. Toutefois, il n’a pas été possible de livrer des traitements de RGRT avec une fenêtre de moins de 75%. Le linac ne supporte pas une fréquence d’arrêts élevée.

Relevância:

10.00% 10.00%

Publicador:

Resumo:

Les algorithmes d'apprentissage profond forment un nouvel ensemble de méthodes puissantes pour l'apprentissage automatique. L'idée est de combiner des couches de facteurs latents en hierarchies. Cela requiert souvent un coût computationel plus elevé et augmente aussi le nombre de paramètres du modèle. Ainsi, l'utilisation de ces méthodes sur des problèmes à plus grande échelle demande de réduire leur coût et aussi d'améliorer leur régularisation et leur optimization. Cette thèse adresse cette question sur ces trois perspectives. Nous étudions tout d'abord le problème de réduire le coût de certains algorithmes profonds. Nous proposons deux méthodes pour entrainer des machines de Boltzmann restreintes et des auto-encodeurs débruitants sur des distributions sparses à haute dimension. Ceci est important pour l'application de ces algorithmes pour le traitement de langues naturelles. Ces deux méthodes (Dauphin et al., 2011; Dauphin and Bengio, 2013) utilisent l'échantillonage par importance pour échantilloner l'objectif de ces modèles. Nous observons que cela réduit significativement le temps d'entrainement. L'accéleration atteint 2 ordres de magnitude sur plusieurs bancs d'essai. Deuxièmement, nous introduisont un puissant régularisateur pour les méthodes profondes. Les résultats expérimentaux démontrent qu'un bon régularisateur est crucial pour obtenir de bonnes performances avec des gros réseaux (Hinton et al., 2012). Dans Rifai et al. (2011), nous proposons un nouveau régularisateur qui combine l'apprentissage non-supervisé et la propagation de tangente (Simard et al., 1992). Cette méthode exploite des principes géometriques et permit au moment de la publication d'atteindre des résultats à l'état de l'art. Finalement, nous considérons le problème d'optimiser des surfaces non-convexes à haute dimensionalité comme celle des réseaux de neurones. Tradionellement, l'abondance de minimum locaux était considéré comme la principale difficulté dans ces problèmes. Dans Dauphin et al. (2014a) nous argumentons à partir de résultats en statistique physique, de la théorie des matrices aléatoires, de la théorie des réseaux de neurones et à partir de résultats expérimentaux qu'une difficulté plus profonde provient de la prolifération de points-selle. Dans ce papier nous proposons aussi une nouvelle méthode pour l'optimisation non-convexe.

Relevância:

10.00% 10.00%

Publicador:

Resumo:

Mise en garde : Ce mémoire a été réalisé grâce au soutien financier du Fonds d’éducation et de saine gouvernance de l'Autorité des marchés financiers. Les informations, opinions et avis exprimés n'engagent que la responsabilité de Marie-Annick Laurendeau.

Relevância:

10.00% 10.00%

Publicador:

Resumo:

Dans ce mémoire, nous examinons certaines propriétés des représentations distribuées de mots et nous proposons une technique pour élargir le vocabulaire des systèmes de traduction automatique neurale. En premier lieu, nous considérons un problème de résolution d'analogies bien connu et examinons l'effet de poids adaptés à la position, le choix de la fonction de combinaison et l'impact de l'apprentissage supervisé. Nous enchaînons en montrant que des représentations distribuées simples basées sur la traduction peuvent atteindre ou dépasser l'état de l'art sur le test de détection de synonymes TOEFL et sur le récent étalon-or SimLex-999. Finalament, motivé par d'impressionnants résultats obtenus avec des représentations distribuées issues de systèmes de traduction neurale à petit vocabulaire (30 000 mots), nous présentons une approche compatible à l'utilisation de cartes graphiques pour augmenter la taille du vocabulaire par plus d'un ordre de magnitude. Bien qu'originalement développée seulement pour obtenir les représentations distribuées, nous montrons que cette technique fonctionne plutôt bien sur des tâches de traduction, en particulier de l'anglais vers le français (WMT'14).

Relevância:

10.00% 10.00%

Publicador:

Resumo:

La gestion des villes d’Afrique de l’Ouest pose problème à la période contemporaine : extension urbaine non maitrisée, services de base insuffisants, insécurité foncière. À travers l’aide internationale, d’importantes réformes visant à améliorer son efficacité ont pourtant été mises en place, mais elles semblent avoir été inefficaces. Dépassant ce constat d’échec, la thèse vise à comprendre comment se déroule l’acte de gérer la ville dans les circonstances particulières des villes d’Afrique de l’Ouest. La mise en œuvre du Registre foncier urbain (RFU), système d’information foncière municipal multi-fonctions introduit au Bénin à travers des programmes de développement au début des années 1990, constitue le prisme à travers lequel la gestion urbaine est analysée. Celle-ci est ainsi approchée par les actes plutôt que par les discours. S’appuyant sur une démarche socio-anthropologique, la mise en œuvre de l’instrument est analysée depuis le point de vue des acteurs locaux et selon une double grille de lecture : d’une part, il s’agit de saisir les logiques de l’appropriation locale dont le RFU a fait l’objet au sein des administrations; d’autre part, il s’agit de comprendre son interaction avec le territoire, notamment avec les dynamiques complexes d’accès au sol et de sécurisation foncière. Une étude de cas multiple a été menée dans trois communes : Cotonou, Porto-Novo et Bohicon. Deux ensembles de conclusions en découlent. Tout d’abord, le RFU s’est imposé comme l’instrument pivot de la fiscalité locale, mais est mis en œuvre de manière minimale. Ce fonctionnement particulier est une adaptation optimale à un contexte fait de rivalités professionnelles au sein d’administrations cloisonnées, d’enjeux politico-financiers liés aux différentes sources de revenus communaux et de tensions politico-institutionnelles liées à une décentralisation tardive. Les impacts du RFU en termes de développement des compétences professionnelles nationales sont insuffisants pour réformer la gestion urbaine depuis l’intérieur de l’administration municipale. Ensuite, alors qu’il vise à centraliser l’information sur les propriétaires présumés de la terre, le RFU se heurte à la marchandisation de cette information et à la territorialisation de la régulation foncière. La mise en œuvre du RFU s’en trouve affectée de deux manières : d’une part, elle s’insère dans ces circuits marchands de l’information foncière, avec cependant peu de succès ; d’autre part, elle a un impact différencié selon les territoires de la régulation foncière. En définitive, l’acte de gérer la ville au Bénin n’est pas devenu automatique avec l’introduction d’instruments comme le RFU. La municipalité se repose plutôt sur les piliers classiques de l’action publique, l’administration et le politique, pour gérer la ville plurielle de manière différenciée. À l’endroit des concepteurs d’action publique, cette thèse plaide pour une prise en compte des modes de régulation existant dans les sociétés africaines, fussent-ils pluriels, reconnaissant les voies originales que prend la construction des institutions en Afrique.

Relevância:

10.00% 10.00%

Publicador:

Resumo:

Les moteurs de recherche font partie de notre vie quotidienne. Actuellement, plus d’un tiers de la population mondiale utilise l’Internet. Les moteurs de recherche leur permettent de trouver rapidement les informations ou les produits qu'ils veulent. La recherche d'information (IR) est le fondement de moteurs de recherche modernes. Les approches traditionnelles de recherche d'information supposent que les termes d'indexation sont indépendants. Pourtant, les termes qui apparaissent dans le même contexte sont souvent dépendants. L’absence de la prise en compte de ces dépendances est une des causes de l’introduction de bruit dans le résultat (résultat non pertinents). Certaines études ont proposé d’intégrer certains types de dépendance, tels que la proximité, la cooccurrence, la contiguïté et de la dépendance grammaticale. Dans la plupart des cas, les modèles de dépendance sont construits séparément et ensuite combinés avec le modèle traditionnel de mots avec une importance constante. Par conséquent, ils ne peuvent pas capturer correctement la dépendance variable et la force de dépendance. Par exemple, la dépendance entre les mots adjacents "Black Friday" est plus importante que celle entre les mots "road constructions". Dans cette thèse, nous étudions différentes approches pour capturer les relations des termes et de leurs forces de dépendance. Nous avons proposé des méthodes suivantes: ─ Nous réexaminons l'approche de combinaison en utilisant différentes unités d'indexation pour la RI monolingue en chinois et la RI translinguistique entre anglais et chinois. En plus d’utiliser des mots, nous étudions la possibilité d'utiliser bi-gramme et uni-gramme comme unité de traduction pour le chinois. Plusieurs modèles de traduction sont construits pour traduire des mots anglais en uni-grammes, bi-grammes et mots chinois avec un corpus parallèle. Une requête en anglais est ensuite traduite de plusieurs façons, et un score classement est produit avec chaque traduction. Le score final de classement combine tous ces types de traduction. Nous considérons la dépendance entre les termes en utilisant la théorie d’évidence de Dempster-Shafer. Une occurrence d'un fragment de texte (de plusieurs mots) dans un document est considérée comme représentant l'ensemble de tous les termes constituants. La probabilité est assignée à un tel ensemble de termes plutôt qu’a chaque terme individuel. Au moment d’évaluation de requête, cette probabilité est redistribuée aux termes de la requête si ces derniers sont différents. Cette approche nous permet d'intégrer les relations de dépendance entre les termes. Nous proposons un modèle discriminant pour intégrer les différentes types de dépendance selon leur force et leur utilité pour la RI. Notamment, nous considérons la dépendance de contiguïté et de cooccurrence à de différentes distances, c’est-à-dire les bi-grammes et les paires de termes dans une fenêtre de 2, 4, 8 et 16 mots. Le poids d’un bi-gramme ou d’une paire de termes dépendants est déterminé selon un ensemble des caractères, en utilisant la régression SVM. Toutes les méthodes proposées sont évaluées sur plusieurs collections en anglais et/ou chinois, et les résultats expérimentaux montrent que ces méthodes produisent des améliorations substantielles sur l'état de l'art.