426 resultados para Reconnaissance vocale automatique


Relevância:

20.00% 20.00%

Publicador:

Resumo:

The work done in this master's thesis, presents a new system for the recognition of human actions from a video sequence. The system uses, as input, a video sequence taken by a static camera. A binary segmentation method of the the video sequence is first achieved, by a learning algorithm, in order to detect and extract the different people from the background. To recognize an action, the system then exploits a set of prototypes generated from an MDS-based dimensionality reduction technique, from two different points of view in the video sequence. This dimensionality reduction technique, according to two different viewpoints, allows us to model each human action of the training base with a set of prototypes (supposed to be similar for each class) represented in a low dimensional non-linear space. The prototypes, extracted according to the two viewpoints, are fed to a $K$-NN classifier which allows us to identify the human action that takes place in the video sequence. The experiments of our model conducted on the Weizmann dataset of human actions provide interesting results compared to the other state-of-the art (and often more complicated) methods. These experiments show first the sensitivity of our model for each viewpoint and its effectiveness to recognize the different actions, with a variable but satisfactory recognition rate and also the results obtained by the fusion of these two points of view, which allows us to achieve a high performance recognition rate.

Relevância:

20.00% 20.00%

Publicador:

Resumo:

Les domaines de transactivation (TAD) acides sont présents dans plusieurs protéines oncogéniques, virales et dans des facteurs de différenciation de cellules souches. Ces domaines acides contrôlent la transcription à travers une myriade d’interactions avec divers partenaires ce qui provoque l’activation de la transcription ou leur propre élimination. Cependant, dans la dernière décennie, de plus en plus de recherches ont démontré que les TAD possédaient un sous-domaine activation/dégradation (DAD) responsable pour une fonction d'activation de la transcription dépendante de la dégradation de la protéine. Un tel phénomène peut être accompli par plusieurs moyens tels que des modifications post-traductionnelles, l’association à des cofacteurs ou la formation d’un réseau d’interaction complexe en chaînes. Or, aucune preuve concrète n’a pu clairement démontrer le fonctionnement de la dépendance paradoxale entre ces deux fonctions sur un activateur de transcription. Le DAD, a été observé dans plusieurs facteurs de transcription incluant la protéine suppresseur de tumeur p53 et le facteur de différenciation érythrocyte EKLF. Un aspect particulier des DAD est que la composition de leur séquence d’acide aminé est fortement similaire à celle des domaines de liaison à l’ubiquitine (UBD) qui jouent un rôle clé dans le contrôle de la transcription à travers leur interaction non-covalente avec l’ubiquitine. Ainsi, dans ce mémoire, nous avons étudié la possibilité que les TAD acides soient capables d’agir comme UBD pour réguler leur fonction paradoxale à travers des interactions non-covalentes avec l’ubiquitine. L’analyse est faite en utilisant la résonnance magnétique nucléaire (RMN) ainsi qu’avec des essais fonctionnels de dégradation. En somme, cette étude amène une plus grande compréhension des protéines impliquées dans le contrôle des TAD et caractérise le tout premier exemple de TAD capable d’interagir avec l’ubiquitine.

Relevância:

20.00% 20.00%

Publicador:

Resumo:

Le but de l’expérience décrite dans ce mémoire est d'arriver à inculquer inconsciemment aux sujets une stratégie visuelle leur permettant d'utiliser seulement une partie spécifique de l'information visuelle disponible dans le visage humain pour en reconnaître le genre. Normalement, le genre d’un visage est reconnu au moyen de certaines régions, comme la bouche et les yeux (Dupuis-Roy, Fortin, Fiset et Gosselin, 2009). La tâche accomplie par les sujets permettait un apprentissage perceptuel implicite qui se faisait par conditionnement opérant. Ces derniers étaient informés qu'un nombre de points leur serait attribué selon leur performance à la tâche. Au terme de l’entraînement, les sujets renforcés pour l’utilisation de l’oeil gauche utilisaient davantage l’oeil gauche que l’oeil droit et ceux renforcés pour l’utilisation de l’oeil droit utilisaient davantage l’oeil droit. Nous discuterons de potentielles applications cliniques de cette procédure de conditionnement.

Relevância:

20.00% 20.00%

Publicador:

Resumo:

Cette thèse étudie des modèles de séquences de haute dimension basés sur des réseaux de neurones récurrents (RNN) et leur application à la musique et à la parole. Bien qu'en principe les RNN puissent représenter les dépendances à long terme et la dynamique temporelle complexe propres aux séquences d'intérêt comme la vidéo, l'audio et la langue naturelle, ceux-ci n'ont pas été utilisés à leur plein potentiel depuis leur introduction par Rumelhart et al. (1986a) en raison de la difficulté de les entraîner efficacement par descente de gradient. Récemment, l'application fructueuse de l'optimisation Hessian-free et d'autres techniques d'entraînement avancées ont entraîné la recrudescence de leur utilisation dans plusieurs systèmes de l'état de l'art. Le travail de cette thèse prend part à ce développement. L'idée centrale consiste à exploiter la flexibilité des RNN pour apprendre une description probabiliste de séquences de symboles, c'est-à-dire une information de haut niveau associée aux signaux observés, qui en retour pourra servir d'à priori pour améliorer la précision de la recherche d'information. Par exemple, en modélisant l'évolution de groupes de notes dans la musique polyphonique, d'accords dans une progression harmonique, de phonèmes dans un énoncé oral ou encore de sources individuelles dans un mélange audio, nous pouvons améliorer significativement les méthodes de transcription polyphonique, de reconnaissance d'accords, de reconnaissance de la parole et de séparation de sources audio respectivement. L'application pratique de nos modèles à ces tâches est détaillée dans les quatre derniers articles présentés dans cette thèse. Dans le premier article, nous remplaçons la couche de sortie d'un RNN par des machines de Boltzmann restreintes conditionnelles pour décrire des distributions de sortie multimodales beaucoup plus riches. Dans le deuxième article, nous évaluons et proposons des méthodes avancées pour entraîner les RNN. Dans les quatre derniers articles, nous examinons différentes façons de combiner nos modèles symboliques à des réseaux profonds et à la factorisation matricielle non-négative, notamment par des produits d'experts, des architectures entrée/sortie et des cadres génératifs généralisant les modèles de Markov cachés. Nous proposons et analysons également des méthodes d'inférence efficaces pour ces modèles, telles la recherche vorace chronologique, la recherche en faisceau à haute dimension, la recherche en faisceau élagué et la descente de gradient. Finalement, nous abordons les questions de l'étiquette biaisée, du maître imposant, du lissage temporel, de la régularisation et du pré-entraînement.

Relevância:

20.00% 20.00%

Publicador:

Resumo:

Les buts des recherches présentées dans cette thèse étaient d’évaluer le rôle de la stéréoscopie dans la reconnaissance de forme, dans la perception du relief et dans la constance de forme. La première étude a examiné le rôle de la stéréoscopie dans la perception des formes visuelles en utilisant une tâche de reconnaissance de formes. Les stimuli pouvaient être présentés en 2D, avec disparité normale (3D) ou avec disparité inversée. La performance de reconnaissance était meilleure avec les modes de présentation 2D et 3D qu’avec la 3D inversée. Cela indique que la stéréoscopie contribue à la reconnaissance de forme. La deuxième étude s’est intéressée à la contribution conjointe de l’ombrage et de la stéréoscopie dans la perception du relief des formes. Les stimuli étaient des images d’une forme 3D convexe synthétique présentée sous un point de vue menant à une ambigüité quant à sa convexité. L’illumination pouvait provenir du haut ou du bas et de la gauche ou de la droite, et les stimuli étaient présentés dichoptiquement avec soit de la disparité binoculaire normale, de la disparité inversée ou sans disparité entre les vues. Les participants ont répondu que les formes étaient convexes plus souvent lorsque la lumière provenait du haut que du bas, plus souvent avec la disparité normale qu’en 2D, et plus souvent avec absence de disparité qu’avec disparité inversée. Les effets de direction d’illumination et du mode de présentation étaient additifs, c’est-à-dire qu’ils n’interagissaient pas. Cela indique que l’ombrage et la stéréoscopie contribuent indépendamment à la perception du relief des formes. La troisième étude a évalué la contribution de la stéréoscopie à la constance de forme, et son interaction avec l’expertise perceptuelle. Elle a utilisé trois tâches de discrimination séquentielle de trombones tordus ayant subi des rotations en profondeur. Les stimuli pouvaient être présentés sans stéréoscopie, avec stéréoscopie normale ou avec stéréoscopie inversée. Dans la première moitié de l’Exp. 1, dans laquelle les variations du mode de présentation étaient intra-sujets, les performances étaient meilleures en 3D qu’en 2D et qu’en 3D inversée. Ces effets ont été renversés dans la seconde moitié de l’expérience, et les coûts de rotation sont devenus plus faibles pour la 2D et la 3D inversée que pour la 3D. Dans les Exps. 2 (variations intra-sujets du mode de présentation, avec un changement de stimuli au milieu de l’expérience) et 3 (variations inter-sujets du mode de présentation), les effets de rotation étaient en tout temps plus faibles avec stéréoscopie qu’avec stéréoscopie inversée et qu’en 2D, et plus faibles avec stéréoscopie inversée que sans stéréoscopie. Ces résultats indiquent que la stéréoscopie contribue à la constance de forme. Toutefois, cela demande qu’elle soit valide avec un niveau minimal de consistance, sinon elle devient stratégiquement ignorée. En bref, les trois études présentées dans cette thèse ont permis de montrer que la stéréoscopie contribue à la reconnaissance de forme, à la perception du relief et à la constance de forme. De plus, l’ombrage et la stéréoscopie sont intégrés linéairement.

Relevância:

20.00% 20.00%

Publicador:

Resumo:

Ce mémoire est composé de trois articles et présente les résultats de travaux de recherche effectués dans le but d'améliorer les techniques actuelles permettant d'utiliser des données associées à certaines tâches dans le but d'aider à l'entraînement de réseaux de neurones sur une tâche différente. Les deux premiers articles présentent de nouveaux ensembles de données créés pour permettre une meilleure évaluation de ce type de techniques d'apprentissage machine. Le premier article introduit une suite d'ensembles de données pour la tâche de reconnaissance automatique de chiffres écrits à la main. Ces ensembles de données ont été générés à partir d'un ensemble de données déjà existant, MNIST, auquel des nouveaux facteurs de variation ont été ajoutés. Le deuxième article introduit un ensemble de données pour la tâche de reconnaissance automatique d'expressions faciales. Cet ensemble de données est composé d'images de visages qui ont été collectées automatiquement à partir du Web et ensuite étiquetées. Le troisième et dernier article présente deux nouvelles approches, dans le contexte de l'apprentissage multi-tâches, pour tirer avantage de données pour une tâche donnée afin d'améliorer les performances d'un modèle sur une tâche différente. La première approche est une généralisation des neurones Maxout récemment proposées alors que la deuxième consiste en l'application dans un contexte supervisé d'une technique permettant d'inciter des neurones à apprendre des fonctions orthogonales, à l'origine proposée pour utilisation dans un contexte semi-supervisé.

Relevância:

20.00% 20.00%

Publicador:

Resumo:

Les interactions ARN/ARN de type kissing-loop sont des éléments de structure tertiaire qui jouent souvent des rôles clés chez les ARN, tant au niveau fonctionnel que structural. En effet, ce type d’interaction est crucial pour plusieurs processus dépendant des ARN, notamment pour l’initiation de la traduction, la reconnaissance des ARN antisens et la dimérisation de génome rétroviral. Les interactions kissing-loop sont également importantes pour le repliement des ARN, puisqu’elles permettent d’établir des contacts à longue distance entre différents ARN ou encore entre les domaines éloignés d’un même ARN. Ce type d’interaction stabilise aussi les structures complexes des ARN fonctionnels tels que les ARNt, les riborégulateurs et les ribozymes. Comme d’autres ARN fonctionnels, le ribozyme VS de Neurospora contient une interaction kissing-loop importante. Celle-ci est impliquée dans la reconnaissance du substrat et se forme entre la tige-boucle I (stem-loop I, SLI) du substrat et la tige-boucle V (stem-loop V, SLV) du domaine catalytique. Des études biochimiques ont démontré que l’interaction kissing-loop I/V, dépendante du magnésium, implique trois paires de bases Watson-Crick (W-C). De plus, cette interaction est associée à un réarrangement de la structure du substrat, le faisant passer d’une conformation inactive dite unshifted à une conformation active dite shifted. Les travaux présentés dans cette thèse consistent en une caractérisation structurale et thermodynamique de l’interaction kissing-loop I/V du ribozyme VS, laquelle est formée de fragments d’ARN représentant les tige-boucles I et V dérivées du ribozyme VS (SLI et SLV). Cette caractérisation a été réalisée principalement par spectroscopie de résonance magnétique nucléaire (RMN) et par titrage calorimétrique isotherme (isothermal titration calorimetry, ITC) en utilisant différents complexes SLI/SLV dans lesquels l’ARN SLV est commun à tous les complexes, alors que différentes variations de l’ARN SLI ont été utilisées, soit en conformation shiftable ou preshifted. Les données d’ITC ont permis de démontrer qu’en présence d’une concentration saturante de magnésium, l’affinité d’un substrat SLI preshifted pour SLV est extrêmement élevée, rendant cette interaction plus stable que ce qui est prédit pour un duplexe d’ARN équivalent. De plus, l’étude effectuée par ITC montre que des ARN SLI preshifted présentent une meilleure affinité pour SLV que des ARN SLI shiftable, ce qui a permis de calculer le coût énergétique associé au réarrangement de structure du substrat. En plus de confirmer la formation des trois paires de bases W-C prédites à la jonction I/V, les études de RMN ont permis d’obtenir une preuve structurale directe du réarrangement structural des substrats SLI shiftable en présence de magnésium et de l’ARN SLV. La structure RMN d’un complexe SLI/SLV de grande affinité démontre que les boucles terminales de SLI et SLV forment chacune un motif U-turn, ce qui facilite l’appariement W-C intermoléculaire. Plusieurs autres interactions ont été définies à l’interface I/V, notamment des triplets de bases, ainsi que des empilements de bases. Ces interactions contribuent d’ailleurs à la création d’une structure présentant un empilement continu, c’est-à-dire qui se propage du centre de l’interaction jusqu’aux bouts des tiges de SLI et SLV. Ces études de RMN permettent donc de mieux comprendre la stabilité exceptionnelle de l’interaction kissing-loop I/V au niveau structural et mènent à l’élaboration d’un modèle cinétique de l’activation du substrat par le ribozyme VS. En considérant l’ensemble des données d’ITC et de RMN, l’étonnante stabilité de l’interaction I/V s’explique probablement par une combinaison de facteurs, dont les motifs U-turn, la présence d’un nucléotide exclu de la boucle de SLV (U700), la liaison de cations magnésium et l’empilement de bases continu à la jonction I/V.

Relevância:

20.00% 20.00%

Publicador:

Resumo:

L’objectif de cette recherche est la création d’une plateforme en ligne qui permettrait d’examiner les différences individuelles de stratégies de traitement de l’information visuelle dans différentes tâches de catégorisation des visages. Le but d’une telle plateforme est de récolter des données de participants géographiquement dispersés et dont les habiletés en reconnaissance des visages sont variables. En effet, de nombreuses études ont montré qu’il existe de grande variabilité dans le spectre des habiletés à reconnaître les visages, allant de la prosopagnosie développementale (Susilo & Duchaine, 2013), un trouble de reconnaissance des visages en l’absence de lésion cérébrale, aux super-recognizers, des individus dont les habiletés en reconnaissance des visages sont au-dessus de la moyenne (Russell, Duchaine & Nakayama, 2009). Entre ces deux extrêmes, les habiletés en reconnaissance des visages dans la population normale varient. Afin de démontrer la faisabilité de la création d’une telle plateforme pour des individus d’habiletés très variables, nous avons adapté une tâche de reconnaissance de l’identité des visages de célébrités utilisant la méthode Bubbles (Gosselin & Schyns, 2001) et avons recruté 14 sujets contrôles et un sujet présentant une prosopagnosie développementale. Nous avons pu mettre en évidence l’importance des yeux et de la bouche dans l’identification des visages chez les sujets « normaux ». Les meilleurs participants semblent, au contraire, utiliser majoritairement le côté gauche du visage (l’œil gauche et le côté gauche de la bouche).

Relevância:

20.00% 20.00%

Publicador:

Resumo:

La présente étude porte sur les effets de la familiarité dans l’identification d’individus en situation de parade vocale. La parade vocale est une technique inspirée d’une procédure paralégale d’identification visuelle d’individus. Elle consiste en la présentation de plusieurs voix avec des aspects acoustiques similaires définis selon des critères reconnus dans la littérature. L’objectif principal de la présente étude était de déterminer si la familiarité d’une voix dans une parade vocale peut donner un haut taux d’identification correcte (> 99 %) de locuteurs. Cette étude est la première à quantifier le critère de familiarité entre l’identificateur et une personne associée à « une voix-cible » selon quatre paramètres liés aux contacts (communications) entre les individus, soit la récence du contact (à quand remonte la dernière rencontre avec l’individu), la durée et la fréquence moyenne du contact et la période pendant laquelle avaient lieu les contacts. Trois différentes parades vocales ont été élaborées, chacune contenant 10 voix d’hommes incluant une voix-cible pouvant être très familière; ce degré de familiarité a été établi selon un questionnaire. Les participants (identificateurs, n = 44) ont été sélectionnés selon leur niveau de familiarité avec la voix-cible. Toutes les voix étaient celles de locuteurs natifs du franco-québécois et toutes avaient des fréquences fondamentales moyennes similaires à la voix-cible (à un semi-ton près). Aussi, chaque parade vocale contenait des énoncés variant en longueur selon un nombre donné de syllabes (1, 4, 10, 18 syll.). Les résultats démontrent qu’en contrôlant le degré de familiarité et avec un énoncé de 4 syllabes ou plus, on obtient un taux d’identification avec une probabilité exacte d’erreur de p < 1 x 10-12. Ces taux d’identification dépassent ceux obtenus actuellement avec des systèmes automatisés.

Relevância:

20.00% 20.00%

Publicador:

Resumo:

En apprentissage automatique, domaine qui consiste à utiliser des données pour apprendre une solution aux problèmes que nous voulons confier à la machine, le modèle des Réseaux de Neurones Artificiels (ANN) est un outil précieux. Il a été inventé voilà maintenant près de soixante ans, et pourtant, il est encore de nos jours le sujet d'une recherche active. Récemment, avec l'apprentissage profond, il a en effet permis d'améliorer l'état de l'art dans de nombreux champs d'applications comme la vision par ordinateur, le traitement de la parole et le traitement des langues naturelles. La quantité toujours grandissante de données disponibles et les améliorations du matériel informatique ont permis de faciliter l'apprentissage de modèles à haute capacité comme les ANNs profonds. Cependant, des difficultés inhérentes à l'entraînement de tels modèles, comme les minima locaux, ont encore un impact important. L'apprentissage profond vise donc à trouver des solutions, en régularisant ou en facilitant l'optimisation. Le pré-entraînnement non-supervisé, ou la technique du ``Dropout'', en sont des exemples. Les deux premiers travaux présentés dans cette thèse suivent cette ligne de recherche. Le premier étudie les problèmes de gradients diminuants/explosants dans les architectures profondes. Il montre que des choix simples, comme la fonction d'activation ou l'initialisation des poids du réseaux, ont une grande influence. Nous proposons l'initialisation normalisée pour faciliter l'apprentissage. Le second se focalise sur le choix de la fonction d'activation et présente le rectifieur, ou unité rectificatrice linéaire. Cette étude a été la première à mettre l'accent sur les fonctions d'activations linéaires par morceaux pour les réseaux de neurones profonds en apprentissage supervisé. Aujourd'hui, ce type de fonction d'activation est une composante essentielle des réseaux de neurones profonds. Les deux derniers travaux présentés se concentrent sur les applications des ANNs en traitement des langues naturelles. Le premier aborde le sujet de l'adaptation de domaine pour l'analyse de sentiment, en utilisant des Auto-Encodeurs Débruitants. Celui-ci est encore l'état de l'art de nos jours. Le second traite de l'apprentissage de données multi-relationnelles avec un modèle à base d'énergie, pouvant être utilisé pour la tâche de désambiguation de sens.

Relevância:

20.00% 20.00%

Publicador:

Resumo:

Ce mémoire vise à comprendre l’expérience de vie des jeunes Québécoises de 2e génération portant le voile islamique, qui ont vécu le débat sur la charte de la laïcité au Québec en 2012. Un des articles de ce projet de loi visait à interdire le port des signes religieux «ostentatoires» par les employés de la fonction publique. Une vague de protestation a animé les membres des minorités religieuses visées et une apparition, quoique marginale, des Québécois de 2e génération a commencé à émerger. À travers le concept de lutte pour la reconnaissance tel que théorisé par Honneth et celui de stigmate amené par Goffman et élaboré par Göle, j’ai tenté de comprendre l’expérience de lutte pour la reconnaissance entamée par des Québécoises porteuses d’un signe religieux stigmatisé. Le concept d’hybridité m’a permis également de comprendre la richesse identitaire de ces jeunes qui se manifeste notamment dans l’articulation de leurs revendications. J’ai ainsi mené 13 entrevues semi dirigées sur le mode du récit de vie avec des jeunes femmes âgées entre 19 et 27 ans, nées au Québec et portant le voile islamique.

Relevância:

20.00% 20.00%

Publicador:

Resumo:

Nous proposons une approche qui génère des scénarios de visualisation à partir des descriptions de tâches d'analyse de code. La dérivation de scénario est considérée comme un processus d'optimisation. Dans ce contexte, nous évaluons différentes possibilités d'utilisation d'un outil de visualisation donnée pour effectuer la tâche d'analyse, et sélectionnons le scénario qui nécessite le moins d'effort d'analyste. Notre approche a été appliquée avec succès à diverses tâches d'analyse telles que la détection des défauts de conception.

Relevância:

20.00% 20.00%

Publicador:

Resumo:

L'exécution des pièces jointes au corpus a été rendue possible grâce à la générosité des ensembles qui en font l'interprétation. Les partitions ont été réalisées avec le logiciel FINALE 2011.

Relevância:

20.00% 20.00%

Publicador:

Resumo:

La formation de la main-d’œuvre est l’objet d’une littérature scientifique abondante depuis plusieurs années. D’une manière générale, les principaux sujets étudiés dans la littérature scientifique, les travaux empiriques et dans les politiques publiques traitent du rendement de la formation de la main-d’œuvre ou plus récemment de la dimension stratégique de la formation de la main-d’œuvre sur la performance organisationnelle. Or, les résultats produits sont mitigés, peu convaincants, voire contradictoires (Cedefop, 2013, 2005). En conséquence, les chefs d’entreprises et les décideurs en matière de politiques publiques manquent de démonstrations claires pour évaluer les impacts de la formation sur la performance des organisations. Dans cette recherche, nous proposons justement d’apporter un nouvel éclairage théorique et empirique pour mieux comprendre les caractéristiques des entreprises qui évaluent le rendement de la formation, comment le font-elles et quelles sont les retombées perçues en la matière. Sur le plan théorique, cette recherche mobilise trois approches différentes dans un modèle analytique qui se veut intégratif. Dans la partie plutôt hypothético-déductive, la théorie du capital humain ainsi que le modèle de Kirkpatrick et de la gestion stratégique de ressources humaines permettent de vérifier la rationalité des employeurs en matière d’évaluation de la formation et de la perception de son rendement. Dans la partie la plus exploratoire de la thèse, nous avons mobilisé les pouvoirs conceptuels et explicatifs de l’approche institutionnaliste pour comprendre le comportement des organisations qui ne font pas d’évaluation formelle mais qui perçoivent quand même des retombées positives de leurs activités de formation. Sur le plan méthodologique, il s’agit d’une recherche explicative et d’une démarche en partie exploratoire quantitative faite à partir des données de l’enquête menée en 2003 par Emploi-Québec et l’Institut de la statistique du Québec auprès de 4600 entreprises assujetties à la Loi favorisant le développement et la reconnaissance des compétences de la main-d’œuvre. Nos principaux résultats de recherche soutiennent l’existence de trois types de facteurs explicatifs de la perception des retombées de la formation : des facteurs liés à l’organisation (profil et expérience en formation), des facteurs liés à la nature de la formation et des facteurs liés à l’intervention institutionnelle en matière de formation.