989 resultados para Language representation
Resumo:
Pour respecter les droits d’auteur, la version électronique de ce mémoire a été dépouillée de certains documents visuels et audio-visuels. La version intégrale du mémoire a été déposée au Service de la gestion des documents et des archives de l'Université de Montréal
Resumo:
Dans cette dissertation, nous présentons plusieurs techniques d’apprentissage d’espaces sémantiques pour plusieurs domaines, par exemple des mots et des images, mais aussi à l’intersection de différents domaines. Un espace de représentation est appelé sémantique si des entités jugées similaires par un être humain, ont leur similarité préservée dans cet espace. La première publication présente un enchaînement de méthodes d’apprentissage incluant plusieurs techniques d’apprentissage non supervisé qui nous a permis de remporter la compétition “Unsupervised and Transfer Learning Challenge” en 2011. Le deuxième article présente une manière d’extraire de l’information à partir d’un contexte structuré (177 détecteurs d’objets à différentes positions et échelles). On montrera que l’utilisation de la structure des données combinée à un apprentissage non supervisé permet de réduire la dimensionnalité de 97% tout en améliorant les performances de reconnaissance de scènes de +5% à +11% selon l’ensemble de données. Dans le troisième travail, on s’intéresse à la structure apprise par les réseaux de neurones profonds utilisés dans les deux précédentes publications. Plusieurs hypothèses sont présentées et testées expérimentalement montrant que l’espace appris a de meilleures propriétés de mixage (facilitant l’exploration de différentes classes durant le processus d’échantillonnage). Pour la quatrième publication, on s’intéresse à résoudre un problème d’analyse syntaxique et sémantique avec des réseaux de neurones récurrents appris sur des fenêtres de contexte de mots. Dans notre cinquième travail, nous proposons une façon d’effectuer de la recherche d’image ”augmentée” en apprenant un espace sémantique joint où une recherche d’image contenant un objet retournerait aussi des images des parties de l’objet, par exemple une recherche retournant des images de ”voiture” retournerait aussi des images de ”pare-brises”, ”coffres”, ”roues” en plus des images initiales.
Resumo:
Cette recherche examine la traduction et la réception en France, en Grande Bretagne et aux États-Unis de la littérature contemporaine d’expression arabe écrite par des femmes, afin de répondre à deux questions principales: comment les écrivaines provenant de pays arabes perdent-elles leur agentivité dans les processus de traduction et de réception? Et comment la traduction et la réception de leurs textes contribuent-elles à la construction d’une altérité arabe? Pour y répondre, l’auteure examine trois romans présentant des traits thématiques et formels très différents, à savoir Fawḍā al-Ḥawāss (1997) par Ahlem Mosteghanemi, Innahā Lundun Yā ‘Azīzī (2001) par Hanan al-Shaykh et Banāt al-Riyāḍ (2005) par Rajaa Alsanea. L’analyse, basée sur le modèle à trois dimensions de Norman Fairclough, vise à découvrir comment les écrivaines expriment leur agentivité à travers l’écriture, et quelles images elles projettent d’elles-mêmes et plus généralement des femmes dans leurs sociétés respectives. L’auteure se penche ensuite sur les traductions anglaise et française de chaque roman. Elle examine les déplacements qui s’opèrent principalement sur le plan de la texture et le plan pragma-sémiotique, et interroge en quoi ces déplacements ébranlent l’autorité des écrivaines. Enfin, une étude de la réception de ces traductions en France, en Grande Bretagne et aux États-Unis vient enrichir l’analyse textuelle. À cette étape, les critiques éditoriales et universitaires ainsi que les choix éditoriaux relatifs au paratexte sont scrutés de façon à mettre en lumière les processus décisionnels, les discours et les tropes sous-tendant la mise en marché et la consommation de ces traductions. L’analyse des originaux révèle tout d’abord qu’à travers leurs textes, les auteures sont des agentes actives de changement social. Elles s’insurgent, chacune à sa manière, contre les discours hégémoniques tant locaux qu’occidentaux, et (ré-)imaginent leurs sociétés et leurs nations. Ce faisant, elles se créent leur propre espace discursif dans la sphère publique. Toutefois, la thèse montre que dans la plupart des traductions, les discours dissidents sont neutralisés, l’agentivité et la subjectivité des écrivaines minées au profit d’un discours dominant orientaliste. Ce même discours semble sous-tendre la réception des romans en traduction. Dans ce discours réifiant, l’expression de la différence culturelle est inextricablement imbriquée dans l’expression de la différence sexuelle: la « femme arabe » est la victime d’une religion islamique et d’une culture arabe essentiellement misogynes et arriérées. L’étude suggère, cependant, que ce sont moins les interventions des traductrices que les décisions des éditeurs, le travail de médiation opéré par les critiques, et l’intérêt (ou le désintérêt) des universitaires qui influencent le plus la manière dont ces romans sont mis en marché et reçus dans les nouveaux contextes. L’auteure conclut par rappeler l’importance d’une éthique de la traduction qui transcende toute approche binaire et se fonde sur une lecture éthique des textes qui fait ressortir le lien entre la poétique et la politique. Enfin, elle propose une lecture basée sur la reconnaissance du caractère situé du texte traduit comme du sujet lisant/traduisant.
Resumo:
Le domaine biomédical est probablement le domaine où il y a les ressources les plus riches. Dans ces ressources, on regroupe les différentes expressions exprimant un concept, et définit des relations entre les concepts. Ces ressources sont construites pour faciliter l’accès aux informations dans le domaine. On pense généralement que ces ressources sont utiles pour la recherche d’information biomédicale. Or, les résultats obtenus jusqu’à présent sont mitigés : dans certaines études, l’utilisation des concepts a pu augmenter la performance de recherche, mais dans d’autres études, on a plutôt observé des baisses de performance. Cependant, ces résultats restent difficilement comparables étant donné qu’ils ont été obtenus sur des collections différentes. Il reste encore une question ouverte si et comment ces ressources peuvent aider à améliorer la recherche d’information biomédicale. Dans ce mémoire, nous comparons les différentes approches basées sur des concepts dans un même cadre, notamment l’approche utilisant les identificateurs de concept comme unité de représentation, et l’approche utilisant des expressions synonymes pour étendre la requête initiale. En comparaison avec l’approche traditionnelle de "sac de mots", nos résultats d’expérimentation montrent que la première approche dégrade toujours la performance, mais la seconde approche peut améliorer la performance. En particulier, en appariant les expressions de concepts comme des syntagmes stricts ou flexibles, certaines méthodes peuvent apporter des améliorations significatives non seulement par rapport à la méthode de "sac de mots" de base, mais aussi par rapport à la méthode de Champ Aléatoire Markov (Markov Random Field) qui est une méthode de l’état de l’art dans le domaine. Ces résultats montrent que quand les concepts sont utilisés de façon appropriée, ils peuvent grandement contribuer à améliorer la performance de recherche d’information biomédicale. Nous avons participé au laboratoire d’évaluation ShARe/CLEF 2014 eHealth. Notre résultat était le meilleur parmi tous les systèmes participants.
Resumo:
Ce mémoire de maîtrise porte principalement sur la question de la réappropriation historique et musicale des Tziganes dans le docu-fiction Latcho Drom (1993) de Tony Gatlif. Dans un premier chapitre, il s’agit de comparer l’histoire écrite sur les Tziganes avec leur mise en image afin de déterminer comment le cinéaste apporte dans le langage audiovisuel de Latcho Drom un total renouveau dans le discours dominant. Dans cette perspective, l’appareil cinématographique se révèle être un médium de revendication et de réappropriation de l’être tzigane et de son histoire. Dans un deuxième chapitre, il est question de démontrer avec des études basées sur l’ethnomusicologie comment les musiques tziganes, sont rapidement assimilées au patrimoine culturel des sociétés européennes. Latcho Drom qui traduit avec justesse des expressions musicales très encrées de la vie de ces communautés, s’inscrit en contradiction avec la conception territorialiste de musicologues et ethnomusicologues qui refusent d’accorder à la musique tzigane légitimité et autonomie. Dans un troisième chapitre, il s’agit de déterminer comment le cinéaste cherche à faire entrer son spectateur dans un rapport de proximité avec les communautés de Latcho Drom afin de susciter en lui reconnaissance et empathie.
Resumo:
L’objectif de ce mémoire est de démontrer le rôle important de la langue dans la pièce de théâtre Death and the King’s Horseman par l’auteur nigérian Wole Soyinka. Le premier chapitre traite les implications de l'écriture d'un texte postcolonial dans la langue anglaise et revisite les débats linguistiques des années 1950 et 1960. En plus de l'anglais, ce mémoire observe l'utilisation d'autres formes de communication telles que l'anglais, le pidgin nigérian, les dialectes locaux et les métaphores Yoruba. Par conséquent, l'intersection entre la langue et la culture devient évidente à travers la description des rituels. La dernière partie de ce mémoire explore l'objectif principal de Soyinka de créer une «essence thrénodique». Avec l'utilisation de masques rituels, de la danse et de la musique, il développe un type de dialogue qui dépasse les limites de la forme écrite et est accessible seulement à ceux qui sont équipés de sensibilités culturelles Yoruba.
Resumo:
For this paper, heterolingualism or language plurality will be considered as the presence in a single text or in a social environment of both French and English, Canada’s official languages. Language plurality will here be studied from an institutional viewpoint: the influence of the Canadian government on the translation of political speeches. The first part of this article will establish that political speeches are written in a bilingual environment where the two official languages are often in contact. This bilingualism, however, is often homogenised when it comes to speech delivery and publication. Therefore, the second part focuses on the speeches’ paratextual
Resumo:
This is a Named Entity Based Question Answering System for Malayalam Language. Although a vast amount of information is available today in digital form, no effective information access mechanism exists to provide humans with convenient information access. Information Retrieval and Question Answering systems are the two mechanisms available now for information access. Information systems typically return a long list of documents in response to a user’s query which are to be skimmed by the user to determine whether they contain an answer. But a Question Answering System allows the user to state his/her information need as a natural language question and receives most appropriate answer in a word or a sentence or a paragraph. This system is based on Named Entity Tagging and Question Classification. Document tagging extracts useful information from the documents which will be used in finding the answer to the question. Question Classification extracts useful information from the question to determine the type of the question and the way in which the question is to be answered. Various Machine Learning methods are used to tag the documents. Rule-Based Approach is used for Question Classification. Malayalam belongs to the Dravidian family of languages and is one of the four major languages of this family. It is one of the 22 Scheduled Languages of India with official language status in the state of Kerala. It is spoken by 40 million people. Malayalam is a morphologically rich agglutinative language and relatively of free word order. Also Malayalam has a productive morphology that allows the creation of complex words which are often highly ambiguous. Document tagging tools such as Parts-of-Speech Tagger, Phrase Chunker, Named Entity Tagger, and Compound Word Splitter are developed as a part of this research work. No such tools were available for Malayalam language. Finite State Transducer, High Order Conditional Random Field, Artificial Immunity System Principles, and Support Vector Machines are the techniques used for the design of these document preprocessing tools. This research work describes how the Named Entity is used to represent the documents. Single sentence questions are used to test the system. Overall Precision and Recall obtained are 88.5% and 85.9% respectively. This work can be extended in several directions. The coverage of non-factoid questions can be increased and also it can be extended to include open domain applications. Reference Resolution and Word Sense Disambiguation techniques are suggested as the future enhancements
Squeezed Coherent State Representation of Scalar Field and Particle Production in the Early Universe
Resumo:
The present work is an attempt to explain particle production in the early univese. We argue that nonzero values of the stress-energy tensor evaluated in squeezed vacuum state can be due to particle production and this supports the concept of particle production from zero-point quantum fluctuations. In the present calculation we use the squeezed coherent state introduced by Fan and Xiao [7]. The vacuum expectation values of stressenergy tensor defined prior to any dynamics in the background gravitational field give all information about particle production. Squeezing of the vacuum is achieved by means of the background gravitational field, which plays the role of a parametric amplifier [8]. The present calculation shows that the vacuum expectation value of the energy density and pressure contain terms in addition to the classical zero-point energy terms. The calculation of the particle production probability shows that the probability increases as the squeezing parameter increases, reaches a maximum value, and then decreases.
Squeezed Coherent State Representation of Scalar Field and Particle Production in the Early Universe
Resumo:
The present work is an attempt to explain particle production in the early univese. We argue that nonzero values of the stress-energy tensor evaluated in squeezed vacuum state can be due to particle production and this supports the concept of particle production from zero-point quantum fluctuations. In the present calculation we use the squeezed coherent state introduced by Fan and Xiao [7]. The vacuum expectation values of stressenergy tensor defined prior to any dynamics in the background gravitational field give all information about particle production. Squeezing of the vacuum is achieved by means of the background gravitational field, which plays the role of a parametric amplifier [8]. The present calculation shows that the vacuum expectation value of the energy density and pressure contain terms in addition to the classical zero-point energy terms. The calculation of the particle production probability shows that the probability increases as the squeezing parameter increases, reaches a maximum value, and then decreases.
Resumo:
DNA sequence representation methods are used to denote a gene structure effectively and help in similarities/dissimilarities analysis of coding sequences. Many different kinds of representations have been proposed in the literature. They can be broadly classified into Numerical, Graphical, Geometrical and Hybrid representation methods. DNA structure and function analysis are made easy with graphical and geometrical representation methods since it gives visual representation of a DNA structure. In numerical method, numerical values are assigned to a sequence and digital signal processing methods are used to analyze the sequence. Hybrid approaches are also reported in the literature to analyze DNA sequences. This paper reviews the latest developments in DNA Sequence representation methods. We also present a taxonomy of various methods. A comparison of these methods where ever possible is also done
Resumo:
Malayalam is one of the 22 scheduled languages in India with more than 130 million speakers. This paper presents a report on the development of a speaker independent, continuous transcription system for Malayalam. The system employs Hidden Markov Model (HMM) for acoustic modeling and Mel Frequency Cepstral Coefficient (MFCC) for feature extraction. It is trained with 21 male and female speakers in the age group ranging from 20 to 40 years. The system obtained a word recognition accuracy of 87.4% and a sentence recognition accuracy of 84%, when tested with a set of continuous speech data.
Resumo:
A connected digit speech recognition is important in many applications such as automated banking system, catalogue-dialing, automatic data entry, automated banking system, etc. This paper presents an optimum speaker-independent connected digit recognizer forMalayalam language. The system employs Perceptual Linear Predictive (PLP) cepstral coefficient for speech parameterization and continuous density Hidden Markov Model (HMM) in the recognition process. Viterbi algorithm is used for decoding. The training data base has the utterance of 21 speakers from the age group of 20 to 40 years and the sound is recorded in the normal office environment where each speaker is asked to read 20 set of continuous digits. The system obtained an accuracy of 99.5 % with the unseen data.
Resumo:
The span of writer identification extends to broad domes like digital rights administration, forensic expert decisionmaking systems, and document analysis systems and so on. As the success rate of a writer identification scheme is highly dependent on the features extracted from the documents, the phase of feature extraction and therefore selection is highly significant for writer identification schemes. In this paper, the writer identification in Malayalam language is sought for by utilizing feature extraction technique such as Scale Invariant Features Transform (SIFT).The schemes are tested on a test bed of 280 writers and performance evaluated