995 resultados para XML Markup Language
Resumo:
Les structures avec des lieurs sont très communes en informatique. Les langages de programmation et les systèmes logiques sont des exemples de structures avec des lieurs. La manipulation de lieurs est délicate, de sorte que l’écriture de programmes qui ma- nipulent ces structures tirerait profit d’un soutien spécifique pour les lieurs. L’environ- nement de programmation Beluga est un exemple d’un tel système. Nous développons et présentons ici un compilateur pour ce système. Parmi les programmes pour lesquels Beluga est spécialement bien adapté, plusieurs peuvent bénéficier d’un compilateur. Par exemple, les programmes pour valider les types (les "type-checkers"), les compilateurs et les interpréteurs tirent profit du soutien spécifique des lieurs et des types dépendants présents dans le langage. Ils nécessitent tous également une exécution efficace, que l’on propose d’obtenir par le biais d’un compilateur. Le but de ce travail est de présenter un nouveau compilateur pour Beluga, qui emploie une représentation interne polyvalente et permet de partager du code entre plusieurs back-ends. Une contribution notable est la compilation du filtrage de Beluga, qui est particulièrement puissante dans ce langage.
Resumo:
Le but de cette thèse est d'étudier les corrélats comportementaux et neuronaux du transfert inter-linguistique (TIL) dans l'apprentissage d’une langue seconde (L2). Compte tenu de nos connaissances sur l'influence de la distance linguistique sur le TIL (Paradis, 1987, 2004; Odlin, 1989, 2004, 2005; Gollan, 2005; Ringbom, 2007), nous avons examiné l'effet de facilitation de la similarité phonologique à l’aide de la résonance magnétique fonctionnelle entre des langues linguistiquement proches (espagnol-français) et des langues linguistiquement éloignées (persan-français). L'étude I rapporte les résultats obtenus pour des langues linguistiquement proches (espagnol-français), alors que l'étude II porte sur des langues linguistiquement éloignées (persan-français). Puis, les changements de connectivité fonctionnelle dans le réseau langagier (Price, 2010) et dans le réseau de contrôle supplémentaire impliqué dans le traitement d’une langue seconde (Abutalebi & Green, 2007) lors de l’apprentissage d’une langue linguistiquement éloignée (persan-français) sont rapportés dans l’étude III. Les résultats des analyses d’IRMF suivant le modèle linéaire général chez les bilingues de langues linguistiquement proches (français-espagnol) montrent que le traitement des mots phonologiquement similaires dans les deux langues (cognates et clangs) compte sur un réseau neuronal partagé par la langue maternelle (L1) et la L2, tandis que le traitement des mots phonologiquement éloignés (non-clang-non-cognates) active des structures impliquées dans le traitement de la mémoire de travail et d'attention. Toutefois, chez les personnes bilingues de L1-L2 linguistiquement éloignées (français-persan), même les mots phonologiquement similaires à travers les langues (cognates et clangs) activent des régions connues pour être impliquées dans l'attention et le contrôle cognitif. Par ailleurs, les mots phonologiquement éloignés (non-clang-non-cognates) activent des régions usuellement associées à la mémoire de travail et aux fonctions exécutives. Ainsi, le facteur de distance inter-linguistique entre L1 et L2 module la charge cognitive sur la base du degré de similarité phonologiques entres les items en L1 et L2. Des structures soutenant les processus impliqués dans le traitement exécutif sont recrutées afin de compenser pour des demandes cognitives. Lorsque la compétence linguistique en L2 augmente et que les tâches linguistiques exigent ainsi moins d’effort, la demande pour les ressources cognitives diminue. Tel que déjà rapporté (Majerus, et al, 2008; Prat, et al, 2007; Veroude, et al, 2010; Dodel, et al, 2005; Coynel, et al ., 2009), les résultats des analyses de connectivité fonctionnelle montrent qu’après l’entraînement la valeur d'intégration (connectivité fonctionnelle) diminue puisqu’il y a moins de circulation du flux d'information. Les résultats de cette recherche contribuent à une meilleure compréhension des aspects neurocognitifs et de plasticité cérébrale du TIL ainsi que l'impact de la distance linguistique dans l'apprentissage des langues. Ces résultats ont des implications dans les stratégies d'apprentissage d’une L2, les méthodes d’enseignement d’une L2 ainsi que le développement d'approches thérapeutiques chez des patients bilingues qui souffrent de troubles langagiers.
Resumo:
Le dictionnaire LVF (Les Verbes Français) de J. Dubois et F. Dubois-Charlier représente une des ressources lexicales les plus importantes dans la langue française qui est caractérisée par une description sémantique et syntaxique très pertinente. Le LVF a été mis disponible sous un format XML pour rendre l’accès aux informations plus commode pour les applications informatiques telles que les applications de traitement automatique de la langue française. Avec l’émergence du web sémantique et la diffusion rapide de ses technologies et standards tels que XML, RDF/RDFS et OWL, il serait intéressant de représenter LVF en un langage plus formalisé afin de mieux l’exploiter par les applications du traitement automatique de la langue ou du web sémantique. Nous en présentons dans ce mémoire une version ontologique OWL en détaillant le processus de transformation de la version XML à OWL et nous en démontrons son utilisation dans le domaine du traitement automatique de la langue avec une application d’annotation sémantique développée dans GATE.
Resumo:
La présente étude s’inscrit dans une lignée de travaux de recherche en traductologie réalisés dans un cadre de sémantique cognitive et visant à dégager les modes de conceptualisation métaphorique dans les domaines de spécialité, et plus précisément dans les sciences biomédicales. Notre étude se concentre sur les modes de conceptualisation métaphorique utilisés en neuroanatomie en français, en anglais et en allemand, dans une perspective d’application à la traduction. Nous nous penchons plus spécifiquement sur la description anatomique de deux structures du système nerveux central : la moelle spinale et le cervelet. Notre objectif est de repérer et de caractériser les indices de conceptualisation métaphorique (ICM). Notre méthode s'appuie sur un corpus trilingue de textes de référence traitant de ces structures et fait appel à une annotation sémantique en langage XML, ce qui autorise une interrogation des corpus annotés au moyen du langage XQuery. Nous mettons en évidence que les ICM jouent un rôle prédominant dans la phraséologie et les dénominations propres à la description anatomique du système nerveux, comme c'est le cas en biologie cellulaire et en anatomie des muscles, des nerfs périphériques et des vaisseaux sanguins. Sous l’angle lexical, il faut distinguer les ICM prédicatifs, les ICM non prédicatifs ainsi que les ICM quasi prédicatifs. La plupart des modes de conceptualisation métaphorique préalablement repérés en biologie cellulaire et en anatomie sont également présents dans le domaine plus spécifique de la neuroanatomie. Certains ICM et modes de conceptualisation sont toutefois spécifiques à des éléments des régions étudiées. Par ailleurs, les modes de conceptualisation métaphorique en français, en anglais et en allemand sont semblables, mais sont exprimés par des réseaux lexicaux d'ICM dont la richesse varie. De plus, la composition nominale étant une des caractéristiques de l'allemand, la forme linguistique des ICM présente des caractéristiques spécifiques. Nos résultats mettent en évidence la richesse métaphorique de la neuroanatomie. Cohérents avec les résultats des études antérieures, ils enrichissent cependant la typologie des ICM et soulignent la complexité, sur les plans lexical et cognitif, de la métaphore conceptuelle.
Resumo:
Cette thèse vise à mieux comprendre les tensions ethniques. Ceci est fait en explorant, dans une étude en quatre parties, l'une de ses caractéristiques les plus importantes mais sévèrement négligées: la langue. S’inspirant des traditions de recherche de la sociolinguistique, de la psychologie sociale et de la science politique, cette thèse fournit une analyse en profondeur de l'influence de la langue sur les relations intergroupes. Elle le fait, spécifiquement, en se concentrant sur l'influence que la vitalité linguistique, la santé sociale d'une langue, a sur les tensions sociales. Cette thèse propose un cadre théorique dans lequel le niveau de vitalité linguistique contribue à générer des griefs culturels qui ont une incidence par la suite sur les relations intergroupes. Le premier article explore la relation macro entre la vitalité linguistique et l'intensité des conflits intergroupes. Les résultats, dérivés de données de l'Atlas UNESCO des langues en danger dans le monde et du projet Minorities at Risk (MAR), démontrent une relation curvilinéaire où les niveaux bas et élevé de vitalité linguistique génèrent une intensité inférieure au niveau modéré de vitalité. Ces résultats confirment que la vitalité linguistique est un déterminant important des tensions ethniques fondées sur la langue d'une manière générale, mais encore davantage pour les pays ayant plusieurs minorités linguistiques. Le deuxième article explore l'influence de la vitalité linguistique sur la confiance politique. Il utilise des données de l'Atlas UNESCO des langues en danger dans le monde ainsi que des données du European Social Survey (ESS). Les résultats soutiennent un modèle de médiation dans lequel la vitalité linguistique influence positivement la confiance politique d'une manière directe ainsi qu’indirectement par le biais de la discrimination perçue. Le troisième article cherche à isoler la séquence socio-psychologique qui relie la vitalité linguistique aux tensions intergroupes. Des données de sondage originales ont été recueillies auprès de francophones du Québec, de l'Ontario, du Nouveau-Brunswick et du Manitoba. Les résultats d’analyses de régression multiple soutiennent une séquence socio-psychologique dans laquelle la menace endogroupe influence les attitudes envers l’exogroupe par le biais de la menace perçue comme étant causée par l’exogroupe. Ainsi, ces constats soulignent l'importance des perceptions de la vitalité linguistique pour les attitudes intergroupes. Le quatrième article, produit en collaboration avec Patrick Fournier et Veronica Benet-Martinez, utilise un protocole expérimental pour déterminer le rôle causal de la vitalité linguistique sur les attitudes intergroupes. Les résultats démontrent que le type d'information, positif ou négatif, au sujet de la vitalité linguistique influence les perceptions de menace envers une langue. Cependant, les résultats quant à l'impact de l’information à propos de la vitalité linguistique sur les attitudes envers l’exogroupe, l’appui à la souveraineté et l'identité subjective sont moins évidents. Cette thèse permet de mieux comprendre les tensions intergroupes en démontrant le rôle important que joue la vitalité linguistique sur des phénomènes macros ainsi que sur les attitudes des individus.
Resumo:
L’objectif de ce mémoire est de démontrer le rôle important de la langue dans la pièce de théâtre Death and the King’s Horseman par l’auteur nigérian Wole Soyinka. Le premier chapitre traite les implications de l'écriture d'un texte postcolonial dans la langue anglaise et revisite les débats linguistiques des années 1950 et 1960. En plus de l'anglais, ce mémoire observe l'utilisation d'autres formes de communication telles que l'anglais, le pidgin nigérian, les dialectes locaux et les métaphores Yoruba. Par conséquent, l'intersection entre la langue et la culture devient évidente à travers la description des rituels. La dernière partie de ce mémoire explore l'objectif principal de Soyinka de créer une «essence thrénodique». Avec l'utilisation de masques rituels, de la danse et de la musique, il développe un type de dialogue qui dépasse les limites de la forme écrite et est accessible seulement à ceux qui sont équipés de sensibilités culturelles Yoruba.
Resumo:
For this paper, heterolingualism or language plurality will be considered as the presence in a single text or in a social environment of both French and English, Canada’s official languages. Language plurality will here be studied from an institutional viewpoint: the influence of the Canadian government on the translation of political speeches. The first part of this article will establish that political speeches are written in a bilingual environment where the two official languages are often in contact. This bilingualism, however, is often homogenised when it comes to speech delivery and publication. Therefore, the second part focuses on the speeches’ paratextual
Resumo:
This work is aimed at building an adaptable frame-based system for processing Dravidian languages. There are about 17 languages in this family and they are spoken by the people of South India.Karaka relations are one of the most important features of Indian languages. They are the semabtuco-syntactic relations between verbs and other related constituents in a sentence. The karaka relations and surface case endings are analyzed for meaning extraction. This approach is comparable with the borad class of case based grammars.The efficiency of this approach is put into test in two applications. One is machine translation and the other is a natural language interface (NLI) for information retrieval from databases. The system mainly consists of a morphological analyzer, local word grouper, a parser for the source language and a sentence generator for the target language. This work make contributios like, it gives an elegant account of the relation between vibhakthi and karaka roles in Dravidian languages. This mapping is elegant and compact. The same basic thing also explains simple and complex sentence in these languages. This suggests that the solution is not just ad hoc but has a deeper underlying unity. This methodology could be extended to other free word order languages. Since the frame designed for meaning representation is general, they are adaptable to other languages coming in this group and to other applications.
Resumo:
Sharing of information with those in need of it has always been an idealistic goal of networked environments. With the proliferation of computer networks, information is so widely distributed among systems, that it is imperative to have well-organized schemes for retrieval and also discovery. This thesis attempts to investigate the problems associated with such schemes and suggests a software architecture, which is aimed towards achieving a meaningful discovery. Usage of information elements as a modelling base for efficient information discovery in distributed systems is demonstrated with the aid of a novel conceptual entity called infotron.The investigations are focused on distributed systems and their associated problems. The study was directed towards identifying suitable software architecture and incorporating the same in an environment where information growth is phenomenal and a proper mechanism for carrying out information discovery becomes feasible. An empirical study undertaken with the aid of an election database of constituencies distributed geographically, provided the insights required. This is manifested in the Election Counting and Reporting Software (ECRS) System. ECRS system is a software system, which is essentially distributed in nature designed to prepare reports to district administrators about the election counting process and to generate other miscellaneous statutory reports.Most of the distributed systems of the nature of ECRS normally will possess a "fragile architecture" which would make them amenable to collapse, with the occurrence of minor faults. This is resolved with the help of the penta-tier architecture proposed, that contained five different technologies at different tiers of the architecture.The results of experiment conducted and its analysis show that such an architecture would help to maintain different components of the software intact in an impermeable manner from any internal or external faults. The architecture thus evolved needed a mechanism to support information processing and discovery. This necessitated the introduction of the noveI concept of infotrons. Further, when a computing machine has to perform any meaningful extraction of information, it is guided by what is termed an infotron dictionary.The other empirical study was to find out which of the two prominent markup languages namely HTML and XML, is best suited for the incorporation of infotrons. A comparative study of 200 documents in HTML and XML was undertaken. The result was in favor ofXML.The concept of infotron and that of infotron dictionary, which were developed, was applied to implement an Information Discovery System (IDS). IDS is essentially, a system, that starts with the infotron(s) supplied as clue(s), and results in brewing the information required to satisfy the need of the information discoverer by utilizing the documents available at its disposal (as information space). The various components of the system and their interaction follows the penta-tier architectural model and therefore can be considered fault-tolerant. IDS is generic in nature and therefore the characteristics and the specifications were drawn up accordingly. Many subsystems interacted with multiple infotron dictionaries that were maintained in the system.In order to demonstrate the working of the IDS and to discover the information without modification of a typical Library Information System (LIS), an Information Discovery in Library Information System (lDLIS) application was developed. IDLIS is essentially a wrapper for the LIS, which maintains all the databases of the library. The purpose was to demonstrate that the functionality of a legacy system could be enhanced with the augmentation of IDS leading to information discovery service. IDLIS demonstrates IDS in action. IDLIS proves that any legacy system could be augmented with IDS effectively to provide the additional functionality of information discovery service.Possible applications of IDS and scope for further research in the field are covered.
Resumo:
This is a Named Entity Based Question Answering System for Malayalam Language. Although a vast amount of information is available today in digital form, no effective information access mechanism exists to provide humans with convenient information access. Information Retrieval and Question Answering systems are the two mechanisms available now for information access. Information systems typically return a long list of documents in response to a user’s query which are to be skimmed by the user to determine whether they contain an answer. But a Question Answering System allows the user to state his/her information need as a natural language question and receives most appropriate answer in a word or a sentence or a paragraph. This system is based on Named Entity Tagging and Question Classification. Document tagging extracts useful information from the documents which will be used in finding the answer to the question. Question Classification extracts useful information from the question to determine the type of the question and the way in which the question is to be answered. Various Machine Learning methods are used to tag the documents. Rule-Based Approach is used for Question Classification. Malayalam belongs to the Dravidian family of languages and is one of the four major languages of this family. It is one of the 22 Scheduled Languages of India with official language status in the state of Kerala. It is spoken by 40 million people. Malayalam is a morphologically rich agglutinative language and relatively of free word order. Also Malayalam has a productive morphology that allows the creation of complex words which are often highly ambiguous. Document tagging tools such as Parts-of-Speech Tagger, Phrase Chunker, Named Entity Tagger, and Compound Word Splitter are developed as a part of this research work. No such tools were available for Malayalam language. Finite State Transducer, High Order Conditional Random Field, Artificial Immunity System Principles, and Support Vector Machines are the techniques used for the design of these document preprocessing tools. This research work describes how the Named Entity is used to represent the documents. Single sentence questions are used to test the system. Overall Precision and Recall obtained are 88.5% and 85.9% respectively. This work can be extended in several directions. The coverage of non-factoid questions can be increased and also it can be extended to include open domain applications. Reference Resolution and Word Sense Disambiguation techniques are suggested as the future enhancements
Resumo:
Malayalam is one of the 22 scheduled languages in India with more than 130 million speakers. This paper presents a report on the development of a speaker independent, continuous transcription system for Malayalam. The system employs Hidden Markov Model (HMM) for acoustic modeling and Mel Frequency Cepstral Coefficient (MFCC) for feature extraction. It is trained with 21 male and female speakers in the age group ranging from 20 to 40 years. The system obtained a word recognition accuracy of 87.4% and a sentence recognition accuracy of 84%, when tested with a set of continuous speech data.
Resumo:
A connected digit speech recognition is important in many applications such as automated banking system, catalogue-dialing, automatic data entry, automated banking system, etc. This paper presents an optimum speaker-independent connected digit recognizer forMalayalam language. The system employs Perceptual Linear Predictive (PLP) cepstral coefficient for speech parameterization and continuous density Hidden Markov Model (HMM) in the recognition process. Viterbi algorithm is used for decoding. The training data base has the utterance of 21 speakers from the age group of 20 to 40 years and the sound is recorded in the normal office environment where each speaker is asked to read 20 set of continuous digits. The system obtained an accuracy of 99.5 % with the unseen data.
Resumo:
The span of writer identification extends to broad domes like digital rights administration, forensic expert decisionmaking systems, and document analysis systems and so on. As the success rate of a writer identification scheme is highly dependent on the features extracted from the documents, the phase of feature extraction and therefore selection is highly significant for writer identification schemes. In this paper, the writer identification in Malayalam language is sought for by utilizing feature extraction technique such as Scale Invariant Features Transform (SIFT).The schemes are tested on a test bed of 280 writers and performance evaluated
Resumo:
In dieser Arbeit wird ein generisches Modell fuer synchrone Gruppenarbeit auf gemeinsamen Informationsraeumen entwickelt. Fuer die Entwicklung dieses Modells muessen die Grundfunktionen fuer Anwendungen der synchronen Gruppenarbeit realisiert werden. Neben der Modellierung des Datenraumes (Datenmodell) und der operationellen Schnittstelle (Interaktionsmodell), muessen Mechanismen fuer die Darstellung der Aktivitaeten der Gruppenmitglieder auf dem Informationsraum (Awareness), sowie fuer die Synchronisierung gleichzeitiger Zugriffe verschiedener Benutzer auf dem Datenraum realisiert werden (Nebenlaeufgkeitskontrolle). Das Grundproblem bei der Loesung der Nebenlaeufigkeit liegt bei der Aufgabe der Isolation aus den klassischen ACID-Transaktionen zu gunsten von Awareness. Die rapide Entwicklung von Techniken der mobilen Kommunikation ermoeglicht den Einsatz dieser Geraete fuer den Zugriff auf Daten im Internet. Durch UMTSund WLAN-Technologien koennen Mobilgeraete fuer Anwendungen ueber die reine Kommunikation hinaus eingesetzt werden. Eine natuerliche Folge dieser Entwicklung sind Anwendungen fuer die Zusammenarbeit mehrerer Benutzer. In der Arbeit wird daher auf die Unterstuetzung mobiler Geraete besonderen Wert gelegt. Die Interaktion der Benutzer auf den gemeinsamen Datenraum wird durch einfache Navigationsoperationen mit einem Cursor (Finger) realisiert, wobei der Datenraum durch XML-Dokumente dargestellt wird. Die Visualisierung basiert auf der Transformierung von XML-Dokumenten in andere XML-basierte Sprachen wie HTML oder SVG durch XSLT-Stylesheets. Awareness-Informationen werden, aehnlich dem Fokus/Nimbus-Modell, von der Interaktion der Benutzer und der Ermittlung der sichtbaren Objekte bei dem Benutzer hergeleitet. Fuer eine geeignete Kontrolle der Nebenlaeufigkeit wurde der Begriff der visuellen Transaktion eingefuehrt, wo die Auswirkungen einer Transaktion von anderen Benutzern (Transaktionen) beobachtet werden koennen. Die Synchronisierung basiert auf einem Sperrverfahren und der Einfuehrung der neuen W-Sperre und der Grundoperationen readV und writeV. Das Modell (Groupware-Server) wird in der Arbeit in einem Prototyp implementiert. Weiterhin wird eine Java-Anwendung sowohl auf einem Desktop PC als auch auf einem Pocket PC (iPAQ 3970) implementiert, welche die Einsetzbarkeit dieses Prototyps demonstriert.
Resumo:
Cooperative behaviour of agents within highly dynamic and nondeterministic domains is an active field of research. In particular establishing highly responsive teamwork, where agents are able to react on dynamic changes in the environment while facing unreliable communication and sensory noise, is an open problem. Moreover, modelling such responsive, cooperative behaviour is difficult. In this work, we specify a novel model for cooperative behaviour geared towards highly dynamic domains. In our approach, agents estimate each other’s decision and correct these estimations once they receive contradictory information. We aim at a comprehensive approach for agent teamwork featuring intuitive modelling capabilities for multi-agent activities, abstractions over activities and agents, and a clear operational semantic for the new model. This work encompasses a complete specification of the new language, ALICA.