266 resultados para scomputational linguistics
La gran diversitat lingüística i cultural present en la nostra societat sovint no s'ha fet gaire visible. Determinats aspectes més aparents, com la nacionalitat, imposen estereotips que amaguen realitats complexes. D'altra banda, persisteix una actitud assimiladora basada en la idea que la integració ha de voler dir la renúncia a bona part del bagatge cultural dels nouvinguts. Tanmateix, Catalunya té una llengua molt poc coneguda en altres societats, i per això la consciència que és important reconèixer l'altre aquí és molt habitual: la nacionalitat diu massa poc de nosaltres, i el mateix passa amb molts altres. Aquest projecte de recerca pretén reunir en format de fitxes una sèrie de dades molt bàsiques, especialment sobre la diversitat lingüística, i oferirles a qualsevol persona que tingui contacte amb persones immigrades per tal de posar a disposició algun element senzill que permeti expressar reconeixement i sensibilitat cap a la diversitat.
La gran diversitat lingüística i cultural present en la nostra societat sovint no s'ha fet gaire visible. Determinats aspectes més aparents, com la nacionalitat, imposen estereotips que amaguen realitats complexes. D'altra banda, persisteix una actitud assimiladora basada en la idea que la integració ha de voler dir la renúncia a bona part del bagatge cultural dels nouvinguts. Tanmateix, Catalunya té una llengua molt poc coneguda en altres societats, i per això la consciència que és important reconèixer l'altre aquí és molt habitual: la nacionalitat diu massa poc de nosaltres, i el mateix passa amb molts altres. Aquest projecte de recerca pretén reunir en format de fitxes una sèrie de dades molt bàsiques, especialment sobre la diversitat lingüística, i oferirles a qualsevol persona que tingui contacte amb persones immigrades per tal de posar a disposició algun element senzill que permeti expressar reconeixement i sensibilitat cap a la diversitat.
Finding an adequate paraphrase representation formalism is a challenging issue in Natural Language Processing. In this paper, we analyse the performance of Tree Edit Distance as a paraphrase representation baseline. Our experiments using Edit Distance Textual Entailment Suite show that, as Tree Edit Distance consists of a purely syntactic approach, paraphrase alternations not based on structural reorganizations do not find an adequate representation. They also show that there is much scope for better modelling of the way trees are aligned.
In this paper, we present a critical analysis of the state of the art in the definition and typologies of paraphrasing. This analysis shows that there exists no characterization of paraphrasing that is comprehensive, linguistically based and computationally tractable at the same time. The following sets out to define and delimit the concept on the basis of the propositional content. We present a general, inclusive and computationally oriented typology of the linguistic mechanisms that give rise to form variations between paraphrase pairs.
This document describes some of the technological aspects of a project devoted to the creation of a factory for language resources. The project’s objectives are explained, as well as the idea to create a distributed infrastructure of web services. This document focuses on two main topics of the factory: (1) the technological approaches chosen to develop the factory, i.e. software, protocols, servers, etc. (2) and Interoperability as the main challenge is to permit different NLP tools work together in the factory. This document explains why XCES and GrAF are chosen as the main formats used for the linguistic data exchange.
This paper demonstrates a novel distributed architecture to facilitate the acquisition of Language Resources. We build a factory that automates the stages involved in the acquisition, production, updating and maintenance of these resources. The factory is designed as a platform where functionalities are deployed as web services, which can be combined in complex acquisition chains using workflows. We show a case study, which acquires a Translation Memory for a given pair of languages and a domain using web services for crawling, sentence alignment and conversion to TMX.
In recent decades, technological advances have made extensive documentation available to us. But the philologist must be aware of the dangers of poor use of the documentary corpus in order to avoid creating dreaded ghost words. In this paper we recall the main sources of this type of error: folk etymology phenomena among speakers, copyists" errors, transcribers" errors in the interpretation of some abbreviations and graphic variants of the manuscripts, onomastic changes introduced by cartographers" ignorance of linguistic variants, gaps in the dating of some documents, confusion in the processes of lemmatization and the evaluation of texts... All these sources of error contribute, to a greater or lesser degree, to the distortion or to the masking of the data on which the research of philologists is based. Hence the importance of philological rigour in the transmission and study of ancient texts.
Although paraphrasing is the linguistic mechanism underlying many plagiarism cases, little attention has been paid to its analysis in the framework of automatic plagiarism detection. Therefore, state-of-the-art plagiarism detectors find it difficult to detect cases of paraphrase plagiarism. In this article, we analyse the relationship between paraphrasing and plagiarism, paying special attention to which paraphrase phenomena underlie acts of plagiarism and which of them are detected by plagiarism detection systems. With this aim in mind, we created the P4P corpus, a new resource which uses a paraphrase typology to annotate a subset of the PAN-PC-10 corpus for automatic plagiarism detection. The results of the Second International Competition on Plagiarism Detection were analysed in the light of this annotation. The presented experiments show that (i) more complex paraphrase phenomena and a high density of paraphrase mechanisms make plagiarism detection more difficult, (ii) lexical substitutions are the paraphrase mechanisms used the most when plagiarising, and (iii) paraphrase mechanisms tend to shorten the plagiarized text. For the first time, the paraphrase mechanisms behind plagiarism have been analysed, providing critical insights for the improvement of automatic plagiarism detection systems.
Dentro de las ciencias del lenguaje, el Análisis Crítico del Discurso (ACD) aprovecha las aportaciones de los recientes estudios sobre el texto (análisis del discurso, pragmática, sociolingüística, etnografía de la comunicación, teoría de la enunciación, etc.) para definir los propósitos y la metodología del análisis crítico. Ante el mundo multicultural y globalizado en el que vivimos, la única respuesta educativa posible es la necesidad de formar a una ciudadanía, que tenga habilidades críticas de lectura, escritura y pensamiento y participe de modo constructivo en el desarrollo de una comunidad plural, respetuosa y progresista. El artículo explora en la teoría y en la práctica la lectura crítica, para reflexionar sobre la necesidad de fomentar este tipo de práctica lectora en el aula. Para ejemplificar el funcionamiento de la lectura crítica, se trabajan lingüísticamente desde el ACD algunos fragmentos breves de discurso. Se analiza el grado y el tipo de comprensión lectora crítica que muestran 25 exámenes de universitarios españoles de 20 años, estudiantes de Traducción e Interpretación en la Universidad Pompeu Fabra de Barcelona, que habían tenido 80 horas de instrucción sobre lengua escrita y análisis deldiscurso en castellano y catalán (con varias sesiones sobre Análisis Crítico del Discurso), en las que se habían analizado cooperativamente textos parecidos al propuesto en el examen.
This article introduces EsPal: a Web-accessible repository containing a comprehensive set of properties of Spanish words. EsPal is based on an extensible set of data sources, beginning with a 300 million token written database and a 460 million token subtitle database. Properties available include word frequency, orthographic structure and neighborhoods, phonological structure and neighborhoods, and subjective ratings such as imageability. Subword structure properties are also available in terms of bigrams and trigrams, bi-phones, and bi-syllables. Lemma and part-of-speech information and their corresponding frequencies are also indexed. The website enables users to either upload a set of words to receive their properties, or to receive a set of words matching constraints on the properties. The properties themselves are easily extensible and will be added over time as they become available. It is freely available from the following website: http://www.bcbl.eu/databases/espal
In this demonstration we present our web services to perform Bayesian learning for classification tasks.
Des de ja fa uns quants anys existeix un fenomen lingüístic a França que encara avui dia no deixa de sorprendre ni de cridar l'atenció; es tracta d'una parla, o més aviat d’un argot que s’anomena verlan. El verlan, doncs, és un argot que troba el seu origen als barris marginals dels afores de les ciutats (les banlieues), i per la qual cosa s’associa normalment a la classe baixa i marginal d’aquestes. Així, aquest argot es va convertir en un autèntic “art del parlar” del sector juvenil del segle XX, el qual era utilitzat bàsicament per marcar una diferència de classe social i que els seu parlants es poguessin comunicar entre ells sense que ningú altre que no formés part del seu entorn pugui entendre el què deien. El verlan és un argot que es caracteritza per fer una inversió de les paraules, però tot i que sembli inventada, aquesta inversió de fonemes es fa segons unes regles i en funció del nombre de síl•labes del terme. Els mitjans de comunicació van contribuir molt en l’expansió d’aquest argot, però el moviment hip-hop va ser un dels principals mitjans d’expansió, ja que va "vulgaritzar" el verlan i va difondre’l a totes les capes de la societat a partir de les seves peculiars cançons. Així doncs, la pregunta que molts ens plantegem és la de si el verlan és realment una amenaça per al francès estàndard o no.
This issue of the Catalan Journal of Linguistics was conceived with the idea to promote comparative studies of the languages spoken in the Iberian Peninsula. The importance of comparison in linguistics dates back to neogrammarians in the xix century due to their interest of discovering the common roots of most of the languages spoken in Europe. In order to get to that objective, comparison of phonological patterns were crucial to retrieve the common Indo-European origins
This documents sums up a projectaimed at building a new web interfaceto the Apertium machine translationplatform, including pre-editing andpost-editing environments. It containsa description of the accomplished workon this project, as well as an overviewof possible evolutions.