Finding an adequate paraphrase representation formalism is a challenging issue in Natural Language Processing. In this paper, we analyse the performance of Tree Edit Distance as a paraphrase representation baseline. Our experiments using Edit Distance Textual Entailment Suite show that, as Tree Edit Distance consists of a purely syntactic approach, paraphrase alternations not based on structural reorganizations do not find an adequate representation. They also show that there is much scope for better modelling of the way trees are aligned.


This document describes some of the technological aspects of a project devoted to the creation of a factory for language resources. The project’s objectives are explained, as well as the idea to create a distributed infrastructure of web services. This document focuses on two main topics of the factory: (1) the technological approaches chosen to develop the factory, i.e. software, protocols, servers, etc. (2) and Interoperability as the main challenge is to permit different NLP tools work together in the factory. This document explains why XCES and GrAF are chosen as the main formats used for the linguistic data exchange.


This paper demonstrates a novel distributed architecture to facilitate the acquisition of Language Resources. We build a factory that automates the stages involved in the acquisition, production, updating and maintenance of these resources. The factory is designed as a platform where functionalities are deployed as web services, which can be combined in complex acquisition chains using workflows. We show a case study, which acquires a Translation Memory for a given pair of languages and a domain using web services for crawling, sentence alignment and conversion to TMX.


El objetivo del trabajo es determinar si el uso de un grupo de verbos es propio del español de Argentina o si, por el contrario, se extiende a otros países hispanohablantes. Para ello, se analizan el proceso de derivación verbal, la semántica y el carácter neológico de las voces.


En este trabajo se estudia la relación entre la morfología y la lexicografía mediante el análisis de seis verbos prefijados con re-. Se comparan sus definiciones en tres diccionarios y se proponen nuevas definiciones siguiendo el modelo de entrada lexicográfica del Diccionario de Aprendizaje de Español como Lengua Extranjera.


F. 1-12v. Calendrier d’Autun en français, inscrit à l’or et à l’encre, alternativement rouge et bleue : 1er juin, « s. Reverien » [év. d’Autun] ; 12 juin, en or : « s. Nazaire » [révélation] ; 28 juil., « ss. Nazaire et Celse » ; 4 août, « s. Cassien [év. d’Autun] » ; 1er sept., « s. Ladre » [Lazare] ; 5 sept., «ste Royne » [Reine d’Alise] ; 19 sept., « s. Soigne » [Seine] ; 24 sept., « Andoche » [év. d’Autun] ; 2 oct., « Legier » [év. d’Autun] ; 20 oct., « revelacion s. Ladre » ; 17 déc., « s. Lazaire » ; 20 déc., « s. Nasaire » [21 déc., dédicace de Saint-Nazaire d’Autun]. F. 13-18. Péricopes évangéliques : Io 1, 1-14, suivi du suffrage adressé à l’apôtre ; Mt 2, 1-12 ; Lc 1, 26-38 ; Mc 16, 14-20. Les évangiles de Mathieu et de Luc sont incomplets du début par suite de la perte du premier fol. F. 19-78v. Heures de la Vierge à l’usage de Rome. Les heures de tierce, sexte, none et vêpres sont incomplètes du début par suite de la perte du premier feuillet. F. 79-82v. “Obsecro te…”, prière au masculin (éd. Leroquais, Livres d’heures, II, 347). F. 83-86v. Office de la Croix « De sancta cruce ». F. 87-90v. Office du Saint Esprit « De sancto Spiritu ». F. 91-107v. Psaumes de la pénitence , suivis des Litanies, incomplet du premier feuillet. A noter, parmi les confesseurs, « sancte Ludovice », Louis d’Anjou, év. de Toulouse. F. 107v-154. Office des morts à l’usage de Rome. « In agenda mortuorum ad vesperas ». F. 154v-159. Addition du XVe siècle : « Oraison de saint Sebastien », suffrage ; [Oraison pour les trépassés] « Avete omnes fideles anime quorum corpora… coronemur... Domine Jhesu Christe salus et liberatio animarum... jubeas. Per... » (154v et 159). — Additions du début du XVIe siècle. « Veni creator Spiritus... spiritus. Amen » ; « De s. Johanne Baptista » ; « Salve regina misericordie vita... ostende » ; « Domine non sum digna… animeam meam », à noter la forme féminine (156-158). — Sur le verso du f. 158, a été cousu un petit feuillet de parchemin portant l’oraison « O passio magna, o profunda vulnera, o effusio sanguinis, o dulcis dulcedo, o mortis amaritudo, da michi vitam eternam. Amen. Pater. Ave Maria. Credo ».


Although paraphrasing is the linguistic mechanism underlying many plagiarism cases, little attention has been paid to its analysis in the framework of automatic plagiarism detection. Therefore, state-of-the-art plagiarism detectors find it difficult to detect cases of paraphrase plagiarism. In this article, we analyse the relationship between paraphrasing and plagiarism, paying special attention to which paraphrase phenomena underlie acts of plagiarism and which of them are detected by plagiarism detection systems. With this aim in mind, we created the P4P corpus, a new resource which uses a paraphrase typology to annotate a subset of the PAN-PC-10 corpus for automatic plagiarism detection. The results of the Second International Competition on Plagiarism Detection were analysed in the light of this annotation. The presented experiments show that (i) more complex paraphrase phenomena and a high density of paraphrase mechanisms make plagiarism detection more difficult, (ii) lexical substitutions are the paraphrase mechanisms used the most when plagiarising, and (iii) paraphrase mechanisms tend to shorten the plagiarized text. For the first time, the paraphrase mechanisms behind plagiarism have been analysed, providing critical insights for the improvement of automatic plagiarism detection systems.


Dentro de las ciencias del lenguaje, el Análisis Crítico del Discurso (ACD) aprovecha las aportaciones de los recientes estudios sobre el texto (análisis del discurso, pragmática, sociolingüística, etnografía de la comunicación, teoría de la enunciación, etc.) para definir los propósitos y la metodología del análisis crítico. Ante el mundo multicultural y globalizado en el que vivimos, la única respuesta educativa posible es la necesidad de formar a una ciudadanía, que tenga habilidades críticas de lectura, escritura y pensamiento y participe de modo constructivo en el desarrollo de una comunidad plural, respetuosa y progresista. El artículo explora en la teoría y en la práctica la lectura crítica, para reflexionar sobre la necesidad de fomentar este tipo de práctica lectora en el aula. Para ejemplificar el funcionamiento de la lectura crítica, se trabajan lingüísticamente desde el ACD algunos fragmentos breves de discurso. Se analiza el grado y el tipo de comprensión lectora crítica que muestran 25 exámenes de universitarios españoles de 20 años, estudiantes de Traducción e Interpretación en la Universidad Pompeu Fabra de Barcelona, que habían tenido 80 horas de instrucción sobre lengua escrita y análisis deldiscurso en castellano y catalán (con varias sesiones sobre Análisis Crítico del Discurso), en las que se habían analizado cooperativamente textos parecidos al propuesto en el examen.


In this demonstration we present our web services to perform Bayesian learning for classification tasks.


D'une certaine manière, la rhétorique est un art cognitif. L'art de discourir en situation concrète dans l'espoir de faire adhérer l'auditoire à une thèse suppose une forte aptitude cognitive: celle de se représenter la façon dont l'auditoire lui-même se représente une situation rhétorique. Or, à partir du moment où agir sur les représentations d'autrui est facilité par des techniques rhétoriques ou sophistiques, la question de la tromperie verbale s'est immiscée dans des affaires de régulation sociale et, avec elle, des enjeux tant de crédibilité que de crédulité. Dans le cadre démocratique rendant encore plus aiguë une forme de dépendance à l'information d'autrui, la nécessité de croire tout comme la possibilité d'être leurré mettent à l'épreuve tant le fonctionnement social de la Cité que l'évaluation des informations et de leurs auteurs. Le but des contributions de cet ouvrage n'est pas de dénoncer les effets de certains schèmes argumentatifs que d'aucuns jugeraient fallacieux ni d'ajouter une couche nouvelle aux critiques des sophismes, mais d'étudier leur fonctionnement et leurs effets cognitifs hic et nunc. Quels sont les mécanismes langagiers et cognitifs qui expliquent la «performance» des arguments réputés fallacieux? Comment fonctionnent les stratégies rhétoriques à l'intersection entre cognition, sciences du langage et société? Cet ouvrage, issu du colloque Communication et Cognition: manipulation, persuasion et biais dans le langage, tenu à Neuchâtel du 26 au 28 janvier 2011, propose plusieurs propositions originales ou hypothèses stimulantes dans l'espoir qu'elles inspireront tant les chercheurs spécialisés en rhétorique et sciences du langage à aller voir du côté de la psychologie cognitive que les spécialistes de ce domaine à mettre en évidence la rhétoricité de leurs recherches. English version: In a way, rhetoric is a cognitive art. The art of speaking in concrete situations in the hope of gaining the audience's consent on a given issue requires the operation of a cognitive ability: that of being able to represent the way an audience represents itself a rhetorical situation. Nonetheless, once we consider that rhetorical or sophistic techniques influence people's representations, verbal deception becomes a matter of social regulation, together with issues of credibility and credulity. In a democratic context fostering a form of dependence towards other people's information, the necessity of believing everything and the possibility of being duped are challenges for both the social management of the City and the evaluation of information and of its sources. The contribution of the chapters of this volume is neither to be found in the condemnation of the fallacious effects of specific argument schemes nor in the addition of yet another layer to fallacy criticism, but in the study of how fallacies work, hic et nunc. What are the linguistic and cognitive mechanisms at play behind the "performance" of fallacious arguments? How do rhetorical strategies work at the interface of cognition, language science and society? This book gathers papers that were presented during the international conference Communication & Cognition: manipulation, persuasion and biases in language, held at the University of Neuchâtel in January 2011. A number of original proposals and stimulating hypotheses emerge from them: we hope that these will inspire researchers in the language sciences who specialise in rhetoric to take on board cognitive scientific insights but also researchers in cognitive science to engage with the rhetoricity of their own research.


Des de ja fa uns quants anys existeix un fenomen lingüístic a França que encara avui dia no deixa de sorprendre ni de cridar l'atenció; es tracta d'una parla, o més aviat d’un argot que s’anomena verlan. El verlan, doncs, és un argot que troba el seu origen als barris marginals dels afores de les ciutats (les banlieues), i per la qual cosa s’associa normalment a la classe baixa i marginal d’aquestes. Així, aquest argot es va convertir en un autèntic “art del parlar” del sector juvenil del segle XX, el qual era utilitzat bàsicament per marcar una diferència de classe social i que els seu parlants es poguessin comunicar entre ells sense que ningú altre que no formés part del seu entorn pugui entendre el què deien. El verlan és un argot que es caracteritza per fer una inversió de les paraules, però tot i que sembli inventada, aquesta inversió de fonemes es fa segons unes regles i en funció del nombre de síl•labes del terme. Els mitjans de comunicació van contribuir molt en l’expansió d’aquest argot, però el moviment hip-hop va ser un dels principals mitjans d’expansió, ja que va "vulgaritzar" el verlan i va difondre’l a totes les capes de la societat a partir de les seves peculiars cançons. Així doncs, la pregunta que molts ens plantegem és la de si el verlan és realment una amenaça per al francès estàndard o no.


This issue of the Catalan Journal of Linguistics was conceived with the idea to promote comparative studies of the languages spoken in the Iberian Peninsula. The importance of comparison in linguistics dates back to neogrammarians in the xix century due to their interest of discovering the common roots of most of the languages spoken in Europe. In order to get to that objective, comparison of phonological patterns were crucial to retrieve the common Indo-European origins


This documents sums up a projectaimed at building a new web interfaceto the Apertium machine translationplatform, including pre-editing andpost-editing environments. It containsa description of the accomplished workon this project, as well as an overviewof possible evolutions.