958 resultados para 380200 Linguistics


Relevância:

10.00% 10.00%

Publicador:

Relevância:

10.00% 10.00%

Publicador:

Relevância:

10.00% 10.00%

Publicador:

Resumo:

CODEX SEARCH és un motor de recuperació d'informació especialitzat en dret d'estrangeria que està basat en eines i coneixement lingüístics. Per a desenvolupar un SRI (sistema de recuperació d'informació) eficient en el domini indicat no n'hi ha prou amb emprar un model tradicional de RI (recuperació d'informació), és a dir, comparar els termes de la pregunta amb els de la resposta, bàsicament perquè no expressen implicacions. En aquest sentit, la solució lingüística proposada es basa a incorporar el coneixement dels especialistes mitjançant la integració en el sistema d'una llibreria de casos. Els casos són exemples de procediments aplicats per experts/ertes en la solució de problemes que han ocorregut en la realitat i que han acabat en èxit o fracàs. Els resultats obtinguts en aquesta primera fase són molt encoratjadors, però és necessari continuar la investigació en aquest camp per millorar el rendiment del prototip.

Relevância:

10.00% 10.00%

Publicador:

Resumo:

La gran diversitat lingüística i cultural present en la nostra societat sovint no s'ha fet gaire visible. Determinats aspectes més aparents, com la nacionalitat, imposen estereotips que amaguen realitats complexes. D'altra banda, persisteix una actitud assimiladora basada en la idea que la integració ha de voler dir la renúncia a bona part del bagatge cultural dels nouvinguts. Tanmateix, Catalunya té una llengua molt poc coneguda en altres societats, i per això la consciència que és important reconèixer l'altre aquí és molt habitual: la nacionalitat diu massa poc de nosaltres, i el mateix passa amb molts altres. Aquest projecte de recerca pretén reunir en format de fitxes una sèrie de dades molt bàsiques, especialment sobre la diversitat lingüística, i oferirles a qualsevol persona que tingui contacte amb persones immigrades per tal de posar a disposició algun element senzill que permeti expressar reconeixement i sensibilitat cap a la diversitat.

Relevância:

10.00% 10.00%

Publicador:

Resumo:

La gran diversitat lingüística i cultural present en la nostra societat sovint no s'ha fet gaire visible. Determinats aspectes més aparents, com la nacionalitat, imposen estereotips que amaguen realitats complexes. D'altra banda, persisteix una actitud assimiladora basada en la idea que la integració ha de voler dir la renúncia a bona part del bagatge cultural dels nouvinguts. Tanmateix, Catalunya té una llengua molt poc coneguda en altres societats, i per això la consciència que és important reconèixer l'altre aquí és molt habitual: la nacionalitat diu massa poc de nosaltres, i el mateix passa amb molts altres. Aquest projecte de recerca pretén reunir en format de fitxes una sèrie de dades molt bàsiques, especialment sobre la diversitat lingüística, i oferirles a qualsevol persona que tingui contacte amb persones immigrades per tal de posar a disposició algun element senzill que permeti expressar reconeixement i sensibilitat cap a la diversitat.

Relevância:

10.00% 10.00%

Publicador:

Resumo:

Finding an adequate paraphrase representation formalism is a challenging issue in Natural Language Processing. In this paper, we analyse the performance of Tree Edit Distance as a paraphrase representation baseline. Our experiments using Edit Distance Textual Entailment Suite show that, as Tree Edit Distance consists of a purely syntactic approach, paraphrase alternations not based on structural reorganizations do not find an adequate representation. They also show that there is much scope for better modelling of the way trees are aligned.

Relevância:

10.00% 10.00%

Publicador:

Resumo:

In this paper, we present a critical analysis of the state of the art in the definition and typologies of paraphrasing. This analysis shows that there exists no characterization of paraphrasing that is comprehensive, linguistically based and computationally tractable at the same time. The following sets out to define and delimit the concept on the basis of the propositional content. We present a general, inclusive and computationally oriented typology of the linguistic mechanisms that give rise to form variations between paraphrase pairs.

Relevância:

10.00% 10.00%

Publicador:

Relevância:

10.00% 10.00%

Publicador:

Relevância:

10.00% 10.00%

Publicador:

Resumo:

This document describes some of the technological aspects of a project devoted to the creation of a factory for language resources. The project’s objectives are explained, as well as the idea to create a distributed infrastructure of web services. This document focuses on two main topics of the factory: (1) the technological approaches chosen to develop the factory, i.e. software, protocols, servers, etc. (2) and Interoperability as the main challenge is to permit different NLP tools work together in the factory. This document explains why XCES and GrAF are chosen as the main formats used for the linguistic data exchange.

Relevância:

10.00% 10.00%

Publicador:

Resumo:

This paper demonstrates a novel distributed architecture to facilitate the acquisition of Language Resources. We build a factory that automates the stages involved in the acquisition, production, updating and maintenance of these resources. The factory is designed as a platform where functionalities are deployed as web services, which can be combined in complex acquisition chains using workflows. We show a case study, which acquires a Translation Memory for a given pair of languages and a domain using web services for crawling, sentence alignment and conversion to TMX.

Relevância:

10.00% 10.00%

Publicador:

Resumo:

In recent decades, technological advances have made extensive documentation available to us. But the philologist must be aware of the dangers of poor use of the documentary corpus in order to avoid creating dreaded ghost words. In this paper we recall the main sources of this type of error: folk etymology phenomena among speakers, copyists" errors, transcribers" errors in the interpretation of some abbreviations and graphic variants of the manuscripts, onomastic changes introduced by cartographers" ignorance of linguistic variants, gaps in the dating of some documents, confusion in the processes of lemmatization and the evaluation of texts... All these sources of error contribute, to a greater or lesser degree, to the distortion or to the masking of the data on which the research of philologists is based. Hence the importance of philological rigour in the transmission and study of ancient texts.

Relevância:

10.00% 10.00%

Publicador:

Resumo:

Although paraphrasing is the linguistic mechanism underlying many plagiarism cases, little attention has been paid to its analysis in the framework of automatic plagiarism detection. Therefore, state-of-the-art plagiarism detectors find it difficult to detect cases of paraphrase plagiarism. In this article, we analyse the relationship between paraphrasing and plagiarism, paying special attention to which paraphrase phenomena underlie acts of plagiarism and which of them are detected by plagiarism detection systems. With this aim in mind, we created the P4P corpus, a new resource which uses a paraphrase typology to annotate a subset of the PAN-PC-10 corpus for automatic plagiarism detection. The results of the Second International Competition on Plagiarism Detection were analysed in the light of this annotation. The presented experiments show that (i) more complex paraphrase phenomena and a high density of paraphrase mechanisms make plagiarism detection more difficult, (ii) lexical substitutions are the paraphrase mechanisms used the most when plagiarising, and (iii) paraphrase mechanisms tend to shorten the plagiarized text. For the first time, the paraphrase mechanisms behind plagiarism have been analysed, providing critical insights for the improvement of automatic plagiarism detection systems.