22 resultados para Anotación de corpus

em Universidad de Alicante


Relevância:

80.00% 80.00%

Publicador:

Resumo:

IARG-AnCora tiene como objetivo la anotación con papeles temáticos de los argumentos implícitos de las nominalizaciones deverbales en el corpus AnCora. Estos corpus servirán de base para los sistemas de etiquetado automático de roles semánticos basados en técnicas de aprendizaje automático. Los analizadores semánticos son componentes básicos en las aplicaciones actuales de las tecnologías del lenguaje, en las que se quiere potenciar una comprensión más profunda del texto para realizar inferencias de más alto nivel y obtener así mejoras cualitativas en los resultados.

Relevância:

70.00% 70.00%

Publicador:

Resumo:

El análisis de citas bibliográficas que usa variaciones de métodos de conteo provoca deformaciones en la evaluación del impacto. Para enriquecer el cálculo de los factores de impacto se necesita entender el tipo de influencia de los aportes de un investigador sobre el autor que los menciona. Para ello, se requiere realizar análisis de contenido del contexto de las citas que permita obtener su función, polaridad e influencia. El presente artículo trata sobre la definición de un esquema de anotación tendiente a la creación de un corpus de acceso público que sea la base de trabajo colaborativo en este campo, con miras al desarrollo de sistemas que permitan llevar adelante tareas de análisis de contenido con el objetivo planteado.

Relevância:

60.00% 60.00%

Publicador:

Resumo:

This paper describes the automatic process of building a dependency annotated corpus based on Ancora constituent structures. The Ancora corpus already has a dependency structure information layer, but the new annotated data applies a purely syntactic orientation and offers in this way a new resource to the linguistic research community. The paper details the process of reannotating the corpus, the linguistic criteria used and the obtained results.

Relevância:

60.00% 60.00%

Publicador:

Resumo:

Tema 5. Anotación de corpus literario. XML. El estándar TEI.

Relevância:

20.00% 20.00%

Publicador:

Resumo:

This paper examines both theoretical and practical issues related to conversion. A quite detailed characterization of the 5329 instances identified in a 300.000-word corpus of American English written in the late 90s is provided. The examples are grouped according to the type of conversion involved. Frequency and the internal structure of words are also considered and compared with the results obtained by earlier scholars. In spite of the limitations that a corpus study imposes, the conclusions obtained seem to suggest that any item, independent of its morphological structure, may undergo conversion and this may happen in any register. Moreover, conversion seems to be an important source of new items in American English nowadays.

Relevância:

20.00% 20.00%

Publicador:

Resumo:

El foco geográfico de un documento identifica el lugar o lugares en los que se centra el contenido del texto. En este trabajo se presenta una aproximación basada en corpus para la detección del foco geográfico en el texto. Frente a otras aproximaciones que se centran en el uso de información puramente geográfica para la detección del foco, nuestra propuesta emplea toda la información textual existente en los documentos del corpus de trabajo, partiendo de la hipótesis de que la aparición de determinados personajes, eventos, fechas e incluso términos comunes, pueden resultar fundamentales para esta tarea. Para validar nuestra hipótesis, se ha realizado un estudio sobre un corpus de noticias geolocalizadas que tuvieron lugar entre los años 2008 y 2011. Esta distribución temporal nos ha permitido, además, analizar la evolución del rendimiento del clasificador y de los términos más representativos de diferentes localidades a lo largo del tiempo.

Relevância:

20.00% 20.00%

Publicador:

Resumo:

This paper describes a stage in the COMENEGO project, which is creating comparable corpora of Business texts in order to distribute them among translation practitioners so that they can use this resource when translating economic, business or financial texts. This stage consists of discursive analysis of a pilot specialised corpus initially compiled in French and Spanish. Its textual resources are classified in different categories which need to be confirmed so that they can be useful when including them into the virtual platform which will allow users exploit the corpus and filter their searches according to their specific needs. The aim of this paper is to propose a discursive analysis approach based on the concept of ‘metadiscourse’ (Hyland, 2005).

Relevância:

20.00% 20.00%

Publicador:

Resumo:

Il semble que peu d’importance ait été accordée à la langue générale dans la bibliographie sur la traduction économique bien qu’elle puisse en fait poser problème lors de sa traduction, tout au moins dans le cadre de la formation de traducteurs. Dans cet article nous traitons du comportement traductologique espagnol-français des locutions prépositionnelles. Nous nous pencherons d’abord sur les problèmes conceptuels de ce phénomène linguistique pour ensuite identifier et classer les locutions répertoriées dans notre corpus. Enfin, nous commentons leurs traductions. Les résultats peuvent être pris en considération, entre autres, dans l’enseignement de la traduction.

Relevância:

20.00% 20.00%

Publicador:

Resumo:

En este artículo estudiamos el concepto de metadiscurso, que puede entenderse, en esencia, como el conjunto de elementos retóricos utilizados según los objetivos de la comunicación. Nuestro objetivo es conocer, por una parte, el esquema metadiscursivo propio de los mensajes o cartas de presidentes en los informes anuales de las sociedades, y, por otra parte, el comportamiento traductológico francés-español de estos elementos microtextuales. Los resultados muestran que estos textos tienen su propio esquema metadiscursivo y que los traductores suelen respetar su estructura, si bien introducen nuevos tipos. Asimismo, los resultados pueden tenerse en cuenta en la enseñanza de la traducción y de la lengua de los negocios.

Relevância:

20.00% 20.00%

Publicador:

Resumo:

El intérprete de conferencias debe llevar a cabo un trabajo documental antes, durante y después de los eventos en los que presta sus servicios, independientemente de su subcompetencia extralingüística. Desafortunadamente, pocas son las propuestas metodológicas que se hayan planteado para que este profesional pueda realizar esta tarea de manera sistemática. En el presente artículo, repasamos algunos de los trabajos que se han referido a las posibilidades que tiene el intérprete de satisfacer sus necesidades informativas. Una vez reseñada la mencionada escasez de propuestas, presentamos, en un estudio de caso, una aproximación metodológica a este trabajo de documentación, fundamentada en la compilación de corpus paralelos ad hoc y la extracción terminológica en forma de glosarios.

Relevância:

20.00% 20.00%

Publicador:

Resumo:

Este trabajo presenta la metodología empleada para compilar un corpus económico e identificar su terminología con el fin de crear un glosario de utilidad en la formación de traductores. Por una parte, se repasa brevemente la bibliografía sobre compilación de corpus y explotación con fines terminológicos. Por otra parte, se presenta la metodología en cuestión, así como una serie de actividades enfocadas a la adquisición de conocimiento especializado en economía. Los resultados muestran que las técnicas usadas para detectar términos y extraer automáticamente candidatos a término, si bien no terminan de adecuarse a las necesidades concretas del presente trabajo, son de utilidad e incluso pueden complementarse. Por su parte, las actividades propuestas pueden sumarse igualmente a otro tipo de actividades y modificarse según el contexto docente.

Relevância:

20.00% 20.00%

Publicador:

Resumo:

Comprender las noticias económicas puede no ser fácil debido tanto a los conocimientos especializados que exige esta área de conocimiento como a la vaguedad con la que, en forma de variación terminológica, se materializan dichas noticias. En este artículo describimos la variación de una serie de unidades terminológicas y fraseológicas en un corpus periodístico sobre los planes de saneamiento del sector financiero y formulamos hipótesis en torno a los motivos que causan este fenómeno.

Relevância:

20.00% 20.00%

Publicador:

Resumo:

The great amount of text produced every day in the Web turned it as one of the main sources for obtaining linguistic corpora, that are further analyzed with Natural Language Processing techniques. On a global scale, languages such as Portuguese - official in 9 countries - appear on the Web in several varieties, with lexical, morphological and syntactic (among others) differences. Besides, a unified spelling system for Portuguese has been recently approved, and its implementation process has already started in some countries. However, it will last several years, so different varieties and spelling systems coexist. Since PoS-taggers for Portuguese are specifically built for a particular variety, this work analyzes different training corpora and lexica combinations aimed at building a model with high-precision annotation in several varieties and spelling systems of this language. Moreover, this paper presents different dictionaries of the new orthography (Spelling Agreement) as well as a new freely available testing corpus, containing different varieties and textual typologies.

Relevância:

20.00% 20.00%

Publicador:

Resumo:

Le but de ce travail est d'analyser deux catégories de textes contenus dans le corpus pilote COMENEGO (Corpus Multilingüe de Economía y Negocios), à savoir les catégories organisationnelle et légale. Nous commençons par présenter brièvement le corpus en question ainsi que les motivations qui nous mènent à analyser ses contenus. Ensuite, nous sélectionnons une série de types de textes ou genres textuels de ces deux catégories afin de procéder à une analyse plus approfondie de chaque catégorie. Puis nous présentons les résultats obtenus qui montrent une certaine hétérogénéité notamment dans la catégorie organisationnelle du corpus. L'approche suivie ainsi que les résultats obtenus peuvent aider non seulement à reclasser les textes du corpus mais aussi à concevoir la plate-forme qui donnera accès aux textes sur internet.

Relevância:

20.00% 20.00%

Publicador:

Resumo:

Citation corpus composed by 85 articles taken randomly from ACL Anthology with a total of 2195 bibliography cites.