Biblioteca Digital

22 resultados para Anotación de corpus

em Universidad de Alicante

IARG-AnCora: anotación de los corpus AnCora con argumentos implícitos

Relevância:

80.00% 80.00%

Publicador:

Resumo:

IARG-AnCora tiene como objetivo la anotación con papeles temáticos de los argumentos implícitos de las nominalizaciones deverbales en el corpus AnCora. Estos corpus servirán de base para los sistemas de etiquetado automático de roles semánticos basados en técnicas de aprendizaje automático. Los analizadores semánticos son componentes básicos en las aplicaciones actuales de las tecnologías del lenguaje, en las que se quiere potenciar una comprensión más profunda del texto para realizar inferencias de más alto nivel y obtener así mejoras cualitativas en los resultados.

Esquema de anotación para categorización de citas en bibliografía científica

Relevância:

70.00% 70.00%

Publicador:

Resumo:

El análisis de citas bibliográficas que usa variaciones de métodos de conteo provoca deformaciones en la evaluación del impacto. Para enriquecer el cálculo de los factores de impacto se necesita entender el tipo de influencia de los aportes de un investigador sobre el autor que los menciona. Para ello, se requiere realizar análisis de contenido del contexto de las citas que permita obtener su función, polaridad e influencia. El presente artículo trata sobre la definición de un esquema de anotación tendiente a la creación de un corpus de acceso público que sea la base de trabajo colaborativo en este campo, con miras al desarrollo de sistemas que permitan llevar adelante tareas de análisis de contenido con el objetivo planteado.

From constituents to syntax-oriented dependencies

Relevância:

60.00% 60.00%

Publicador:

Resumo:

This paper describes the automatic process of building a dependency annotated corpus based on Ancora constituent structures. The Ancora corpus already has a dependency structure information layer, but the new annotated data applies a purely syntactic orientation and offers in this way a new resource to the linguistic research community. The paper details the process of reannotating the corpus, the linguistic criteria used and the obtained results.

Recursos Informáticos para la Investigación Literaria. Tema 5 (curso 2014-2015)

Relevância:

60.00% 60.00%

Publicador:

Resumo:

Tema 5. Anotación de corpus literario. XML. El estándar TEI.

On the status of conversion in present-day American English: controversial issues and corpus-based study

Relevância:

20.00% 20.00%

Publicador:

Resumo:

This paper examines both theoretical and practical issues related to conversion. A quite detailed characterization of the 5329 instances identified in a 300.000-word corpus of American English written in the late 90s is provided. The examples are grouped according to the type of conversion involved. Frequency and the internal structure of words are also considered and compared with the results obtained by earlier scholars. In spite of the limitations that a corpus study imposes, the conclusions obtained seem to suggest that any item, independent of its morphological structure, may undergo conversion and this may happen in any register. Moreover, conversion seems to be an important source of new items in American English nowadays.

Una aproximación basada en corpus para la detección del foco geográfico en el texto

Relevância:

20.00% 20.00%

Publicador:

Resumo:

El foco geográfico de un documento identifica el lugar o lugares en los que se centra el contenido del texto. En este trabajo se presenta una aproximación basada en corpus para la detección del foco geográfico en el texto. Frente a otras aproximaciones que se centran en el uso de información puramente geográfica para la detección del foco, nuestra propuesta emplea toda la información textual existente en los documentos del corpus de trabajo, partiendo de la hipótesis de que la aparición de determinados personajes, eventos, fechas e incluso términos comunes, pueden resultar fundamentales para esta tarea. Para validar nuestra hipótesis, se ha realizado un estudio sobre un corpus de noticias geolocalizadas que tuvieron lugar entre los años 2008 y 2011. Esta distribución temporal nos ha permitido, además, analizar la evolución del rendimiento del clasificador y de los términos más representativos de diferentes localidades a lo largo del tiempo.

COMENEGO (Corpus Multilingüe de Economía y Negocios): a metadiscursive analysis approach

Relevância:

20.00% 20.00%

Publicador:

Resumo:

This paper describes a stage in the COMENEGO project, which is creating comparable corpora of Business texts in order to distribute them among translation practitioners so that they can use this resource when translating economic, business or financial texts. This stage consists of discursive analysis of a pilot specialised corpus initially compiled in French and Spanish. Its textual resources are classified in different categories which need to be confirmed so that they can be useful when including them into the virtual platform which will allow users exploit the corpus and filter their searches according to their specific needs. The aim of this paper is to propose a discursive analysis approach based on the concept of ‘metadiscourse’ (Hyland, 2005).

La traducción español-francés de locuciones preposicionales en el lenguaje comercial. Estudio comparativo basado en corpus

Relevância:

20.00% 20.00%

Publicador:

Resumo:

Il semble que peu d’importance ait été accordée à la langue générale dans la bibliographie sur la traduction économique bien qu’elle puisse en fait poser problème lors de sa traduction, tout au moins dans le cadre de la formation de traducteurs. Dans cet article nous traitons du comportement traductologique espagnol-français des locutions prépositionnelles. Nous nous pencherons d’abord sur les problèmes conceptuels de ce phénomène linguistique pour ensuite identifier et classer les locutions répertoriées dans notre corpus. Enfin, nous commentons leurs traductions. Les résultats peuvent être pris en considération, entre autres, dans l’enseignement de la traduction.

Metadiscurso y traducción en el lenguaje de los negocios: estudio basado en corpus (francés-español)

Relevância:

20.00% 20.00%

Publicador:

Resumo:

En este artículo estudiamos el concepto de metadiscurso, que puede entenderse, en esencia, como el conjunto de elementos retóricos utilizados según los objetivos de la comunicación. Nuestro objetivo es conocer, por una parte, el esquema metadiscursivo propio de los mensajes o cartas de presidentes en los informes anuales de las sociedades, y, por otra parte, el comportamiento traductológico francés-español de estos elementos microtextuales. Los resultados muestran que estos textos tienen su propio esquema metadiscursivo y que los traductores suelen respetar su estructura, si bien introducen nuevos tipos. Asimismo, los resultados pueden tenerse en cuenta en la enseñanza de la traducción y de la lengua de los negocios.

Terminología bilingüe y documentación ad hoc para intérpretes de conferencias. Una aproximación metodológica basada en corpus

Relevância:

20.00% 20.00%

Publicador:

Resumo:

El intérprete de conferencias debe llevar a cabo un trabajo documental antes, durante y después de los eventos en los que presta sus servicios, independientemente de su subcompetencia extralingüística. Desafortunadamente, pocas son las propuestas metodológicas que se hayan planteado para que este profesional pueda realizar esta tarea de manera sistemática. En el presente artículo, repasamos algunos de los trabajos que se han referido a las posibilidades que tiene el intérprete de satisfacer sus necesidades informativas. Una vez reseñada la mencionada escasez de propuestas, presentamos, en un estudio de caso, una aproximación metodológica a este trabajo de documentación, fundamentada en la compilación de corpus paralelos ad hoc y la extracción terminológica en forma de glosarios.

Elaboración de glosarios económicos con fines docentes: aproximación metodológica basada en corpus y explotación terminológica en el aula de traducción

Relevância:

20.00% 20.00%

Publicador:

Resumo:

Este trabajo presenta la metodología empleada para compilar un corpus económico e identificar su terminología con el fin de crear un glosario de utilidad en la formación de traductores. Por una parte, se repasa brevemente la bibliografía sobre compilación de corpus y explotación con fines terminológicos. Por otra parte, se presenta la metodología en cuestión, así como una serie de actividades enfocadas a la adquisición de conocimiento especializado en economía. Los resultados muestran que las técnicas usadas para detectar términos y extraer automáticamente candidatos a término, si bien no terminan de adecuarse a las necesidades concretas del presente trabajo, son de utilidad e incluso pueden complementarse. Por su parte, las actividades propuestas pueden sumarse igualmente a otro tipo de actividades y modificarse según el contexto docente.

La variación término-fraseológica en el lenguaje de la macroeconomía. Estudio basado en corpus sobre las medidas de saneamiento ante la crisis

Relevância:

20.00% 20.00%

Publicador:

Resumo:

Comprender las noticias económicas puede no ser fácil debido tanto a los conocimientos especializados que exige esta área de conocimiento como a la vaguedad con la que, en forma de variación terminológica, se materializan dichas noticias. En este artículo describimos la variación de una serie de unidades terminológicas y fraseológicas en un corpus periodístico sobre los planes de saneamiento del sector financiero y formulamos hipótesis en torno a los motivos que causan este fenómeno.

PoS-tagging the Web in Portuguese. National varieties, text typologies and spelling systems

Relevância:

20.00% 20.00%

Publicador:

Resumo:

The great amount of text produced every day in the Web turned it as one of the main sources for obtaining linguistic corpora, that are further analyzed with Natural Language Processing techniques. On a global scale, languages such as Portuguese - official in 9 countries - appear on the Web in several varieties, with lexical, morphological and syntactic (among others) differences. Besides, a unified spelling system for Portuguese has been recently approved, and its implementation process has already started in some countries. However, it will last several years, so different varieties and spelling systems coexist. Since PoS-taggers for Portuguese are specifically built for a particular variety, this work analyzes different training corpora and lexica combinations aimed at building a model with high-precision annotation in several varieties and spelling systems of this language. Moreover, this paper presents different dictionaries of the new orthography (Spelling Agreement) as well as a new freely available testing corpus, containing different varieties and textual typologies.

COMENEGO (Corpus Multilingüe de Economia y Negocios): Analayse comparée basée sur corpus des genres textuels

Relevância:

20.00% 20.00%

Publicador:

Resumo:

Le but de ce travail est d'analyser deux catégories de textes contenus dans le corpus pilote COMENEGO (Corpus Multilingüe de Economía y Negocios), à savoir les catégories organisationnelle et légale. Nous commençons par présenter brièvement le corpus en question ainsi que les motivations qui nous mènent à analyser ses contenus. Ensuite, nous sélectionnons une série de types de textes ou genres textuels de ces deux catégories afin de procéder à une analyse plus approfondie de chaque catégorie. Puis nous présentons les résultats obtenus qui montrent une certaine hétérogénéité notamment dans la catégorie organisationnelle du corpus. L'approche suivie ainsi que les résultats obtenus peuvent aider non seulement à reclasser les textes du corpus mais aussi à concevoir la plate-forme qui donnera accès aux textes sur internet.

Concit-Corpus: Context Citation Analysis to learn Function, Polarity and Influence

Relevância:

20.00% 20.00%

Publicador:

Resumo:

Citation corpus composed by 85 articles taken randomly from ACL Anthology with a total of 2195 bibliography cites.

«
1
2
»