2 resultados para Semantic Annotation

em Universidade Complutense de Madrid


Relevância:

20.00% 20.00%

Publicador:

Resumo:

El estudio de las relaciones causales y su expresión lingüística ha sido comúnmente estudiado desde diferentes perspectivas en los años recientes. Sin embargo, pocos estudios han intentado combinar diferentes enfoques para establecer el significado de estas relaciones, y han investigado de manera contrastiva las señales usadas para expresarlas. Este trabajo de fin de master es un proyecto para avanzar el conocimiento en este área mediante la investigación de: a) la posibilidad de caracterizar las relaciones causales en diferentes tipos, usando características que combinan un enfoque funcional y cognitivo; b) los tipos de relaciones causales preferidas en los textos expositivos en inglés y sus traducciones al español; c) las expresiones lingüísticas preferidas para expresar dichas relaciones causales en los textos originales en inglés y sus traducciones al español. La metodología usada en esta investigación se basa en la anotación manual de un corpus bilingüe compuesto de un total de 37 textos expositivos (incluyendo los textos originales en inglés y sus traducciones al español) extraídos del corpus MULTINOT, un corpus de alta calidad, con registros diversificados y multifuncional bilingüe inglésespañol, actualmente compilado y anotado multidimensionalmente por los miembros del grupo de investigación FUNCAP con el proyecto MULTINOT (véase Lavid et al.2015) El estudio se llevó a cabo en cuatro pasos principales: primero, un esquema de anotación para las relaciones causales en inglés y español fue diseñado constando de tres sistemas interrelacionados y sus correspondientes características; tras ello, se compiló un inventario de señales para las relaciones causales en inglés y español, y una categorización en diferentes tipos; seguidamente, el esquema de anotación fue implementado en la herramienta UAM Corpus Tool y el conjunto de textos bilingües fue anotado por el autor de este estudio; finalmente, los datos extraídos de la anotación fueron analizados estadísticamente para comprobar las posibles diferencias entre los textos originales en inglés y sus traducciones al español respecto a la selección del tipo de relación de causa y sus señales. El análisis estadístico de los datos anotados sugiere que los tipos de relaciones de causa preferidos en los textos originales en inglés y son los tipos de contenido y no volitivos, que el orden de aparición de estos tipos de señales preferido es la segunda posición, y las señales más recurrentes usadas para expresar dichas relaciones son las conjunciones, seguidas de los sintagmas verbales. El análisis de las traducciones al español revela un alto grado de similitud con los datos de los textos originales en inglés, lo que sugiere que en las traducciones al español se conservan las preferencias de los textos originales en la mayoría de los casos y que estas elecciones pueden considerarse un indicativo de los textos expositivos en inglés. Proyectos futuros se centraran en el análisis de los textos originales en español para comprobar si las tendencias observadas en los textos originales en inglés y sus traducciones al español son también validas en textos originales en español, y en la especificación de patrones que puede ayudar al análisis automático de estas relaciones

Relevância:

20.00% 20.00%

Publicador:

Resumo:

Thematization is recognized as a fundamental phenomenon in the construction of messages and texts by di erent linguistic schools. This location within a text privileges the elements that guide the reader in the orientation and interpretation of discourse at di erent levels. Thematizing a linguistic unit by locating it in the rst-initial position of a clause, paragraph, or text, confers upon it a special status: a signal of the organizational strategy which characterizes di erent text types playing a role as a variable in the distinction of registers, text types and genres. However, in spite of the importance of the study of thematization for message and textual structuring, to date there are no linguistic studies that have undertook the task of validating its aspects in a comparative manner, either for linguistic or computational purposes. This study, therefore, lls a research gap by implementing a methodology based on contrastive corpus annotation, which allows to empirically validate aspects of the phenomenon of Thematization in English and Spanish, it also seeks to develop a bilingual English-Spanish comparable corpus of newspaper texts automatically annotated with thematic features at clausal and discourse levels. The empirically validated categories (Thematic Field and its elements: Textual Theme, Interpersonal Theme, PreHead and Head) are used to annotate a larger corpus of three newspaper genres news reports, editorials and letters to the editor in terms of thematic choices. This characterization, reveals interesting results, such as the use of genre-speci c strategies in thematic position. In addition, the thesis investigates the possibility to automate the annotation of thematic features in the bilingual corpus through the development of a set of JAVA rules implemented in GATE. It also shows the e cacy of this method in comparison with the manual annotation results...