2 resultados para Bilingual Digital Corpus
em Universidade Complutense de Madrid
Resumo:
Thematization is recognized as a fundamental phenomenon in the construction of messages and texts by di erent linguistic schools. This location within a text privileges the elements that guide the reader in the orientation and interpretation of discourse at di erent levels. Thematizing a linguistic unit by locating it in the rst-initial position of a clause, paragraph, or text, confers upon it a special status: a signal of the organizational strategy which characterizes di erent text types playing a role as a variable in the distinction of registers, text types and genres. However, in spite of the importance of the study of thematization for message and textual structuring, to date there are no linguistic studies that have undertook the task of validating its aspects in a comparative manner, either for linguistic or computational purposes. This study, therefore, lls a research gap by implementing a methodology based on contrastive corpus annotation, which allows to empirically validate aspects of the phenomenon of Thematization in English and Spanish, it also seeks to develop a bilingual English-Spanish comparable corpus of newspaper texts automatically annotated with thematic features at clausal and discourse levels. The empirically validated categories (Thematic Field and its elements: Textual Theme, Interpersonal Theme, PreHead and Head) are used to annotate a larger corpus of three newspaper genres news reports, editorials and letters to the editor in terms of thematic choices. This characterization, reveals interesting results, such as the use of genre-speci c strategies in thematic position. In addition, the thesis investigates the possibility to automate the annotation of thematic features in the bilingual corpus through the development of a set of JAVA rules implemented in GATE. It also shows the e cacy of this method in comparison with the manual annotation results...
Resumo:
El objetivo fundamental de esta tesis ha sido situar la literatura digital hispánica como un eslabón más en la cadena de la historia de la literatura hispánica. Las obras literarias creadas en el entorno digital remedian multitud de recursos, memes y figuras retóricas heredadas de la literatura analógica, del mismo modo que la literatura impresa hizo con la tradición anterior alojada en manuscritos, rollos e incluso la literatura oral. Los nuevos medios técnicos ofrecen posibilidades preconizadas por autores analógicos que ahora adquieren corporeidad. La literariedad de estas obras concebidas para el medio electrónico reside en la remediación de la literatura impresa y su labor de adaptación a los nuevos marcos electrónicos hasta llegar al hipermedia. Los moldes que contienen las obras literarias digitales revisten a estas creaciones de propiedades que las caracterizan como tales obras de literatura digital y que a lo largo de esta tesis se han tratado de apuntar. Asimismo, partiendo de la indagación sobre estos textos, la lectura y selección de los mismos, se ofrece una propuesta de canon abierto de obras de literatura digital hispánica representativas de dichas propiedades específicas. Esta investigación se cierra con un fruto tangible, el repositorio de literatura digital hispánica Ciberia, concebido y desarrollado por varios miembros del grupo de investigación de la Facultad de Filología de la UCM LEETHI Literaturas Españolas y Europeas del Texto al Hipertexto. En el último capítulo de esta tesis se presenta y describe un proyecto que ha cumplido el objetivo de ofrecer en enero de 2015 un corpus de obras de literatura digital en español con una serie de metadatos exportables a través del consorcio internacional CELL Consortium on Electronic Literature. De este modo las creaciones de literatura electrónica en español y su análisis crítico adquieren una mayor visibilidad en el ámbito internacional...