2 resultados para traducción

em Universidad Politécnica de Madrid


Relevância:

20.00% 20.00%

Publicador:

Resumo:

Basándonos en la recopilación inicial de preposiciones, locuciones preposicionales, términos con preposición dependiente y phrasal verbs utilizados en el texto técnico realizada en otros proyectos anteriores del Departamento de Lingüística Aplicada a la Ciencia y a la Tecnología, el objetivo de este trabajo es completar, organizar, actualizar y dar visibilidad a esta información inicial. Tras realizar un proceso exhaustivo de verificación, unificación, clasificación y ampliación de la información existente, en caso necesario, el listado resultante se utiliza para elaborar un glosario de términos con preposición. El objetivo final de este proyecto es que este glosario esté a disposición de los usuarios, a través de una consulta on-line, en la página del ILLLab (http://illlab.euitt.upm.es/wordpress/), dependiente del Departamento de Lingüística Aplicada a la Ciencia y a la Tecnología. Para incluir en el glosario ejemplos actualizados de textos técnicos, se ha recopilado un corpus lingüístico de textos técnicos, tomando como base diferentes números de la revista IEEE Spectrum, en su edición digital, publicados entre los años 2009 y 2012. El objetivo de esta recopilación es la de ofrecer al consultante diferentes ejemplos de uso en el texto técnico de los distintos términos con preposición que componen el glosario, de manera que pueda acceder de manera rápida y sencilla a ejemplos de uso real de los términos que está buscando, con objeto de clarificar aspectos relacionados con su uso o, en su caso, facilitar su aprendizaje. Toda esta información, tanto el listado de términos con preposición como las frases pertenecientes al corpus recopilado, se incorpora a una base de datos, alojada dentro de la misma página web del ILLLab. A través de un formulario de consulta, a disposición del usuario en dicha página, se pueden obtener todos los términos recopilados que coincidan con los criterios de búsqueda introducidos. El usuario puede realizar dos tipos de búsqueda principales: por preposición o por término completo. Además, puede elegir una búsqueda global (entre todos los términos que integran el glosario) o parcial (en una sola de las categorías en las que se han dividido los diferentes términos, de acuerdo con su función gramatical). Por último, se presentan unas estadísticas de uso de los términos recopilados dentro de los diferentes textos que integran el corpus lingüístico, de manera que pueda establecerse una relación de los que aparecen con más frecuencia en el texto técnico. ABSTRACT. Based on the initial collection of prepositions, prepositional phrases, dependent prepositions and phrasal verbs used in technical texts collected on previous projects in the Department of Applied Linguistics to Science and Technology, the aim of this project is to improve, organize, update and provide visibility to this initial information. Following a process of verification, unification, classification and extension of existing information, if necessary, a glossary of terms with preposition is built. The ultimate objective of this project is to make this glossary available to users through an online consultation in the ILLLab webpage (http://illlab.euitt.upm.es/wordpress/). The administration of tis webpage depends of the Department of Applied Linguistics in Science and Technology. A linguistic corpus of technical texts has been compiled, based on different numbers of the IEEE Spectrum magazine, in its online edition, published between the years 2009 and 2012. The aim of this collection is to provide different examples of use in the technical text for the terms included in the glossary, so that examples of the actual use of the terms consulted can be easily and quickly accessed, in order to clarify doubts regarding their meaning or translation into Spanish and facilitate learning. All this information, both the list of terms with prepositional phrases as well as the corpus developed, is incorporated in a database. Through a searching form, the ILLLab's user may obtain all the terms matching the search criteria entered. The user can perform two types of main search: by preposition or by full term. Additionally, a global search can be selected (including all terms included in the glossary) or a partial one (including only one of the glossary's categories). Finally, some statistics of use are presented according to the various texts included in the corpus, so a relation of the most frequent prepositions in the technical text can be established.

Relevância:

20.00% 20.00%

Publicador:

Resumo:

La principal aportación de esta tesis doctoral ha sido la propuesta y evaluación de un sistema de traducción automática que permite la comunicación entre personas oyentes y sordas. Este sistema está formado a su vez por dos sistemas: un traductor de habla en español a Lengua de Signos Española (LSE) escrita y que posteriormente se representa mediante un agente animado; y un generador de habla en español a partir de una secuencia de signos escritos mediante glosas. El primero de ellos consta de un reconocedor de habla, un módulo de traducción entre lenguas y un agente animado que representa los signos en LSE. El segundo sistema está formado por una interfaz gráfica donde se puede especificar una secuencia de signos mediante glosas (palabras en mayúscula que representan los signos), un módulo de traducción entre lenguas y un conversor texto-habla. Para el desarrollo del sistema de traducción, en primer lugar se ha generado un corpus paralelo de 7696 frases en español con sus correspondientes traducciones a LSE. Estas frases pertenecen a cuatro dominios de aplicación distintos: la renovación del Documento Nacional de Identidad, la renovación del permiso de conducir, un servicio de información de autobuses urbanos y la recepción de un hotel. Además, se ha generado una base de datos con más de 1000 signos almacenados en cuatro sistemas distintos de signo-escritura. En segundo lugar, se ha desarrollado un módulo de traducción automática que integra dos técnicas de traducción con una estructura jerárquica: la primera basada en memoria y la segunda estadística. Además, se ha implementado un módulo de pre-procesamiento de las frases en español que, mediante su incorporación al módulo de traducción estadística, permite mejorar significativamente la tasa de traducción. En esta tesis también se ha mejorado la versión de la interfaz de traducción de LSE a habla. Por un lado, se han incorporado nuevas características que mejoran su usabilidad y, por otro, se ha integrado un traductor de lenguaje SMS (Short Message Service – Servicio de Mensajes Cortos) a español, que permite especificar la secuencia a traducir en lenguaje SMS, además de mediante una secuencia de glosas. El sistema de traducción propuesto se ha evaluado con usuarios reales en dos dominios de aplicación: un servicio de información de autobuses de la Empresa Municipal de Transportes de Madrid y la recepción del Hotel Intur Palacio San Martín de Madrid. En la evaluación estuvieron implicadas personas sordas y empleados de los dos servicios. Se extrajeron medidas objetivas (obtenidas por el sistema automáticamente) y subjetivas (mediante cuestionarios a los usuarios). Los resultados fueron muy positivos gracias a la opinión de los usuarios de la evaluación, que validaron el funcionamiento del sistema de traducción y dieron información valiosa para futuras líneas de trabajo. Por otro lado, tras la integración de cada uno de los módulos de los dos sistemas de traducción (habla-LSE y LSE-habla), los resultados de la evaluación y la experiencia adquirida en todo el proceso, una aportación importante de esta tesis doctoral es la propuesta de metodología de desarrollo de sistemas de traducción de habla a lengua de signos en los dos sentidos de la comunicación. En esta metodología se detallan los pasos a seguir para desarrollar el sistema de traducción para un nuevo dominio de aplicación. Además, la metodología describe cómo diseñar cada uno de los módulos del sistema para mejorar su flexibilidad, de manera que resulte más sencillo adaptar el sistema desarrollado a un nuevo dominio de aplicación. Finalmente, en esta tesis se analizan algunas técnicas para seleccionar las frases de un corpus paralelo fuera de dominio para entrenar el modelo de traducción cuando se quieren traducir frases de un nuevo dominio de aplicación; así como técnicas para seleccionar qué frases del nuevo dominio resultan más interesantes que traduzcan los expertos en LSE para entrenar el modelo de traducción. El objetivo es conseguir una buena tasa de traducción con la menor cantidad posible de frases. ABSTRACT The main contribution of this thesis has been the proposal and evaluation of an automatic translation system for improving the communication between hearing and deaf people. This system is made up of two systems: a Spanish into Spanish Sign Language (LSE – Lengua de Signos Española) translator and a Spanish generator from LSE sign sequences. The first one consists of a speech recognizer, a language translation module and an avatar that represents the sign sequence. The second one is made up an interface for specifying the sign sequence, a language translation module and a text-to-speech conversor. For the translation system development, firstly, a parallel corpus has been generated with 7,696 Spanish sentences and their LSE translations. These sentences are related to four different application domains: the renewal of the Identity Document, the renewal of the driver license, a bus information service and a hotel reception. Moreover, a sign database has been generated with more than 1,000 signs described in four different signwriting systems. Secondly, it has been developed an automatic translation module that integrates two translation techniques in a hierarchical structure: the first one is a memory-based technique and the second one is statistical. Furthermore, a pre processing module for the Spanish sentences has been implemented. By incorporating this pre processing module into the statistical translation module, the accuracy of the translation module improves significantly. In this thesis, the LSE into speech translation interface has been improved. On the one hand, new characteristics that improve its usability have been incorporated and, on the other hand, a SMS language into Spanish translator has been integrated, that lets specifying in SMS language the sequence to translate, besides by specifying a sign sequence. The proposed translation system has been evaluated in two application domains: a bus information service of the Empresa Municipal de Transportes of Madrid and the Hotel Intur Palacio San Martín reception. This evaluation has involved both deaf people and services employees. Objective measurements (given automatically by the system) and subjective measurements (given by user questionnaires) were extracted during the evaluation. Results have been very positive, thanks to the user opinions during the evaluation that validated the system performance and gave important information for future work. Finally, after the integration of each module of the two translation systems (speech- LSE and LSE-speech), obtaining the evaluation results and considering the experience throughout the process, a methodology for developing speech into sign language (and vice versa) into a new domain has been proposed in this thesis. This methodology includes the steps to follow for developing the translation system in a new application domain. Moreover, this methodology proposes the way to improve the flexibility of each system module, so that the adaptation of the system to a new application domain can be easier. On the other hand, some techniques are analyzed for selecting the out-of-domain parallel corpus sentences in order to train the translation module in a new domain; as well as techniques for selecting which in-domain sentences are more interesting for translating them (by LSE experts) in order to train the translation model.