1000 resultados para Traducció automàtica estadística
Resumo:
This paper proposes to enrich RBMTdictionaries with Named Entities(NEs) automatically acquired fromWikipedia. The method is appliedto the Apertium English-Spanishsystem and its performance comparedto that of Apertium with and withouthandtagged NEs. The system withautomatic NEs outperforms the onewithout NEs, while results vary whencompared to a system with handtaggedNEs (results are comparable forSpanish to English but slightly worstfor English to Spanish). Apart fromthat, adding automatic NEs contributesto decreasing the amount of unknownterms by more than 10%.
Resumo:
There are a number of morphological analysers for Polish. Most of these, however, are non-free resources. What is more, different analysers employ different tagsets and tokenisation strategies. This situation calls for a simpleand universal framework to join different sources of morphological information, including the existing resources as well as user-provided dictionaries. We present such a configurable framework that allows to write simple configuration files that define tokenisation strategies and the behaviour of morphologicalanalysers, including simple tagset conversion.
Resumo:
This paper discusses the qualitativecomparative evaluation performed on theresults of two machine translation systemswith different approaches to the processing ofmulti-word units. It proposes a solution forovercoming the difficulties multi-word unitspresent to machine translation by adopting amethodology that combines the lexicongrammar approach with OpenLogos ontologyand semantico-syntactic rules. The paper alsodiscusses the importance of a qualitativeevaluation metrics to correctly evaluate theperformance of machine translation engineswith regards to multi-word units.
Resumo:
Softcatalà is a non-profit associationcreated more than 10 years ago to fightthe marginalisation of the Catalan languagein information and communicationtechnologies. It has led the localisationof many applications and thecreation of a website which allows itsusers to translate texts between Spanishand Catalan using an external closed-sourcetranslation engine. Recently,the closed-source translation back-endhas been replaced by a free/open-sourcesolution completely managed by Softcatalà: the Apertium machine translationplatform and the ScaleMT web serviceframework. Thanks to the opennessof the new solution, it is possibleto take advantage of the huge amount ofusers of the Softcatalà translation serviceto improve it, using a series ofmethods presented in this paper. In addition,a study of the translations requestedby the users has been carriedout, and it shows that the translationback-end change has not affected theusage patterns.
Resumo:
This paper presents an Italian to CatalanRBMT system automatically built bycombining the linguistic data of theexisting pairs Spanish-Catalan andSpanish-Italian. A lightweight manualpostprocessing is carried out in order tofix inconsistencies in the automaticallyderived dictionaries and to add very frequentwords that are missing accordingto a corpus analysis. The system isevaluated on the KDE4 corpus and outperformsGoogle Translate by approximatelyten absolute points in terms ofboth TER and GTM.
Resumo:
This paper describes the development of a two-way shallow-transfer rule-based machine translation system between Bulgarian and Macedonian. It gives an account of the resources and the methods used for constructing the system, including the development of monolingual and bilingual dictionaries, syntactic transfer rules and constraint grammars. An evaluation of thesystem's performance was carried out and compared to another commercially available MT system for the two languages. Some future work was suggested.
Resumo:
La principal aportación de esta tesis doctoral ha sido la propuesta y evaluación de un sistema de traducción automática que permite la comunicación entre personas oyentes y sordas. Este sistema está formado a su vez por dos sistemas: un traductor de habla en español a Lengua de Signos Española (LSE) escrita y que posteriormente se representa mediante un agente animado; y un generador de habla en español a partir de una secuencia de signos escritos mediante glosas. El primero de ellos consta de un reconocedor de habla, un módulo de traducción entre lenguas y un agente animado que representa los signos en LSE. El segundo sistema está formado por una interfaz gráfica donde se puede especificar una secuencia de signos mediante glosas (palabras en mayúscula que representan los signos), un módulo de traducción entre lenguas y un conversor texto-habla. Para el desarrollo del sistema de traducción, en primer lugar se ha generado un corpus paralelo de 7696 frases en español con sus correspondientes traducciones a LSE. Estas frases pertenecen a cuatro dominios de aplicación distintos: la renovación del Documento Nacional de Identidad, la renovación del permiso de conducir, un servicio de información de autobuses urbanos y la recepción de un hotel. Además, se ha generado una base de datos con más de 1000 signos almacenados en cuatro sistemas distintos de signo-escritura. En segundo lugar, se ha desarrollado un módulo de traducción automática que integra dos técnicas de traducción con una estructura jerárquica: la primera basada en memoria y la segunda estadística. Además, se ha implementado un módulo de pre-procesamiento de las frases en español que, mediante su incorporación al módulo de traducción estadística, permite mejorar significativamente la tasa de traducción. En esta tesis también se ha mejorado la versión de la interfaz de traducción de LSE a habla. Por un lado, se han incorporado nuevas características que mejoran su usabilidad y, por otro, se ha integrado un traductor de lenguaje SMS (Short Message Service – Servicio de Mensajes Cortos) a español, que permite especificar la secuencia a traducir en lenguaje SMS, además de mediante una secuencia de glosas. El sistema de traducción propuesto se ha evaluado con usuarios reales en dos dominios de aplicación: un servicio de información de autobuses de la Empresa Municipal de Transportes de Madrid y la recepción del Hotel Intur Palacio San Martín de Madrid. En la evaluación estuvieron implicadas personas sordas y empleados de los dos servicios. Se extrajeron medidas objetivas (obtenidas por el sistema automáticamente) y subjetivas (mediante cuestionarios a los usuarios). Los resultados fueron muy positivos gracias a la opinión de los usuarios de la evaluación, que validaron el funcionamiento del sistema de traducción y dieron información valiosa para futuras líneas de trabajo. Por otro lado, tras la integración de cada uno de los módulos de los dos sistemas de traducción (habla-LSE y LSE-habla), los resultados de la evaluación y la experiencia adquirida en todo el proceso, una aportación importante de esta tesis doctoral es la propuesta de metodología de desarrollo de sistemas de traducción de habla a lengua de signos en los dos sentidos de la comunicación. En esta metodología se detallan los pasos a seguir para desarrollar el sistema de traducción para un nuevo dominio de aplicación. Además, la metodología describe cómo diseñar cada uno de los módulos del sistema para mejorar su flexibilidad, de manera que resulte más sencillo adaptar el sistema desarrollado a un nuevo dominio de aplicación. Finalmente, en esta tesis se analizan algunas técnicas para seleccionar las frases de un corpus paralelo fuera de dominio para entrenar el modelo de traducción cuando se quieren traducir frases de un nuevo dominio de aplicación; así como técnicas para seleccionar qué frases del nuevo dominio resultan más interesantes que traduzcan los expertos en LSE para entrenar el modelo de traducción. El objetivo es conseguir una buena tasa de traducción con la menor cantidad posible de frases. ABSTRACT The main contribution of this thesis has been the proposal and evaluation of an automatic translation system for improving the communication between hearing and deaf people. This system is made up of two systems: a Spanish into Spanish Sign Language (LSE – Lengua de Signos Española) translator and a Spanish generator from LSE sign sequences. The first one consists of a speech recognizer, a language translation module and an avatar that represents the sign sequence. The second one is made up an interface for specifying the sign sequence, a language translation module and a text-to-speech conversor. For the translation system development, firstly, a parallel corpus has been generated with 7,696 Spanish sentences and their LSE translations. These sentences are related to four different application domains: the renewal of the Identity Document, the renewal of the driver license, a bus information service and a hotel reception. Moreover, a sign database has been generated with more than 1,000 signs described in four different signwriting systems. Secondly, it has been developed an automatic translation module that integrates two translation techniques in a hierarchical structure: the first one is a memory-based technique and the second one is statistical. Furthermore, a pre processing module for the Spanish sentences has been implemented. By incorporating this pre processing module into the statistical translation module, the accuracy of the translation module improves significantly. In this thesis, the LSE into speech translation interface has been improved. On the one hand, new characteristics that improve its usability have been incorporated and, on the other hand, a SMS language into Spanish translator has been integrated, that lets specifying in SMS language the sequence to translate, besides by specifying a sign sequence. The proposed translation system has been evaluated in two application domains: a bus information service of the Empresa Municipal de Transportes of Madrid and the Hotel Intur Palacio San Martín reception. This evaluation has involved both deaf people and services employees. Objective measurements (given automatically by the system) and subjective measurements (given by user questionnaires) were extracted during the evaluation. Results have been very positive, thanks to the user opinions during the evaluation that validated the system performance and gave important information for future work. Finally, after the integration of each module of the two translation systems (speech- LSE and LSE-speech), obtaining the evaluation results and considering the experience throughout the process, a methodology for developing speech into sign language (and vice versa) into a new domain has been proposed in this thesis. This methodology includes the steps to follow for developing the translation system in a new application domain. Moreover, this methodology proposes the way to improve the flexibility of each system module, so that the adaptation of the system to a new application domain can be easier. On the other hand, some techniques are analyzed for selecting the out-of-domain parallel corpus sentences in order to train the translation module in a new domain; as well as techniques for selecting which in-domain sentences are more interesting for translating them (by LSE experts) in order to train the translation model.
Resumo:
Enunciados y ficheros necesarios para la realización de las actividades prácticas de la asignatura Tecnologías de la Traducción.
Resumo:
Aquest llibre cobreixen la major part dels continguts de l'assignatura Tecnologies de la Traducció que cursara l'alumnat de segon curs del grau en Traducció i Interpretació de la Universitat d’Alacant; també pot ser útil per a assignatures similars en altres universitats (per aixo s’hi ha inclòs material mes avançat que no s'estudia en Tecnologies de la Traducció).
Resumo:
A montagem de circuitos eletrónicos é um processo extremamente complexo, e como tal muito difícil de controlar. Ao longo do processo produtivo, é colocada solda no PCB (printed circuit board), seguidamente são colocados os componentes eletrónicos que serão depois soldados através de um sistema de convecção, sendo por fim inspecionados todos os componentes, com o intuito de detetar eventuais falhas no circuito. Esta inspeção é efetuada por uma máquina designada por AOI (automatic optical inspection), que através da captura de várias imagens do PCB, analisa cada uma, utilizando algoritmos de processamento de imagem como forma de verificar a presença, colocação e soldadura de todos os componentes. Um dos grandes problemas na classificação dos defeitos relaciona-se com a quantidade de defeitos mal classificados que passam para os processos seguintes, por análise errada por parte dos operadores. Assim, apenas com uma formação adequada, realizada continuamente, é possível garantir uma menor taxa de falhas por parte dos operadores e consequentemente um aumento na qualidade dos produtos. Através da implementação da metodologia Gage R&R para atributos, que é parte integrante da estratégia “six sigma” foi possível analisar a aptidão dos operadores, com base na repetição aleatória de várias imagens. Foi desenvolvido um software que implementa esta metodologia na formação dos operadores das máquinas AOI, de forma a verificar a sua aptidão, tendo como objetivo a melhoria do seu desempenho futuro, através da medição e quantificação das dificuldades de cada pessoa. Com esta nova sistemática foi mais fácil entender a necessidade de formação de cada operador, pois com a constante evolução dos componentes eletrónicos e com o surgimento de novos componentes, estão implícitas novas dificuldades para os operadores neste tipo de tarefa. Foi também possível reduzir o número de defeitos mal classificados de forma significativa, através da aposta na formação com o auxílio do software desenvolvido.
Resumo:
Por razões de segurança, tem vindo a aumentar a utilização de sistemas de videovigilância em espaços públicos. Face a acontecimentos recentes, designadamente a ocorrência de explosões, é importante detectar bagagem abandonada porque poderá ser perigosa. Surge neste contexto a motivação para este trabalho, cujo objectivo é a detecção automática de objectos abandonados num lugar de embarque e desembarque de passageiros. O sistema desenvolvido processa as imagens obtidas pelas câmaras de videovigilância. Para cada câmara, cada imagem é comparada com a respectiva imagem de fundo, determinada inicialmente, para detectar alterações no local. Após processamento para remover efeitos de sombra e pontos espúrios, a representação binária das alterações é projectada no plano do chão e fundida com as outras projecções. Através da análise da fusão das projecções, identificam-se as blobs, designação da representação de passageiros e bagagem neste domínio. A detecção de bagagem abandonada baseia-se na ideia de que isso corresponde à divisão de uma blob em duas, permanecendo uma no local onde ocorreu a bifurcação e tendo havido afastamento da outra. Usando os dados de referência do encontro Performance Evaluation of Tracking and Surveillance, realizado em 2006, discute-se o desempenho do protótipo implementado e a sua parametrização e apresentam-se aspectos de refinamento e implementação da heurística de detecção. Analisada a utilização de imagens de um sistema de videovigilância instalado com outra finalidade, constata-se a forte dependência em relação ao número e disposição das câmaras, que neste caso, se revela desadequada.
Resumo:
Ao me ter sido apresentado o tema focado neste trabalho, a curiosidade apoderou-se de mim para tentar perceber o que eram os algoritmos genéticos, a aprendizagem automática e a aplicação dos algoritmos genéticos sobre este tipo de aprendizagem e onde é que estas técnicas podiam ser aplicadas. Assim, neste trabalho é realizado um estudo destes temas relativamente ao seu funcionamento, aplicabilidade, problemas e soluções existentes, bem como, a comparação entre duas das mais conhecidas abordagens ao nível da aprendizagem automática baseada em algoritmos genéticos. São no fim apresentados programas exemplificativos de implementações de aplicação de algoritmos genéticos a problemas de optimização/descoberta e de aprendizagem automática. Este texto está organizado em cinco capítulos, sendo o primeiro a introdução, o segundo é uma apresentação dos algoritmos genéticos, no terceiro capítulo é apresentada a técnica de aprendizagem automática baseada em algoritmos genéticos, as suas diferentes abordagens e implementações, aplicabilidade e comparação entre abordagens. No quarto capítulo são apresentados alguns exemplos práticos que pretendem demonstrar a forma como se implementam algumas das abordagens referidas nos capítulos anteriores com o intuito de ver o seu funcionamento na prática e comparar diferentes algoritmos no mesmo problema.