885 resultados para Compilación de corpus
Resumo:
El intérprete de conferencias debe llevar a cabo un trabajo documental antes, durante y después de los eventos en los que presta sus servicios, independientemente de su subcompetencia extralingüística. Desafortunadamente, pocas son las propuestas metodológicas que se hayan planteado para que este profesional pueda realizar esta tarea de manera sistemática. En el presente artículo, repasamos algunos de los trabajos que se han referido a las posibilidades que tiene el intérprete de satisfacer sus necesidades informativas. Una vez reseñada la mencionada escasez de propuestas, presentamos, en un estudio de caso, una aproximación metodológica a este trabajo de documentación, fundamentada en la compilación de corpus paralelos ad hoc y la extracción terminológica en forma de glosarios.
Resumo:
Este trabajo presenta la metodología empleada para compilar un corpus económico e identificar su terminología con el fin de crear un glosario de utilidad en la formación de traductores. Por una parte, se repasa brevemente la bibliografía sobre compilación de corpus y explotación con fines terminológicos. Por otra parte, se presenta la metodología en cuestión, así como una serie de actividades enfocadas a la adquisición de conocimiento especializado en economía. Los resultados muestran que las técnicas usadas para detectar términos y extraer automáticamente candidatos a término, si bien no terminan de adecuarse a las necesidades concretas del presente trabajo, son de utilidad e incluso pueden complementarse. Por su parte, las actividades propuestas pueden sumarse igualmente a otro tipo de actividades y modificarse según el contexto docente.
Resumo:
Este trabajo tiene que ver con uno de los objetivos perseguidos, en el marco del Proyecto Redes de Investigación en Docencia Universitaria del Instituto de Ciencias de la Educación de la Universidad de Alicante, por la red 3152 “Formación de traductores basada en corpus y desarrollo de COMENEGO (Corpus Multilingüe de Economía y Negocios)”, relacionado, en concreto, con el uso de corpus en la formación de traductores. Se presenta una síntesis de una serie de comunicaciones que se pronunciaron en el IV Congreso Internacional CULT (Corpus Use and Learning to Translate), celebrado en la Facultad de Filosofía y Letras de la Universidad de Alicante a finales de mayo de 2015.
Resumo:
En este trabajo se realiza un estudio descriptivo-comparativo de la traducción de los subtítulos correspondientes al documental de divulgación científica titulado Hubble: 15 Years of Discovery (2005). Antes de realizar el análisis comparativo del corpus se sitúa la traducción comercial de este documento en el campo de estudio que abarca la traducción audiovisual, y en particular en el relativo a la subtitulación. El corpus textual seleccionado pertenece al género textual de la divulgación científica cuyas características se analizan. Tras abordar la cuestión de la selección del texto objeto de estudio, se detalla el proceso de recopilación del corpus, prestando especial atención a la elección del programa que se ha utilizado para la extracción de subtítulos a partir de la copia comercial del texto seleccionado (Hubble, 2005) en formato DVD. Se da cuenta de la compilación del corpus en forma de tabla que contiene el total de unidades bitextuales (subtítulos en inglés y español, identificados por los respectivos códigos de tiempo). El análisis del corpus bi-textual correspondiente a los subtítulos del documental (20 000 palabras, 715 SubtO y 724 SubtM), se efectúa mediante la clasificación de todos aquellos procedimientos de traducción observados. La taxonomía empleada para la clasificación de dichos procedimientos permite establecer cuatro grandes categorías: modulación, supresión, inequivalencia y adición. Dicha división cuatripartita da pie para establecer aquellas subcategorías que reflejan y ayudan a describir los procedimientos de traducción identificados en el proceso de análisis comparativo del corpus bitextual. Por razones de espacio, en la redacción final del presente trabajo se ofrece únicamente una muestra del conjunto total de ejemplos analizados para la realización de este estudio. Se pretende que dicha muestra represente por orden de incidencia, todos los fenómenos de traducción identificados y descritos, utilizando la taxonomía seleccionada, en el proceso de comparación del doblaje original inglés de Hubble y la traducción al español (subtítulos). Por último, se han recogido los datos relativos a la frecuencia de aparición de cada uno de los procedimientos de traducción para poder realizar una valoración global de los resultados obtenidos y relacionarlos con el género textual al que pertenece el documental objeto de estudio.
Resumo:
Tema 3. Diseño y compilación de corpus.
Resumo:
The QUT-NOISE-TIMIT corpus consists of 600 hours of noisy speech sequences designed to enable a thorough evaluation of voice activity detection (VAD) algorithms across a wide variety of common background noise scenarios. In order to construct the final mixed-speech database, a collection of over 10 hours of background noise was conducted across 10 unique locations covering 5 common noise scenarios, to create the QUT-NOISE corpus. This background noise corpus was then mixed with speech events chosen from the TIMIT clean speech corpus over a wide variety of noise lengths, signal-to-noise ratios (SNRs) and active speech proportions to form the mixed-speech QUT-NOISE-TIMIT corpus. The evaluation of five baseline VAD systems on the QUT-NOISE-TIMIT corpus is conducted to validate the data and show that the variety of noise available will allow for better evaluation of VAD systems than existing approaches in the literature.
Resumo:
Extracellular matrix regulates many cellular processes likely to be important for development and regression of corpora lutea. Therefore, we identified the types and components of the extracellular matrix of the human corpus luteum at different stages of the menstrual cycle. Two different types of extracellular matrix were identified by electron microscopy; subendothelial basal laminas and an interstitial matrix located as aggregates at irregular intervals between the non-vascular cells. No basal laminas were associated with luteal cells. At all stages, collagen type IV α1 and laminins α5, β2 and γ1 were localized by immunohistochemistry to subendothelial basal laminas, and collagen type IV α1 and laminins α2, α5, β1 and β2 localized in the interstitial matrix. Laminin α4 and β1 chains occurred in the subendothelial basal lamina from mid-luteal stage to regression; at earlier stages, a punctate pattern of staining was observed. Therefore, human luteal subendothelial basal laminas potentially contain laminin 11 during early luteal development and, additionally, laminins 8, 9 and 10 at the mid-luteal phase. Laminin α1 and α3 chains were not detected in corpora lutea. Versican localized to the connective tissue extremities of the corpus luteum. Thus, during the formation of the human corpus luteum, remodelling of extracellular matrix does not result in basal laminas as present in the adrenal cortex or ovarian follicle. Instead, novel aggregates of interstitial matrix of collagen and laminin are deposited within the luteal parenchyma, and it remains to be seen whether this matrix is important for maintaining the luteal cell phenotype.
Resumo:
In this paper, we describe a machine-translated parallel English corpus for the NTCIR Chinese, Japanese and Korean (CJK) Wikipedia collections. This document collection is named CJK2E Wikipedia XML corpus. The corpus could be used by the information retrieval research community and knowledge sharing in Wikipedia in many ways; for example, this corpus could be used for experimentations in cross-lingual information retrieval, cross-lingual link discovery, or omni-lingual information retrieval research. Furthermore, the translated CJK articles could be used to further expand the current coverage of the English Wikipedia.
Resumo:
Measures of semantic similarity between medical concepts are central to a number of techniques in medical informatics, including query expansion in medical information retrieval. Previous work has mainly considered thesaurus-based path measures of semantic similarity and has not compared different corpus-driven approaches in depth. We evaluate the effectiveness of eight common corpus-driven measures in capturing semantic relatedness and compare these against human judged concept pairs assessed by medical professionals. Our results show that certain corpus-driven measures correlate strongly (approx 0.8) with human judgements. An important finding is that performance was significantly affected by the choice of corpus used in priming the measure, i.e., used as evidence from which corpus-driven similarities are drawn. This paper provides guidelines for the implementation of semantic similarity measures for medical informatics and concludes with implications for medical information retrieval.
Resumo:
This paper evaluates the efficiency of a number of popular corpus-based distributional models in performing discovery on very large document sets, including online collections. Literature-based discovery is the process of identifying previously unknown connections from text, often published literature, that could lead to the development of new techniques or technologies. Literature-based discovery has attracted growing research interest ever since Swanson's serendipitous discovery of the therapeutic effects of fish oil on Raynaud's disease in 1986. The successful application of distributional models in automating the identification of indirect associations underpinning literature-based discovery has been heavily demonstrated in the medical domain. However, we wish to investigate the computational complexity of distributional models for literature-based discovery on much larger document collections, as they may provide computationally tractable solutions to tasks including, predicting future disruptive innovations. In this paper we perform a computational complexity analysis on four successful corpus-based distributional models to evaluate their fit for such tasks. Our results indicate that corpus-based distributional models that store their representations in fixed dimensions provide superior efficiency on literature-based discovery tasks.