886 resultados para Anotación de corpus


Relevância:

80.00% 80.00%

Publicador:

Resumo:

IARG-AnCora tiene como objetivo la anotación con papeles temáticos de los argumentos implícitos de las nominalizaciones deverbales en el corpus AnCora. Estos corpus servirán de base para los sistemas de etiquetado automático de roles semánticos basados en técnicas de aprendizaje automático. Los analizadores semánticos son componentes básicos en las aplicaciones actuales de las tecnologías del lenguaje, en las que se quiere potenciar una comprensión más profunda del texto para realizar inferencias de más alto nivel y obtener así mejoras cualitativas en los resultados.

Relevância:

70.00% 70.00%

Publicador:

Resumo:

El análisis de citas bibliográficas que usa variaciones de métodos de conteo provoca deformaciones en la evaluación del impacto. Para enriquecer el cálculo de los factores de impacto se necesita entender el tipo de influencia de los aportes de un investigador sobre el autor que los menciona. Para ello, se requiere realizar análisis de contenido del contexto de las citas que permita obtener su función, polaridad e influencia. El presente artículo trata sobre la definición de un esquema de anotación tendiente a la creación de un corpus de acceso público que sea la base de trabajo colaborativo en este campo, con miras al desarrollo de sistemas que permitan llevar adelante tareas de análisis de contenido con el objetivo planteado.

Relevância:

60.00% 60.00%

Publicador:

Resumo:

This paper describes the automatic process of building a dependency annotated corpus based on Ancora constituent structures. The Ancora corpus already has a dependency structure information layer, but the new annotated data applies a purely syntactic orientation and offers in this way a new resource to the linguistic research community. The paper details the process of reannotating the corpus, the linguistic criteria used and the obtained results.

Relevância:

60.00% 60.00%

Publicador:

Resumo:

Tema 5. Anotación de corpus literario. XML. El estándar TEI.

Relevância:

30.00% 30.00%

Publicador:

Resumo:

El objetivo principal es estudiar y analizar la forma, la estructura, la función y el significado transmitidos por la entonación no nativa en el discurso oral. En segundo lugar, basándose en análisis acústicos y estadísticos, se pretende determinar si las diferencias y dificultades prosódicas detectadas en la expresión de aprendices españoles de lengua inglesa afectan sólo a la percepción de acento extranjero; o bien, si estas diferencias afectan de modo significativo también a la estructura y organización de la información y al significado pragmático-discursivo de los mensajes que transmiten. El corpus analizado está compuesto por 40 conversaciones entre 10 hablantes no nativos con características análogas en cuanto a edad (entre 19 y 22 años), lengua materna (castellano), región de origen (Madrid), y sin otro idioma extranjero excepto la lengua inglesa, con un nivel medio-alto en su competencia lingüística inglesa; y 10 hablantes nativos, estudiantes ingleses del convenio Sócrates-Erasmus en la Universidad Autónoma con edades y contextos sociales similares. La recogida de datos consistió en la grabación analógica y digitalmente de 10 aprendices españoles de inglés para un posterior tratamiento acústico e instrumental que complementase el análisis auditivo y la interpretación fonética, fonológica y lingüístico. El estudio es longitudinal: las grabaciones de los 10 aprendices de españoles de lengua inglesa tuvieron lugar dos veces cada año durante los tres años que duran sus estudios universitarios. Utilizando las mismas herramientas se graba una sola vez a los 10 hablantes nativos. Una vez que se obtienen los datos orales, se procede a su clasificación y comparación dentro y entre grupo de aprendices y grupo de hablantes nativos, de forma global tanto auditiva como instrumentalmente. Esta investigación pretende establecer la relación y efectos de las variables independientes (los dos grupos de hablantes y las funciones del habla analizadas) y las variables dependientes (la entonación y el tiempo). Las herramientas utilizadas para el análisis acústico y estadístico son las siguientes: modelo de anotación prosódica (incluye los siguientes niveles: señal acústica, nivel de anotación del sistema de tonicidad y del sistema de tonalidad, nivel de anotación fonético-acústico, nivel de anotación fonológico, nivel de duración o anotación temporal y transcripción tipográfica); análisis acústico a través del programa de análisis de lenguaje Speech Analizer 1.5; y análisis estadístico utilizando el programa estadístico para ciencias sociales SPSS 1.0. Los patrones de entonación usados por los aprendices españoles y nativos de lengua inglesa difieren significativamente en la expresión de distintas funciones de discurso y en las metafunciones interpersonal y textual. La diferencia afecta a los tres sistemas jerárquicos de entonación: tonalidad, tonicidad y tono. Como consecuencia, ambos grupos de hablantes transmiten significados distintos en su discurso oral. Los resultados constatan que la entonación no sólo afecta nuestra impresión de acento extranjero o no nativo, hecho éste que en el mundo globalizado actual no tendría la mayor importancia. Por el contrario, se ha demostrado que los distintos patrones de entonación usados por los aprendices de lengua inglesa para expresar las diferentes funciones de habla conllevan importantes consecuencias en la estructura, organización y el estatus de la información y, por tanto, en el mensaje que se transmite durante la interacción lingüística.

Relevância:

30.00% 30.00%

Publicador:

Resumo:

Desde hace tiempo ha habido mucho interés en la automatización de todo tipo de tareas en las que la intervención humana es esencial para que sean completadas con éxito. Esto es de especial interés si además se ciertas tareas que pueden ser perfectamente reproducibles y, o bien requieren mucha formación, o bien consumen mucho tiempo. Este proyecto está dirigido a la búsqueda de métodos para automatizar la anotación de imágenes médicas. En concreto, se centra en el apartado de delimitación de las regiones de interés (ROIs) en imágenes de tipo PET siendo éstas usadas con frecuencia junto con las imágenes de tipo CT en el campo de oncología para delinear volúmenes afectados por cáncer. Se pretende con esto ayudar a los hospitales a organizar y estructurar las imágenes de sus pacientes y relacionarlas con las notas clínicas. Esto es lo que llamaremos el proceso de anotación de imágenes y la integración con la anotación de notas clínicas respectivamente. En este documento nos vamos a centrar en describir cuáles eran los objetivos iniciales, los pasos dados para su consecución y las dificultades encontradas durante el proceso. De todas las técnicas existentes en la literatura, se han elegido 4 técnicas de segmentación, 2 de ellas probadas en pacientes reales y las otras 2 probadas solo en phantoms según la literatura. En nuestro caso, las pruebas, se han realizado en imágenes PET de 6 pacientes reales diagnosticados de cáncer. Los resultados han sido analizados y presentados. ---ABSTRACT---For a long period of time, there has been an increasing interest in automation of tasks where human intervention is needed in order to succeed. This interest is even greater if those tasks must be solved by qualifed specialists in the area and the task is reproducible or if the task is too time consuming. The main objective of this project is to find methods which can help to automate medical image annotation processes. In our specific case, we are willing to delineate regions of interest (ROIs) in PET images which are frequently used simultaneaously ith CT images in oncology to determine those volumes that are afected by cancer. With this process we want to help hospitals organize and have from their patient studies and to relate these images to the corpus annotations. We may call this the image annotation process and the integration with the corpus annotation respectively. In this document we are going to concentrate in the description of the initial objectives, the steps we had to go through and the di�culties we had to face during this process. From all existing techniques in the literature, 4 segmentation techniques have been chosen, 2 of them were tested in real patients and the other 2 were tested using phantoms according to the literature. In our case, the tests have been done using PET images from 6 real patients diagnosed with cancer. The results have been analyzed and presented.

Relevância:

30.00% 30.00%

Publicador:

Resumo:

El estudio de las relaciones causales y su expresión lingüística ha sido comúnmente estudiado desde diferentes perspectivas en los años recientes. Sin embargo, pocos estudios han intentado combinar diferentes enfoques para establecer el significado de estas relaciones, y han investigado de manera contrastiva las señales usadas para expresarlas. Este trabajo de fin de master es un proyecto para avanzar el conocimiento en este área mediante la investigación de: a) la posibilidad de caracterizar las relaciones causales en diferentes tipos, usando características que combinan un enfoque funcional y cognitivo; b) los tipos de relaciones causales preferidas en los textos expositivos en inglés y sus traducciones al español; c) las expresiones lingüísticas preferidas para expresar dichas relaciones causales en los textos originales en inglés y sus traducciones al español. La metodología usada en esta investigación se basa en la anotación manual de un corpus bilingüe compuesto de un total de 37 textos expositivos (incluyendo los textos originales en inglés y sus traducciones al español) extraídos del corpus MULTINOT, un corpus de alta calidad, con registros diversificados y multifuncional bilingüe inglésespañol, actualmente compilado y anotado multidimensionalmente por los miembros del grupo de investigación FUNCAP con el proyecto MULTINOT (véase Lavid et al.2015) El estudio se llevó a cabo en cuatro pasos principales: primero, un esquema de anotación para las relaciones causales en inglés y español fue diseñado constando de tres sistemas interrelacionados y sus correspondientes características; tras ello, se compiló un inventario de señales para las relaciones causales en inglés y español, y una categorización en diferentes tipos; seguidamente, el esquema de anotación fue implementado en la herramienta UAM Corpus Tool y el conjunto de textos bilingües fue anotado por el autor de este estudio; finalmente, los datos extraídos de la anotación fueron analizados estadísticamente para comprobar las posibles diferencias entre los textos originales en inglés y sus traducciones al español respecto a la selección del tipo de relación de causa y sus señales. El análisis estadístico de los datos anotados sugiere que los tipos de relaciones de causa preferidos en los textos originales en inglés y son los tipos de contenido y no volitivos, que el orden de aparición de estos tipos de señales preferido es la segunda posición, y las señales más recurrentes usadas para expresar dichas relaciones son las conjunciones, seguidas de los sintagmas verbales. El análisis de las traducciones al español revela un alto grado de similitud con los datos de los textos originales en inglés, lo que sugiere que en las traducciones al español se conservan las preferencias de los textos originales en la mayoría de los casos y que estas elecciones pueden considerarse un indicativo de los textos expositivos en inglés. Proyectos futuros se centraran en el análisis de los textos originales en español para comprobar si las tendencias observadas en los textos originales en inglés y sus traducciones al español son también validas en textos originales en español, y en la especificación de patrones que puede ayudar al análisis automático de estas relaciones

Relevância:

20.00% 20.00%

Publicador:

Resumo:

The QUT-NOISE-TIMIT corpus consists of 600 hours of noisy speech sequences designed to enable a thorough evaluation of voice activity detection (VAD) algorithms across a wide variety of common background noise scenarios. In order to construct the final mixed-speech database, a collection of over 10 hours of background noise was conducted across 10 unique locations covering 5 common noise scenarios, to create the QUT-NOISE corpus. This background noise corpus was then mixed with speech events chosen from the TIMIT clean speech corpus over a wide variety of noise lengths, signal-to-noise ratios (SNRs) and active speech proportions to form the mixed-speech QUT-NOISE-TIMIT corpus. The evaluation of five baseline VAD systems on the QUT-NOISE-TIMIT corpus is conducted to validate the data and show that the variety of noise available will allow for better evaluation of VAD systems than existing approaches in the literature.

Relevância:

20.00% 20.00%

Publicador:

Resumo:

Extracellular matrix regulates many cellular processes likely to be important for development and regression of corpora lutea. Therefore, we identified the types and components of the extracellular matrix of the human corpus luteum at different stages of the menstrual cycle. Two different types of extracellular matrix were identified by electron microscopy; subendothelial basal laminas and an interstitial matrix located as aggregates at irregular intervals between the non-vascular cells. No basal laminas were associated with luteal cells. At all stages, collagen type IV α1 and laminins α5, β2 and γ1 were localized by immunohistochemistry to subendothelial basal laminas, and collagen type IV α1 and laminins α2, α5, β1 and β2 localized in the interstitial matrix. Laminin α4 and β1 chains occurred in the subendothelial basal lamina from mid-luteal stage to regression; at earlier stages, a punctate pattern of staining was observed. Therefore, human luteal subendothelial basal laminas potentially contain laminin 11 during early luteal development and, additionally, laminins 8, 9 and 10 at the mid-luteal phase. Laminin α1 and α3 chains were not detected in corpora lutea. Versican localized to the connective tissue extremities of the corpus luteum. Thus, during the formation of the human corpus luteum, remodelling of extracellular matrix does not result in basal laminas as present in the adrenal cortex or ovarian follicle. Instead, novel aggregates of interstitial matrix of collagen and laminin are deposited within the luteal parenchyma, and it remains to be seen whether this matrix is important for maintaining the luteal cell phenotype.

Relevância:

20.00% 20.00%

Publicador:

Relevância:

20.00% 20.00%

Publicador:

Resumo:

In this paper, we describe a machine-translated parallel English corpus for the NTCIR Chinese, Japanese and Korean (CJK) Wikipedia collections. This document collection is named CJK2E Wikipedia XML corpus. The corpus could be used by the information retrieval research community and knowledge sharing in Wikipedia in many ways; for example, this corpus could be used for experimentations in cross-lingual information retrieval, cross-lingual link discovery, or omni-lingual information retrieval research. Furthermore, the translated CJK articles could be used to further expand the current coverage of the English Wikipedia.

Relevância:

20.00% 20.00%

Publicador:

Resumo:

Measures of semantic similarity between medical concepts are central to a number of techniques in medical informatics, including query expansion in medical information retrieval. Previous work has mainly considered thesaurus-based path measures of semantic similarity and has not compared different corpus-driven approaches in depth. We evaluate the effectiveness of eight common corpus-driven measures in capturing semantic relatedness and compare these against human judged concept pairs assessed by medical professionals. Our results show that certain corpus-driven measures correlate strongly (approx 0.8) with human judgements. An important finding is that performance was significantly affected by the choice of corpus used in priming the measure, i.e., used as evidence from which corpus-driven similarities are drawn. This paper provides guidelines for the implementation of semantic similarity measures for medical informatics and concludes with implications for medical information retrieval.

Relevância:

20.00% 20.00%

Publicador:

Resumo:

This paper evaluates the efficiency of a number of popular corpus-based distributional models in performing discovery on very large document sets, including online collections. Literature-based discovery is the process of identifying previously unknown connections from text, often published literature, that could lead to the development of new techniques or technologies. Literature-based discovery has attracted growing research interest ever since Swanson's serendipitous discovery of the therapeutic effects of fish oil on Raynaud's disease in 1986. The successful application of distributional models in automating the identification of indirect associations underpinning literature-based discovery has been heavily demonstrated in the medical domain. However, we wish to investigate the computational complexity of distributional models for literature-based discovery on much larger document collections, as they may provide computationally tractable solutions to tasks including, predicting future disruptive innovations. In this paper we perform a computational complexity analysis on four successful corpus-based distributional models to evaluate their fit for such tasks. Our results indicate that corpus-based distributional models that store their representations in fixed dimensions provide superior efficiency on literature-based discovery tasks.