Biblioteca Digital

Con el objetivo de representar y analizar grandes cantidades de fuentes históricas textuales en un Sistema de Información Geográfica (SIG), se ha creado ModeS TimeBank. ModeS TimeBank es un corpus del español moderno (s. XVIII) anotado con información semántica temporal, eventiva y espacial, donde destaca el uso de los lenguajes de marcado TimeML y SpatialML. El corpus es además relevante no sólo por su datación e idioma sino por su dominio ya que está enmarcado en la temática de las redes de cooperación. El presente artículo pretende describir cómo se ha creado el corpus y qué criterios se han tenido en cuenta en su creación, además de señalar el alcance y las aplicaciones de ModeS TimeBank

Veja mais

Una propuesta y un etiquetador de codificación morfosintáctica para corpus de referencia en lengua española

Relevância:

20.00% 20.00%

Publicador:

Resumo:

Este trabajo presenta una propuesta de codificación morfosintáctica para corpus de referencia en lengua española basada en los estándares de la Text Encoding Initiative (TEI), The Network of European Reference Corpora (NERC) y The Expert Advisory Group on Language Engineering Standards (EAGLES) tal y como se presenta en (Martín de Santa Olalla, 1994). Presentamos también el trabajo de creación de etiquetador morfosintáctico que utiliza el conjunto de etiquetas que ésta contiene.

Veja mais

Hybrid Approach Combining Machine Learning and a Rule-Based Expert System for Text Categorization

Relevância:

20.00% 20.00%

Publicador:

Resumo:

This paper discusses a novel hybrid approach for text categorization that combines a machine learning algorithm, which provides a base model trained with a labeled corpus, with a rule-based expert system, which is used to improve the results provided by the previous classifier, by filtering false positives and dealing with false negatives. The main advantage is that the system can be easily fine-tuned by adding specific rules for those noisy or conflicting categories that have not been successfully trained. We also describe an implementation based on k-Nearest Neighbor and a simple rule language to express lists of positive, negative and relevant (multiword) terms appearing in the input text. The system is evaluated in several scenarios, including the popular Reuters-21578 news corpus for comparison to other approaches, and categorization using IPTC metadata, EUROVOC thesaurus and others. Results show that this approach achieves a precision that is comparable to top ranked methods, with the added value that it does not require a demanding human expert workload to train

Veja mais

DAEDALUS at ImageCLEF Medical Retrieval 2011: Textual, Visual and Multimodal Experiments

Relevância:

20.00% 20.00%

Publicador:

Resumo:

This paper describes the participation of DAEDALUS at ImageCLEF 2011 Medical Retrieval task. We have focused on multimodal (or mixed) experiments that combine textual and visual retrieval. The main objective of our research has been to evaluate the effect on the medical retrieval process of the existence of an extended corpus that is annotated with the image type, associated to both the image itself and also to its textual description. For this purpose, an image classifier has been developed to tag each document with its class (1st level of the hierarchy: Radiology, Microscopy, Photograph, Graphic, Other) and subclass (2nd level: AN, CT, MR, etc.). For the textual-based experiments, several runs using different semantic expansion techniques have been performed. For the visual-based retrieval, different runs are defined by the corpus used in the retrieval process and the strategy for obtaining the class and/or subclass. The best results are achieved in runs that make use of the image subclass based on the classification of the sample images. Although different multimodal strategies have been submitted, none of them has shown to be able to provide results that are at least comparable to the ones achieved by the textual retrieval alone. We believe that we have been unable to find a metric for the assessment of the relevance of the results provided by the visual and textual processes

Veja mais

Análisis de sentiminetos de un corpus de redes sociales.

Relevância:

20.00% 20.00%

Publicador:

Resumo:

El análisis de sentimientos de textos en las redes sociales se ha convertido en un área de investigación cada vez más relevante debido a la influencia que las opiniones expresadas tienen en potenciales usuarios. De acuerdo con una clasificación conceptual de sentimientos y basándonos en un corpus de diversos dominios comerciales, hemos trabajado en la confección de reglas que permitan la clasificación de dichos textos según el sentimiento expresado con respecto a una marca, empresa o producto. Con la ayuda de una base de datos de colocaciones (Badele3000) y un gestor de corpus (Calíope) se han creado 200 reglas en español que han puesto de manifiesto algunas consideraciones a tener en cuenta en la siguiente fase del trabajo.

Veja mais

Intrgración de un corpus de textos biblingüe y un glosario del campo de la informática.

Relevância:

20.00% 20.00%

Publicador:

Resumo:

En este trabajo se presentan las principales características de Calíope, una aplicación web que es capaz de manejar un corpus y un glosario de términos en inglés y en español. La singularidad más importante de esta herramienta es que permite interrelacionar estos dos recursos. Así, por ejemplo, los resultados de la búsqueda de concordancias se pueden incorporar automáticamente a los ejemplos de uso del término correspondiente en el glosario; y desde la lista de palabras de un texto del corpus se pueden añadir términos al glosario o acceder a la información de un término que esté en el glosario.

Veja mais

El léxico del videojuego: Análisis contextual en un género periodístico

Relevância:

20.00% 20.00%

Publicador:

Resumo:

Esta tesis doctoral, objetivo final y resultado de mis estudios de doctorado, realizados dentro del programa perteneciente al Departamento de Lingüística Aplicada a la Ciencia y a la Tecnología de la Universidad Politécnica de Madrid, aborda el análisis del léxico del videojuego en español en un corpus de reseñas periodísticas y plantea la hipótesis de su pertenencia a un dominio léxico propio. El estudio se centra en el establecimiento y la descripción de dicho dominio léxico del videojuego como parte integrante del correspondiente a las nuevas tecnologías e Internet. En ese marco, el videojuego ha adquirido en los últimos años gran relevancia debido a su indudable y creciente impacto social, que ha merecido la atención tanto de estudiosos como de profesionales de procedencia diversa. Así, el desarrollo de una teoría del videojuego se ha basado en los últimos años en aspectos muy variados, desde el análisis crítico de los elementos técnicos y artísticos de lo que muchos autores consideran ya como nueva disciplina académica, hasta su influencia en el proceso de aprendizaje y en la divulgación informativa. Además, el videojuego, como medio de expresión artística y cultural ya comparable a otros de gran arraigo como el cine, tiene también su reflejo en la prensa, y no solo en la especializada, sino también en los periódicos generalistas, que han añadido, en sus ediciones impresas y digitales, información y reseñas críticas de videojuegos. Es precisamente en estas reseñas, que cumplen una función periodística similar a las críticas de cine, puesto que despiertan el interés tanto de aficionados a los videojuegos como de compradores ocasionales, donde tiene su origen esta tesis. Al aparecer publicadas en una sección del periódico dedicada a las nuevas tecnologías e Internet, el lector que se acerca a ellas por primera vez se ve sorprendido por el léxico que utilizan sus autores: los artículos de crítica de videojuegos se llenan de creadores, de personajes y de historias, de misiones, enemigos, aventuras y avatares; de puntuaciones y de códigos secretos, pero también de motores de juego, de polígonos y de gráficos. Esta mezcla de elementos narrativos, artísticos, industriales y técnicos convierten al vocabulario propio del videojuego en un ámbito léxico digno del interés académico. Precisamente, un elemento innovador que ofrece esta tesis es el ámbito temático del estudio, ya que, a pesar de que el videojuego comienza a ser objeto de investigación y análisis crítico desde distintos puntos de vista (Bogost, 2006) (Juul, 1998, 2005) (Gee, 2007), no constan estudios de índole lingüística que establezcan y describan su léxico en español fuera del ámbito especializado. Así, se parte de una visión del léxico del videojuego no solo como terminología especializada, y por tanto orientada únicamente a especialistas, sino como léxico que ha superado el campo de especialidad para ser adoptado por los hablantes de español.

Veja mais

Consulta on-line basada en corpus de construcciones con preposición en el texto técnico en inglés y su traducción al español

Relevância:

20.00% 20.00%

Publicador:

Resumo:

Basándonos en la recopilación inicial de preposiciones, locuciones preposicionales, términos con preposición dependiente y phrasal verbs utilizados en el texto técnico realizada en otros proyectos anteriores del Departamento de Lingüística Aplicada a la Ciencia y a la Tecnología, el objetivo de este trabajo es completar, organizar, actualizar y dar visibilidad a esta información inicial. Tras realizar un proceso exhaustivo de verificación, unificación, clasificación y ampliación de la información existente, en caso necesario, el listado resultante se utiliza para elaborar un glosario de términos con preposición. El objetivo final de este proyecto es que este glosario esté a disposición de los usuarios, a través de una consulta on-line, en la página del ILLLab (http://illlab.euitt.upm.es/wordpress/), dependiente del Departamento de Lingüística Aplicada a la Ciencia y a la Tecnología. Para incluir en el glosario ejemplos actualizados de textos técnicos, se ha recopilado un corpus lingüístico de textos técnicos, tomando como base diferentes números de la revista IEEE Spectrum, en su edición digital, publicados entre los años 2009 y 2012. El objetivo de esta recopilación es la de ofrecer al consultante diferentes ejemplos de uso en el texto técnico de los distintos términos con preposición que componen el glosario, de manera que pueda acceder de manera rápida y sencilla a ejemplos de uso real de los términos que está buscando, con objeto de clarificar aspectos relacionados con su uso o, en su caso, facilitar su aprendizaje. Toda esta información, tanto el listado de términos con preposición como las frases pertenecientes al corpus recopilado, se incorpora a una base de datos, alojada dentro de la misma página web del ILLLab. A través de un formulario de consulta, a disposición del usuario en dicha página, se pueden obtener todos los términos recopilados que coincidan con los criterios de búsqueda introducidos. El usuario puede realizar dos tipos de búsqueda principales: por preposición o por término completo. Además, puede elegir una búsqueda global (entre todos los términos que integran el glosario) o parcial (en una sola de las categorías en las que se han dividido los diferentes términos, de acuerdo con su función gramatical). Por último, se presentan unas estadísticas de uso de los términos recopilados dentro de los diferentes textos que integran el corpus lingüístico, de manera que pueda establecerse una relación de los que aparecen con más frecuencia en el texto técnico. ABSTRACT. Based on the initial collection of prepositions, prepositional phrases, dependent prepositions and phrasal verbs used in technical texts collected on previous projects in the Department of Applied Linguistics to Science and Technology, the aim of this project is to improve, organize, update and provide visibility to this initial information. Following a process of verification, unification, classification and extension of existing information, if necessary, a glossary of terms with preposition is built. The ultimate objective of this project is to make this glossary available to users through an online consultation in the ILLLab webpage (http://illlab.euitt.upm.es/wordpress/). The administration of tis webpage depends of the Department of Applied Linguistics in Science and Technology. A linguistic corpus of technical texts has been compiled, based on different numbers of the IEEE Spectrum magazine, in its online edition, published between the years 2009 and 2012. The aim of this collection is to provide different examples of use in the technical text for the terms included in the glossary, so that examples of the actual use of the terms consulted can be easily and quickly accessed, in order to clarify doubts regarding their meaning or translation into Spanish and facilitate learning. All this information, both the list of terms with prepositional phrases as well as the corpus developed, is incorporated in a database. Through a searching form, the ILLLab's user may obtain all the terms matching the search criteria entered. The user can perform two types of main search: by preposition or by full term. Additionally, a global search can be selected (including all terms included in the glossary) or a partial one (including only one of the glossary's categories). Finally, some statistics of use are presented according to the various texts included in the corpus, so a relation of the most frequent prepositions in the technical text can be established.

Veja mais

Colecció dels tres misteris que es representen en la funció solemne del Corpus, que es fa en la ciutat de València

Relevância:

20.00% 20.00%

Publicador:

Resumo:

Nº 422 del catálogo Fons de Teatre Valencià de la Biblioteca Bas Carbonell

Veja mais

872 resultados para Comparable Corpus

Filtro por publicador