927 resultados para Procesamiento en lenguaje natural
Resumo:
Las bases de datos geoespaciales temáticas en distintas escalas geográficas y temporales, son necesarias en multitud de líneas de investigación. Una de ellas es la gestión y alerta temprana de riesgos de desastres por amenazas naturales (inundaciones, huracanes, terremotos, etc.). Las noticias sobre éste tema se publican habitualmente en periódicos digitales de todo el mundo y comportan un alto contenido geográfico. Este trabajo pretende extraer automáticamente las noticias emitidas por canales de re-difusión web (conocidos por las siglas RSS en inglés) para georreferenciarlas, almacenarlas y distribuirlas como datos geoespaciales. Mediante técnicas de procesamiento de lenguaje natural y consultas a bases de datos de topónimos realizaremos la extracción de la información. El caso de estudio se aplicará para México y todos los componentes utilizados serán de código abierto
Resumo:
Partint de la base del Pla d’Itineraris ja existent a l’Espai Natural de les Guilleries-Savassona, compost per vint-i-cinc itineraris suggerits per la direcció de l’espai natural se n’han escollit quatre de concrets seguint un criteri de preferència marcat pel Consorci i que s’ha mirat d’agrupar dins d’una mateixa tematica: les Cingleres. Així mateix, en cada itinerari s’hi ha aplicat una mateixa metodologia per crear uns índexs que marquin els punts d’interès, els punts deficitaris o necessitats d’una actuacio capaç de ser aplicada en el futur a la resta d’itineraris .
Resumo:
La Constitución Política del Ecuador asigna a la jurisdicción militar y policial la tarea de juzgar a aquellos militares o policías, que en el ejercicio de sus funciones, hayan cometido delitos de función. Entonces la existencia de normas especiales que regulan la administración de justicia respecto de miembros de la fuerza pública se explica porque de conformidad con la Constitución en determinados casos los militares y los policías tienen "fuero" en relación con ciertas conductas específicas propias de sus funciones constitucionales y legales.
Resumo:
El presente trabajo de investigación aborda el tema de la incidencia de la capacitación del docente en lenguaje en su desempeño en dos instituciones educativas de la ciudad de Quito: Escuela Solidaridad y Escuela Fiscal Abelardo Flores de las maestras de segundo, tercero y cuarto año de básica y detalla el estudio riguroso y metodológico de la capacitación docente según el Programa CECM. Para ello se utilizó dos instrumentos: dos entrevistas a directivos y docentes y una guía de observación construida previamente según la información del programa de escuelas lectoras, planificación de los talleres de capacitación y otros materiales indispensables para este trabajo. Para verificar la aplicación de los talleres de capacitación en la enseñanza de la lectura y escritura se realizaron varias observaciones. En la aplicación del código alfabético se participó en tres clases de lenguaje a las maestras de segundo y tercer año de básica. En la enseñanza de la lectura comprensiva y producción de textos, en dos clases a cada maestra de segundo, tercero y cuarto años de básica. La tesis se divide en cuatro capítulos; y, tiene secuencia lógica. En el capítulo uno se analiza los conceptos de capacitación docente y términos relacionados, la formación continua y las condiciones que hacen factible la capacitación docente. En el capítulo dos se estudia una opción de capacitación en lenguaje – Programa CECM. En el capítulo tres se analiza la aplicación de la capacitación docente según el Programa CECM. En el capítulo cuatro se evidencia la construcción de un plan de capacitación para los docentes de los primeros años de básica como conclusión de la tesis.
Resumo:
Coordenação de Aperfeiçoamento de Pessoal de Nível Superior (CAPES)
Resumo:
Con el objetivo de representar y analizar grandes cantidades de fuentes históricas textuales en un Sistema de Información Geográfica (SIG), se ha creado ModeS TimeBank. ModeS TimeBank es un corpus del español moderno (s. XVIII) anotado con información semántica temporal, eventiva y espacial, donde destaca el uso de los lenguajes de marcado TimeML y SpatialML. El corpus es además relevante no sólo por su datación e idioma sino por su dominio ya que está enmarcado en la temática de las redes de cooperación. El presente artículo pretende describir cómo se ha creado el corpus y qué criterios se han tenido en cuenta en su creación, además de señalar el alcance y las aplicaciones de ModeS TimeBank
Resumo:
El crecimiento de Internet y la proliferación de información multidominio de forma pública ha propiciado la aparición de nuevas oportunidades en entornos muy dispares, principalmente en el ámbito de la investigación. Además, desde que se planteara el concepto de Web Semántica se han venido desarrollando un nutrido conjunto de herramientas y estándares ideados para facilitar la interoperabilidad en la World Wide Web. Este factor adicional posibilita el acceso a datos compartidos y su integración de forma mucho más abierta y comprensible, siendo la tendencia esperada la de acercarse poco a poco a la completa homogeneización de los contenidos disponibles en Internet. En este trabajo de tesis doctoral se presenta un método en cinco fases para la mediación semántica y sintáctica en sistemas de bases de datos integradas. Los lenguajes y estándares más utilizados para el desarrollo de este método son los asociados a la Web Semántica para la descripción de esquemas, recursos y consultas. En conjunto con este trabajo teórico se han desarrollado una serie de componentes software para dar servicio conjunto a las distintas problemáticas asociadas al enfoque elegido. Estos componentes han sido construidos dentro del marco del proyecto europeo ACGT1, centrado en el apoyo a los ensayos clínicos post-genómicos en cáncer. La ejecución completa del método propuesto permite crear consultas SPARQL a partir de descripciones en lenguaje natural, y resolver automáticamente algunos de los problemas más importantes en el proceso de mediación, tales como la resolución de conflictos y ambigüedades, la traducción de consultas y la gestión de restricciones. Además, lo experimentos llevados a cabo en este trabajo muestran cómo estas tareas pueden ser realizadas de manera eficiente. Además de las tareas propias de la mediación semántica, se ha dotado al método de una solución para agilizar la construcción de componentes para la homogeneización de las interfaces sintácticas y tecnológicas con los propios recursos de datos. Esto resulta especialmente útil cuando las fuentes carecen de esquema o el medio de acceso no está diseñado específicamente para llevar a cabo una integración. Para la evaluación de la utilidad, viabilidad y eficiencia del método y las herramientas asociadas se han desarrollado en primer lugar una serie de experimentos en el contexto de ACGT. Estos experimentos han sido validados en diversas revisiones por expertos en el dominio de la medicina y los sistemas de información. Además se presenta una evaluación teórica de la eficiencia de los algoritmos presentados, demostrándose que para el caso general se encuentra una solución en tiempo polinómico. La conclusión final de esta tesis es que el conjunto de técnicas presentadas es útil, viable y eficiente para la explotación de la información integrada a partir de repositorios heterogéneos.
Resumo:
Este artículo describe una estrategia de selección de frases para hacer el ajuste de un sistema de traducción estadístico basado en el decodificador Moses que traduce del español al inglés. En este trabajo proponemos dos posibilidades para realizar esta selección de las frases del corpus de validación que más se parecen a las frases que queremos traducir (frases de test en lengua origen). Con esta selección podemos obtener unos mejores pesos de los modelos para emplearlos después en el proceso de traducción y, por tanto, mejorar los resultados. Concretamente, con el método de selección basado en la medida de similitud propuesta en este artículo, mejoramos la medida BLEU del 27,17% con el corpus de validación completo al 27,27% seleccionando las frases para el ajuste. Estos resultados se acercan a los del experimento ORACLE: se utilizan las mismas frases de test para hacer el ajuste de los pesos. En este caso, el BLEU obtenido es de 27,51%.
Resumo:
El proyecto TIMPANO tiene por objetivo profundizar en el desarrollo de sistemas de comunicación oral hombre-máquina atendiendo principalmente a la capacidad de dar respuesta a múltiples requerimientos de los usuarios, como pueden ser el acceso a información, la extracción de información, o el análisis de grandes repositorios de información en audio. En el proyecto se hace especial énfasis en la adaptación dinámica de los modelos a diversos contextos, tanto de tipo acústico, como semántico o de idioma.
Resumo:
El uso universal de síntesis de voz en diferentes aplicaciones requeriría un desarrollo sencillo de las nuevas voces con poca intervención manual. Teniendo en cuenta la cantidad de datos multimedia disponibles en Internet y los medios de comunicación, un objetivo interesante es el desarrollo de herramientas y métodos para construir automáticamente las voces de estilo de varios de ellos. En un trabajo anterior se esbozó una metodología para la construcción de este tipo de herramientas, y se presentaron experimentos preliminares con una base de datos multiestilo. En este artículo investigamos más a fondo esta tarea y proponemos varias mejoras basadas en la selección del número apropiado de hablantes iniciales, el uso o no de filtros de reducción de ruido, el uso de la F0 y el uso de un algoritmo de detección de música. Hemos demostrado que el mejor sistema usando un algoritmo de detección de música disminuye el error de precisión 22,36% relativo para el conjunto de desarrollo y 39,64% relativo para el montaje de ensayo en comparación con el sistema base, sin degradar el factor de mérito. La precisión media para el conjunto de prueba es 90.62% desde 76.18% para los reportajes de 99,93% para los informes meteorológicos.
Resumo:
El presente Trabajo Fin de Grado (TFG) surge de la necesidad de disponer de tecnologías que faciliten el Procesamiento de Lenguaje Natural (NLP) en español dentro del sector de la medicina. Centrado concretamente en la extracción de conocimiento de las historias clínicas electrónicas (HCE), que recogen toda la información relacionada con la salud del paciente y en particular, de los documentos recogidos en dichas historias, pretende la obtención de todos los términos relacionados con la medicina. El Procesamiento de Lenguaje Natural permite la obtención de datos estructurados a partir de información no estructurada. Estas técnicas permiten un análisis de texto que genera etiquetas aportando significado semántico a las palabras para la manipulación de información. A partir de la investigación realizada del estado del arte en NLP y de las tecnologías existentes para otras lenguas, se propone como solución un módulo de anotación de términos médicos extraídos de documentos clínicos. Como términos médicos se han considerado síntomas, enfermedades, partes del cuerpo o tratamientos obtenidos de UMLS, una ontología categorizada que agrega distintas fuentes de datos médicos. Se ha realizado el diseño y la implementación del módulo así como el análisis de los resultados obtenidos realizando una evaluación con treinta y dos documentos que contenían 1372 menciones de terminología médica y que han dado un resultado medio de Precisión: 70,4%, Recall: 36,2%, Accuracy: 31,4% y F-Measure: 47,2%.---ABSTRACT---This Final Thesis arises from the need for technologies that facilitate the Natural Language Processing (NLP) in Spanish in the medical sector. Specifically it is focused on extracting knowledge from Electronic Health Records (EHR), which contain all the information related to the patient's health and, in particular, it expects to obtain all the terms related to medicine from the documents contained in these records. Natural Language Processing allows us to obtain structured information from unstructured data. These techniques enable analysis of text generating labels providing semantic meaning to words for handling information. From the investigation of the state of the art in NLP and existing technologies in other languages, an annotation module of medical terms extracted from clinical documents is proposed as a solution. Symptoms, diseases, body parts or treatments are considered part of the medical terms contained in UMLS ontology which is categorized joining different sources of medical data. This project has completed the design and implementation of a module and the analysis of the results have been obtained. Thirty two documents which contain 1372 mentions of medical terminology have been evaluated and the average results obtained are: Precision: 70.4% Recall: 36.2% Accuracy: 31.4% and F-Measure: 47.2%.