985 resultados para procesamiento lenguaje natural


Relevância:

100.00% 100.00%

Publicador:

Resumo:

La rápida evolución experimentada en los últimos años por las tecnologías de Internet ha estimulado la proliferación de recursos software en varias disciplinas científicas, especialmente en bioinformática. En la mayoría de los casos, la tendencia actual es publicar dichos recursos como servicios accesibles libremente a través de Internet, utilizando tecnologías y patrones de diseño definidos para la implementación de Arquitecturas Orientadas a Servicios (SOA). La combinación simultánea de múltiples servicios dentro de un mismo flujo de trabajo abre la posibilidad de crear aplicaciones potencialmente más útiles y complejas. La integración de dichos servicios plantea grandes desafíos, tanto desde un punto de vista teórico como práctico, como por ejemplo, la localización y acceso a los recursos disponibles o la coordinación entre ellos. En esta tesis doctoral se aborda el problema de la identificación, localización, clasificación y acceso a los recursos informáticos disponibles en Internet. Con este fin, se ha definido un modelo genérico para la construcción de índices de recursos software con información extraída automáticamente de artículos de la literatura científica especializada en un área. Este modelo consta de seis fases que abarcan desde la selección de las fuentes de datos hasta el acceso a los índices creados, pasando por la identificación, extracción, clasificación y “curación” de la información relativa a los recursos. Para verificar la viabilidad, idoneidad y eficiencia del modelo propuesto, éste ha sido evaluado en dos dominios científicos diferentes—la BioInformática y la Informática Médica—dando lugar a dos índices de recursos denominados BioInformatics Resource Inventory (BIRI) y electronic-Medical Informatics Repository of Resources(e-MIR2) respectivamente. Los resultados obtenidos de estas aplicaciones son presentados a lo largo de la presente tesis doctoral y han dado lugar a varias publicaciones científicas en diferentes revistas JCR y congresos internacionales. El impacto potencial y la utilidad de esta tesis doctoral podrían resultar muy importantes teniendo en cuenta que, gracias a la generalidad del modelo propuesto, éste podría ser aplicado en cualquier disciplina científica. Algunas de las líneas de investigación futuras más relevantes derivadas de este trabajo son esbozadas al final en el último capítulo de este libro. ABSTRACT The rapid evolution experimented in the last years by the Internet technologies has stimulated the proliferation of heterogeneous software resources in most scientific disciplines, especially in the bioinformatics area. In most cases, current trends aim to publish those resources as services freely available over the Internet, using technologies and design patterns defined for the implementation of Service-Oriented Architectures (SOA). Simultaneous combination of various services into the same workflow opens the opportunity of creating more complex and useful applications. Integration of services raises great challenges, both from a theoretical to a practical point of view such as, for instance, the location and access to the available resources or the orchestration among them. This PhD thesis deals with the problem of identification, location, classification and access to informatics resources available over the Internet. On this regard, a general model has been defined for building indexes of software resources, with information extracted automatically from scientific articles from the literature specialized in the area. Such model consists of six phases ranging from the selection of data sources to the access to the indexes created, covering the identification, extraction, classification and curation of the information related to the software resources. To verify the viability, feasibility and efficiency of the proposed model, it has been evaluated in two different scientific domains—Bioinformatics and Medical Informatics—producing two resources indexes named BioInformatics Resources Inventory (BIRI) and electronic-Medical Informatics Repository of Resources (e-MIR2) respectively. The results and evaluation of those systems are presented along this PhD thesis, and they have produced different scientific publications in several JCR journals and international conferences. The potential impact and utility of this PhD thesis could be of great relevance considering that, thanks to the generality of the proposed model, it could be successfully extended to any scientific discipline. Some of the most relevant future research lines derived from this work are outlined at the end of this book.

Relevância:

100.00% 100.00%

Publicador:

Resumo:

Se presenta un estudio y propuesta de interoperabilidad semántica entre ontologías del dominio de la salud basada en técnicas de procesamiento del lenguaje natural. El objetivo fundamental ha sido el desarrollo de un algoritmo de interconexión semántica entre los términos de dos ontologías solapadas y heterogéneas, denominadas «fuente» (Clasificación internacional de enfermedades, 9ª revisión, modificación clínica: CIE-9-MC) y «diana» (esquema jerárquico de la asignatura Enfermería Materno-Infantil: EMI). Esta propuesta permite emparejar semánticamente ontologías, a partir de la reutilización de otro recurso ontológico (WordNet español), sin destruir o modificar la semántica de identidad de cada una de las ontologías involucradas. El modelo presentado puede permitir al usuario acceder a la información que necesita en otra clasificación jerárquica, sin precisar de un entrenamiento referido a la conceptualización de cada sistema, pues utilizaría la ontología «diana» con la que está familiarizado para su aplicación a la recuperación de información.

Relevância:

100.00% 100.00%

Publicador:

Resumo:

El campo de procesamiento de lenguaje natural (PLN), ha tenido un gran crecimiento en los últimos años; sus áreas de investigación incluyen: recuperación y extracción de información, minería de datos, traducción automática, sistemas de búsquedas de respuestas, generación de resúmenes automáticos, análisis de sentimientos, entre otras. En este artículo se presentan conceptos y algunas herramientas con el fin de contribuir al entendimiento del procesamiento de texto con técnicas de PLN, con el propósito de extraer información relevante que pueda ser usada en un gran rango de aplicaciones. Se pueden desarrollar clasificadores automáticos que permitan categorizar documentos y recomendar etiquetas; estos clasificadores deben ser independientes de la plataforma, fácilmente personalizables para poder ser integrados en diferentes proyectos y que sean capaces de aprender a partir de ejemplos. En el presente artículo se introducen estos algoritmos de clasificación, se analizan algunas herramientas de código abierto disponibles actualmente para llevar a cabo estas tareas y se comparan diversas implementaciones utilizando la métrica F en la evaluación de los clasificadores.

Relevância:

100.00% 100.00%

Publicador:

Resumo:

Este artículo presenta la aplicación y resultados obtenidos de la investigación en técnicas de procesamiento de lenguaje natural y tecnología semántica en Brand Rain y Anpro21. Se exponen todos los proyectos relacionados con las temáticas antes mencionadas y se presenta la aplicación y ventajas de la transferencia de la investigación y nuevas tecnologías desarrolladas a la herramienta de monitorización y cálculo de reputación Brand Rain.

Relevância:

100.00% 100.00%

Publicador:

Resumo:

Responder cómo se procesa el lenguaje, cómo funcionan todos los elementos que intervienen en la comprensión y en qué orden se produce el procesamiento lingüístico. Alumnos de ESO, que no presentan discapacidad auditiva. El grupo experimental lo compone 31 chicos y 12 niñas que presentan dificultades en Lengua, algunos de ellos también tienen problemas de aprendizaje en Matemáticas y Lengua inglesa. Se realizan dos pruebas. La primera trata de comprensión oral. Reciben un cuadernillo cada uno. Disponen de 25 minutos. Los datos personales es lo último que deben escribir. Si no escuchan bien, lo indican en el cuadernillo y así se controla la falta de comprensión por deficiencias de sonido. Se les pone una grabación tres veces. Durante las grabaciones se controlan las diferencias acústicas entre los que están en la primera fila y la última. Los alumnos contestan a las preguntas. A los que presentan problemas con las definiciones se les pide que rellenen la última hoja para comprobar si conocen el significado, no su capacidad de expresión. El segundo cuadernillo lo reciben al acabar todo el grupo. Disponen de tiempo ilimitado. Si no conocen una palabra se les explica el significado. Finalmente se les pasa una prueba de memoria auditiva inmediata . Se pretende controlar la variable 'memoria' y estudiar su incidencia en la prueba. La segunda prueba consiste en originar un modelo de lenguaje utilizando el mismo texto presentado a los estudiantes. También se pretende conocer lo que pasa si se introducen oraciones incompletas para rellenar por los alumnos. La única información que dispone el ordenador es la señal vocal y con ella realiza el modelo de lenguaje. Grabadora mono portátil, cinta de casete, cuadernillo de respuesta de comprensión oral, cuadernillo de respuesta de estrategias de comprensión utilizada, cuaderno de respuestas de estrategias de procedimiento de comprensión, hoja de respuestas para la prueba de memoria, programa SPSS y Excel para análisis de datos. Para la segunda prueba los materiales son: la grabadora mono portátil Panasonic, cinta casete, reconocedor Via Voice 98, Pentium III, tarjeta de sonido, C.M.U. Statistical Language Modeling Tool Kit, Programa tex2wfreq, text2idngram, idngram21m,evallm. Para la primera prueba se confecciona un diseño experimental multivariado; las variables fueron: memoria, comprensión auditiva y estrategias utilizadas para comprender. Las variables contaminadoras: experimentador, material, condiciones acústicas, centro educativo, nivel socioeconómico y edad. Éstas se controlan por igualación. Las variables organísmicas y el sexo se controlan aleatoriamente. La memoria auditiva tuvo que ser controlada a través de un análisis de covarianza. En la segunda prueba, la variable fue la comprensión lingüística oral, para después establecer una comparación. Los resultados de la primera prueba revelan que las correlaciones que se obtienen entre las variables analizadas son independientes y arrojan diferencias entre el grupo experimental y el de control. Se encuentran puntuaciones más altas en los sujetos sin dificultades en memoria y comprensión. No hay diferencias entre los dos grupos en estrategias de comprensión. Los resultados obtenidos en la fase de evaluación de la segunda prueba indican que ninguna respuesta resulta elegida correctamente por lo que no se puede realizar ninguna comparación . Parece que la muestra utiliza el mismo modelo para comprender, todos utilizan las mismas estrategias, las diferencias son cuantitativas y debidas a variables organísmicas, entre ellas, la memoria. La falta de vocabulario es la primera dificultad en el grupo con dificultades, la falta de memoria impide corregir palabras mal pronunciadas, buscar conocimientos previos y relacionar ideas en su memoria a largo plazo. Son también incapaces de encontrar la idea principal. La comprensión es tan lenta que no pueden procesar. Se demuestra que los programas informáticos imitan al hombre a niveles elementales, en Tecnología del Habla se utilizan prioritariamente modelos semánticos.

Relevância:

100.00% 100.00%

Publicador:

Resumo:

En esta comunicación presentamos parte de los resultados obtenidos en las investigaciones realizadas dentro de Planes Nacionales de Investigación Educativa del C.I.D.E. durante los cursos 1987-88 y 1988-89, que trataban de averiguar las dificultades del aprendizaje del álgebra en secundaria. El objetivo inicial de este trabajo era estudiar las dificultades planteadas en la resolución de problemas de enunciado verbal en los que se utiliza una ecuación de primer grado o un sistema lineal de dos ecuaciones con dos incógnitas, ya que considerabamos, como la mayoría de los profesores lo hace, que la mayor dificultad presentada en álgebra estaba en la resolución de estos problemas.

Relevância:

100.00% 100.00%

Publicador:

Resumo:

Nuestra investigación se ha planteado como objetivo general el contribuir a la elaboración de un marco teórico alternativo que permita explicar, desde una perspectiva estrictamente psicológica, la conducta de los sujetos humanos en tareas de inferencia silogística. Experimento I: participaron 71 estudiantes de COU; 36 eran mujeres y 35 varones. Edad media, 18 años y 4 meses. Experimento II: participaron 121 estudiantes de COU; 40 mujeres y 81 varones. La media de edad, 18 años y 7 meses. Experimento III: 32 estudiantes de Psicología; 17 chicas y 15 chicos. Edad media, 21 años y 7 meses. Experimento I: diseño factorial 2x2x4. Las VI fueron: contenido, con dos niveles: formal (las premisas de los silogismos contenían letras) y temático (las premisas tenían un carácter concreto); tipo de silogismo, con dos niveles: silogismo válido y silogismo no válido; versión, con cuatro niveles: mayoría-mayoría, bastantes-pocos, pocos no-varios y ninguno-alguno. La VD eran los juicios, la seguridad, la confianza subjetiva y las explicaciones. Experimento II: diseño factorial 2x2x2x4. Los factores fueron: consistencia, con dos niveles: consistente y no consistente; accesibilidad, con dos niveles: accesible y no accesible; tipo de silogismo, con dos niveles: válido y no válido; versión, con los mismos valores que en el experimento anterior. Las VD los juicios que el sujeto emitía, la seguridad y la explicación. Experimento III: diseño factorial 2x3x2x4. VI: contenido; bloque, con tres niveles que hacen referencia a tres períodos temporales; tipo de silogismo y versión. VD tasa de aciertos, tiempo de reacción y seguridad. Cuadernillos de elaboración propia, taquistoscopio, cronoscopio. Los juicios emitidos por los sujetos ante tareas de inferencia silogística, utilizando cuantificadores probabilísticos, muestran pautas similares a las obtenidas con metodología tradicional. Los sujetos presentan elevadas tasas de errores y no se adaptan a patrones o modelos formales. Si bien no se ha observado un efecto facilitador del contenido de las premisas en el razonamiento de los sujetos, éstos se ven afectados en gran medida por variables contextuales. La presentación taquistocópica de los ítems le sirve a los sujetos para sentirse más seguros. La inclusión de premisas en un texto mejora la ejecución de las tareas de inferencia silogística. Esto indica que el razonamiento humano no es un proceso que se realice 'in vacuo' sino que es dependiente del contexto sobre el que se efectúa la tarea. El razonamiento humano es impreciso, difuso, se basa en categorías mal definidas, utiliza cuantificadores probabilísticos ajenos a la lógica formal, es dependiente del contexto, presenta sesgos y heurísticos y se apoya en el uso y evaluación de escenarios mentales de los que se derivan consecuencias plausibles, en lugar de aplicar reglas que conducen a consecuencias necesarias. Consideramos que la tarea del psicólogo es 'comprender la naturaleza de la conducta inferencial más que juzgar si ésta es racional o irracional' y de ahí que planteemos la necesidad de que la investigación psicológica sobre el razonamiento profundice en el estudio de las variables que influyen en la conducta inferencial.

Relevância:

100.00% 100.00%

Publicador:

Resumo:

En esta investigación, se procede a la realización de una formalización computacional de los procesos de codificación gramatical.. En el desarrollo de la misma, se integran conocimientos procedentes de la psicología y de la inteligencia artificial. El sistema GEDEON es un generador automático de oraciones individuales en castellano, para un dominio conceptual restringido.. Este sistema constituye la propuesta de modelo teórico y programa de simulación de la codificación gramatical de este trabajo..