2 resultados para Sistema de extracción de información

em Universidade Complutense de Madrid


Relevância:

90.00% 90.00%

Publicador:

Resumo:

Existe una cantidad enorme de información en Internet acerca de incontables temas, y cada día esta información se expande más y más. En teoría, los programas informáticos podrían beneficiarse de esta gran cantidad de información disponible para establecer nuevas conexiones entre conceptos, pero esta información a menudo aparece en formatos no estructurados como texto en lenguaje natural. Por esta razón, es muy importante conseguir obtener automáticamente información de fuentes de diferentes tipos, procesarla, filtrarla y enriquecerla, para lograr maximizar el conocimiento que podemos obtener de Internet. Este proyecto consta de dos partes diferentes. En la primera se explora el filtrado de información. La entrada del sistema consiste en una serie de tripletas proporcionadas por la Universidad de Coimbra (ellos obtuvieron las tripletas mediante un proceso de extracción de información a partir de texto en lenguaje natural). Sin embargo, debido a la complejidad de la tarea de extracción, algunas de las tripletas son de dudosa calidad y necesitan pasar por un proceso de filtrado. Dadas estas tripletas acerca de un tema concreto, la entrada será estudiada para averiguar qué información es relevante al tema y qué información debe ser descartada. Para ello, la entrada será comparada con una fuente de conocimiento online. En la segunda parte de este proyecto, se explora el enriquecimiento de información. Se emplean diferentes fuentes de texto online escritas en lenguaje natural (en inglés) y se extrae información de ellas que pueda ser relevante al tema especificado. Algunas de estas fuentes de conocimiento están escritas en inglés común, y otras están escritas en inglés simple, un subconjunto controlado del lenguaje que consta de vocabulario reducido y estructuras sintácticas más simples. Se estudia cómo esto afecta a la calidad de las tripletas extraídas, y si la información obtenida de fuentes escritas en inglés simple es de una calidad superior a aquella extraída de fuentes en inglés común.

Relevância:

90.00% 90.00%

Publicador:

Resumo:

Hoy en día la cantidad de información de la que el mundo dispone es inmensa y la gran mayoría está al alcance de un click gracias a las tecnologías de la información. Muchos de los recursos que existen en Internet están escritos a mano por personas y para personas, pero este hecho tiene muchas limitaciones, como el idioma, el contenido, las expresiones en la comunicación o la disposición de la información en el texto. Todos estos factores influyen en el lector permitiendo entender mejor o peor los conceptos, relaciones e ideas que se expresan. Un ejemplo de un recurso muy utilizado a día de hoy es Wikipedia, que cuenta con más de cinco millones de artículos en inglés y más de un millón en otros doce idiomas entre los cuales se encuentran el castellano, el francés y el alemán. Por otro lado, existen otros recursos que aportan información de otras formas más interesantes desde el punto de vista de la informática, como pueden ser ConceptNet o WordNet. Las ventajas que ofrecen este tipo de recursos son que no disponen de varios lenguajes, es decir el conocimiento está unificado en uno solo, no tienen estructura de texto y se puede automatizar más fácilmente la inserción de nueva información, lo que se traduce en un crecimiento más rápido del conocimiento. Este tipo de recursos son ideales para su uso en aplicaciones informáticas gracias a que no es necesario un proceso de extracción de información de la fuente. Sin embargo, este tipo de información no está pensada para la lectura por parte de un humano, ya que se enfrentaría a muchos datos de golpe y sin un orden lógico para la comprensión, además de carecer de la conjugación propia o traducción a un idioma concreto. Este trabajo tiene como objetivo principal partir de un recurso de información no legible ni manejable por humanos e ideado para el uso por computadoras, y dar lugar a una interpretación de esta información que permita la lectura y comprensión en lenguaje natural por personas. Podemos verlo como un trabajo que posibilita y facilita el entendimiento Máquina-Hombre. Para ello se hace uso de un sistema de generación de lenguaje natural, inteligencia artificial y de la creatividad computacional. Además, este trabajo forma parte de un proyecto mayor, del que hablaremos en la sección 2.5, en el que se generan nuevos conceptos a partir de otros. El papel que desempeña esta aplicación permite describir los nuevos conceptos generados y poder entenderlos. A la hora de abordar el problema de la generación de texto podemos encontrar varias formas de atacar la cuestión, y todas las soluciones se pueden considerar como válidas. Se implementarán sistemas de diferente complejidad y naturaleza, como generadores básicos de textos o generadores con planificación y otras soluciones comunes en este campo como el uso de plantillas y el estudio de las propiedades de los textos generados por los humanos. Por esta razón, en este trabajo se desarrollarán varios métodos y se valorarán según ciertos criterios como la claridad del texto, su organización, o si se ha hecho un buen uso de la gramática o la ortografía. Como objetivos secundarios de este proyecto podemos remarcar la generación de un servicio web que permita que esté disponible la aplicación para su uso, y aporte valor tanto al mundo de la investigación como al del conocimiento. También se valora la semejanza a los generados por humanos.