Agrupación de resultados de una consulta de corpus según medidas de similitud léxica


Autoria(s): Martínez Alonso, Héctor
Contribuinte(s)

Universitat Pompeu Fabra. Departament de Traducció i Ciències del llenguatge

Data(s)

15/12/2009

Resumo

A medida que el tamaño de un corpus aumenta, aumenta también el número de concordancias obtenidas al consultar una forma. Un número muy elevado de concordancias, de cientos o de miles, dificulta la sistematicidad de la tarea del lexicógrafo. La propuesta del artículo consiste en el uso de un sistema automático de agrupación de concordancias según su similitud léxica (es decir, qué elementos léxicos comparten), con el objetivo de presentar dichas concordancias agrupadas y asociadas a un único representante de todo el conjunto de las que son consideradas como léxicamente similares, de manera que la cardinalidad efectiva de los datos de corpus se vea reducida. El sistema se ha desarrollado teniendo en cuenta las ventajas de una arquitectura distribuida, por lo que cada una de las partes del sistema (stemming, identificación de stop words, cálculo de similitud entre concordancias, ordenación final de los datos, etc.) se ha desarrollado en módulos diferentes que pueden estar alojados en servidores, ya que las necesidades de cálculo del sistema harían que su uso desde un ordenador personal resultara muy lento.

Identificador

http://hdl.handle.net/2072/42914

http://hdl.handle.net/10230/5342

Idioma(s)

spa

Direitos

Aquest document està subjecte a una llicència d'ús de Creative Commons, amb la qual es permet copiar, distribuir i comunicar públicament l'obra sempre que se'n citin l'autor original, la universitat i el departament i no se'n faci cap ús comercial ni obra derivada, tal com queda estipulat en la llicència d'ús (<a href="http://creativecommons.org/licenses/by-nc-nd/2.5/es/">http://creativecommons.org/licenses/by-nc-nd/2.5/es/</a>)

Palavras-Chave #Lexicografia -- Processament de dades #Corpus (Lingüística) #Lingüística computacional #Lingüística contrastiva #Lexicologia -- Processament de dades
Tipo

info:eu-repo/semantics/report