Sistemas de detección y extracción semiautomática de siglas: estado de la cuestión
Contribuinte(s) |
Agència de Gestió d'Ajuts Universitaris i de Recerca Institut Universitari de Lingüística Aplicada. Universitat Pompeu Fabra |
---|---|
Data(s) |
10/07/2008
|
Resumo |
Informe de investigación realizado a partir de una estancia en el Équipe de Recherche en Syntaxe et Sémantique de la Université de Toulouse-Le Mirail, Francia, entre julio y setiembre de 2006. En la actualidad existen diversos diccionarios de siglas en línea. Entre ellos sobresalen Acronym Finder, Abbreviations.com y Acronyma; todos ellos dedicados mayoritariamente a las siglas inglesas. Al igual que los diccionarios en papel, este tipo de diccionarios presenta problemas de desactualización por la gran cantidad de siglas que se crean a diario. Por ejemplo, en 2001, un estudio de Pustejovsky et al. mostraba que en los abstracts de Medline aparecían mensualmente cerca de 12.000 nuevas siglas. El mecanismo de actualización empleado por estos recursos es la remisión de nuevas siglas por parte de los usuarios. Sin embargo, esta técnica tiene la desventaja de que la edición de la información es muy lenta y costosa. Un ejemplo de ello es el caso de Abbreviations.com que en octubre de 2006 tenía alrededor de 100.000 siglas pendientes de edición e incorporación definitiva. Como solución a este tipo de problema, se plantea el diseño de sistemas de detección y extracción automática de siglas a partir de corpus. El proceso de detección comporta dos pasos; el primero, consiste en la identificación de las siglas dentro de un corpus y, el segundo, la desambiguación, es decir, la selección de la forma desarrollada apropiada de una sigla en un contexto dado. En la actualidad, los sistemas de detección de siglas emplean métodos basados en patrones, estadística, aprendizaje máquina, o combinaciones de ellos. En este estudio se analizan los principales sistemas de detección y desambiguación de siglas y los métodos que emplean. Cada uno se evalúa desde el punto de vista del rendimiento, medido en términos de precisión (porcentaje de siglas correctas con respecto al número total de siglas extraídas por el sistema) y exhaustividad (porcentaje de siglas correctas identificadas por el sistema con respecto al número total de siglas existente en el corpus). Como resultado, se presentan los criterios para el diseño de un futuro sistema de detección de siglas en español. Estudi elaborat a partir d’una estada a l’ Équipe de Recherche en Syntaxe et Sémantique, de la Université de Toulouse-Le Mirail, França, entre juliol i septembre de 2006. Actualment existeixen diversos diccionaris de sigles en línia. Entre ells destaquen l’Acronym Finder, l’Abbreviations.com i l’Acronyma; tots ells orientats majoritàriament a recollir les sigles angleses. Tal com succeeix amb els diccionaris en paper, aquest tipus de diccionaris presenta problemes de desactualització per la gran quantitat de sigles que es creen diàriament. Per exemple, al 2001, un estudi de Pustejovsky et al. mostrava que en els abstracts de Medline apareixien mensualment prop de 12.000 noves sigles. El mecanisme d'actualització emprat per aquests recursos és la remissió de noves sigles per part dels usuaris. No obstant això, aquesta tècnica té el desavantatge que l'edició de la informació és molt lenta i costosa. Un exemple d'això és el cas de l’Abbreviations.com, que a l'octubre de 2006 tenia al voltant de 100.000 sigles pendents d'edició i incorporació definitiva. Com a solució a aquest tipus de problema, es planteja el disseny de sistemes de detecció i extracció automàtica de sigles a partir de corpus. El procés de detecció comporta dos etapes: la identificació de les sigles dintre d'un corpus i la desambiguació, és a dir, la selecció de la forma desenvolupada apropiada d'una sigla en un context determinat. En l'actualitat, els sistemes de detecció de sigles usen mètodes basats en patrons, estadística, aprenentatge màquina, o combinacions d'ells. En aquest estudi s'analitzen els principals sistemes de detecció i desambiguació de sigles i els mètodes que aquests utilitzen. Cadascun d’ells s'avalua des del punt de vista del rendiment, mesurat en termes de precisió (percentatge de sigles correctes pel que fa al nombre total de sigles extretes pel sistema) i exhaustivitat (percentatge de sigles correctes identificades pel sistema pel que fa al nombre total de sigles existent en el corpus). Com a resultat, es presenten els criteris per al disseny d'un futur sistema de detecció de sigles en espanyol. Report for the scientific sojourn at the Équipe de Recherche en Syntaxe et Sémantique of the Université de Toulouse-Le Mirail, France, from July to September 2006.At present, there are several online acronym dictionaries, among which Acronym Finder, Abbreviations.com and Acronyma are the most important ones. All of them have been developed mainly to deal with English acronyms. Like paper dictionaries, online dictionaries have the problem of being updated because of the high amount of acronyms created everyday; e.g., in 2001, a study carried out by Pustejovsky et al. showed that in Medline abstracts about 12.000 new acronyms appeared monthly. The update mechanism used by these dictionaries consists in the acquisition of new acronyms through users. However, the main disadvantage of this mechanism is that information editing is very expensive and slow; e.g., in October 2006, Abbreviations.com had about 100.000 acronyms to edit and store definitely. To solve this problem, the design of automatic acronym recognition and disambiguation systems from corpus has been proposed. The recognition process implies two steps, namely the identification of acronyms from corpus, and the selection of the proper acronym expansion from a given context. Currently, the recognition systems use methods based on patterns, statistics, machine learning or even a combination of them. In this work, the main acronym recognition and disambiguation systems are analysed. Each of them are evaluated from a performance-oriented point of view. Thus, precision, i.e. the percentage of correct acronyms with regard to the total number of acronym recognised by the system is measured as well as recall; i.e., the percentage of correct acronyms recognised by the system with regard to the total number of acronyms in the corpus. As a result, a set of criteria is presented in order to outline a future acronym identification system for the Spanish language. |
Formato |
78 p. 896685 bytes application/pdf |
Identificador | |
Idioma(s) |
spa |
Relação |
Els ajuts de l'AGAUR;2006BE00357 |
Direitos |
Aquest document està subjecte a una llicència d'ús de Creative Commons, amb la qual es permet copiar, distribuir i comunicar públicament l'obra sempre que se'n citin l'autor original i l’Agència i no se'n faci cap ús comercial ni obra derivada, tal com queda estipulat en la llicència d'ús (http://creativecommons.org/licenses/by-nc-nd/2.5/es/) |
Palavras-Chave | #Diccionaris electrònics #Extracció de dades -- Automatització #Terminologia -- Processament de dades #81 - Lingüística i llengües |
Tipo |
info:eu-repo/semantics/report |