Maca - a configurable tool to integrate Polish morphological data
Contribuinte(s) |
International Workshop on Free/Open-Source Rule-Based Machine Translation (2nd : 2011 : Barcelona) |
---|---|
Data(s) |
15/05/2014
|
Resumo |
There are a number of morphological analysers for Polish. Most of these, however, are non-free resources. What is more, different analysers employ different tagsets and tokenisation strategies. This situation calls for a simpleand universal framework to join different sources of morphological information, including the existing resources as well as user-provided dictionaries. We present such a configurable framework that allows to write simple configuration files that define tokenisation strategies and the behaviour of morphologicalanalysers, including simple tagset conversion. Existen unos cuantos analizadores morfológicos para el polaco. Sin embargo, muchos de estos son recursos no libres. Es más, analizadores diferentes utilizan diferentes etiquetarios (tagsets) y estrategias de segmentación de textos. Esta situación exige un marco simple y universal para unir diferentes recursos de información morfológica, incluidos los recursos existentes, además de diccionarios proporcionados por los usuarios. Presentamos un marco configurable de este tipo que permite escribir ficheros de configuración simples que definen las estrategias de segmentación de texto y el comportamiento de los analizadores morfológicos, incluida la conversión de etiquetarios simple. Hi ha diversos analitzadors morfològics per al polonès. La majoria, però, no són de codi lliure. És més, diferents analitzadors fan servir diferents etiquetaris (tagsets) i estratègies de segmentació de textos. Aquesta situació demana un marc senzill i universal per a unir diferents fonts d'informació morfològica, incloent-hi els recursos existents i els diccionaris proporcionats pels usuaris. Presentem un marc configurable d'aquest tipus que permet escriure fitxers de configuració simples que defineixen les estratègies de segmentació de textos i el comportament dels analitzadors morfològics, incloent-hi la conversió d'etiquetaris simple. |
Identificador | |
Idioma(s) |
eng |
Publicador |
Universitat Oberta de Catalunya |
Direitos |
<a href="http://creativecommons.org/licenses/by-sa/3.0/es/">http://creativecommons.org/licenses/by-sa/3.0/es/</a> |
Palavras-Chave | #morphology #tokenisation #morfologia #morfología #segmentació de textos #segmentación de textos #Open source software #Machine translating #Computational linguistics #Programari lliure #Traducció automàtica #Lingüística computacional #Software libre #Traducción automática #Lingüística computacional |
Tipo |
Conference lecture |