Biblioteca Digital

1 resultado para tokenisation

Maca - a configurable tool to integrate Polish morphological data

Relevância:

10.00% 10.00%

Publicador:

Resumo:

There are a number of morphological analysers for Polish. Most of these, however, are non-free resources. What is more, different analysers employ different tagsets and tokenisation strategies. This situation calls for a simpleand universal framework to join different sources of morphological information, including the existing resources as well as user-provided dictionaries. We present such a configurable framework that allows to write simple configuration files that define tokenisation strategies and the behaviour of morphologicalanalysers, including simple tagset conversion.

Veja mais

1 resultado para tokenisation

Filtro por publicador

Maca - a configurable tool to integrate Polish morphological data