Rakenteiset sanakirjat


Autoria(s): Lehtinen, Outi
Contribuinte(s)

Helsingfors universitet, matematisk-naturvetenskapliga fakulteten, institutionen för datavetenskap

University of Helsinki, Faculty of Science, Department of Computer Science

Helsingin yliopisto, matemaattis-luonnontieteellinen tiedekunta, tietojenkäsittelytieteen laitos

Data(s)

19/05/2008

Resumo

Sanakirjat ovat rakenteisia tekstejä. Sana-artikkeleissa on nähtävissä selvästi erotettavissa olevia rakenneosia. Painetun sanakirjan muuntaminen rakenteiseen muotoon ei kuitenkaan ole aivan suoraviivaista. Tässä tutkielmassa kerrotaan sanakirjan rakennekuvauksen määrittelyn ja painetun sanakirjan rakenteistuksen ongelmista. Esimerkkinä käytetään Kotimaisten kielten tutkimuskeskuksessa (Kotus) kirjoitettavan Suomen murteiden sanakirjan (SMS) rakenteistusprojektia ja sen yhteydessä määriteltyä rakennekuvausta. SMS:n rakennekuvausta verrataan kielitieteellisten aineistojen koodaamisessa yleisesti käytetyn Text Encoding Initiative -suosituksen sekä uuden ISO 1951:2007 -sanakirjastandardin määrittelemiin rakennekuvauksiin. Muuntamista testataan käytännössä kirjoittamalla XSL-muunnosskripti, joka muuntaa SMS:n aineiston ISOstandardimuotoon. Muunnosprosessin voi todeta olleen hyödyllinen, koska sen aikana paljastui ongelmia sekä SMS:n rakennekuvauksessa että itse standardin määrittelyssä. Tulosten avulla SMS:n koodausta voidaan kehittää edelleen. Lopuksi tarkastellaan standardien käytöstä yleisesti saatavia hyötyjä ja mahdollisuuksia soveltaa niitä Kotuksen sanakirjatyöhön.

Identificador

URN:NBN:fi-fe200810312041

http://hdl.handle.net/10138/21443

Idioma(s)

fi

Publicador

Helsingin yliopisto

Helsingfors universitet

University of Helsinki

Direitos

This publication is copyrighted. You may download, display and print it for Your own personal use. Commercial use is prohibited.

Publikationen är skyddad av upphovsrätten. Den får läsas och skrivas ut för personligt bruk. Användning i kommersiellt syfte är förbjuden.

Julkaisu on tekijänoikeussäännösten alainen. Teosta voi lukea ja tulostaa henkilökohtaista käyttöä varten. Käyttö kaupallisiin tarkoituksiin on kielletty.

Tipo

Master's thesis

Pro gradu

Pro gradu

Text