Merenkulun turvallisuuden koetinkiviä : Terminologisen tiedon poiminta teksteistä

Autoria(s): Pasanen, Päivi

Helsingin yliopisto, humanistinen tiedekunta, slavistiikan ja baltologian laitos

Helsingfors universitet, humanistiska fakulteten, institutionen för slavistik och baltologi

University of Helsinki, Faculty of Arts, Department of Slavonic and Baltic Languages




The methodology of extracting information from texts has widely been described in the current literature. However, the methodology has been developed mainly for the purposes of other fields than terminology science. In addition, the research has been English language oriented. Therefore, there are no satisfactory language-independent methods for extracting terminological information from texts. The aim of the present study is to form the basis for a further improvement of methods for extraction of terminological information. A further aim is to determine differences in term extraction between subject groups with or without knowledge of the special field in question. The study is based on the theory of terminology, and has mainly a qualitative approach. The research material consists of electronically readable specialized texts in the subject domain of maritime safety. Textbooks, conference papers, research reports and articles from professional journals in Finnish and in Russian are included. The thesis first deals with certain term extraction methods. These are manual term identification and semi-automatic term extraction, the latter of which was carried out by using three commercial computer programs. The results of term extraction were compared and the recall and precision of the methods were evaluated. The latter part of the study is dedicated to the identification of concept relations. Certain linguistic expressions, which some researchers call knowledge probes, were applied to identify concept relations. The results of the present thesis suggest that special field knowledge is an advantage in manual term identification. However, in the candidate term lists the variation between subject groups was not as remarkable as it was between individual subjects. The term extraction software tested here produces candidate term lists which can be useful, but only after some manual work. Therefore, the work emphasizes the need to further develop term extraction software. Furthermore, the analyses indicate that there are a certain number of terms which were extracted by all the subjects and the software. These terms we call core terms. As the result of the experiment on linguistic expressions which signal concept relations, a proposal of Finnish and Russian knowledge probes in the field of maritime safety was made. The main finding was that it would be useful to combine the use of knowledge probes with semi-automatic term extraction since knowledge probes usually occur in the vicinity of terms.

Tiedonhallinnasta on tullut keskeinen kysymys niin yritysten, organisaatioiden kuin yksityistenkin ihmisten jokapäiväisessä toiminnassa. Erityisen nopeasti tiedon määrä kasvaa erikoisaloilla, joilla tiedonhallinta manuaalisesti ilman kunnollisia työkaluja on käynyt ylivoimaiseksi. Väitöskirjatutkimukseni tavoitteena oli tuottaa tietoa sellaisten työkalujen kehittämiseksi, joiden avulla aidoista erikoisalateksteistä koostuvasta aineistosta voidaan paikallistaa käsitteet sekä poimia termit ja mahdollinen käsitetieto eli tieto käsitesuhteista ja käsitepiirteistä. Ensimmäisenä osatavoitteena oli selvittää, millaisia termiehdokkaita nykyisin käytössä olevat terminpoimintamenetelmät tuottavat. Tarkastelin manuaalista terminpoimintamenetelmää, jossa termit poimitaan käsin, ja puoliautomaattista menetelmää, jossa terminpoimintaan käytetään tietokoneohjelmaa. Toisena osatavoitteena oli selvittää, millä tavoin tekstistä voidaan poimia käsitetietoa sähköisten apuvälineiden avulla ja miten käsitetiedon poiminnan voi yhdistää terminpoimintaan. Käsitetiedon poiminnassa käytin terminologisia koettimia (knowledge probes). Ne ovat kielellisiä ilmauksia, painoteknisiä keinoja tai välimerkkejä, jotka ilmaisevat termien tai käsitteiden välisiä suhteita tai käsitepiirteitä. Tutkimukseni teoreettinen perusta on terminologian teoria. Tutkimusaineistona olen käyttänyt sähköisesti tallennettuja merenkulun erikoisalan tekstejä, joiden kieli on suomi tai venäjä. Merenkulun asiantuntijoiden, terminologisten menetelmien asiantuntijoiden ja opiskelijoiden kanssa toteutetun terminpoimintakokeen tulokset osoittavat, että erikoisalan tuntemuksen lisäksi terminpoiminnassa tarvitaan terminologian perusteiden tuntemusta. Yksilölliset erot terminpoiminnassa ovat kuitenkin suuria. Tutkimuksessani testatut terminpoimintaohjelmat poimivat hyvin termit, joiden frekvenssi on vähintään kolme, mutta ohjelmien ongelma on, että ne poimivat runsaasti sellaisia termiehdokkaita, jotka eivät ole termejä. Termiehdokaslistojen analyysi osoitti, että kaikki koehenkilöt ja terminpoimintaohjelmat poimivat tietyn joukon termejä, joita nimitän ydintermeiksi. Käsitesuhteiden poimintaan käytettyjen terminologisten koettimien analyysi tuotti listan mahdollisista suomalaisista ja venäläisistä terminologisista koettimista, jotka soveltuvat käsitesuhteiden poimintaan merenkulun erikoisalan teksteistä. Tutkimukseni tärkein tulos on, että terminologisen tiedon poiminta terminologisten koettimien avulla on hyödyllistä yhdistää puoliautomaattiseen terminpoimintaan, koska terminologiset koettimet esiintyvät yleensä termien yhteydessä.






