Univariate, bivariate, and multivariate methods in corpus-based lexicography : A study of synonymy


Autoria(s): Arppe, Antti
Contribuinte(s)

University of Helsinki, Faculty of Arts, Department of General Linguistics

Helsingin yliopisto, humanistinen tiedekunta, yleisen kielitieteen laitos

Helsingfors universitet, humanistiska fakulteten, institutionen för allmän språkvetenskap

Data(s)

19/12/2008

Resumo

In this dissertation, I present an overall methodological framework for studying linguistic alternations, focusing specifically on lexical variation in denoting a single meaning, that is, synonymy. As the practical example, I employ the synonymous set of the four most common Finnish verbs denoting THINK, namely ajatella, miettiä, pohtia and harkita ‘think, reflect, ponder, consider’. As a continuation to previous work, I describe in considerable detail the extension of statistical methods from dichotomous linguistic settings (e.g., Gries 2003; Bresnan et al. 2007) to polytomous ones, that is, concerning more than two possible alternative outcomes. The applied statistical methods are arranged into a succession of stages with increasing complexity, proceeding from univariate via bivariate to multivariate techniques in the end. As the central multivariate method, I argue for the use of polytomous logistic regression and demonstrate its practical implementation to the studied phenomenon, thus extending the work by Bresnan et al. (2007), who applied simple (binary) logistic regression to a dichotomous structural alternation in English. The results of the various statistical analyses confirm that a wide range of contextual features across different categories are indeed associated with the use and selection of the selected think lexemes; however, a substantial part of these features are not exemplified in current Finnish lexicographical descriptions. The multivariate analysis results indicate that the semantic classifications of syntactic argument types are on the average the most distinctive feature category, followed by overall semantic characterizations of the verb chains, and then syntactic argument types alone, with morphological features pertaining to the verb chain and extra-linguistic features relegated to the last position. In terms of overall performance of the multivariate analysis and modeling, the prediction accuracy seems to reach a ceiling at a Recall rate of roughly two-thirds of the sentences in the research corpus. The analysis of these results suggests a limit to what can be explained and determined within the immediate sentential context and applying the conventional descriptive and analytical apparatus based on currently available linguistic theories and models. The results also support Bresnan’s (2007) and others’ (e.g., Bod et al. 2003) probabilistic view of the relationship between linguistic usage and the underlying linguistic system, in which only a minority of linguistic choices are categorical, given the known context – represented as a feature cluster – that can be analytically grasped and identified. Instead, most contexts exhibit degrees of variation as to their outcomes, resulting in proportionate choices over longer stretches of usage in texts or speech.

Yhden, kahden ja monen muuttujan tilastolliset menetelmät aineistolähtöisessä sanastontutkimuksessa - monta tapaa ajatella, miettiä, pohtia ja harkita Väitöskirjassani esitän kolmiportaisen, eri tilastollisia menetelmiä hyödyntävän tutkimusmallin (yhden, kahden ja monen muuttujan analyysi), jonka avulla voidaan tarkastella kielissä esiintyviä vaihtoehtoisia, samaa merkitseviä rakenteita sekä löytää tekijät jotka selittävät eri vaihtoehtojen valintaa. Käytännön esimerkkinä tutkin suomen neljää yleisintä ajattelemista tarkoittavaa lähisynonyymistä verbiä eli ajatella, miettiä, pohtia ja harkita. Näin ollen työssäni seikkaperäisesti esittämäni ja soveltamani menetelmät ovat laajennus ja yleistys verrattuna aiempiin tutkimuksiin, joissa on tarkasteltu vain vaihtoehtoisia rakenne- tai sanapareja. Sanomalehtitekstistä ja Internet-uutisryhmäkeskusteluista koostuvan aineistoni perusteella havaitsin, että valitsemani neljä ajatteluverbiä esiintyvät selkeästi eri käyttöyhteyksissä, joiden perusteella voidaan yleistää kullekin verbille niitten ominaisimmat, toisistaan erottavat merkityspiirteet. Ajatella-verbi on ajallisesti määrittelemätön ja rajaamaton, pysyvämpiin aikomuksiin tai mielipiteisiin, tai yksittäisen ihmisen toista ihmistä tai ihmisiä koskevaan ajatteluun viittaava: 'ajattelen samoin, toisin, näin tai niin; en ajattele vanhakantaisesti; ajattelen, että ...; ajattelen häntä tai heitä; ajattelen hänestä jotakin.' Sen sijaan miettiä-verbi on ajalliselta kestoltaan määritellympi, mutta sekin kytkeytyy yksittäisen ihmisen ajattelutoimintaan: 'mietin hetken, vähän, pitkään tai usein; mietin yksin sanojani'. Pohtia-verbiä puolestaan nimenomaisesti käytetään, kun viitataan yhteisön kollektiiviseen ajatteluun, joka ei henkilöidy yksittäiseen ihmiseen ja joka usein koskee abstraktia asiaa: 'ryhmä pohtii asiaa kokoushuoneessa; kysymystä pohditaan seminaarissa'. Harkita-verbin kohdalla ajattelun kohde liittyy usein tulevaisuuteen ajatteluhetkestä katsottuna, jolloin monasti on kysymyksessä päätös tai valinta: 'hän harkitsisi ehkä päätöstään perusteellisesti uudestaan, jos...'. Vaikuttaa myös siltä, että nykyiset käyttöyhteydet ovat jossain määrin palautettavissa näiden nykyään varsin abstraktien ajatteluverbien konkreettisiin alkumerkityksiin. Valitettavasti vain osa näistä tyypillisistä käyttöyhteyksistä on nähtävissä kyseisten verbien kuvauksissa esimerkkilauseissa nykysuomen merkittävimmissä sanakirjoissa. Tekemäni tilastollisen monimuuttuja-analyysin perusteella näyttää myös siltä, että nykyisten, kielten yleisten kuvausmallien avulla voidaan selittää korkeintaan vain osa vaihtoehtoisista valinnoista (n. kaksi kolmasosaa neljän vaihtoehdon asetelmasta tutkimusaineistossani), kun tarkastelu rajoitetaan virkkeen sisäiseen, eksplisiittisesti havaittavissa olevaan kielelliseen rakenteeseen. Havaintoni myös tukevat todennäköisyyspohjaista kielikäsitystä deterministisen sijaan, missä jälkimmäisessä mallissa kussakin käyttöyhteydessä pohjimmiltaan oletetaan ideaalissa tilanteessa seuraavan vain yksi, oikea valinta. Todennäkäisyyspohjaisen käsityksen mukaan useimmissa kielen käyttöyhteyksissä on aivan luonnollista voida käyttää useampaa kuin yhtä vaihtoehtoa, joiden keskinäiset suhteet vaihtelevat ympäristössä olevien tekijöiden yhteisvaikutuksen perusteella ja jotka ovat havaittavissa vain ajan myötä riittävän kattavissa aineistoissa.

Identificador

URN:ISBN:978-952-10-5175-3

http://hdl.handle.net/10138/19274

Idioma(s)

en

Publicador

Helsingin yliopisto

Helsingfors universitet

University of Helsinki

Relação

URN:ISBN:978-952-10-5174-6

Helsinki: Yleisen kielitieteen laitos, Helsingin yliopisto, 2008, Publications of the Department of General Linguistics, University of Helsinki. 0355-7170

Direitos

Julkaisu on tekijänoikeussäännösten alainen. Teosta voi lukea ja tulostaa henkilökohtaista käyttöä varten. Käyttö kaupallisiin tarkoituksiin on kielletty.

This publication is copyrighted. You may download, display and print it for Your own personal use. Commercial use is prohibited.

Publikationen är skyddad av upphovsrätten. Den får läsas och skrivas ut för personligt bruk. Användning i kommersiellt syfte är förbjuden.

Palavras-Chave #yleinen kielitiede
Tipo

Doktorsavhandling (monografi)

Väitöskirja (monografia)

Doctoral dissertation (monograph)

Text