37 resultados para 380200 Linguistics


Relevância:

10.00% 10.00%

Publicador:

Resumo:

Suomalaisten ja saksalaisten arkikeskustelujen välillä on sekä yhtäläisyyksiä että eroja. Tässä saksalaisen filologian alaan kuuluvassa tutkimuksessa tarkastellaan yhtä keskeistä arkikeskustelun toimintoa, puhelinkeskustelun lopetusta, suomen- ja saksanpuhujien tuottamana. Aineistona on käytetty suomen- ja saksankielisten äidinkielisten puhujien tätä tutkimusta varten nauhoittamia henkilökohtaisia luonnollisia puhelinkeskusteluja. Aineistoon valikoitui 12 suomalaista ja 12 saksalaista puhelua. Nauhoitteiden käyttöön on saatu asianmukainen lupa kaikilta osapuolilta. Puhelut on litteroitu saksalaisella kielialueella vakiintuneen GAT-litterointisysteemin mukaan. Teoreettis-metodisena kehyksenä on kaksi tutkimusalaa, vuorovaikutuslingvistiikka ja kielten vertailu. Vuorovaikutuslingvistinen tarkastelu keskittyy havaintoihin vuorojen ja puheen sekvenssien rakenteesta. Vuorojen merkitysten tulkinnassa hyödynnetään systemaattisesti prosodian antamia vihjeitä. Tuloksena on yksittäisten lopetusten keskustelunanalyyttinen lähikuvaus, jonka pohjalta määritellään kulloisenkin lopetuksen sekvenssirakenne. Kaikki lopetukset olivat siltä osin yhteneväisiä, että niissä kaikissa havaittiin ainakin aloittava, tulevaan tapaamiseen viittaava sekä lopputervehdyksiin johtava sekvenssi. Sekvenssirakenteen variaatioiden pohjalta aineiston lopetukset voidaan kuitenkin jaotella ryhmiin. Sekä suomen- että saksankielisessä aineistossa havaittiin kolmentyyppisiä lopetuksia: kompakteja, komplekseja ja keskeytettyjä lopetuksia. Ryhmittely kolmeen tyyppiin on avuksi seuraavassa kuvausvaiheessa, jossa verrataan suomen- ja saksankielisiä lopetuksia toisiinsa. Samanaikaisesti kun tutkimus valottaa kohtia, joissa kaksi aineistosettiä yhtenevät ja eroavat, se myös esittää, mitkä vuorovaikutuksen tasot soveltuvat kieltenvälisen vertailun kohteiksi. Pohdintaa siitä, mitä vuorovaikutuksen tasoja kieltenväliseen vertailuun voidaan sisällyttää, onkin toistaiseksi esitetty verrattain vähän. Työ siis rakentaa siltaa vuorovaikutuslingvistisen ja kontrastiivisen kielitieteen välille.

Relevância:

10.00% 10.00%

Publicador:

Resumo:

Can crowdsourcing solutions serve many masters? Can they be beneficial for both, for the layman or native speakers of minority languages on the one hand and serious linguistic research on the other? How did an infrastructure that was designed to support linguistics turn out to be a solution for raising awareness of native languages? Since 2012 the National Library of Finland has been developing the Digitisation Project for Kindred Languages, in which the key objective is to support a culture of openness and interaction in linguistic research, but also to promote crowdsourcing as a tool for participation of the language community in research. In the course of the project, over 1,200 monographs and nearly 111,000 pages of newspapers in Finno-Ugric languages will be digitised and made available in the Fenno-Ugrica digital collection. This material was published in the Soviet Union in the 1920s and 1930s, and users have had only sporadic access to the material. The publication of open-access and searchable materials from this period is a goldmine for researchers. Historians, social scientists and laymen with an interest in specific local publications can now find text materials pertinent to their studies. The linguistically-oriented population can also find writings to delight them: (1) lexical items specific to a given publication, and (2) orthographically-documented specifics of phonetics. In addition to the open access collection, we developed an open source code OCR editor that enables the editing of machine-encoded text for the benefit of linguistic research. This tool was necessary since these rare and peripheral prints often include already archaic characters, which are neglected by modern OCR software developers but belong to the historical context of kindred languages, and are thus an essential part of the linguistic heritage. When modelling the OCR editor, it was essential to consider both the needs of researchers and the capabilities of lay citizens, and to have them participate in the planning and execution of the project from the very beginning. By implementing the feedback iteratively from both groups, it was possible to transform the requested changes as tools for research that not only supported the work of linguistics but also encouraged the citizen scientists to face the challenge and work with the crowdsourcing tools for the benefit of research. This presentation will not only deal with the technical aspects, developments and achievements of the infrastructure but will highlight the way in which user groups, researchers and lay citizens were engaged in a process as an active and communicative group of users and how their contributions were made to mutual benefit.

Relevância:

10.00% 10.00%

Publicador:

Resumo:

Presentation at Open Repositories 2014, Helsinki, Finland, June 9-13, 2014

Relevância:

10.00% 10.00%

Publicador:

Resumo:

Biomedical natural language processing (BioNLP) is a subfield of natural language processing, an area of computational linguistics concerned with developing programs that work with natural language: written texts and speech. Biomedical relation extraction concerns the detection of semantic relations such as protein-protein interactions (PPI) from scientific texts. The aim is to enhance information retrieval by detecting relations between concepts, not just individual concepts as with a keyword search. In recent years, events have been proposed as a more detailed alternative for simple pairwise PPI relations. Events provide a systematic, structural representation for annotating the content of natural language texts. Events are characterized by annotated trigger words, directed and typed arguments and the ability to nest other events. For example, the sentence “Protein A causes protein B to bind protein C” can be annotated with the nested event structure CAUSE(A, BIND(B, C)). Converted to such formal representations, the information of natural language texts can be used by computational applications. Biomedical event annotations were introduced by the BioInfer and GENIA corpora, and event extraction was popularized by the BioNLP'09 Shared Task on Event Extraction. In this thesis we present a method for automated event extraction, implemented as the Turku Event Extraction System (TEES). A unified graph format is defined for representing event annotations and the problem of extracting complex event structures is decomposed into a number of independent classification tasks. These classification tasks are solved using SVM and RLS classifiers, utilizing rich feature representations built from full dependency parsing. Building on earlier work on pairwise relation extraction and using a generalized graph representation, the resulting TEES system is capable of detecting binary relations as well as complex event structures. We show that this event extraction system has good performance, reaching the first place in the BioNLP'09 Shared Task on Event Extraction. Subsequently, TEES has achieved several first ranks in the BioNLP'11 and BioNLP'13 Shared Tasks, as well as shown competitive performance in the binary relation Drug-Drug Interaction Extraction 2011 and 2013 shared tasks. The Turku Event Extraction System is published as a freely available open-source project, documenting the research in detail as well as making the method available for practical applications. In particular, in this thesis we describe the application of the event extraction method to PubMed-scale text mining, showing how the developed approach not only shows good performance, but is generalizable and applicable to large-scale real-world text mining projects. Finally, we discuss related literature, summarize the contributions of the work and present some thoughts on future directions for biomedical event extraction. This thesis includes and builds on six original research publications. The first of these introduces the analysis of dependency parses that leads to development of TEES. The entries in the three BioNLP Shared Tasks, as well as in the DDIExtraction 2011 task are covered in four publications, and the sixth one demonstrates the application of the system to PubMed-scale text mining.

Relevância:

10.00% 10.00%

Publicador:

Resumo:

Linguistic modelling is a rather new branch of mathematics that is still undergoing rapid development. It is closely related to fuzzy set theory and fuzzy logic, but knowledge and experience from other fields of mathematics, as well as other fields of science including linguistics and behavioral sciences, is also necessary to build appropriate mathematical models. This topic has received considerable attention as it provides tools for mathematical representation of the most common means of human communication - natural language. Adding a natural language level to mathematical models can provide an interface between the mathematical representation of the modelled system and the user of the model - one that is sufficiently easy to use and understand, but yet conveys all the information necessary to avoid misinterpretations. It is, however, not a trivial task and the link between the linguistic and computational level of such models has to be established and maintained properly during the whole modelling process. In this thesis, we focus on the relationship between the linguistic and the mathematical level of decision support models. We discuss several important issues concerning the mathematical representation of meaning of linguistic expressions, their transformation into the language of mathematics and the retranslation of mathematical outputs back into natural language. In the first part of the thesis, our view of the linguistic modelling for decision support is presented and the main guidelines for building linguistic models for real-life decision support that are the basis of our modeling methodology are outlined. From the theoretical point of view, the issues of representation of meaning of linguistic terms, computations with these representations and the retranslation process back into the linguistic level (linguistic approximation) are studied in this part of the thesis. We focus on the reasonability of operations with the meanings of linguistic terms, the correspondence of the linguistic and mathematical level of the models and on proper presentation of appropriate outputs. We also discuss several issues concerning the ethical aspects of decision support - particularly the loss of meaning due to the transformation of mathematical outputs into natural language and the issue or responsibility for the final decisions. In the second part several case studies of real-life problems are presented. These provide background and necessary context and motivation for the mathematical results and models presented in this part. A linguistic decision support model for disaster management is presented here – formulated as a fuzzy linear programming problem and a heuristic solution to it is proposed. Uncertainty of outputs, expert knowledge concerning disaster response practice and the necessity of obtaining outputs that are easy to interpret (and available in very short time) are reflected in the design of the model. Saaty’s analytic hierarchy process (AHP) is considered in two case studies - first in the context of the evaluation of works of art, where a weak consistency condition is introduced and an adaptation of AHP for large matrices of preference intensities is presented. The second AHP case-study deals with the fuzzified version of AHP and its use for evaluation purposes – particularly the integration of peer-review into the evaluation of R&D outputs is considered. In the context of HR management, we present a fuzzy rule based evaluation model (academic faculty evaluation is considered) constructed to provide outputs that do not require linguistic approximation and are easily transformed into graphical information. This is achieved by designing a specific form of fuzzy inference. Finally the last case study is from the area of humanities - psychological diagnostics is considered and a linguistic fuzzy model for the interpretation of outputs of multidimensional questionnaires is suggested. The issue of the quality of data in mathematical classification models is also studied here. A modification of the receiver operating characteristics (ROC) method is presented to reflect variable quality of data instances in the validation set during classifier performance assessment. Twelve publications on which the author participated are appended as a third part of this thesis. These summarize the mathematical results and provide a closer insight into the issues of the practicalapplications that are considered in the second part of the thesis.

Relevância:

10.00% 10.00%

Publicador:

Resumo:

Tutkimus käsittelee tavallisten kielenkäyttäjien käsityksiä suomen murteista. Se kuuluu kansanlingvistiikan alaan, tarkemmin sanottuna kansandialektologiaan. Kansandialektologia on Suomessa vielä melko nuori tutkimussuuntaus, eikä lounaismurteiden alueelta ole juuri tutkimusta aiheesta. Kansanlingvistiikka (folk linguistics) tutkii tavallisten kielenkäyttäjien, ei-kielitieteilijöiden (non-linguist) käsityksiä, mielteitä ja havaintoja kielestä. Ajatuksena on päästä käsiksi siihen, miten tavalliset ihmiset kokevat esimerkiksi kielen variaation. Kansandialektologiassa näkökulma on murteissa ja niihin liittyvissä käsityksissä. Tutkimusta varten on haastateltu yhteensä kahdeksaatoista lounaissuomalaista informanttia, jotka kuuluvat kahteen eri ryhmään, nuoriin aikuisiin ja keski-ikäisiin. Kaikki informantit ovat joko kotoisin Naantalista tai asuneet siellä pitkiä aikoja. Naantali on Turun naapurikaupunki. Haastatteluiden ytimen muodostivat mielikuvakarttatehtävä ja avoimet kysymykset, jotka liittyivät esimerkiksi murteiden esteettisyyden ja yleiskielisyyden arviointiin. Naantalilaiset nuoret aikuiset ja keski-ikäiset piirsivät suomen murrealueita yhteensä keskimäärin seitsemän. Suomen päämurrealueita on kahdeksan, joten informantit olivat kohtuullisen tietoisia eri murrealueista. Lähes jokaiseen karttaan piirrettiin Lapin, Savon ja Turun murteiden alueet. Myös Pohjanmaan murre ja Stadin slangi mainittiin useimmissa kartoissa. Nuoret aikuiset ja keski-ikäiset osasivat mainita eri murteiden piirteitä melko tasapuolisesti. Keski-ikäiset tunsivat jonkin verran enemmän erilaisia murrematkimuksia ja -sanoja. Murteiden esteettisyyden arvioinnissa keski-ikäisten ja nuorten aikuisten välillä oli jonkin verran erimielisyyttä, mutta tietyt alueet erottuivat silti vastauksissa. Aiemmissa tutkimuksissa monesti rumimmaksi murteeksi valikoitunut Turun murre herätti ajatuksia sekä kauniin että ruman murteen ollessa puheena. Lopulta Turun seudun puhekieli oli sekä toiseksi kaunein että toiseksi rumin suomen puhekieli. Rumimmaksi informantit valitsivat Helsingin seudun puhekielen, kauneimmaksi itämurteet. Yleiskielisimpänä alueena informantit pitivät Keski-Suomea. Kaikille informanteille murteet olivat positiivinen asia. Useimmat ajattelivat murteiden kuitenkin vähitellen katoavan tai ainakin huomattavasti sekoittuvan tai lieventyvän.

Relevância:

10.00% 10.00%

Publicador:

Resumo:

Tutkimuksessa tarkastellaan lauseen aspektin ilmaisemista suomen kielessä. Aspektia käsitellään merkityskategoriana, joka osoittaa lauseen kuvaaman asiaintilan ajallisen keston, ja perustavanlaatuisena aspektuaalisena erontekona pidetään rajattuuden ja rajaamattomuuden vastakohtaisuutta. Tutkimuksessa selvitetään, millä perusteella lauseet saavat joko rajatun tai rajaamattoman aspektitulkinnan ja miten konteksti vaikuttaa tähän tulkintaan. Lauseen kontekstina käsitellään kielellistä kontekstia eli tekstiä. Työ on aineistopohjainen tutkimus kirjoitetusta nykysuomesta, ja tarkastelun kohteena on sanomalehtiteksteistä koottu lauseaineisto. Lauseiden pääverbit ovat olla, tehdä ja tulla. Aineistosta on mahdollista esittää sekä kvalitatiivisia että kvantitatiivisia huomioita. Tutkimuksen teoreettisen ja metodologisen taustan muodostavat eräiden kognitiivisen kielitieteen suuntausten kuvauskäsitteet ja -metodit sekä fennistinen aspektin kuvaamisen perinne. Tutkimuksessa tarkastellaan kahta fennistiikassa esitettyä tapaa määritellä lauseen aspektimerkitys ja osoitetaan, että ne ovat toisiaan täydentäviä. Molemmat lähestymistavat huomioon ottamalla on siis mahdollista kuvata lauseen aspektimerkityksen määräytyminen täsmällisemmin kuin vain yhteen kuvaustapaan keskittymällä. Lisäksi osoitetaan, että keskeisinä aspektin ilmaisemisen keinoina pidetyt keston ja toistuvuuden adverbiaalit jäävät aineistossa marginaalisiksi. Ajankohdan adverbiaaleja puolestaan käsitellään aiemmasta tutkimuksesta poiketen rajattuina tarkastelunäkökulmina kuvattuun asiaintilaan, ja ne toimivat tässä tehtävässä liittyessään aspektiltaan rajaamattomiin lauseisiin. Lisäksi tutkimus osoittaa, että aspektin ilmaisemisen kerroksellisuutta voidaan aspektin ilmaisemiseen osallistuvien lauseenjäsenten kerrostumisen ohella tarkastella lausekokonaisuuden eri semanttisten tasojen kerrostumisena. Lausetta laajemman kontekstin vaikutusta aspektitulkintaan ei ole aiemmin tutkittu suomen kielessä. Tutkimus osoittaa, että aspektiltaan monitulkintaisten lauseiden konteksti voi selventää tulkinnan tai mahdollistaa samanaikaisesti vaihtoehtoiset tulkinnat. Lisäksi erilaisten lauseenulkoisten rajan ilmausten avulla on mahdollista osoittaa lauseen aspektin rajattuutta siinä tapauksessa, että lause muutoin ymmärrettäisiin aspektiltaan rajaamattomaksi.