54 resultados para Corpora (Linguistics)
Resumo:
Linguistic modelling is a rather new branch of mathematics that is still undergoing rapid development. It is closely related to fuzzy set theory and fuzzy logic, but knowledge and experience from other fields of mathematics, as well as other fields of science including linguistics and behavioral sciences, is also necessary to build appropriate mathematical models. This topic has received considerable attention as it provides tools for mathematical representation of the most common means of human communication - natural language. Adding a natural language level to mathematical models can provide an interface between the mathematical representation of the modelled system and the user of the model - one that is sufficiently easy to use and understand, but yet conveys all the information necessary to avoid misinterpretations. It is, however, not a trivial task and the link between the linguistic and computational level of such models has to be established and maintained properly during the whole modelling process. In this thesis, we focus on the relationship between the linguistic and the mathematical level of decision support models. We discuss several important issues concerning the mathematical representation of meaning of linguistic expressions, their transformation into the language of mathematics and the retranslation of mathematical outputs back into natural language. In the first part of the thesis, our view of the linguistic modelling for decision support is presented and the main guidelines for building linguistic models for real-life decision support that are the basis of our modeling methodology are outlined. From the theoretical point of view, the issues of representation of meaning of linguistic terms, computations with these representations and the retranslation process back into the linguistic level (linguistic approximation) are studied in this part of the thesis. We focus on the reasonability of operations with the meanings of linguistic terms, the correspondence of the linguistic and mathematical level of the models and on proper presentation of appropriate outputs. We also discuss several issues concerning the ethical aspects of decision support - particularly the loss of meaning due to the transformation of mathematical outputs into natural language and the issue or responsibility for the final decisions. In the second part several case studies of real-life problems are presented. These provide background and necessary context and motivation for the mathematical results and models presented in this part. A linguistic decision support model for disaster management is presented here – formulated as a fuzzy linear programming problem and a heuristic solution to it is proposed. Uncertainty of outputs, expert knowledge concerning disaster response practice and the necessity of obtaining outputs that are easy to interpret (and available in very short time) are reflected in the design of the model. Saaty’s analytic hierarchy process (AHP) is considered in two case studies - first in the context of the evaluation of works of art, where a weak consistency condition is introduced and an adaptation of AHP for large matrices of preference intensities is presented. The second AHP case-study deals with the fuzzified version of AHP and its use for evaluation purposes – particularly the integration of peer-review into the evaluation of R&D outputs is considered. In the context of HR management, we present a fuzzy rule based evaluation model (academic faculty evaluation is considered) constructed to provide outputs that do not require linguistic approximation and are easily transformed into graphical information. This is achieved by designing a specific form of fuzzy inference. Finally the last case study is from the area of humanities - psychological diagnostics is considered and a linguistic fuzzy model for the interpretation of outputs of multidimensional questionnaires is suggested. The issue of the quality of data in mathematical classification models is also studied here. A modification of the receiver operating characteristics (ROC) method is presented to reflect variable quality of data instances in the validation set during classifier performance assessment. Twelve publications on which the author participated are appended as a third part of this thesis. These summarize the mathematical results and provide a closer insight into the issues of the practicalapplications that are considered in the second part of the thesis.
Resumo:
Tutkimus käsittelee tavallisten kielenkäyttäjien käsityksiä suomen murteista. Se kuuluu kansanlingvistiikan alaan, tarkemmin sanottuna kansandialektologiaan. Kansandialektologia on Suomessa vielä melko nuori tutkimussuuntaus, eikä lounaismurteiden alueelta ole juuri tutkimusta aiheesta. Kansanlingvistiikka (folk linguistics) tutkii tavallisten kielenkäyttäjien, ei-kielitieteilijöiden (non-linguist) käsityksiä, mielteitä ja havaintoja kielestä. Ajatuksena on päästä käsiksi siihen, miten tavalliset ihmiset kokevat esimerkiksi kielen variaation. Kansandialektologiassa näkökulma on murteissa ja niihin liittyvissä käsityksissä. Tutkimusta varten on haastateltu yhteensä kahdeksaatoista lounaissuomalaista informanttia, jotka kuuluvat kahteen eri ryhmään, nuoriin aikuisiin ja keski-ikäisiin. Kaikki informantit ovat joko kotoisin Naantalista tai asuneet siellä pitkiä aikoja. Naantali on Turun naapurikaupunki. Haastatteluiden ytimen muodostivat mielikuvakarttatehtävä ja avoimet kysymykset, jotka liittyivät esimerkiksi murteiden esteettisyyden ja yleiskielisyyden arviointiin. Naantalilaiset nuoret aikuiset ja keski-ikäiset piirsivät suomen murrealueita yhteensä keskimäärin seitsemän. Suomen päämurrealueita on kahdeksan, joten informantit olivat kohtuullisen tietoisia eri murrealueista. Lähes jokaiseen karttaan piirrettiin Lapin, Savon ja Turun murteiden alueet. Myös Pohjanmaan murre ja Stadin slangi mainittiin useimmissa kartoissa. Nuoret aikuiset ja keski-ikäiset osasivat mainita eri murteiden piirteitä melko tasapuolisesti. Keski-ikäiset tunsivat jonkin verran enemmän erilaisia murrematkimuksia ja -sanoja. Murteiden esteettisyyden arvioinnissa keski-ikäisten ja nuorten aikuisten välillä oli jonkin verran erimielisyyttä, mutta tietyt alueet erottuivat silti vastauksissa. Aiemmissa tutkimuksissa monesti rumimmaksi murteeksi valikoitunut Turun murre herätti ajatuksia sekä kauniin että ruman murteen ollessa puheena. Lopulta Turun seudun puhekieli oli sekä toiseksi kaunein että toiseksi rumin suomen puhekieli. Rumimmaksi informantit valitsivat Helsingin seudun puhekielen, kauneimmaksi itämurteet. Yleiskielisimpänä alueena informantit pitivät Keski-Suomea. Kaikille informanteille murteet olivat positiivinen asia. Useimmat ajattelivat murteiden kuitenkin vähitellen katoavan tai ainakin huomattavasti sekoittuvan tai lieventyvän.
Resumo:
The National Library of Finland realizes the Digitization Project of Kindred Languages in 2012–15. The project is financially supported by the Kone Foundation. During this project the National Library of Finland has digitized and made available approximately 1200 monograph and more than 100 newspaper titles in several Uralic languages. The materials are available to both researchers and citizens in the National Library’s Fenno-Ugrica collection. The project will produce digitized materials in the Uralic languages as well as their development tools to support linguistic research and citizen science. The resulting materials will constitute the largest resource for the Uralic languages in the world. Through this project, researchers will gain access to corpora which they have not been able to study before and to which all users will have open access regardless of their place of residence. In my presentation, I will discuss 1) how we utilized the social media (Facebook, Twitter, VKontakte etc) to gain audience for our collection and 2) how the needs of researchers and laymen were met in crowdsourcing.
Resumo:
Hissiteollisuudessa nostokoneistoina käytettyjen sähkömoottoreiden laatuvaatimukset ovat tiuken-tuneet viime vuosina. Erityisesti koneistojen tuottama ääni ja mekaaninen värähtely ovat olleet jat-kuvasti tiukentuneen tarkastelun alaisena. Hissikoriin ja hissiä ympäröiviin rakenteisiin välittyvästä värähtelystä johtuva ääni on yksi hissin laatuvaikutelmaan merkittävimmin vaikuttavia tekijöitä. Nostokoneisto on yksi tärkeimmistä äänen ja värähtelyn lähteistä hissijärjestelmässä. Koneiston suunnittelulla edellä mainittuja tekijöitä voidaan minimoida. Sähkökoneiden suunnittelussa finiit-tielementtimenetelmien (FEM) käyttö on vakiintunut haastavimmissa sovelluksissa. Kone Oyj:llä nostokoneistoina käytetään aksiaalivuokestomagneettitahtikoneita (AFPMSM), joiden FEM simu-lointiin käytetään yleisesti kolmea eri tapaa. Kukin näistä vaihtoehdoista pitää sisällään omat hyö-tynsä, että haittansa. Suunnittelun kannalta tärkeää on oikean menetelmän valinta ai-ka/informatiivisuus suhteen maksimoimiseksi. Erittäin tärkeää on myös saatujen tulosten oikeelli-suus. Tämän diplomityön tavoite on kehittää järjestelmä, jonka avulla AFPMS-koneen voimia voidaan mitata yksityiskohtaisella tasolla. Järjestelmän avulla voidaan tarkastella käytössä olevien FE-menetelmien tulosten oikeellisuutta sekä äänen että värähtelyn syntymekanismeja. Järjestelmän tarkoitus on myös syventää Kone Oyj tietotaitoa AFPMS-koneiden toiminnasta. Tässä työssä esitellään AFPMS-koneen epäideaalisuuksia, jotka voivat vaikuttaa mittajärjestelmän suunnitteluun. Myös koneen epäideaalisuuksiin lukeutuvaa ääntä on tarkasteltu tässä työssä. Jotta työn tavoitteiden mukaista FE-menetelmien vertailua ja tulosten oikeellisuuden tarkastelua voitai-siin tehdä, myös yleisimpiä AFPMS-koneen FE-menetelmiä tarkastellaan. Työn tuloksena on mittajärjestelmän suunnitelma, jonka avulla voidaan toteuttaa kuuden vapausas-teen voimamittaus jokaiselle koneistomagneetille alle 1N resoluutiolla. Suunnitellun järjestelmän toimivuutta on tarkasteltu FE-menetelmiä käyttäen ja järjestelmässä käytettävän voima-anturin ky-vykkyyttä on todennettu referenssimittauksin. Suunniteltu mittajärjestelmä mahdollistaa sähkömoottorin useiden eri epäideaalisuuksien tarkaste-lun yksityiskohtaisella tasolla. Mittausajatuksen soveltaminen myös muiden koneiden tutkimiseen tarjoaa mahdollisuuksia jatkotutkimuksille.
Resumo:
Arkit: A-C4.
Resumo:
The emerging technologies have recently challenged the libraries to reconsider their role as a mere mediator between the collections, researchers, and wider audiences (Sula, 2013), and libraries, especially the nationwide institutions like national libraries, haven’t always managed to face the challenge (Nygren et al., 2014). In the Digitization Project of Kindred Languages, the National Library of Finland has become a node that connects the partners to interplay and work for shared goals and objectives. In this paper, I will be drawing a picture of the crowdsourcing methods that have been established during the project to support both linguistic research and lingual diversity. The National Library of Finland has been executing the Digitization Project of Kindred Languages since 2012. The project seeks to digitize and publish approximately 1,200 monograph titles and more than 100 newspapers titles in various, and in some cases endangered Uralic languages. Once the digitization has been completed in 2015, the Fenno-Ugrica online collection will consist of 110,000 monograph pages and around 90,000 newspaper pages to which all users will have open access regardless of their place of residence. The majority of the digitized literature was originally published in the 1920s and 1930s in the Soviet Union, and it was the genesis and consolidation period of literary languages. This was the era when many Uralic languages were converted into media of popular education, enlightenment, and dissemination of information pertinent to the developing political agenda of the Soviet state. The ‘deluge’ of popular literature in the 1920s to 1930s suddenly challenged the lexical orthographic norms of the limited ecclesiastical publications from the 1880s onward. Newspapers were now written in orthographies and in word forms that the locals would understand. Textbooks were written to address the separate needs of both adults and children. New concepts were introduced in the language. This was the beginning of a renaissance and period of enlightenment (Rueter, 2013). The linguistically oriented population can also find writings to their delight, especially lexical items specific to a given publication, and orthographically documented specifics of phonetics. The project is financially supported by the Kone Foundation in Helsinki and is part of the Foundation’s Language Programme. One of the key objectives of the Kone Foundation Language Programme is to support a culture of openness and interaction in linguistic research, but also to promote citizen science as a tool for the participation of the language community in research. In addition to sharing this aspiration, our objective within the Language Programme is to make sure that old and new corpora in Uralic languages are made available for the open and interactive use of the academic community as well as the language societies. Wordlists are available in 17 languages, but without tokenization, lemmatization, and so on. This approach was verified with the scholars, and we consider the wordlists as raw data for linguists. Our data is used for creating the morphological analyzers and online dictionaries at the Helsinki and Tromsø Universities, for instance. In order to reach the targets, we will produce not only the digitized materials but also their development tools for supporting linguistic research and citizen science. The Digitization Project of Kindred Languages is thus linked with the research of language technology. The mission is to improve the usage and usability of digitized content. During the project, we have advanced methods that will refine the raw data for further use, especially in the linguistic research. How does the library meet the objectives, which appears to be beyond its traditional playground? The written materials from this period are a gold mine, so how could we retrieve these hidden treasures of languages out of the stack that contains more than 200,000 pages of literature in various Uralic languages? The problem is that the machined-encoded text (OCR) contains often too many mistakes to be used as such in research. The mistakes in OCRed texts must be corrected. For enhancing the OCRed texts, the National Library of Finland developed an open-source code OCR editor that enabled the editing of machine-encoded text for the benefit of linguistic research. This tool was necessary to implement, since these rare and peripheral prints did often include already perished characters, which are sadly neglected by the modern OCR software developers, but belong to the historical context of kindred languages and thus are an essential part of the linguistic heritage (van Hemel, 2014). Our crowdsourcing tool application is essentially an editor of Alto XML format. It consists of a back-end for managing users, permissions, and files, communicating through a REST API with a front-end interface—that is, the actual editor for correcting the OCRed text. The enhanced XML files can be retrieved from the Fenno-Ugrica collection for further purposes. Could the crowd do this work to support the academic research? The challenge in crowdsourcing lies in its nature. The targets in the traditional crowdsourcing have often been split into several microtasks that do not require any special skills from the anonymous people, a faceless crowd. This way of crowdsourcing may produce quantitative results, but from the research’s point of view, there is a danger that the needs of linguists are not necessarily met. Also, the remarkable downside is the lack of shared goal or the social affinity. There is no reward in the traditional methods of crowdsourcing (de Boer et al., 2012). Also, there has been criticism that digital humanities makes the humanities too data-driven and oriented towards quantitative methods, losing the values of critical qualitative methods (Fish, 2012). And on top of that, the downsides of the traditional crowdsourcing become more imminent when you leave the Anglophone world. Our potential crowd is geographically scattered in Russia. This crowd is linguistically heterogeneous, speaking 17 different languages. In many cases languages are close to extinction or longing for language revitalization, and the native speakers do not always have Internet access, so an open call for crowdsourcing would not have produced appeasing results for linguists. Thus, one has to identify carefully the potential niches to complete the needed tasks. When using the help of a crowd in a project that is aiming to support both linguistic research and survival of endangered languages, the approach has to be a different one. In nichesourcing, the tasks are distributed amongst a small crowd of citizen scientists (communities). Although communities provide smaller pools to draw resources, their specific richness in skill is suited for complex tasks with high-quality product expectations found in nichesourcing. Communities have a purpose and identity, and their regular interaction engenders social trust and reputation. These communities can correspond to research more precisely (de Boer et al., 2012). Instead of repetitive and rather trivial tasks, we are trying to utilize the knowledge and skills of citizen scientists to provide qualitative results. In nichesourcing, we hand in such assignments that would precisely fill the gaps in linguistic research. A typical task would be editing and collecting the words in such fields of vocabularies where the researchers do require more information. For instance, there is lack of Hill Mari words and terminology in anatomy. We have digitized the books in medicine, and we could try to track the words related to human organs by assigning the citizen scientists to edit and collect words with the OCR editor. From the nichesourcing’s perspective, it is essential that altruism play a central role when the language communities are involved. In nichesourcing, our goal is to reach a certain level of interplay, where the language communities would benefit from the results. For instance, the corrected words in Ingrian will be added to an online dictionary, which is made freely available for the public, so the society can benefit, too. This objective of interplay can be understood as an aspiration to support the endangered languages and the maintenance of lingual diversity, but also as a servant of ‘two masters’: research and society.
Resumo:
Ensikielen jälkeen opittavan kielen tutkimusta ja suomi toisena kielenä alaa sen osana ovat koko niiden olemassaolon ajan hallinneet samat peruskysymykset: millaista oppiminen on eri vaiheissa ja eri ympäristöissä, sekä mikä oppimisessa on yleistä ja toisaalta mikä riippuu opittavasta kielestä ja oppijoiden kielitaustasta. Sähköisten oppijankielen tutkimusaineistojen eli korpusten lisääntymisen myötä tutkijat voivat aiempaa helpommin tutkia näitä ilmiöitä määrällisesti ja tarkastella oppijankielen sisäistä vaihtelua ja sen suhdetta tyypilliseen ensikieliseen kielenkäyttöön kielen eri osa-alueilla käyttöpohjaisesti eli todelliseen kielenkäyttöön pohjautuen. Tekninen kehitys on tuonut mukanaan aineisto- eli korpusvetoisuuden kaltaisia uusia tapoja lähestyä tutkimusaineistoa, jolloin tyypillisiä tutkimuskysymyksiä ”Miksi?” ja ”Miten?” edeltää kysymys: ”Mikä?”. Tässä väitöskirjassa tarkastellaan edistyneiden suomenoppijoiden kirjoitettua akateemista kieltä ja suhteutetaan suomen oppimiselle ominaisia seikkoja käyttöpohjaisen mallin perusolettamuksiin. Aineisto on suomea toisena kielenä käyttävien opiskelijoiden tenttivastauksia, ja se on osa Edistyneiden suomenoppijoiden korpusta. Tutkimus on osin metodologinen, sillä väitöskirjassa esitellään ja siinä sovelletaan uutta korpusvetoista avainrakenneanalyysi-menetelmää, jonka avulla aineistoa lähestytään ilman hypoteeseja siitä, mitkä kielen ilmiöt ovat ominaisia edistyneelle oppijansuomelle. Tutkimus kuuluu kieliopin tutkimuksen piiriin, ja se nojaa kognitiivisen konstruktiokieliopin ajatukseen abstraktiudeltaan vaihtelevista konstruktioista kielijärjestelmän perusyksiköinä. Tulokset puoltavat menetelmän sovellettavuutta kielen oppimisen tutkimukseen, sillä sen avulla kyettiin tunnistamaan konstruktioita, jotka erottavat edistyneitä oppijoita ensikielisistä kirjoittajista (esim. modaaliset verbiketjut), eri ensikieliä puhuvia suomenoppijoita (esim. konjunktiot) sekä konstruktioita, joiden käyttö muuttuu ajan kuluessa (esim. preteriti ja preesens). Monet havaitut erot ovat akateemisen kirjoittamisen erityispiirteitä, mikä tukee ajatusta kielen käyttö- ja kontekstikohtaisesta oppimisesta. Tuloksia voidaan yhtäältä soveltaa akateemisen kielitaidon opetuksessa. Toisaalta menetelmää voidaan käyttää kielenoppimisen tutkimuksen ohella uusien näkökulmien kartoittamiseksi erilaisten tai eri-ikäisten tekstien tyypillisten ominaisuuksien ja erojen tutkimuksessa.
Resumo:
The National Library of Finland is implementing the Digitization Project of Kindred Languages in 2012–16. Within the project we will digitize materials in the Uralic languages as well as develop tools to support linguistic research and citizen science. Through this project, researchers will gain access to new corpora 329 and to which all users will have open access regardless of their place of residence. Our objective is to make sure that the new corpora are made available for the open and interactive use of both the academic community and the language societies as a whole. The project seeks to digitize and publish approximately 1200 monograph titles and more than 100 newspapers titles in various Uralic languages. The digitization will be completed by the early of 2015, when the Fenno-Ugrica collection would contain around 200 000 pages of editable text. The researchers cannot spend so much time with the material that they could retrieve a satisfactory amount of edited words, so the participation of a crowd in editing work is needed. Often the targets in crowdsourcing have been split into several microtasks that do not require any special skills from the anonymous people, a faceless crowd. This way of crowdsourcing may produce quantitative results, but from the research’s point of view, there is a danger that the needs of linguistic research are not necessarily met. Also, the number of pages is too high to deal with. The remarkable downside is the lack of shared goal or social affinity. There is no reward in traditional methods of crowdsourcing. Nichesourcing is a specific type of crowdsourcing where tasks are distributed amongst a small crowd of citizen scientists (communities). Although communities provide smaller pools to draw resources, their specific richness in skill is suited for the complex tasks with high-quality product expectations found in nichesourcing. Communities have purpose, identity and their regular interactions engenders social trust and reputation. These communities can correspond to research more precisely. Instead of repetitive and rather trivial tasks, we are trying to utilize the knowledge and skills of citizen scientists to provide qualitative results. Some selection must be made, since we are not aiming to correct all 200,000 pages which we have digitized, but give such assignments to citizen scientists that would precisely fill the gaps in linguistic research. A typical task would editing and collecting the words in such fields of vocabularies, where the researchers do require more information. For instance, there’s a lack of Hill Mari words in anatomy. We have digitized the books in medicine and we could try to track the words related to human organs by assigning the citizen scientists to edit and collect words with OCR editor. From the nichesourcing’s perspective, it is essential that the altruism plays a central role, when the language communities involve. Upon the nichesourcing, our goal is to reach a certain level of interplay, where the language communities would benefit on the results. For instance, the corrected words in Ingrian will be added onto the online dictionary, which is made freely available for the public and the society can benefit too. This objective of interplay can be understood as an aspiration to support the endangered languages and the maintenance of lingual diversity, but also as a servant of “two masters”, the research and the society.
Resumo:
Tutkimuksessa tarkastellaan lauseen aspektin ilmaisemista suomen kielessä. Aspektia käsitellään merkityskategoriana, joka osoittaa lauseen kuvaaman asiaintilan ajallisen keston, ja perustavanlaatuisena aspektuaalisena erontekona pidetään rajattuuden ja rajaamattomuuden vastakohtaisuutta. Tutkimuksessa selvitetään, millä perusteella lauseet saavat joko rajatun tai rajaamattoman aspektitulkinnan ja miten konteksti vaikuttaa tähän tulkintaan. Lauseen kontekstina käsitellään kielellistä kontekstia eli tekstiä. Työ on aineistopohjainen tutkimus kirjoitetusta nykysuomesta, ja tarkastelun kohteena on sanomalehtiteksteistä koottu lauseaineisto. Lauseiden pääverbit ovat olla, tehdä ja tulla. Aineistosta on mahdollista esittää sekä kvalitatiivisia että kvantitatiivisia huomioita. Tutkimuksen teoreettisen ja metodologisen taustan muodostavat eräiden kognitiivisen kielitieteen suuntausten kuvauskäsitteet ja -metodit sekä fennistinen aspektin kuvaamisen perinne. Tutkimuksessa tarkastellaan kahta fennistiikassa esitettyä tapaa määritellä lauseen aspektimerkitys ja osoitetaan, että ne ovat toisiaan täydentäviä. Molemmat lähestymistavat huomioon ottamalla on siis mahdollista kuvata lauseen aspektimerkityksen määräytyminen täsmällisemmin kuin vain yhteen kuvaustapaan keskittymällä. Lisäksi osoitetaan, että keskeisinä aspektin ilmaisemisen keinoina pidetyt keston ja toistuvuuden adverbiaalit jäävät aineistossa marginaalisiksi. Ajankohdan adverbiaaleja puolestaan käsitellään aiemmasta tutkimuksesta poiketen rajattuina tarkastelunäkökulmina kuvattuun asiaintilaan, ja ne toimivat tässä tehtävässä liittyessään aspektiltaan rajaamattomiin lauseisiin. Lisäksi tutkimus osoittaa, että aspektin ilmaisemisen kerroksellisuutta voidaan aspektin ilmaisemiseen osallistuvien lauseenjäsenten kerrostumisen ohella tarkastella lausekokonaisuuden eri semanttisten tasojen kerrostumisena. Lausetta laajemman kontekstin vaikutusta aspektitulkintaan ei ole aiemmin tutkittu suomen kielessä. Tutkimus osoittaa, että aspektiltaan monitulkintaisten lauseiden konteksti voi selventää tulkinnan tai mahdollistaa samanaikaisesti vaihtoehtoiset tulkinnat. Lisäksi erilaisten lauseenulkoisten rajan ilmausten avulla on mahdollista osoittaa lauseen aspektin rajattuutta siinä tapauksessa, että lause muutoin ymmärrettäisiin aspektiltaan rajaamattomaksi.