978 resultados para synchronic linguistics
Resumo:
There are a number of morphological analysers for Polish. Most of these, however, are non-free resources. What is more, different analysers employ different tagsets and tokenisation strategies. This situation calls for a simpleand universal framework to join different sources of morphological information, including the existing resources as well as user-provided dictionaries. We present such a configurable framework that allows to write simple configuration files that define tokenisation strategies and the behaviour of morphologicalanalysers, including simple tagset conversion.
Resumo:
This paper discusses the qualitativecomparative evaluation performed on theresults of two machine translation systemswith different approaches to the processing ofmulti-word units. It proposes a solution forovercoming the difficulties multi-word unitspresent to machine translation by adopting amethodology that combines the lexicongrammar approach with OpenLogos ontologyand semantico-syntactic rules. The paper alsodiscusses the importance of a qualitativeevaluation metrics to correctly evaluate theperformance of machine translation engineswith regards to multi-word units.
Resumo:
We describe a series of experiments in which we start with English to French and English to Japanese versions of an Open Source rule-based speech translation system for a medical domain, and bootstrap correspondign statistical systems. Comparative evaluation reveals that the rule-based systems are still significantly better than the statistical ones, despite the fact that considerable effort has been invested in tuning both the recognition and translation components; also, a hybrid system only marginally improved recall at the cost of a los in precision. The result suggests that rule-based architectures may still be preferable to statistical ones for safety-critical speech translation tasks.
Resumo:
Softcatalà is a non-profit associationcreated more than 10 years ago to fightthe marginalisation of the Catalan languagein information and communicationtechnologies. It has led the localisationof many applications and thecreation of a website which allows itsusers to translate texts between Spanishand Catalan using an external closed-sourcetranslation engine. Recently,the closed-source translation back-endhas been replaced by a free/open-sourcesolution completely managed by Softcatalà: the Apertium machine translationplatform and the ScaleMT web serviceframework. Thanks to the opennessof the new solution, it is possibleto take advantage of the huge amount ofusers of the Softcatalà translation serviceto improve it, using a series ofmethods presented in this paper. In addition,a study of the translations requestedby the users has been carriedout, and it shows that the translationback-end change has not affected theusage patterns.
Resumo:
This paper presents an Italian to CatalanRBMT system automatically built bycombining the linguistic data of theexisting pairs Spanish-Catalan andSpanish-Italian. A lightweight manualpostprocessing is carried out in order tofix inconsistencies in the automaticallyderived dictionaries and to add very frequentwords that are missing accordingto a corpus analysis. The system isevaluated on the KDE4 corpus and outperformsGoogle Translate by approximatelyten absolute points in terms ofboth TER and GTM.
Resumo:
Tutkimukseni käsittelee suomen kielen sanaston kehitystä 1800-luvulla eli aikana, jolloin suomen kielestä kehittyi monialainen sivistyskieli. Esimerkkiaineistona on yhden erikoisalan, maantieteen sanasto. Suomen kirjakieli syntyi 1500-luvulla, mutta aluksi kirjoitettua kieltä tarvittiin pääasiassa uskonnollisissa yhteyksissä. 1800-luvun aikana kielen käyttöalat monipuolistuivat ja uutta sanastoa tarvittiin monien erikoisalojen tarpeisiin. Ryhdyttiin tietoisesti kääntämään tietokirjallisuutta ja kirjoittamaan eri aiheista. Tutkimukseni selvittää maantieteen sanaston kehittymistä sadassa vuodessa erityisesti maantieteen oppikirjoissa. Tutkimus kuvaa sanaston kehitystä teoreettisesti uudenlaisista lähtökohdista tarkastelemalla leksikaalista variaatiota. Variaatiota on kuvattu tarkasti sekä yksittäisten käsitteiden nimitysten kehityksenä että ilmiönä yleisesti. Tutkimus hyödyntää myös kognitiivista lähestymistapaa, etenkin sosiokognitiivisen terminologian teoriaa. Aineiston analyysin pohjalta syntyy kuva sanaston kehityksestä ja vakiintumisesta. Tutkimus kuvaa myös tapoja, joilla uusia käsitteitä nimettiin. Se pohtii eri nimeämistapojen suhdetta sekä kirjoittajien ja aikalaisten roolia sanaston vakiintumisessa. 1800-luvun maantieteen sanastossa on runsaasti variaatiota; vain harvojen käsitteiden nimitykset ovat vakiintuneita tai vakiintuvat nopeasti. Tämän variaation kuvaaminen leksikaalisena variaationa osoittautui tutkimuksessa hyväksi metodiksi. Koska kirjakieli oli vakiintumatonta, nimityksissä esiintyy paljon kontekstuaalista variaatiota esimerkiksi sanojen kirjoitusasuissa. Kirjoittajat myös pohtivat havainnollista tapaa nimetä käsitteitä, ja tästä aiheutuu onomasiologista variaatiota. Semasiologinen variaatio taas kertoo käsitejärjestelmän vakiintumattomuudesta. Aineiston sanaston lähtökohdat ovat vanhan kirjasuomessa, mutta tältä pohjalta luodaan valtava määrä uutta sanastoa tai otetaan aiemmin kirjakielessä käytettyjä nimityksiä uuteen merkitykseen. Tärkeä rooli on sekä nimitysten muodostamisella kotoisista aineksista että kääntämisellä, jossa malli saadaan toisesta kielestä mutta nimitysten ainekset ovat omaperäisiä.
Resumo:
L"article presenta l"entorn històric de les gramàtiques universals del segle xvii. Descriu el moviment cultural de l"abadia de Port-Royal, en els vessants religiós, polític, pedagògic i científic. Analitza els principis de la Grammaire générales et raisonne d"Antonie Arnauld i Claude Lancelot. Considera la relació de la gramàtica amb la Logique d"A. Aranuld i Pierre. Nicole. I examina la recepció que ha tingut la gramàtica de Port-Royal a la història de la Lingüística, en especial a partir de la tesi de Noam Chomsky sobre la lingüística cartesiana. La controvertida postura de Chomsky, rebutjada per la crítica, instrueix sobre els processos de construcció de la historiografia
Resumo:
Aquest document conté el text Presentació, una introducció al CD del Corpus Oral Dialectal (COD). El COD és un component del Corpus de Català Contemporani de la Universitat de Barcelona (CCCUB), un arxiu de corpus de llengua catalana oral contemporània que ha estat confegit pel grup de recerca Grup d'Estudi de la Variació (GEV) amb la finalitat de contribuir a l'estudi de la variació dialectal, social i funcional en la llengua catalana. Una selecció de materials del CCCUB ha estat dipositada al RECERCAT (Dipòsit de la Recerca de Catalunya, www.recercat.net), i també és accessible a través del web del CCCUB: http://www.ub.edu/cccub.
Resumo:
Aquest document conté el text Presentation_English, una introducció en anglès al CD del Corpus Oral Dialectal (COD). El COD és un component del Corpus de Català Contemporani de la Universitat de Barcelona (CCCUB), un arxiu de corpus de llengua catalana oral contemporània que ha estat confegit pel grup de recerca Grup d'Estudi de la Variació (GEV) amb la finalitat de contribuir a l'estudi de la variació dialectal, social i funcional en la llengua catalana. Aquest i altres materials del CCCUB són accessibles directament al Dipòsit UB o a través del web del CCCUB (http://www.ub.edu/cccub).
Resumo:
Aquest document conté el text Presentation_English, una introducció en anglès al CD del Corpus Oral Dialectal (COD). El COD és un component del Corpus de Català Contemporani de la Universitat de Barcelona (CCCUB), un arxiu de corpus de llengua catalana oral contemporània que ha estat confegit pel grup de recerca Grup d'Estudi de la Variació (GEV) amb la finalitat de contribuir a l'estudi de la variació dialectal, social i funcional en la llengua catalana. Aquest i altres materials del CCCUB són accessibles directament al Dipòsit UB o a través del web del CCCUB (http://www.ub.edu/cccub).
Resumo:
Aquest document conté el text Presentation_English, una introducció en anglès al CD del Corpus Oral Dialectal (COD). El COD és un component del Corpus de Català Contemporani de la Universitat de Barcelona (CCCUB), un arxiu de corpus de llengua catalana oral contemporània que ha estat confegit pel grup de recerca Grup d'Estudi de la Variació (GEV) amb la finalitat de contribuir a l'estudi de la variació dialectal, social i funcional en la llengua catalana. Aquest i altres materials del CCCUB són accessibles directament al Dipòsit UB o a través del web del CCCUB (http://www.ub.edu/cccub).
Resumo:
Aquest document conté el text Presentació, una introducció al CD del Corpus Oral Dialectal (COD). El COD és un component del Corpus de Català Contemporani de la Universitat de Barcelona (CCCUB), un arxiu de corpus de llengua catalana oral contemporània que ha estat confegit pel grup de recerca Grup d'Estudi de la Variació (GEV) amb la finalitat de contribuir a l'estudi de la variació dialectal, social i funcional en la llengua catalana. Una selecció de materials del CCCUB ha estat dipositada al RECERCAT (Dipòsit de la Recerca de Catalunya, www.recercat.net), i també és accessible a través del web del CCCUB: http://www.ub.edu/cccub.
Resumo:
Aquest document conté el text Presentation_English, una introducció en anglès al CD del Corpus Oral Dialectal (COD). El COD és un component del Corpus de Català Contemporani de la Universitat de Barcelona (CCCUB), un arxiu de corpus de llengua catalana oral contemporània que ha estat confegit pel grup de recerca Grup d'Estudi de la Variació (GEV) amb la finalitat de contribuir a l'estudi de la variació dialectal, social i funcional en la llengua catalana. Aquest i altres materials del CCCUB són accessibles directament al Dipòsit UB o a través del web del CCCUB (http://www.ub.edu/cccub).
Resumo:
Aquest document conté la imatge de la caràtula del CD "COD. Corpus Oral Dialectal". El COD és un component del Corpus de Català Contemporani de la Universitat de Barcelona (CCCUB), un arxiu de corpus de llengua catalana oral contemporània que ha estat confegit pel grup de recerca Grup d'Estudi de la Variació (GEV) amb la finalitat de contribuir a l'estudi de la variació dialectal, social i funcional en la llengua catalana. Aquest i altres materials del CCCUB són accessibles directament al Dipòsit Digital de la UB (http://diposit.ub.edu) o a través del web del CCCUB (http://www.ub.edu/cccub).
Resumo:
Aquest document conté el text Presentation_English, una introducció en anglès al CD del Corpus Oral Dialectal (COD). El COD és un component del Corpus de Català Contemporani de la Universitat de Barcelona (CCCUB), un arxiu de corpus de llengua catalana oral contemporània que ha estat confegit pel grup de recerca Grup d'Estudi de la Variació (GEV) amb la finalitat de contribuir a l'estudi de la variació dialectal, social i funcional en la llengua catalana. Aquest i altres materials del CCCUB són accessibles directament al Dipòsit UB o a través del web del CCCUB (http://www.ub.edu/cccub).