In this article we describe the methodology developed for the semiautomatic annotation of EPEC-RolSem, a Basque corpus labeled at predicate level following the PropBank-VerbNet model. The methodology presented is the product of detailed theoretical study of the semantic nature of verbs in Basque and of their similarities and differences with verbs in other languages. As part of the proposed methodology, we are creating a Basque lexicon on the PropBank-VerbNet model that we have named the Basque Verb Index (BVI). Our work thus dovetails the general trend toward building lexicons from tagged corpora that is clear in work conducted for other languages. EPEC-RolSem and BVI are two important resources for the computational semantic processing of Basque; as far as the authors are aware, they are also the first resources of their kind developed for Basque. In addition, each entry in BVI is linked to the corresponding verb-entry in well-known resources like PropBank, VerbNet, WordNet, Levin’s Classification and FrameNet. We have also implemented several automatic processes to aid in creating and annotating the BVI, including processes designed to facilitate the task of manual annotation.


592 p. (versión en euskera) ; 117 p. (versión en alemán)


Duración (en horas): De 11 a 20 horas. Nivel educativo: Grado


Forma parte del dossier "Penser les banquets grec et romain, Entre représentations et pratiques". Actes de la table ronde Le banquet dans l'Antiquité 6 janvier 2007, Institut national d'histoire de l'art - Paris. Coordinado por Robin Nadeau


Proiektu honen helburua hizkuntzaren prozesamendurako tresnek irakaskuntza arloan izan dezaketen erabilgarritasuna aztertzea da. Konkretuki, irakaskuntza materialen sorkuntzan laguntza handia eskaini dezake gaur egun hizkuntzaren prozesamenduak. Ariketak automatikoki prestatzeko sistemak, testu idatzien kalitatea hobetzen laguntzeko sistemak, laburpengintza sistemak... denetarik sortu da azken aldian. Baina, beste hizkuntzetarako buruturiko lana handia den arren euskararako buruturiko lana oso murritza da. Honek bultzatuta, proiektu honetan euskararako ariketak automatikoki sortzeko sistemetan azterketa bat burutuko da, galdera ariketak automatikoki sortzeko zehazki. Galdera hauen helburua ikasleek testuen ulermena lantzea izango da, horretarako testuko alderdi esanguratsuenei buruz galdetzen saiatuko direlarik. Ataza hau burutzeko bi ikerketa lerrotan sakonduko da: Alde batetik, testuko zati esanguratsuenak bilatzen lagunduko duen modulu bat inplementatuko da. Modulu honen helburua testuan agertzen diren termino garrantzitsuenak markatzea eta pisatzea izango da. Termino esanguratsuak bilatuz testuan garrantzitsu diren kontzeptuak zein izan daitezkeen jakin dezakegu. Hau abiapuntu egokia izan daiteke testu baten ulermena lantzen hasteko. Termino hauek markatzeko metodoa probabilitatean oinarriturikoa izango da, hizkuntzaren prozesamenduko alderdi estatistikoa jorratuz. Beste alde batetik, testuan bilaturiko termino garrantzitsuenen inguruan galderak automatikoki eraikiko dituen modulu bat inplementatuko da. Honen helburua esaldi bat eman eta ahalik eta galdera zentzuzko eta zuzenenak sortzea izango da. Honetarako erregeletan oinarrituriko modulu bat inplementatuko da, hizkuntzaren prozesamenduko alderdi linguistikoa jorratuz. Bi modulu hauekin probak burutu ahal izateko euskararako existitzen diren hainbat corpusen azterketa burutuko da. Proiekturako interesgarriak izan daitezkeen corpusak eskuratu eta beharrezko bada corpus berriak biltzeko helburua izango du azterketa honek. Amaitzeko, modulu bakoitzean modu independentean burutuko diren ebaluazioez gain ebaluazio orokor bat ere burutuko da. Bertan bi moduluak elkarrekin lotu eta eszenatoki erreal batean sorturiko aplikazioak izan dezakeen erabilgarritasuna aztertuko da.


Modernitatearen asmakuntza bat besterik ez da guk "lanak" bezala ezagutzen duguna. Lan hau ezagutzeko,burutzeko eta bakoitzaren bizitzaren muinean kokatzeko erabiltzen dugun modua asmatu izan zen; eta gero, industrialismoaren bidez orokortu egin zen


En une génération, entre 1975 et 1995, le paysage du marché du travail auquel les jeunes font face a radicalement changé.


The present corpus study aimed to examine whether Basque (OV) resorts more often than Spanish (VO) to certain grammatical operations, in order to minimi ze the number of arguments to be processed before the verb. Ueno & Polinsky (2009) argue that VO/OV languages use certain grammatical resources with different frequencies in order to facilitate real-time processing. They observe that both OV and VO languages in their sample (Japanese, Turkish and Spanish) have a similar frequency of use of subject pro-drop; however, they find that OV languages (Japanese, Turkish) use more intransitive sentences than VO languages (English, Spanish), and conclude this is an OV-specific strategy to facilitate processing. We conducted a comparative corpus study of Spanish (VO) and Basque (OV). Results show (a) that the fre- quency of use of subject pro-drop is higher in Basque than in Spanish; and (b) Basque does not use more intransitive sentences than Spanish; both languages have a similar frequency of intransitive sentences. Based on these findings, we conclude that the frequency of use of grammatical resources to facilitate the processing does not depend on a single typological trait (VO/OV) but it is modulated by the concurrence of other grammatical feature.


[EU]Ahots teknologiaren garapenaren gorakadak, hizketan minusbaliotasunen bat duten pertsonen eguneroko bizitza ahalik eta erosoena egitearen saiakerarekin batera, Aholab ikerkuntza taldea ZURE TTS proiektua garatzera eraman du, proiektuaren helburua ahots minusbaliotasun batez jota dauden edo ahotsa guztiz galdu duten pertsonentzat hizketa sintetizadore bat garatzea delarik. Ahots sintetizatua lortzeko, ahots emaileek grabatutako esaldiez osatutako ahots naturaleko corpus bat hartzen da oinarritzat. Sintesi prozesua ahalik eta kalitate altuenekoa izateko, nahitaezkoa da datu basean gordeta dagoen ahotsa egokia izatea, eta horregatik, burutuko den proiektuak grabazioen edukiaren egiaztatzaile bat garatzea du helburu, erabiltzaileak irakurritako esaldiak zuzenak diren edo ez egiaztatzen dituena, horrela ahots sintetizatuaren kalitatea bermatuz.


419 p.


Editores:Micaela Muñoz-Calvo; Carmen Buesa-Gómez