27 resultados para lexicon bootstrapping
em Consorci de Serveis Universitaris de Catalunya (CSUC), Spain
Resumo:
In this work we present the results of experimental work on the development of lexical class-based lexica by automatic means. Our purpose is to assess the use of linguistic lexical-class based information as a feature selection methodology for the use of classifiers in quick lexical development. The results show that the approach can help reduce the human effort required in the development of language resources significantly.
Resumo:
La regressió basada en distàncies és un mètode de predicció que consisteix en dos passos: a partir de les distàncies entre observacions obtenim les variables latents, les quals passen a ser els regressors en un model lineal de mínims quadrats ordinaris. Les distàncies les calculem a partir dels predictors originals fent us d'una funció de dissimilaritats adequada. Donat que, en general, els regressors estan relacionats de manera no lineal amb la resposta, la seva selecció amb el test F usual no és possible. En aquest treball proposem una solució a aquest problema de selecció de predictors definint tests estadístics generalitzats i adaptant un mètode de bootstrap no paramètric per a l'estimació dels p-valors. Incluim un exemple numèric amb dades de l'assegurança d'automòbils.
Resumo:
La regressió basada en distàncies és un mètode de predicció que consisteix en dos passos: a partir de les distàncies entre observacions obtenim les variables latents, les quals passen a ser els regressors en un model lineal de mínims quadrats ordinaris. Les distàncies les calculem a partir dels predictors originals fent us d'una funció de dissimilaritats adequada. Donat que, en general, els regressors estan relacionats de manera no lineal amb la resposta, la seva selecció amb el test F usual no és possible. En aquest treball proposem una solució a aquest problema de selecció de predictors definint tests estadístics generalitzats i adaptant un mètode de bootstrap no paramètric per a l'estimació dels p-valors. Incluim un exemple numèric amb dades de l'assegurança d'automòbils.
Resumo:
Aquest diccionari recull terminologia psiquiàtrica a partir de diverses fonts. La primera, diccionaris antics desde l'època romana fins els segles XVII i XVIII, en qualsevol llengua. A continuació, diccionaris més moderns en català i en castellà i ja per últim, s'ha recollit terminologia actual poc emprada i curiosa.No és, per tant, una obra plenament acabada doncs permet la seva ampliació.
Resumo:
We describe a series of experiments in which we start with English to French and English to Japanese versions of an Open Source rule-based speech translation system for a medical domain, and bootstrap correspondign statistical systems. Comparative evaluation reveals that the rule-based systems are still significantly better than the statistical ones, despite the fact that considerable effort has been invested in tuning both the recognition and translation components; also, a hybrid system only marginally improved recall at the cost of a los in precision. The result suggests that rule-based architectures may still be preferable to statistical ones for safety-critical speech translation tasks.
Resumo:
Analysis of stratigraphic terminology and classification, shows that time-related stratigraphic units, which by definition have a global extent, are the concern of international cornrnissions and committees of the intemational Union of Geological Sciences (IUGS) . In contrast, lithostratigraphic, and other closely related units, are regional in extent and are catalogued in the International Stratigraphic Lexicon (ISL), the last volume of which, was published in 1987. Tlie intemational Commission on Stratigraphy (ICS) is currently attempting to revitalize the publication of ISL, given that the information contained in published volumes has never been updated, and that there has been a significant increase in stratigraphic research in recent decades. The proliferation of named units in the South Pyrenean and Ebro Basin Paleogene is evaluated to illustrate the extent of the problem. Moreover, new approaches to stratigraphic analysis have led to the naming of genetic units according to similar guidelines followed in the naming of descnptive or lithostratigraphic units. This has led to considerable confusion. The proposal to revitalize the ISL is accepted as part of the solution, that should also include the publication of critica1 catalogues, and the creation of norms for genetic unit terminology.
Resumo:
Performance-based studies on the psychological nature of linguistic competence can conceal significant differences in the brain processes that underlie native versus nonnative knowledge of language. Here we report results from the brain activity of very proficient early bilinguals making a lexical decision task that illustrates this point. Two groups of SpanishCatalan early bilinguals (Spanish-dominant and Catalan-dominant) were asked to decide whether a given form was a Catalan word or not. The nonwords were based on real words, with one vowel changed. In the experimental stimuli, the vowel change involved a Catalan-specific contrast that previous research had shown to be difficult for Spanish natives to perceive. In the control stimuli, the vowel switch involved contrasts common to Spanish and Catalan. The results indicated that the groups of bilinguals did not differ in their behavioral and event-related brain potential measurements for the control stimuli; both groups made very few errors and showed a larger N400 component for control nonwords than for control words. However, significant differences were observed for the experimental stimuli across groups: Specifically, Spanish-dominant bilinguals showed great difficulty in rejecting experimental nonwords. Indeed, these participants not only showed very high error rates for these stimuli, but also did not show an error-related negativity effect in their erroneous nonword decisions. However, both groups of bilinguals showed a larger correctrelated negativity when making correct decisions about the experimental nonwords. The results suggest that although some aspects of a second language system may show a remarkable lack of plasticity (like the acquisition of some foreign contrasts), first-language representations seem to be more dynamic in their capacity of adapting and incorporating new information. &
Resumo:
This paper shows how a high level matrix programming language may be used to perform Monte Carlo simulation, bootstrapping, estimation by maximum likelihood and GMM, and kernel regression in parallel on symmetric multiprocessor computers or clusters of workstations. The implementation of parallelization is done in a way such that an investigator may use the programs without any knowledge of parallel programming. A bootable CD that allows rapid creation of a cluster for parallel computing is introduced. Examples show that parallelization can lead to important reductions in computational time. Detailed discussion of how the Monte Carlo problem was parallelized is included as an example for learning to write parallel programs for Octave.
Resumo:
Traffic forecasts provide essential input for the appraisal of transport investment projects. However, according to recent empirical evidence, long-term predictions are subject to high levels of uncertainty. This paper quantifies uncertainty in traffic forecasts for the tolled motorway network in Spain. Uncertainty is quantified in the form of a confidence interval for the traffic forecast that includes both model uncertainty and input uncertainty. We apply a stochastic simulation process based on bootstrapping techniques. Furthermore, the paper proposes a new methodology to account for capacity constraints in long-term traffic forecasts. Specifically, we suggest a dynamic model in which the speed of adjustment is related to the ratio between the actual traffic flow and the maximum capacity of the motorway. This methodology is applied to a specific public policy that consists of suppressing the toll on a certain motorway section before the concession expires.
Resumo:
Treball de recerca realitzat per una alumna d'ensenyament secundari i guardonat amb un Premi CIRIT per fomentar l'esperit científic del Jovent l'any 2009. Aquest treball de recerca pretén situar el parlar català de la localitat d’Ainet de Besan, situada a la comarca del Pallars Sobirà, dins el marc geolingüístic que li pertoca, tot analitzant-ne el trets principals que el caracteritzen. ‘El parlar d’Ainet de Besan (Vallfarrera)’ suposa, primerament, la realització d’una anàlisi lingüística del material obtingut a partir d’entrevistes realitzades a informants de la localitat, que permeten el recull de tots aquells aspectes relacionats amb els tres grans blocs bàsics de la llengua: la fonètica, la morfologia i el lèxic. Tota la informació recopil•lada es contrasta amb la bibliografia consultada. En segon lloc, s’extreuen totes aquelles conclusions que permeten assolir l’objectiu principal de la recerca, és a dir, situar el parlar en un dialecte i un subdialecte catalans. A més a més, amb la realització d’aquest estudi s’ha pogut constatar el fenomen actual de la desaparició progressiva de molts trets de la varietat dialectal a la qual pertany el parlar analitzat, que és el pallarès.
Resumo:
GREC CLÀSSIC. Curs d’autoaprenentatge introductori. Dos anys. El curs consta de tretze lliçons i d’una gramàtica estructurada en quatre blocs: 1. Alfabet i diacrítics, fenòmens fonètics. 2. Morfologia nominal. 3. Morfologia verbal. 4. Infinitius i participis. Sintaxi de les oracions. L’estructura de les lliçons, excepte la primera que inclou l’alfabet, combina qüestions de morfologia nominal i verbal o de morfologia i sintaxi, tal com acostumen a fer els mètodes d’aprenentatge de les llengües modernes. Cada lliçó formula els seus objectius específics, desenvolupa la seva part de continguts i conclou amb uns exercicis pràctics d’autocorrecció. La Gramàtica, per la seva banda, està organitzada com un manual elemental de llengua grega on la persona que segueixi el curs pot ampliar la seva formació i consultar els dubtes. Parts complementàries: presentació on es formulen els objectius, la metodologia i les instruccions concretes per a seguir el curs; terminologia on s’ordenen alfabèticament els conceptes gramaticals emprats en el curs; avaluació final per tal que, més enllà dels exercicis de cada lliçó, hom pugui comprovar si ha assolit els coneixements previstos o si, en cas de no arribar-hi, ha de reforçar algunes lliçons o parts de les mateixes abans de tornar a fer l’avaluació; lèxic, ordenat alfabèticament per tal que hom pugui conèixer el significat dels mots emprats en el curs sense necessitat de consultar un diccionari. A la part d’avaluació hi ha també una enquesta per tal que les persones que segueixin el curs en facin una valoració i ens permetin corregir els seus dèficits o mancances. El projecte 2007MQD00178 ha continuat ampliant els dossiers electrònics, els exercicis autoavaluatius del seu web www.ub.edu/filologiagrega/electra i ha dedicat una part important de la seva tasca a elaborar els continguts i els programes de les assignatures dels dos primers cursos del nou grau de Filologia Clàssica.
Resumo:
El projecte de tesi doctoral que estem portant a terme requereix una mitjana de quatre anys de durada. A hores d‟ara, nou mesos després de la concessió de l‟ajut, estem treballant per a la defensa del projecte, que farem en el primer trimestre de l‟any 2012. El nostre treball pertany al camp de la lingüística i està directament relacionat amb la lexicografia i la semàntica. L‟objectiu final és el disseny de materials per a la traducció i l‟ensenyament de llengües. L‟ús de lèxic és el tema escollit. D‟una banda, volem esbrinar com autors consagrats de literatura utilitzen el llenguatge. Per això, mirem de diferenciar el que es consideran usos “normals” del llenguatge del que serien “explotacions”, especialmente aquelles relacionades amb l‟extensió de significat i, més específicament, amb la metáfora. D‟altra banda, perseguim fer una proposta de material destinat tant a l‟ensenyament de llengües estrangeres com a la traducció (els idiomas amb els quals treballem són anglès i espanyol). Les teories que utilitzem en la nostra recerca són la teoria del lèxic generatiu (de J. Pustejovsky) i la teoria de normes i explotacions (de P. Hanks). Encara no hem decidit quins autors estudiarem, tot i estar consultant obres d‟escriptors com V. S. Naipaul i J. Marías. El treball de recerca desenvolupat fins avui ha consistit en la redacció de la memòria final de màster (Màster Oficial en Formació de Professors d‟Espanyol com a Llengua Estrangera) en què s‟estudiava el tractament de la metáfora en diferents diccionaris d‟ELE i d‟EFL i en la cerca, lectura i selección de documents que podran ajudar-nos en la nostra empresa.
Resumo:
Acquiring lexical information is a complex problem, typically approached by relying on a number of contexts to contribute information for classification. One of the first issues to address in this domain is the determination of such contexts. The work presented here proposes the use of automatically obtained FORMAL role descriptors as features used to draw nouns from the same lexical semantic class together in an unsupervised clustering task. We have dealt with three lexical semantic classes (HUMAN, LOCATION and EVENT) in English. The results obtained show that it is possible to discriminate between elements from different lexical semantic classes using only FORMAL role information, hence validating our initial hypothesis. Also, iterating our method accurately accounts for fine-grained distinctions within lexical classes, namely distinctions involving ambiguous expressions. Moreover, a filtering and bootstrapping strategy employed in extracting FORMAL role descriptors proved to minimize effects of sparse data and noise in our task.
Resumo:
Language Resources are a critical component for Natural Language Processing applications. Throughout the years many resources were manually created for the same task, but with different granularity and coverage information. To create richer resources for a broad range of potential reuses, nformation from all resources has to be joined into one. The hight cost of comparing and merging different resources by hand has been a bottleneck for merging existing resources. With the objective of reducing human intervention, we present a new method for automating merging resources. We have addressed the merging of two verbs subcategorization frame (SCF) lexica for Spanish. The results achieved, a new lexicon with enriched information and conflicting information signalled, reinforce our idea that this approach can be applied for other task of NLP.
Resumo:
Subjective language detection is one of the most important challenges in Sentiment Analysis. Because of the weight and frequency in opinionated texts, adjectives are considered a key piece in the opinion extraction process. These subjective units are more and more frequently collected in polarity lexicons in which they appear annotated with their prior polarity. However, at the moment, any polarity lexicon takes into account prior polarity variations across domains. This paper proves that a majority of adjectives change their prior polarity value depending on the domain. We propose a distinction between domain dependent and romain independent adjectives. Moreover, our analysis led us to propose a further classification related to subjectivity degree: constant, mixed and highly subjective adjectives. Following this classification, polarity values will be a better support for Sentiment Analysis.