44 resultados para Alinhamento lexical
em Consorci de Serveis Universitaris de Catalunya (CSUC), Spain
Resumo:
Acquiring lexical information is a complex problem, typically approached by relying on a number of contexts to contribute information for classification. One of the first issues to address in this domain is the determination of such contexts. The work presented here proposes the use of automatically obtained FORMAL role descriptors as features used to draw nouns from the same lexical semantic class together in an unsupervised clustering task. We have dealt with three lexical semantic classes (HUMAN, LOCATION and EVENT) in English. The results obtained show that it is possible to discriminate between elements from different lexical semantic classes using only FORMAL role information, hence validating our initial hypothesis. Also, iterating our method accurately accounts for fine-grained distinctions within lexical classes, namely distinctions involving ambiguous expressions. Moreover, a filtering and bootstrapping strategy employed in extracting FORMAL role descriptors proved to minimize effects of sparse data and noise in our task.
Resumo:
This article reports on the results of the research done towards the fully automatically merging of lexical resources. Our main goal is to show the generality of the proposed approach, which have been previously applied to merge Spanish Subcategorization Frames lexica. In this work we extend and apply the same technique to perform the merging of morphosyntactic lexica encoded in LMF. The experiments showed that the technique is general enough to obtain good results in these two different tasks which is an important step towards performing the merging of lexical resources fully automatically.
Resumo:
The work we present here addresses cue-based noun classification in English and Spanish. Its main objective is to automatically acquire lexical semantic information by classifying nouns into previously known noun lexical classes. This is achieved by using particular aspects of linguistic contexts as cues that identify a specific lexical class. Here we concentrate on the task of identifying such cues and the theoretical background that allows for an assessment of the complexity of the task. The results show that, despite of the a-priori complexity of the task, cue-based classification is a useful tool in the automatic acquisition of lexical semantic classes.
Resumo:
Lexical Resources are a critical component for Natural Language Processing applications. However, the high cost of comparing and merging different resources has been a bottleneck to have richer resources with a broad range of potential uses for a significant number of languages.With the objective of reducing cost byeliminating human intervention, we present a new method for automating the merging of resources,with special emphasis in what we call the mapping step. This mapping step, which converts the resources into a common format that allows latter the merging, is usually performed with huge manual effort and thus makes the whole process very costly. Thus, we propose a method to perform this mapping fully automatically. To test our method, we have addressed the merging of two verb subcategorization frame lexica for Spanish, The resultsachieved, that almost replicate human work, demonstrate the feasibility of the approach.
Resumo:
Lexical Resources are a critical component for Natural Language Processing applications. However, the high cost of comparing and merging different resources has been a bottleneck to obtain richer resources and a broader range of potential uses for a significant number of languages. With the objective of reducing cost by eliminating human intervention, we present a new method towards the automatic merging of resources. This method includes both, the automatic mapping of resources involved to a common format and merging them, once in this format. This paper presents how we have addressed the merging of two verb subcategorization frame lexica for Spanish, but our method will be extended to cover other types of Lexical Resources. The achieved results, that almost replicate human work, demonstrate the feasibility of the approach.
Resumo:
In this paper we provide a formal account for underapplication of vowel reduction to schwa in Majorcan Catalan loanwords and learned words. On the basis of the comparison of these data with those concerning productive derivation and verbal inflection, which show analogous patterns, in this paper we also explore the existing and not yet acknowledged correlation between those processes that exhibit a particular behaviour in the loanword phonology with respect to the native phonology of the language, those processes that show lexical exceptions and those processes that underapply due to morphological reasons. In light of the analysis of the very same data and taking into account the aforementioned correlation, we show how there might exist a natural diachronic relation between two kinds of Optimality Theory constraints which are commonly used but, in principle, mutually exclusive: positional faithfulness and contextual markedness constraints. Overall, phonological productivity is proven to be crucial in three respects: first, as a context of the grammar, given that «underapplication» is systematically found in what we call the productive phonology of the dialect (including loanwords, learned words, productive derivation and verbal inflection); second, as a trigger or blocker of processes, in that the productivity or the lack of productivity of a specific process or constraint in the language is what explains whether it is challenged or not in any of the depicted situations, and, third, as a guiding principle which can explain the transition from the historical to the synchronic phonology of a linguistic variety.
Resumo:
It has been shown that bilinguals are disadvantaged on some language production tasks when compared to monolinguals. The present study investigated the effects of bilingualism on lexical retrieval in single and multi-word utterances. To this purpose, we tested three groups of 35 participants each (Spanish monolinguals, highly proficient Spanish-Catalan and Catalan-Spanish bilinguals) in two sets of picture naming experiments. In the first one, participants were asked to name black-and-white object drawings by single words. In the second one, participants had to name colored pictures with determiner adjectival noun phrases (NP) like “the red car”. In both sets of experiments, bilinguals were slower than monolinguals, even when naming in their dominant language. We also examined the articulatory durations of both single word and NP productions for this bilingual disadvantage. Furthermore, response onset times and durations of all groups in both experiments were affected by lexical variables of the picture names. These results are consistent with previous studies (Ivanova & Costa, 2008, Gollan et al., 2005) showing a bilingual disadvantage in single word production and extend these findings to multiword-utterances and response durations. They also support the claim that articulatory processes are influenced by lexical variables.
Resumo:
This PhD project aims to study paraphrasing, initially understood as the different ways in which the same content is expressed linguistically. We will go into that concept in depth trying to define and delimit its scope more accurately. In that sense, we also aim to discover which kind of structures and phenomena it covers. Although there exist some paraphrasing typologies, the great majority of them only apply to English, and focus on lexical and syntactic transformations. Our intention is to go further into this subject and propose a paraphrasing typology for Spanish and Catalan combining lexical, syntactic, semantic and pragmatic knowledge. We apply a bottom-up methodology trying to collect evidence of this phenomenon from the data. For this purpose, we are initially using the Spanish Wikipedia as our corpus. The internal structure of this encyclopedia makes it a good resource for extracting paraphrasing examples for our investigation. This empirical approach will be complemented with the use of linguistic knowledge, and by comparing and contrasting our results to previously proposed paraphrasing typologies in order to enlarge the possible paraphrasing forms found in our corpus. The fact that the same content can be expressed in many different ways presents a major challenge for Natural Language Processing (NLP) applications. Thus, research on paraphrasing has recently been attracting increasing attention in the fields of NLP and Computational Linguistics. The results obtained in this investigation would be of great interest in many of these applications.
Resumo:
El objetivo de la presente investigación es analizar el tratamiento que algunos de los diccionarios generales monolingües del español aparecidos en los últimos diez años han dado al fenómeno de las colocaciones léxicas, a saber, aquellas combinaciones de palabras que, desde el punto de vista de la norma, presentan ciertas restricciones combinatorias, esencialmente de carácter semántico, impuestas por el uso (Corpas: 1996). Los repertorios objeto de análisis han sido: el "Diccionario Salamanca de la lengua española", dirigido por Juan Gutiérrez (1996); el "Diccionario del español actual", de Manuel Seco, Olimpia Andrés y Gabino Ramos (1999); la vigésima segunda edición del diccionario de la RAE (2001); y el "Gran diccionario de uso del español actual. Basado en el corpus Cumbre", dirigido por Aquilino Sánchez (2001). Nuestro estudio se ha fundamentado en un corpus de 52 colocaciones léxicas confeccionado a partir del análisis de las subentradas contenidas en la letra "b" de cada uno de los diccionarios seleccionados. Posteriormente, hemos examinado las entradas correspondientes a cada uno de los elementos que constituyen la colocación (base y colocativo) con el fin de observar si los diccionarios estudiados dan cuenta de estas mismas combinaciones en otras partes del artículo lexicográfico, como son las definiciones o los ejemplos. A la hora de analizar la información lexicográfica hemos centrado nuestra atención en cuatro aspectos: a) la información contenida en las páginas preliminares de cada una de las obras; b) la ubicación de las colocaciones en el artículo lexicográfico; c) la asignación de la colocación a un artículo determinado; y d) la marcación gramatical.
Resumo:
El projecte ha permès finançar el suport tècnic necessari per a poder desenvolupar materials informatitzats corresponents a activitats teòrico-pràctiques de l’assignatura troncal de la llicenciatura de Psicologia (actualment també en el Grau) “Percepció i Atenció”. Els materials desenvolupats corresponen a diferents punts del programa de l’assignatura i són els següents: demostració de la tècnica d’ombrejat per l’anàlisi de l’atenció focalitzada; parpelleig atencional en sèries de presentacions ràpides d’informació visual (RSVP); canvis encoberts de l’atenció i el mecanisme d’inhibició de retorn; efectes dels filtrats sobre la percepció de la parla i la música; il·lusions auditives i els principis d’organització de la informació sonora complexa; la percepció categòrica dels sons de la parla i la naturalesa continua del processament lèxic (paradigma d’obertura successiva o gating). Per totes aquelles activitats amb continguts de llenguatge, s’han desenvolupat dues versions equivalents, catalana i castellana, per permetre que els estudiants fessin la pràctica en la seva llengua dominant. A la primera fase del projecte, al llarg del curs 2006-07, es van preparar els materials i la programació de les diferents pràctiques i es van poder identificar alguns problemes que es van solucionar posteriorment. En el curs 2007-08 totes les activitats de pràctiques ja es van fer accessibles als estudiants (Plataforma Moodle, Campus Virtual) i la valoració sobre el seu funcionament, feta pels estudiants mitjançant qüestionaris, va ser satisfactòria en més d’un 95% dels casos (els únics problemes detectats estaven relacionats amb les característiques dels ordinadors del usuaris i del navegador utilitzat per accedir als materials). La valoració de les activitats per part dels estudiants va ser globalment positiva i, en el seu ús continuat al llarg dels cursos 2008-09 i 2009-10, s’ha observat una participació creixent (accés voluntari a les activitats) i un aprofitament millor de la informació presentada, que es tradueix en millores en les puntuacions obtingudes en les avaluacions de l'assignatura.
Resumo:
En aquest treball es realitza una descripció dels llenguatges que constitueixen la base de la construcció de la Web Semàntica: l'XML, l'RDF i l'OWL. En concret, es realitza un estudi de la base de dades lèxica WordNet. Finalment, es presenta el disseny i la implementació d'una ontologia per representar les relacions lèxiques dels mots del català. A partir d'aquesta ontologia es crea una petita base de dades basada en la temàtica dels animals de companyia. Aquest cas pràctic permet extreure conclusions sobre els avantatges d'introduir metadades en els documents electrònics, i sobre les facilitats que ofereixen les aplicacions actuals pel desenvolupament d'aquest tipus de documents.
Resumo:
Peer-reviewed
Resumo:
Peer-reviewed
Resumo:
Esta investigación es una tesis doctoral que tiene como objetivo el estudio de la evolución semántica de los verbos entrar y salir desde el punto de vista diacrónico en español medieval mediante la aplicación de las herramientas teóricas proporcionadas por la Lingüística cognitiva. A través de un corpus de documentaciones extraídas del Corpus del nuevo diccionario histórico del español de la Real Academia Española y que abarcan el intervalo desde el siglo XIII al XV, se analizan los valores semánticos de ambos verbos con la finalidad de determinar cómo fue desarrollándose su uso, qué significados generaron otros nuevos y cómo se relacionan entre sí los significados de un mismo verbo. Para llevar a cabo esta tarea se ha partido de la Teoría de los prototipos aplicada a la categorización léxica, así como de la Teoría de la metáfora y la metonimia. Asimismo, se ha analizado la estructura sintáctica de cada ejemplo, la selección léxica de los argumentos verbales y la tradición discursiva a la que pertenece cada documentación. De esta forma, es posible, no sólo describir la evolución semántica de ambos verbos, sino completar la información sobre las causas de su desarrollo diacrónico. Finalmente, se establecen las relaciones semánticas de carácter diacrónico existentes entre ambos verbos en tanto que miembros de un mismo grupo léxico, los verbos de movimiento, y se corrobora su vinculación más allá de una relación de antonimia de tipo primario.
Resumo:
Los hablantes bilingües tienen un acceso al léxico más lento y menos robusto que los monolingües, incluso cuando hablan en su lengua materna y dominante. Este fenómeno, comúnmente llamado “la desventaja bilingüe” también se observa en hablantes de una segunda lengua en comparación con hablantes de una primera lengua. Una causa que posiblemente contribuya a estas desventajas es el uso de control inhibitorio durante la producción del lenguaje: la inhibición de palabras coactivadas de la lengua actualmente no en uso puede prevenir intrusiones de dicha lengua, pero al mismo tiempo ralentizar la producción del lenguaje. El primer objetivo de los estudios descritos en este informe era testear esta hipótesis mediante diferentes predicciones generadas por teorías de control inhibitorio del lenguaje. Un segundo objetivo era investigar la extensión de la desventaja bilingüe dentro y fuera de la producción de palabras aisladas, así como avanzar en el conocimiento de las variables que la modulan. En lo atingente al primer objetivo, la evidencia obtenida es incompatible con un control inhibitorio global, desafiando la idea de mecanismos específicos en el hablante bilingüe utilizados para la selección léxica. Esto implica que una explicación común para el control de lenguaje y la desventaja bilingüe en el acceso al léxico es poco plausible. En cuanto al segundo objetivo, los resultados muestran que (a) la desventaja bilingüe no tiene un impacto al acceso a la memoria; (b) la desventaja bilingüe extiende a la producción del habla conectada; y (c) similitudes entre lenguas a diferentes niveles de representación así como la frecuencia de uso son factores que modulan la desventaja bilingüe.