997 resultados para diachronic linguistics
Resumo:
In this paper we present ClInt (Clinical Interview), a bilingual Spanish-Catalan spoken corpus that contains 15 hours of clinical interviews. It consists of audio files aligned with multiple-level transcriptions comprising orthographic, phonetic and morphological information, as well as linguistic and extralinguistic encoding. This is a previously non-existent resource for these languages and it offers a wide-ranging exploitation potential in a broad variety of disciplines such as Linguistics, Natural Language Processing and related fields.
Resumo:
CoCo is a collaborative web interface for the compilation of linguistic resources. In this demo we are presenting one of its possible applications: paraphrase acquisition.
Resumo:
This article introduces EsPal: a Web-accessible repository containing a comprehensive set of properties of Spanish words. EsPal is based on an extensible set of data sources, beginning with a 300 million token written database and a 460 million token subtitle database. Properties available include word frequency, orthographic structure and neighborhoods, phonological structure and neighborhoods, and subjective ratings such as imageability. Subword structure properties are also available in terms of bigrams and trigrams, bi-phones, and bi-syllables. Lemma and part-of-speech information and their corresponding frequencies are also indexed. The website enables users to either upload a set of words to receive their properties, or to receive a set of words matching constraints on the properties. The properties themselves are easily extensible and will be added over time as they become available. It is freely available from the following website: http://www.bcbl.eu/databases/espal
Resumo:
This article examines the mainstream categorical definition of coreference as "identity of reference." It argues that coreference is best handled when identity is treated as a continuum, ranging from full identity to non-identity, with room for near-identity relations to explain currently problematic cases. This middle ground is needed to account for those linguistic expressions in real text that stand in relations that are neither full coreference nor non-coreference, a situation that has led to contradictory treatment of cases in previous coreference annotation efforts. We discuss key issues for coreference such as conceptual categorization, individuation, criteria of identity, and the discourse model construct. We redefine coreference as a scalar relation between two (or more) linguistic expressions that refer to discourse entities considered to be at the same granularity level relevant to the linguistic and pragmatic context. We view coreference relations in terms of mental space theory and discuss a large number of real life examples that show near-identity at different degrees.
Resumo:
Lexical diversity measures are notoriously sensitive to variations of sample size and recent approaches to this issue typically involve the computation of the average variety of lexical units in random subsamples of fixed size. This methodology has been further extended to measures of inflectional diversity such as the average number of wordforms per lexeme, also known as the mean size of paradigm (MSP) index. In this contribution we argue that, while random sampling can indeed be used to increase the robustness of inflectional diversity measures, using a fixed subsample size is only justified under the hypothesis that the corpora that we compare have the same degree of lexematic diversity. In the more general case where they may have differing degrees of lexematic diversity, a more sophisticated strategy can and should be adopted. A novel approach to the measurement of inflectional diversity is proposed, aiming to cope not only with variations of sample size, but also with variations of lexematic diversity. The robustness of this new method is empirically assessed and the results show that while there is still room for improvement, the proposed methodology considerably attenuates the impact of lexematic diversity discrepancies on the measurement of inflectional diversity.
Resumo:
Aquest treball pretén ampliar els estudis relacionats amb la lingüística cognitiva en la llengua catalana, en aquest cas en el camp d'experiència de la publicitat televisiva, i complementar els existents sobre el llenguatge publicitari i la comunicació dels mitjans audiovisuals.
Resumo:
Este artículo describe investigación sobre los efectos de la desambiguación morfosintáctica usada como un preproceso de un analizador sint´actico profundo basado en HPSG, en el contexto del desarrollo de un treebank del español de código abierto, en el entorno de DELPH-IN. La anotación treebank se realiza manualmente tomando las decisiones apropiadas entre las opciones propuestas por el sistema y ordenadas por un módulo estadístico. Los experimentos presentados muestran que el uso de un etiquetador reduce la ambigüedad de las frases, y contribuye a limitar la cantidad de frases cuyo análisis sobrepasa a el límite de tiempo, y ayuda a al m´odulo estadístico a clasificar el árbol correcto entre los n mejores. Por un lado, nuestros resultados validan los beneficios ya reportados en la literatura de tal preproceso de análisis profundo con respecto a la velocidad, cobertura y precisión. Por otro lado, proponemos una estrategia basada en existentes herramientas de código abierto y recursos para desarrollar con alta consitencia treebanks de sintaxis profunda para idiomas con limitada disponibilidad de recursos lingüísticos.
Resumo:
En aquest article presentem CLARIN (Common Language Resources and Technologies), un projecte de col·laboració europea a gran escala l"objectiu del qual és potenciar l"ús d"instruments tecnològics en la recerca en els àmbits de les humanitats i les ciències socials. CLARIN és un dels trenta-cinc projectes seleccionats pel Comitè ESFRI (European Strategy Forum on Research Infraestructures) per a la llista de les infraestructures que s"han d"haver construït, per la seva importància per a la recerca, d"aquí a deu anys. CLARIN vol portar a les humanitats i a les ciències socials els beneficis de l"accés compartit i en col·laboració a recursos digitals, i també l"ús del còmput intensiu amb instruments específics d"anàlisi i explotació per a l"accés intel·ligent a grans bases de dades. Amb aquest objectiu, CLARIN crearà la infraestructura necessària per a poder donar un accés genèric a grans bancs de dades i als instruments d"anàlisi i explotació d"aquestes dades mitjançant la utilització de tecnologia. Per a això implementarà, en una estructura de xarxa grid, i mitjançant tecnologia de serveis web i de web semàntic, una única interfície d"accés a les dades i als instruments d"anàlisi, i també a eines de processament i altres serveis necessaris. Aquesta interfície, pel fet de ser dissenyada per a servir els objectius comuns de la recerca en humanitats i ciències socials, en facilitarà l"ús a investigadors de diferents àmbits sense necessitat de tenir coneixements sobre les tecnologies implicades.
Resumo:
En este artículo presentamos el desarrollo de un nuevo recurso de código abierto para el español: el treebank Tibidabo. La anotación se está llevando a cabo de forma semiautomática en la que, en primer lugar, el corpus es analizado automaticamente con una gramática simbólica del español basada en HPSG e implementada en el sistema Linguistic Knowledge Builder, y, en segundo lugar, los resultados del proceso de análisis se desambiguan manualmente. La existencia del treebank Tibidabo nos permitirá futuros trabajos de investigación para el desarrollo y evaluación de una arquitectura híbrida que combine métodos simbólicos y estadísticos para el PLN, así como investigaciones orientadas a la hibridización de técnicas de bajo y alto nivel para el PLN.
Resumo:
El objetivo de este trabajo es reflexionar acerca del empleo de los corpus informatizados. El caso que presentamos está vinculado a un proyecto de I+D sobre la gramaticalización de perífrasis verbales (GRAPEVERBA). Para llevar a cabo este estudio, hemos extraído las ocurrencias de los dos corpus académicos, CORDE and CREA. La falta de una lematización y de un etiquetado en ambos corpus nos ha planteado un problema de difícil solución, puesto que el número de ejemplos obtenido resulta excesivamente elevado. Otro problema tiene que ver con las ediciones textuales de las obras vertidas en los corpus de la Academia, de manera especial en el CORDE. Con cierta frecuencia, estas ediciones no son contemporáneas de los manuscritos originales, lo que compromete seriamente las conclusiones que se extraen acerca de la gramaticalización de algunas perífrasis verbales, por ejemplo de tener + (a/de) + infinitivo.
Resumo:
La incursión de nuevas disciplinas en la lingüística, tales como la sociología, el cognitivismo, la antropología, etc., han permitido encontrar diversos puntos de unión entre las investigaciones realizadas desde cada una de estas disciplinas. Ello resulta de gran interés para los estudios de variación y contacto de lenguas en los que, aparte de los factores lingüísticos tradicionales, intervienen significativamente otros de índole cognitiva, sociocultural y pragmático-discursiva.Partiendo de este marco teórico plural, y desde la perspectiva del contacto de lenguas, en las siguientes páginas se analizan las expresiones prospectivas del español. Concretamente, se pretende aseverar la hipótesis de la influencia del catalán sobre el español en la expresión formal del futuro,1 pues parece que en las zonas catalanohablantes la frecuencia de uso del futuro sintético (FS) y del futuro analítico (FA) para hablar de eventos venideros es opuesta al empleo que de estas mismas formas suele hacerse en el resto de zonas hispanohablantes.2 La idea parte del hecho de que, pese a que en catalán también alternan las dos estructuras —el FS y la perífrasis prospectiva «ANAR A+Infinitivo»—, el menor rendimiento de la perífrasis en catalán y, por tanto, su menor grado de gramaticalización, parece incidir en la frecuencia de uso de la perífrasis en español «IR A+Infinitivo».
Resumo:
Catalan has drawn considerable attention given its impressive institutional support and increased usage since the restoration of the Generalitat of Catalonia. We report a study on 112 Catalan-speaking students who were administered the"subjective vitality questionnaire". Results show (and these are compared with reports 20 years ago) that it continues to gain momentum and status, even with the International stature of Spanish. The theoretical and pragmatic significance of these findings are discussed in terms of vitality"s role in shaping Language choices (Catalan vs. Castilian) in everyday communication as well as the societal level in forging Language policies for communicating in Catalan in business, political, educational, and media arenas