958 resultados para 380200 Linguistics


Relevância:

10.00% 10.00%

Publicador:

Resumo:

This article introduces EsPal: a Web-accessible repository containing a comprehensive set of properties of Spanish words. EsPal is based on an extensible set of data sources, beginning with a 300 million token written database and a 460 million token subtitle database. Properties available include word frequency, orthographic structure and neighborhoods, phonological structure and neighborhoods, and subjective ratings such as imageability. Subword structure properties are also available in terms of bigrams and trigrams, bi-phones, and bi-syllables. Lemma and part-of-speech information and their corresponding frequencies are also indexed. The website enables users to either upload a set of words to receive their properties, or to receive a set of words matching constraints on the properties. The properties themselves are easily extensible and will be added over time as they become available. It is freely available from the following website: http://www.bcbl.eu/databases/espal

Relevância:

10.00% 10.00%

Publicador:

Resumo:

This article examines the mainstream categorical definition of coreference as "identity of reference." It argues that coreference is best handled when identity is treated as a continuum, ranging from full identity to non-identity, with room for near-identity relations to explain currently problematic cases. This middle ground is needed to account for those linguistic expressions in real text that stand in relations that are neither full coreference nor non-coreference, a situation that has led to contradictory treatment of cases in previous coreference annotation efforts. We discuss key issues for coreference such as conceptual categorization, individuation, criteria of identity, and the discourse model construct. We redefine coreference as a scalar relation between two (or more) linguistic expressions that refer to discourse entities considered to be at the same granularity level relevant to the linguistic and pragmatic context. We view coreference relations in terms of mental space theory and discuss a large number of real life examples that show near-identity at different degrees.

Relevância:

10.00% 10.00%

Publicador:

Resumo:

Lexical diversity measures are notoriously sensitive to variations of sample size and recent approaches to this issue typically involve the computation of the average variety of lexical units in random subsamples of fixed size. This methodology has been further extended to measures of inflectional diversity such as the average number of wordforms per lexeme, also known as the mean size of paradigm (MSP) index. In this contribution we argue that, while random sampling can indeed be used to increase the robustness of inflectional diversity measures, using a fixed subsample size is only justified under the hypothesis that the corpora that we compare have the same degree of lexematic diversity. In the more general case where they may have differing degrees of lexematic diversity, a more sophisticated strategy can and should be adopted. A novel approach to the measurement of inflectional diversity is proposed, aiming to cope not only with variations of sample size, but also with variations of lexematic diversity. The robustness of this new method is empirically assessed and the results show that while there is still room for improvement, the proposed methodology considerably attenuates the impact of lexematic diversity discrepancies on the measurement of inflectional diversity.

Relevância:

10.00% 10.00%

Publicador:

Resumo:

Aquest treball pretén ampliar els estudis relacionats amb la lingüística cognitiva en la llengua catalana, en aquest cas en el camp d'experiència de la publicitat televisiva, i complementar els existents sobre el llenguatge publicitari i la comunicació dels mitjans audiovisuals.

Relevância:

10.00% 10.00%

Publicador:

Resumo:

Este artículo describe investigación sobre los efectos de la desambiguación morfosintáctica usada como un preproceso de un analizador sint´actico profundo basado en HPSG, en el contexto del desarrollo de un treebank del español de código abierto, en el entorno de DELPH-IN. La anotación treebank se realiza manualmente tomando las decisiones apropiadas entre las opciones propuestas por el sistema y ordenadas por un módulo estadístico. Los experimentos presentados muestran que el uso de un etiquetador reduce la ambigüedad de las frases, y contribuye a limitar la cantidad de frases cuyo análisis sobrepasa a el límite de tiempo, y ayuda a al m´odulo estadístico a clasificar el árbol correcto entre los n mejores. Por un lado, nuestros resultados validan los beneficios ya reportados en la literatura de tal preproceso de análisis profundo con respecto a la velocidad, cobertura y precisión. Por otro lado, proponemos una estrategia basada en existentes herramientas de código abierto y recursos para desarrollar con alta consitencia treebanks de sintaxis profunda para idiomas con limitada disponibilidad de recursos lingüísticos.

Relevância:

10.00% 10.00%

Publicador:

Resumo:

En aquest article presentem CLARIN (Common Language Resources and Technologies), un projecte de col·laboració europea a gran escala l"objectiu del qual és potenciar l"ús d"instruments tecnològics en la recerca en els àmbits de les humanitats i les ciències socials. CLARIN és un dels trenta-cinc projectes seleccionats pel Comitè ESFRI (European Strategy Forum on Research Infraestructures) per a la llista de les infraestructures que s"han d"haver construït, per la seva importància per a la recerca, d"aquí a deu anys. CLARIN vol portar a les humanitats i a les ciències socials els beneficis de l"accés compartit i en col·laboració a recursos digitals, i també l"ús del còmput intensiu amb instruments específics d"anàlisi i explotació per a l"accés intel·ligent a grans bases de dades. Amb aquest objectiu, CLARIN crearà la infraestructura necessària per a poder donar un accés genèric a grans bancs de dades i als instruments d"anàlisi i explotació d"aquestes dades mitjançant la utilització de tecnologia. Per a això implementarà, en una estructura de xarxa grid, i mitjançant tecnologia de serveis web i de web semàntic, una única interfície d"accés a les dades i als instruments d"anàlisi, i també a eines de processament i altres serveis necessaris. Aquesta interfície, pel fet de ser dissenyada per a servir els objectius comuns de la recerca en humanitats i ciències socials, en facilitarà l"ús a investigadors de diferents àmbits sense necessitat de tenir coneixements sobre les tecnologies implicades.

Relevância:

10.00% 10.00%

Publicador:

Resumo:

En este artículo presentamos el desarrollo de un nuevo recurso de código abierto para el español: el treebank Tibidabo. La anotación se está llevando a cabo de forma semiautomática en la que, en primer lugar, el corpus es analizado automaticamente con una gramática simbólica del español basada en HPSG e implementada en el sistema Linguistic Knowledge Builder, y, en segundo lugar, los resultados del proceso de análisis se desambiguan manualmente. La existencia del treebank Tibidabo nos permitirá futuros trabajos de investigación para el desarrollo y evaluación de una arquitectura híbrida que combine métodos simbólicos y estadísticos para el PLN, así como investigaciones orientadas a la hibridización de técnicas de bajo y alto nivel para el PLN.

Relevância:

10.00% 10.00%

Publicador:

Resumo:

El objetivo de este trabajo es reflexionar acerca del empleo de los corpus informatizados. El caso que presentamos está vinculado a un proyecto de I+D sobre la gramaticalización de perífrasis verbales (GRAPEVERBA). Para llevar a cabo este estudio, hemos extraído las ocurrencias de los dos corpus académicos, CORDE and CREA. La falta de una lematización y de un etiquetado en ambos corpus nos ha planteado un problema de difícil solución, puesto que el número de ejemplos obtenido resulta excesivamente elevado. Otro problema tiene que ver con las ediciones textuales de las obras vertidas en los corpus de la Academia, de manera especial en el CORDE. Con cierta frecuencia, estas ediciones no son contemporáneas de los manuscritos originales, lo que compromete seriamente las conclusiones que se extraen acerca de la gramaticalización de algunas perífrasis verbales, por ejemplo de tener + (a/de) + infinitivo.

Relevância:

10.00% 10.00%

Publicador:

Resumo:

La incursión de nuevas disciplinas en la lingüística, tales como la sociología, el cognitivismo, la antropología, etc., han permitido encontrar diversos puntos de unión entre las investigaciones realizadas desde cada una de estas disciplinas. Ello resulta de gran interés para los estudios de variación y contacto de lenguas en los que, aparte de los factores lingüísticos tradicionales, intervienen significativamente otros de índole cognitiva, sociocultural y pragmático-discursiva.Partiendo de este marco teórico plural, y desde la perspectiva del contacto de lenguas, en las siguientes páginas se analizan las expresiones prospectivas del español. Concretamente, se pretende aseverar la hipótesis de la influencia del catalán sobre el español en la expresión formal del futuro,1 pues parece que en las zonas catalanohablantes la frecuencia de uso del futuro sintético (FS) y del futuro analítico (FA) para hablar de eventos venideros es opuesta al empleo que de estas mismas formas suele hacerse en el resto de zonas hispanohablantes.2 La idea parte del hecho de que, pese a que en catalán también alternan las dos estructuras —el FS y la perífrasis prospectiva «ANAR A+Infinitivo»—, el menor rendimiento de la perífrasis en catalán y, por tanto, su menor grado de gramaticalización, parece incidir en la frecuencia de uso de la perífrasis en español «IR A+Infinitivo».

Relevância:

10.00% 10.00%

Publicador:

Resumo:

Catalan has drawn considerable attention given its impressive institutional support and increased usage since the restoration of the Generalitat of Catalonia. We report a study on 112 Catalan-speaking students who were administered the"subjective vitality questionnaire". Results show (and these are compared with reports 20 years ago) that it continues to gain momentum and status, even with the International stature of Spanish. The theoretical and pragmatic significance of these findings are discussed in terms of vitality"s role in shaping Language choices (Catalan vs. Castilian) in everyday communication as well as the societal level in forging Language policies for communicating in Catalan in business, political, educational, and media arenas

Relevância:

10.00% 10.00%

Publicador:

Resumo:

In this thesis we study the field of opinion mining by giving a comprehensive review of the available research that has been done in this topic. Also using this available knowledge we present a case study of a multilevel opinion mining system for a student organization's sales management system. We describe the field of opinion mining by discussing its historical roots, its motivations and applications as well as the different scientific approaches that have been used to solve this challenging problem of mining opinions. To deal with this huge subfield of natural language processing, we first give an abstraction of the problem of opinion mining and describe the theoretical frameworks that are available for dealing with appraisal language. Then we discuss the relation between opinion mining and computational linguistics which is a crucial pre-processing step for the accuracy of the subsequent steps of opinion mining. The second part of our thesis deals with the semantics of opinions where we describe the different ways used to collect lists of opinion words as well as the methods and techniques available for extracting knowledge from opinions present in unstructured textual data. In the part about collecting lists of opinion words we describe manual, semi manual and automatic ways to do so and give a review of the available lists that are used as gold standards in opinion mining research. For the methods and techniques of opinion mining we divide the task into three levels that are the document, sentence and feature level. The techniques that are presented in the document and sentence level are divided into supervised and unsupervised approaches that are used to determine the subjectivity and polarity of texts and sentences at these levels of analysis. At the feature level we give a description of the techniques available for finding the opinion targets, the polarity of the opinions about these opinion targets and the opinion holders. Also at the feature level we discuss the various ways to summarize and visualize the results of this level of analysis. In the third part of our thesis we present a case study of a sales management system that uses free form text and that can benefit from an opinion mining system. Using the knowledge gathered in the review of this field we provide a theoretical multi level opinion mining system (MLOM) that can perform most of the tasks needed from an opinion mining system. Based on the previous research we give some hints that many of the laborious market research tasks that are done by the sales force, which uses this sales management system, can improve their insight about their partners and by that increase the quality of their sales services and their overall results.

Relevância:

10.00% 10.00%

Publicador:

Resumo:

Aquest document conté el text Presentació, una introducció al CD del Corpus Oral Dialectal (COD). El COD és un component del Corpus de Català Contemporani de la Universitat de Barcelona (CCCUB), un arxiu de corpus de llengua catalana oral contemporània que ha estat confegit pel grup de recerca Grup d'Estudi de la Variació (GEV) amb la finalitat de contribuir a l'estudi de la variació dialectal, social i funcional en la llengua catalana. Una selecció de materials del CCCUB ha estat dipositada al RECERCAT (Dipòsit de la Recerca de Catalunya, www.recercat.cat), i també és accessible a través del web del CCCUB: http://www.ub.edu/cccub.

Relevância:

10.00% 10.00%

Publicador:

Resumo:

El concepto de acto de habla ha sido una gran aportación de la filosofía del lenguaje al estudio de los procesos de comunicación que está tomando mayor importancia con el actual giro dialógico de las sociedades y las propias ciencias sociales. El desarrollo posterior que hizo Searle de las contribuciones de Austin fue tomado como el punto de partida de la concepción de actos de habla y actos comunicativos que Ha-bermas consideró una de las bases de su teoría de la acción comunicativa. Sin embargo, en el trabajo conjunto de Searle y CREA se clarificaron los errores de comprensión que Habermas tuvo de la concepción de Searle. De ese debate surgió la importancia del desarrollo de la concepción de actos comunicativos dialógicos y actos comunicativos de poder que ha sido incorporada al proyecto INCLuD-ED1 cuyo equipo ha continuado desarrollándola hasta la actualidad en diferentes ámbitos. En este artículo se desarrolla esa evolución a partir de un análisis de las aportaciones recientes de la filosofía del lenguaje, seguidamente de una explicación de los actos de habla y los actos comunicativos y finalmente un análisis de las relaciones de poder y las relaciones dialógicas que se dan en los diferentes actos comunicativos.