996 resultados para Lingüística de corpus
Resumo:
El análisis de sentimientos de textos en las redes sociales se ha convertido en un área de investigación cada vez más relevante debido a la influencia que las opiniones expresadas tienen en potenciales usuarios. De acuerdo con una clasificación conceptual de sentimientos y basándonos en un corpus de diversos dominios comerciales, hemos trabajado en la confección de reglas que permitan la clasificación de dichos textos según el sentimiento expresado con respecto a una marca, empresa o producto. Con la ayuda de una base de datos de colocaciones (Badele3000) y un gestor de corpus (Calíope) se han creado 200 reglas en español que han puesto de manifiesto algunas consideraciones a tener en cuenta en la siguiente fase del trabajo.
Resumo:
En este trabajo se presentan las principales características de Calíope, una aplicación web que es capaz de manejar un corpus y un glosario de términos en inglés y en español. La singularidad más importante de esta herramienta es que permite interrelacionar estos dos recursos. Así, por ejemplo, los resultados de la búsqueda de concordancias se pueden incorporar automáticamente a los ejemplos de uso del término correspondiente en el glosario; y desde la lista de palabras de un texto del corpus se pueden añadir términos al glosario o acceder a la información de un término que esté en el glosario.
Resumo:
Basándonos en la recopilación inicial de preposiciones, locuciones preposicionales, términos con preposición dependiente y phrasal verbs utilizados en el texto técnico realizada en otros proyectos anteriores del Departamento de Lingüística Aplicada a la Ciencia y a la Tecnología, el objetivo de este trabajo es completar, organizar, actualizar y dar visibilidad a esta información inicial. Tras realizar un proceso exhaustivo de verificación, unificación, clasificación y ampliación de la información existente, en caso necesario, el listado resultante se utiliza para elaborar un glosario de términos con preposición. El objetivo final de este proyecto es que este glosario esté a disposición de los usuarios, a través de una consulta on-line, en la página del ILLLab (http://illlab.euitt.upm.es/wordpress/), dependiente del Departamento de Lingüística Aplicada a la Ciencia y a la Tecnología. Para incluir en el glosario ejemplos actualizados de textos técnicos, se ha recopilado un corpus lingüístico de textos técnicos, tomando como base diferentes números de la revista IEEE Spectrum, en su edición digital, publicados entre los años 2009 y 2012. El objetivo de esta recopilación es la de ofrecer al consultante diferentes ejemplos de uso en el texto técnico de los distintos términos con preposición que componen el glosario, de manera que pueda acceder de manera rápida y sencilla a ejemplos de uso real de los términos que está buscando, con objeto de clarificar aspectos relacionados con su uso o, en su caso, facilitar su aprendizaje. Toda esta información, tanto el listado de términos con preposición como las frases pertenecientes al corpus recopilado, se incorpora a una base de datos, alojada dentro de la misma página web del ILLLab. A través de un formulario de consulta, a disposición del usuario en dicha página, se pueden obtener todos los términos recopilados que coincidan con los criterios de búsqueda introducidos. El usuario puede realizar dos tipos de búsqueda principales: por preposición o por término completo. Además, puede elegir una búsqueda global (entre todos los términos que integran el glosario) o parcial (en una sola de las categorías en las que se han dividido los diferentes términos, de acuerdo con su función gramatical). Por último, se presentan unas estadísticas de uso de los términos recopilados dentro de los diferentes textos que integran el corpus lingüístico, de manera que pueda establecerse una relación de los que aparecen con más frecuencia en el texto técnico. ABSTRACT. Based on the initial collection of prepositions, prepositional phrases, dependent prepositions and phrasal verbs used in technical texts collected on previous projects in the Department of Applied Linguistics to Science and Technology, the aim of this project is to improve, organize, update and provide visibility to this initial information. Following a process of verification, unification, classification and extension of existing information, if necessary, a glossary of terms with preposition is built. The ultimate objective of this project is to make this glossary available to users through an online consultation in the ILLLab webpage (http://illlab.euitt.upm.es/wordpress/). The administration of tis webpage depends of the Department of Applied Linguistics in Science and Technology. A linguistic corpus of technical texts has been compiled, based on different numbers of the IEEE Spectrum magazine, in its online edition, published between the years 2009 and 2012. The aim of this collection is to provide different examples of use in the technical text for the terms included in the glossary, so that examples of the actual use of the terms consulted can be easily and quickly accessed, in order to clarify doubts regarding their meaning or translation into Spanish and facilitate learning. All this information, both the list of terms with prepositional phrases as well as the corpus developed, is incorporated in a database. Through a searching form, the ILLLab's user may obtain all the terms matching the search criteria entered. The user can perform two types of main search: by preposition or by full term. Additionally, a global search can be selected (including all terms included in the glossary) or a partial one (including only one of the glossary's categories). Finally, some statistics of use are presented according to the various texts included in the corpus, so a relation of the most frequent prepositions in the technical text can be established.
Resumo:
Esta tesis doctoral, que es la culminación de mis estudios de doctorado impartidos por el Departamento de Lingüística Aplicada a la Ciencia y a la Tecnología de la Universidad Politécnica de Madrid, aborda el análisis del uso de la matización (hedging) en el lenguaje legal inglés siguiendo los postulados y principios de la análisis crítica de género (Bhatia, 2004) y empleando las herramientas de análisis de córpora WordSmith Tools versión 6 (Scott, 2014). Como refleja el título, el estudio se centra en la descripción y en el análisis contrastivo de las variedades léxico-sintácticas de los matizadores del discurso (hedges) y las estrategias discursivas que con ellos se llevan a cabo, además de las funciones que éstas desempeñan en un corpus de sentencias del Tribunal Supremo de EE. UU., y de artículos jurídicos de investigación americanos, relacionando, en la medida posible, éstas con los rasgos determinantes de los dos géneros, desde una perspectiva socio-cognitiva. El elemento innovador que ofrece es que, a pesar de los numerosos estudios que se han podido realizar sobre los matizadores del discurso en el inglés general (Lakoff, 1973; Hübler, 1983; Clemen, 1997; Markkanen and Schröder, 1997; Mauranen, 1997; Fetzer 2010; y Finnegan, 2010 entre otros) académico (Crompton, 1997; Meyer, 1997; Skelton, 1997; Martín Butragueňo, 2003) científico (Hyland, 1996a, 1996c, 1998c, 2007; Grabe and Kaplan, 1997; Salager-Meyer, 1997 Varttala, 2001) médico (Prince, 1982; Salager-Meyer, 1994; Skelton, 1997), y, en menor medida el inglés legal (Toska, 2012), no existe ningún tipo de investigación que vincule los distintos usos de la matización a las características genéricas de las comunicaciones profesionales. Dentro del lenguaje legal, la matización confirma su dependencia tanto de las expectativas a macro-nivel de la comunidad de discurso, como de las intenciones a micro-nivel del escritor de la comunicación, variando en función de los propósitos comunicativos del género ya sean éstos educativos, pedagógicos, interpersonales u operativos. El estudio pone de relieve el uso predominante de los verbos modales epistémicos y de los verbos léxicos como matizadores del discurso, estos últimos divididos en cuatro tipos (Hyland 1998c; Palmer 1986, 1990, 2001) especulativos, citativos, deductivos y sensoriales. La realización léxico-sintáctica del matizador puede señalar una de cuatro estrategias discursivas particulares (Namsaraev, 1997; Salager-Meyer, 1994), la indeterminación, la despersonalización, la subjectivisación, o la matización camuflada (camouflage hedging), cuya incidencia y función varia según género. La identificación y cuantificación de los distintos matizadores y estrategias empleados en los diferentes géneros del discurso legal puede tener implicaciones pedagógicos para los estudiantes de derecho no nativos que tienen que demostrar una competencia adecuada en su uso y procesamiento. ABSTRACT This doctoral thesis, which represents the culmination of my doctoral studies undertaken in the Department of Linguistics Applied to Science and Technology of the Universidad Politécnica de Madrid, focusses on the analysis of hedging in legal English following the principles of Critical Genre Analysis (Bhatia, 2004), and using WordSmith Tools version 6 (Scott, 2014) corpus analysis tools. As the title suggests, this study centers on the description and contrastive analysis of lexico-grammatical realizations of hedges and the discourse strategies which they can indicate, as well as the functions they can carry out, in a corpus of U.S. Supreme Court opinions and American law review articles. The study relates realization, incidence and function of hedging to the predominant generic characteristics of the two genres from a socio-cognitive perspective. While there have been numerous studies on hedging in general English (Lakoff, 1973; Hübler, 1983; Clemen, 1997; Markkanen and Schröder, 1997; Mauranen, 1997; Fetzer 2010; and Finnegan, 2010 among others) academic English (Crompton, 1997; Meyer, 1997; Skelton, 1997; Martín Butragueňo, 2003) scientific English (Hyland, 1996a, 1996c, 1998c, 2007; Grabe and Kaplan, 1997; Salager-Meyer, 1997 Varttala, 2001) medical English (Prince, 1982; Salager-Meyer, 1994; Skelton, 1997), and, to a lesser degree, legal English (Toska, 2012), this study is innovative in that it links the different realizations and functions of hedging to the generic characteristics of a particular professional communication. Within legal English, hedging has been found to depend on not only the macro-level expectations of the discourse community for a specific genre, but also on the micro-level intentions of the author of a communication, varying according to the educational, pedagogical, interpersonal or operative purposes the genre may have. The study highlights the predominance of epistemic modal verbs and lexical verbs as hedges, dividing the latter into four types (Hyland, 1998c; Palmer, 1986, 1990, 2001): speculative, quotative, deductive and sensorial. Lexical-grammatical realizations of hedges can signal one of four discourse strategies (Namsaraev, 1997; Salager-Meyer, 1994), indetermination, depersonalization, subjectivization and camouflage hedging, as well as fulfill a variety of functions. The identification and quantification of the different hedges and hedging strategies and functions in the two genres may have pedagogical implications for non-native law students who must demonstrate adequate competence in the production and interpretation of hedged discourse.
Metadiscurso y traducción en el lenguaje de los negocios: estudio basado en corpus (francés-español)
Resumo:
En este artículo estudiamos el concepto de metadiscurso, que puede entenderse, en esencia, como el conjunto de elementos retóricos utilizados según los objetivos de la comunicación. Nuestro objetivo es conocer, por una parte, el esquema metadiscursivo propio de los mensajes o cartas de presidentes en los informes anuales de las sociedades, y, por otra parte, el comportamiento traductológico francés-español de estos elementos microtextuales. Los resultados muestran que estos textos tienen su propio esquema metadiscursivo y que los traductores suelen respetar su estructura, si bien introducen nuevos tipos. Asimismo, los resultados pueden tenerse en cuenta en la enseñanza de la traducción y de la lengua de los negocios.
Resumo:
Comprender las noticias económicas puede no ser fácil debido tanto a los conocimientos especializados que exige esta área de conocimiento como a la vaguedad con la que, en forma de variación terminológica, se materializan dichas noticias. En este artículo describimos la variación de una serie de unidades terminológicas y fraseológicas en un corpus periodístico sobre los planes de saneamiento del sector financiero y formulamos hipótesis en torno a los motivos que causan este fenómeno.
Resumo:
El estudio de las relaciones causales y su expresión lingüística ha sido comúnmente estudiado desde diferentes perspectivas en los años recientes. Sin embargo, pocos estudios han intentado combinar diferentes enfoques para establecer el significado de estas relaciones, y han investigado de manera contrastiva las señales usadas para expresarlas. Este trabajo de fin de master es un proyecto para avanzar el conocimiento en este área mediante la investigación de: a) la posibilidad de caracterizar las relaciones causales en diferentes tipos, usando características que combinan un enfoque funcional y cognitivo; b) los tipos de relaciones causales preferidas en los textos expositivos en inglés y sus traducciones al español; c) las expresiones lingüísticas preferidas para expresar dichas relaciones causales en los textos originales en inglés y sus traducciones al español. La metodología usada en esta investigación se basa en la anotación manual de un corpus bilingüe compuesto de un total de 37 textos expositivos (incluyendo los textos originales en inglés y sus traducciones al español) extraídos del corpus MULTINOT, un corpus de alta calidad, con registros diversificados y multifuncional bilingüe inglésespañol, actualmente compilado y anotado multidimensionalmente por los miembros del grupo de investigación FUNCAP con el proyecto MULTINOT (véase Lavid et al.2015) El estudio se llevó a cabo en cuatro pasos principales: primero, un esquema de anotación para las relaciones causales en inglés y español fue diseñado constando de tres sistemas interrelacionados y sus correspondientes características; tras ello, se compiló un inventario de señales para las relaciones causales en inglés y español, y una categorización en diferentes tipos; seguidamente, el esquema de anotación fue implementado en la herramienta UAM Corpus Tool y el conjunto de textos bilingües fue anotado por el autor de este estudio; finalmente, los datos extraídos de la anotación fueron analizados estadísticamente para comprobar las posibles diferencias entre los textos originales en inglés y sus traducciones al español respecto a la selección del tipo de relación de causa y sus señales. El análisis estadístico de los datos anotados sugiere que los tipos de relaciones de causa preferidos en los textos originales en inglés y son los tipos de contenido y no volitivos, que el orden de aparición de estos tipos de señales preferido es la segunda posición, y las señales más recurrentes usadas para expresar dichas relaciones son las conjunciones, seguidas de los sintagmas verbales. El análisis de las traducciones al español revela un alto grado de similitud con los datos de los textos originales en inglés, lo que sugiere que en las traducciones al español se conservan las preferencias de los textos originales en la mayoría de los casos y que estas elecciones pueden considerarse un indicativo de los textos expositivos en inglés. Proyectos futuros se centraran en el análisis de los textos originales en español para comprobar si las tendencias observadas en los textos originales en inglés y sus traducciones al español son también validas en textos originales en español, y en la especificación de patrones que puede ayudar al análisis automático de estas relaciones
Resumo:
En lingüística, principalmente en el idioma inglés, se usa el Índice de Niebla de Gunning para determinar la legibilidad de un texto. El índice estima los años de educación formal necesarios para comprenderel texto en una primera lectura. Un Índice de 11 años apunta a una persona con el colegio finalizado, (Gunning, 1973). Analizamos en esta investigación la variación del Índice al cambiar la forma de obtener uno de los parámetros. En la fórmula original se consideran “palabras complejas” las que tienen tres o más sílabas. En su lugar utilizamos “palabras desconocidas” que son aquellas cuyo uso es poco familiar, según un corpus construido durante la investigación, partiendo de millones de libros digitalizados por Google y la Universidad de Harvard. Aunque la variación de los resultados dependerá del valor asignado para determinarsi una palabra es desconocida la investigación es pionera en el uso de un corpus para calcular el Índice de Niebla.
Resumo:
Convergencia y divergencia dialectales en los núcleos rurales Redes sociales Actitudes individuales y construcción de estilos personales Existe una tendencia bien conocida en las lenguas hacia la convergencia entre las variedades vernáculas regionales con las prestigiosas y de mayor estatus, propias de los núcleos urbanos y centros culturales. En las comunidades rurales, sin embargo, es más frecuente que tenga lugar una resistencia a la convergencia con el estándar y que se refuerce el uso de los rasgos vernáculos. Lo que ocurre es que el estudio de los procesos de convergencia en los centros urbanos está bien representado en la bibliografía y, sin embargo, son escasos los trabajos que se han ocupado de estudiar las tendencias divergentes en núcleos poblacionales más pequeños y en zonas rurales. De ahí que esta tesis pretenda dar respuesta a ese choque de tendencias convergentes y divergentes que tiene lugar en el ámbito rural. El estudio se centra en dos localidades de la provincia de Málaga, Colmenar y Riogordo, porque ambas reúnen las características idóneas para arrojar un poco de luz sobre este tipo de procesos de contacto dialectal: están cerca de la capital y bien comunicadas con el núcleo urbano, pero a la vez tienen una identidad muy marcada, lo que las convierte en un laboratorio ideal para investigar por qué sus habitantes se inclinan por una u otra variante impulsando, de esta manera, tendencias de convergencia o bien de divergencia con el estándar. Para crear el corpus en el que se basa esta investigación se establecieron cuotas de afijación uniforme basadas en tres variables de preestratificación: sexo, edad y nivel de instrucción. Las casillas de las cuotas se fueron completando por medio del procedimiento de bola de nieve. Para investigar los procesos de divergencia dialectal se han escogido tres variables dependientes, la fricativa velar /x/, la palatal africada /ʧ/ y las líquidas /r/ y /l/ en la distensión silábica. Son buenos indicios para estudiar las tendencias que aquí interesan y, por otra parte, su presencia en la bibliografía sociolingüística no está tan bien representada como la de, por ejemplo, el proceso de escisión de /θs/ en dos unidades, mate y estridente, o su variación en la coda silábica. En el capítulo correspondiente a la variación social se estudia la correlación entre variables dependientes y de preestratificación y también se presta atención a la influencia que ejercen otras variables de postestratificación, como el modo de vida y el grado de formalidad de la situación, porque aportan información relevante sobre la atribución de prestigio patente o encubierto en las localidades rurales. En relación con la variación reticular, se revisa de qué manera interactúan el rango de la red, el sexo y el nivel de estudios de los contactos con las variables dependientes, pues son estos precisamente los indicadores que más fuerza explicativa tienen en la muestra analizada. También interesa conocer qué influencia ejerce en los usos lingüísticos de los hablantes el grado de aceptación de los valores urbanos o su apego a las costumbres locales y su mentalidad rural. Con tal fin se ha construido una Escala de Orientación Urbana, ESORURB, que mide la interacción entre usos lingüísticos y mentalidad del hablante. La tesis se cierra con un estudio de la variación individual según las aportaciones de los trabajos de la tercera ola. Para el análisis se ha escogido a una integrante de una de las redes sociales que sobresale entre su grupo de edad (la segunda generación) y estudios (sociolecto superior) por el alto porcentaje de formas estigmatizadas que emplea. El objetivo del capítulo es detectar qué valor confiere esta hablante a las variantes vernáculas, estudiando los temas de conversación que favorecen su aparición y los marcos discursivos que sirven de contexto. A partir de estos datos se establecen dos estilos conversacionales concretos asociados al empleo de las variantes, y que ella adopta de forma consciente para mostrarse ante los demás y construir una imagen concreta de sí misma.
Resumo:
Thematization is recognized as a fundamental phenomenon in the construction of messages and texts by di erent linguistic schools. This location within a text privileges the elements that guide the reader in the orientation and interpretation of discourse at di erent levels. Thematizing a linguistic unit by locating it in the rst-initial position of a clause, paragraph, or text, confers upon it a special status: a signal of the organizational strategy which characterizes di erent text types playing a role as a variable in the distinction of registers, text types and genres. However, in spite of the importance of the study of thematization for message and textual structuring, to date there are no linguistic studies that have undertook the task of validating its aspects in a comparative manner, either for linguistic or computational purposes. This study, therefore, lls a research gap by implementing a methodology based on contrastive corpus annotation, which allows to empirically validate aspects of the phenomenon of Thematization in English and Spanish, it also seeks to develop a bilingual English-Spanish comparable corpus of newspaper texts automatically annotated with thematic features at clausal and discourse levels. The empirically validated categories (Thematic Field and its elements: Textual Theme, Interpersonal Theme, PreHead and Head) are used to annotate a larger corpus of three newspaper genres news reports, editorials and letters to the editor in terms of thematic choices. This characterization, reveals interesting results, such as the use of genre-speci c strategies in thematic position. In addition, the thesis investigates the possibility to automate the annotation of thematic features in the bilingual corpus through the development of a set of JAVA rules implemented in GATE. It also shows the e cacy of this method in comparison with the manual annotation results...
Resumo:
Esta Tesis Doctoral estudia el olvido - o atrición - de la lengua materna en adultos con una triple finalidad: - Analiza el concepto de atrición en la edad adulta y aclara el estado de la discusión científica sobre este fenómeno poco estudiado en España. Explica el olvido de la lengua materna (también llamada L1 o lengua primera, para distinguirla de la L2 o lengua segunda) desde un enfoque pluridisciplinar, relacionándolo con el funcionamiento cognitivo cerebral y sus mecanismos mnemónicos y situándolo en la realidad compleja del bilingüismo y plurilingüismo. - Realiza un estudio de caracterización de los efectos de la atrición, situándose en el contexto franco-español y analizando el olvido desde una perspectiva lingüística e interpretativa. Considera el olvido del idioma materno francés de una población de adultos inmersos de forma continua y prolongada en un entorno hispanohablante, tratándose de una combinación de idiomas no estudiada hasta ahora en este contexto lingüístico. Por una parte, la investigación se centra en el análisis de la producción discursiva de este público - estudiando el idioma hablado en los datos obtenidos y confrontándolo con la norma nativa francesa - y en el estudio de los comportamientos compensatorios de comunicación encontrados. Por otra parte, este trabajo explora la dimensión psicolingüística del olvido, interpretando el discurso formulado en el corpus sobre la práctica del francés en este ámbito. - Profundiza y concreta su nivel de reflexión considerando al público específico de los profesores nativos de idiomas en una posible situación de olvido de su lengua materna. Pone de manifiesto el peligro que representa la atrición en su actividad profesional y propone informar e intervenir a dos niveles diferentes (pre o post atrición), formulando respectivamente unas propuestas de actuaciones preventivas y de técnicas de apoyo y mejora de la competencia lingüística y docente de estos profesionales...
Resumo:
Este texto hace un acercamiento sociológico al análisis de la raza y la lengua en la formación de programas de educación en idiomas. Este enfoque usa los modelos de Bourdieu de habitus y campo social, los cuales enmarcan la raza y la lengua como elementos variables en el cambio educativo y pedagógico, que están, a la vez, sujetos a la agenciamiento de profesores y estudiantes. El enfoque sugiere que una política de educación en lenguas para la justicia social puede concentrarse no sólo en el cambio y el desarrollo del sujeto humano, sino también en cambio sistemático de los campos sociales del currículo.
Resumo:
The QUT-NOISE-TIMIT corpus consists of 600 hours of noisy speech sequences designed to enable a thorough evaluation of voice activity detection (VAD) algorithms across a wide variety of common background noise scenarios. In order to construct the final mixed-speech database, a collection of over 10 hours of background noise was conducted across 10 unique locations covering 5 common noise scenarios, to create the QUT-NOISE corpus. This background noise corpus was then mixed with speech events chosen from the TIMIT clean speech corpus over a wide variety of noise lengths, signal-to-noise ratios (SNRs) and active speech proportions to form the mixed-speech QUT-NOISE-TIMIT corpus. The evaluation of five baseline VAD systems on the QUT-NOISE-TIMIT corpus is conducted to validate the data and show that the variety of noise available will allow for better evaluation of VAD systems than existing approaches in the literature.
Resumo:
Extracellular matrix regulates many cellular processes likely to be important for development and regression of corpora lutea. Therefore, we identified the types and components of the extracellular matrix of the human corpus luteum at different stages of the menstrual cycle. Two different types of extracellular matrix were identified by electron microscopy; subendothelial basal laminas and an interstitial matrix located as aggregates at irregular intervals between the non-vascular cells. No basal laminas were associated with luteal cells. At all stages, collagen type IV α1 and laminins α5, β2 and γ1 were localized by immunohistochemistry to subendothelial basal laminas, and collagen type IV α1 and laminins α2, α5, β1 and β2 localized in the interstitial matrix. Laminin α4 and β1 chains occurred in the subendothelial basal lamina from mid-luteal stage to regression; at earlier stages, a punctate pattern of staining was observed. Therefore, human luteal subendothelial basal laminas potentially contain laminin 11 during early luteal development and, additionally, laminins 8, 9 and 10 at the mid-luteal phase. Laminin α1 and α3 chains were not detected in corpora lutea. Versican localized to the connective tissue extremities of the corpus luteum. Thus, during the formation of the human corpus luteum, remodelling of extracellular matrix does not result in basal laminas as present in the adrenal cortex or ovarian follicle. Instead, novel aggregates of interstitial matrix of collagen and laminin are deposited within the luteal parenchyma, and it remains to be seen whether this matrix is important for maintaining the luteal cell phenotype.