12 resultados para Aligned Corpus
em Universidad Politécnica de Madrid
Resumo:
Con el objetivo de representar y analizar grandes cantidades de fuentes históricas textuales en un Sistema de Información Geográfica (SIG), se ha creado ModeS TimeBank. ModeS TimeBank es un corpus del español moderno (s. XVIII) anotado con información semántica temporal, eventiva y espacial, donde destaca el uso de los lenguajes de marcado TimeML y SpatialML. El corpus es además relevante no sólo por su datación e idioma sino por su dominio ya que está enmarcado en la temática de las redes de cooperación. El presente artículo pretende describir cómo se ha creado el corpus y qué criterios se han tenido en cuenta en su creación, además de señalar el alcance y las aplicaciones de ModeS TimeBank
Resumo:
Este trabajo presenta una propuesta de codificación morfosintáctica para corpus de referencia en lengua española basada en los estándares de la Text Encoding Initiative (TEI), The Network of European Reference Corpora (NERC) y The Expert Advisory Group on Language Engineering Standards (EAGLES) tal y como se presenta en (Martín de Santa Olalla, 1994). Presentamos también el trabajo de creación de etiquetador morfosintáctico que utiliza el conjunto de etiquetas que ésta contiene.
Resumo:
SSome factors including the deregulation in the U.S and the liberalization in Europe of the airline industry are essential to understanding why the number of partnership agreements between airlines has increased during the last 25 years. These events, coupled with the continuous economic downturn and the 9/11 catastrophe seem to be the perfect framework for the tendency to develop airline strategic alliances. However, it has been observed that this trend was not followed during the period 2005-2008. The purpose of this paper is to analyze if a benefit was experienced by the major airlines who became a member of the current 3 big alliances compared to the major airlines that decided not to become a member or were not admitted into the alliances during 2005-2008. The methodology of this report includes an analysis of several airlines’ performance figures. These performance figures include the revenue passenger kilometers (RPKs), the passenger load factor (PLF) and also the market share (MS). The figures will be compared between the aligned airlines and others which have similar business models. The value of this paper is to reveal whether being aligned provides advantages to major airlines under a bearish airline market in a globalized environment.
Resumo:
El análisis de sentimientos de textos en las redes sociales se ha convertido en un área de investigación cada vez más relevante debido a la influencia que las opiniones expresadas tienen en potenciales usuarios. De acuerdo con una clasificación conceptual de sentimientos y basándonos en un corpus de diversos dominios comerciales, hemos trabajado en la confección de reglas que permitan la clasificación de dichos textos según el sentimiento expresado con respecto a una marca, empresa o producto. Con la ayuda de una base de datos de colocaciones (Badele3000) y un gestor de corpus (Calíope) se han creado 200 reglas en español que han puesto de manifiesto algunas consideraciones a tener en cuenta en la siguiente fase del trabajo.
Resumo:
En este trabajo se presentan las principales características de Calíope, una aplicación web que es capaz de manejar un corpus y un glosario de términos en inglés y en español. La singularidad más importante de esta herramienta es que permite interrelacionar estos dos recursos. Así, por ejemplo, los resultados de la búsqueda de concordancias se pueden incorporar automáticamente a los ejemplos de uso del término correspondiente en el glosario; y desde la lista de palabras de un texto del corpus se pueden añadir términos al glosario o acceder a la información de un término que esté en el glosario.
Resumo:
El objetivo de este Proyecto Fin de Carrera es abordar el análisis del capítulo de conclusiones de tesis de ingeniería de telecomunicación a partir de un corpus comparable en inglés y español. A través del léxico podrán conocerse las expresiones típicas y la estructura de capítulo de conclusiones, tanto en inglés como en español. Para empezar este Proyecto, se ha compilado los corpus que se quieren comparar, en total se ha digitalizado tres corpus, uno con 24 conclusiones de tesis doctorales en español, otro con el mismo número de capítulos de conclusiones de tesis doctorales en inglés (PhD) y por último un corpus de conclusiones de tesis de fin de máster y de grado. El primer análisis que se ha realizado es el de la estructura de las conclusiones a partir de los títulos y subtítulos del capítulo. Se han comparado los títulos más utilizados y se han comentado las coincidencias y diferencias entre los corpus. La estructura vista a través de los subtítulos, se ha comparado con la propuesta por la autora Glasman-Deal (2011) en trabajos académicos de investigación, principalmente en artículos de investigación. La siguiente parte del Proyecto se ha centrado en el estudio del léxico, para ello nos hemos ayudado de la herramienta informática Wordsmith tools de la que se han explicado sus herramientas y funciones más útiles para este trabajo entre ellas el plot, que informa número de archivos en la que aparece cada palabra en el corpus. Las palabras con mayor plot son las más usadas por todos los doctorandos cuando escriben el capítulo de conclusiones .Se han elaborado unas pirámides donde se han colocado las palabras propias del género académico de las tesis por orden de uso. Las más usadas, con mayor plot, en la base y según se asciende aparecen las que tienen menor plot, con el fin de ver de una forma gráfica el peso que tiene cada palabra en el corpus. El siguiente paso del análisis del léxico ha tenido el objetivo de diferenciar los contextos de uso de las palabras incluidas en las pirámides. Se ha diferenciado entre los usos de las palabras dependiendo de su denotación académica o técnica. Esta comparación ha permitido comprobar que dentro del mismo corpus un sustantivo como contribuciones tiene connotación positiva o negativa dependiendo del contexto. Con los ejemplos aportados por los corpus se proporciona una base para el análisis lingüístico, centrado en los sustantivos, en este trabajo. Para finalizar el Proyecto, se ha implementado una base de datos con los resultados obtenidos del análisis de los sustantivos en la que se pueden ver las palabras que corresponden a cada nivel de la pirámide y ejemplos del uso de estas palabras. The aim of this Project is to analyze the concluding chapter of PhD thesis in the field of telecommunication engineering by means of a comparable corpus in English and Spanish. Through the lexis we will be able to capture useful expressions and the typical structure of the chapter in these specialized thesis, either in English and Spanish. To start with, three corpora have been compiled. The first one consists of 24 concluding chapters of PhD thesis in Spanish; the second, is made up of the same number of chapters of PhD thesis in the English language; and finally, 24 further chapters of Master and Degree thesis in English were digitalized and prepared for lexis analysis. Second, the study of the structure of the chapter of conclusions has been carried out. In this part the most common titles in the chapter of conclusions have been analysed and compared so as to find differences and similarities between the two languages compared. Moreover, the structure found through the subtitles in the conclusions of the thesis has been compared with the structure proposed by Glasman-Deal (2011) in her book Science Research Writing. Third, the study has been focused on the lexis of each corpus. These corpora have been treated with a lexis analyser called Wordsmith tools. The variables of frequency and plot have been applied to withdraw the most widely used nouns from the list of all the words found in any of the corpus. A pyramidal structure has been designed in order to show the academic or gender nouns - the ones usually found in the concluding chapter of thesis – nouns with a higher plot in the corpus. Two different types of context have been found for these nouns: technical and academic denotation. To show the difference in use of these nouns, arranged examples of contexts are given for each of the words studied. Finally, a database has been implemented to arrange the results of the lexis study. In this database the most significant examples of each noun are shown.
Resumo:
Basándonos en la recopilación inicial de preposiciones, locuciones preposicionales, términos con preposición dependiente y phrasal verbs utilizados en el texto técnico realizada en otros proyectos anteriores del Departamento de Lingüística Aplicada a la Ciencia y a la Tecnología, el objetivo de este trabajo es completar, organizar, actualizar y dar visibilidad a esta información inicial. Tras realizar un proceso exhaustivo de verificación, unificación, clasificación y ampliación de la información existente, en caso necesario, el listado resultante se utiliza para elaborar un glosario de términos con preposición. El objetivo final de este proyecto es que este glosario esté a disposición de los usuarios, a través de una consulta on-line, en la página del ILLLab (http://illlab.euitt.upm.es/wordpress/), dependiente del Departamento de Lingüística Aplicada a la Ciencia y a la Tecnología. Para incluir en el glosario ejemplos actualizados de textos técnicos, se ha recopilado un corpus lingüístico de textos técnicos, tomando como base diferentes números de la revista IEEE Spectrum, en su edición digital, publicados entre los años 2009 y 2012. El objetivo de esta recopilación es la de ofrecer al consultante diferentes ejemplos de uso en el texto técnico de los distintos términos con preposición que componen el glosario, de manera que pueda acceder de manera rápida y sencilla a ejemplos de uso real de los términos que está buscando, con objeto de clarificar aspectos relacionados con su uso o, en su caso, facilitar su aprendizaje. Toda esta información, tanto el listado de términos con preposición como las frases pertenecientes al corpus recopilado, se incorpora a una base de datos, alojada dentro de la misma página web del ILLLab. A través de un formulario de consulta, a disposición del usuario en dicha página, se pueden obtener todos los términos recopilados que coincidan con los criterios de búsqueda introducidos. El usuario puede realizar dos tipos de búsqueda principales: por preposición o por término completo. Además, puede elegir una búsqueda global (entre todos los términos que integran el glosario) o parcial (en una sola de las categorías en las que se han dividido los diferentes términos, de acuerdo con su función gramatical). Por último, se presentan unas estadísticas de uso de los términos recopilados dentro de los diferentes textos que integran el corpus lingüístico, de manera que pueda establecerse una relación de los que aparecen con más frecuencia en el texto técnico. ABSTRACT. Based on the initial collection of prepositions, prepositional phrases, dependent prepositions and phrasal verbs used in technical texts collected on previous projects in the Department of Applied Linguistics to Science and Technology, the aim of this project is to improve, organize, update and provide visibility to this initial information. Following a process of verification, unification, classification and extension of existing information, if necessary, a glossary of terms with preposition is built. The ultimate objective of this project is to make this glossary available to users through an online consultation in the ILLLab webpage (http://illlab.euitt.upm.es/wordpress/). The administration of tis webpage depends of the Department of Applied Linguistics in Science and Technology. A linguistic corpus of technical texts has been compiled, based on different numbers of the IEEE Spectrum magazine, in its online edition, published between the years 2009 and 2012. The aim of this collection is to provide different examples of use in the technical text for the terms included in the glossary, so that examples of the actual use of the terms consulted can be easily and quickly accessed, in order to clarify doubts regarding their meaning or translation into Spanish and facilitate learning. All this information, both the list of terms with prepositional phrases as well as the corpus developed, is incorporated in a database. Through a searching form, the ILLLab's user may obtain all the terms matching the search criteria entered. The user can perform two types of main search: by preposition or by full term. Additionally, a global search can be selected (including all terms included in the glossary) or a partial one (including only one of the glossary's categories). Finally, some statistics of use are presented according to the various texts included in the corpus, so a relation of the most frequent prepositions in the technical text can be established.
Resumo:
We describe a corpus of provenance traces that we have collected by executing 120 real world scientific workflows. The workflows are from two different workflow systems: Taverna [5] and Wings [3], and 12 different application domains (see Figure 1). Table 1 provides a summary of this PROV-corpus.
Resumo:
A comparative study on alignment performance and microstructure of inorganic layers used for liquid crystal cell conditioning has been carried out. The study has focused on two specific materials, SiOx and SiO2, deposited under different conditions. The purpose was to establish a relationship between layer microstructure and liquid crystal alignment. The surface morphology has been studied by FESEM and AFM. An analysis on liquid crystal alignment, pretilt angle, response time, contrast ratio and the conditions to develop backflow effect (significant rise time increase due to pure homeotropic alignment) on vertically-aligned nematic cells has been carried out. A technique to overcome the presence of backflow has been identified. The full comparative study of SiOx and SiO2 layer properties and their influence over liquid crystal alignment and electrooptic response is presented.
Resumo:
The initial step in most facial age estimation systems consists of accurately aligning a model to the output of a face detector (e.g. an Active Appearance Model). This fitting process is very expensive in terms of computational resources and prone to get stuck in local minima. This makes it impractical for analysing faces in resource limited computing devices. In this paper we build a face age regressor that is able to work directly on faces cropped using a state-of-the-art face detector. Our procedure uses K nearest neighbours (K-NN) regression with a metric based on a properly tuned Fisher Linear Discriminant Analysis (LDA) projection matrix. On FG-NET we achieve a state-of-the-art Mean Absolute Error (MAE) of 5.72 years with manually aligned faces. Using face images cropped by a face detector we get a MAE of 6.87 years in the same database. Moreover, most of the algorithms presented in the literature have been evaluated on single database experiments and therefore, they report optimistically biased results. In our cross-database experiments we get a MAE of roughly 12 years, which would be the expected performance in a real world application.
Resumo:
Esta tesis doctoral, que es la culminación de mis estudios de doctorado impartidos por el Departamento de Lingüística Aplicada a la Ciencia y a la Tecnología de la Universidad Politécnica de Madrid, aborda el análisis del uso de la matización (hedging) en el lenguaje legal inglés siguiendo los postulados y principios de la análisis crítica de género (Bhatia, 2004) y empleando las herramientas de análisis de córpora WordSmith Tools versión 6 (Scott, 2014). Como refleja el título, el estudio se centra en la descripción y en el análisis contrastivo de las variedades léxico-sintácticas de los matizadores del discurso (hedges) y las estrategias discursivas que con ellos se llevan a cabo, además de las funciones que éstas desempeñan en un corpus de sentencias del Tribunal Supremo de EE. UU., y de artículos jurídicos de investigación americanos, relacionando, en la medida posible, éstas con los rasgos determinantes de los dos géneros, desde una perspectiva socio-cognitiva. El elemento innovador que ofrece es que, a pesar de los numerosos estudios que se han podido realizar sobre los matizadores del discurso en el inglés general (Lakoff, 1973; Hübler, 1983; Clemen, 1997; Markkanen and Schröder, 1997; Mauranen, 1997; Fetzer 2010; y Finnegan, 2010 entre otros) académico (Crompton, 1997; Meyer, 1997; Skelton, 1997; Martín Butragueňo, 2003) científico (Hyland, 1996a, 1996c, 1998c, 2007; Grabe and Kaplan, 1997; Salager-Meyer, 1997 Varttala, 2001) médico (Prince, 1982; Salager-Meyer, 1994; Skelton, 1997), y, en menor medida el inglés legal (Toska, 2012), no existe ningún tipo de investigación que vincule los distintos usos de la matización a las características genéricas de las comunicaciones profesionales. Dentro del lenguaje legal, la matización confirma su dependencia tanto de las expectativas a macro-nivel de la comunidad de discurso, como de las intenciones a micro-nivel del escritor de la comunicación, variando en función de los propósitos comunicativos del género ya sean éstos educativos, pedagógicos, interpersonales u operativos. El estudio pone de relieve el uso predominante de los verbos modales epistémicos y de los verbos léxicos como matizadores del discurso, estos últimos divididos en cuatro tipos (Hyland 1998c; Palmer 1986, 1990, 2001) especulativos, citativos, deductivos y sensoriales. La realización léxico-sintáctica del matizador puede señalar una de cuatro estrategias discursivas particulares (Namsaraev, 1997; Salager-Meyer, 1994), la indeterminación, la despersonalización, la subjectivisación, o la matización camuflada (camouflage hedging), cuya incidencia y función varia según género. La identificación y cuantificación de los distintos matizadores y estrategias empleados en los diferentes géneros del discurso legal puede tener implicaciones pedagógicos para los estudiantes de derecho no nativos que tienen que demostrar una competencia adecuada en su uso y procesamiento. ABSTRACT This doctoral thesis, which represents the culmination of my doctoral studies undertaken in the Department of Linguistics Applied to Science and Technology of the Universidad Politécnica de Madrid, focusses on the analysis of hedging in legal English following the principles of Critical Genre Analysis (Bhatia, 2004), and using WordSmith Tools version 6 (Scott, 2014) corpus analysis tools. As the title suggests, this study centers on the description and contrastive analysis of lexico-grammatical realizations of hedges and the discourse strategies which they can indicate, as well as the functions they can carry out, in a corpus of U.S. Supreme Court opinions and American law review articles. The study relates realization, incidence and function of hedging to the predominant generic characteristics of the two genres from a socio-cognitive perspective. While there have been numerous studies on hedging in general English (Lakoff, 1973; Hübler, 1983; Clemen, 1997; Markkanen and Schröder, 1997; Mauranen, 1997; Fetzer 2010; and Finnegan, 2010 among others) academic English (Crompton, 1997; Meyer, 1997; Skelton, 1997; Martín Butragueňo, 2003) scientific English (Hyland, 1996a, 1996c, 1998c, 2007; Grabe and Kaplan, 1997; Salager-Meyer, 1997 Varttala, 2001) medical English (Prince, 1982; Salager-Meyer, 1994; Skelton, 1997), and, to a lesser degree, legal English (Toska, 2012), this study is innovative in that it links the different realizations and functions of hedging to the generic characteristics of a particular professional communication. Within legal English, hedging has been found to depend on not only the macro-level expectations of the discourse community for a specific genre, but also on the micro-level intentions of the author of a communication, varying according to the educational, pedagogical, interpersonal or operative purposes the genre may have. The study highlights the predominance of epistemic modal verbs and lexical verbs as hedges, dividing the latter into four types (Hyland, 1998c; Palmer, 1986, 1990, 2001): speculative, quotative, deductive and sensorial. Lexical-grammatical realizations of hedges can signal one of four discourse strategies (Namsaraev, 1997; Salager-Meyer, 1994), indetermination, depersonalization, subjectivization and camouflage hedging, as well as fulfill a variety of functions. The identification and quantification of the different hedges and hedging strategies and functions in the two genres may have pedagogical implications for non-native law students who must demonstrate adequate competence in the production and interpretation of hedged discourse.
Resumo:
Esta investigación se enmarca dentro de los denominados lenguajes de especialidad que para esta tesis será el de las Tecnologías de la Información y la Comunicación (TIC). De todos los aspectos relacionados con el estudio de estos lenguajes que pudieran tener interés lingüístico ha primado el análisis del componente terminológico. Tradicionalmente la conceptualización de un campo del saber se representaba mayoritariamente a través del elemento nominal, así lo defiende la Teoría General de la Terminología (Wüster, 1968). Tanto la lexicología como la lexicografía han aportado importantes contribuciones a los estudios terminológicos para la identificación del componente léxico a través del cual se transmite la información especializada. No obstante esos primeros estudios terminológicos que apuntaban al sustantivo como elmentos denominativo-conceptual, otras teorías más recientes, entre las que destacamos la Teoría Comunicativa de la Terminología (Cabré, 1999) identifican otras estructuras morfosintácticas integradas por otros elementos no nominales portadores igualmente de esa carga conceptual. A partir de esta consideración, hemos seleccionado para este estudio el adjetivo relacional en tanto que representa otra categoría gramatical distinta al sustantivo y mantiene un vínculo con éste debido a su procedencia. Todo lo cual puede suscitar cierto interés terminológico. A través de esta investigación, nos hemos propuesto demostrar las siguientes hipótesis: 1. El adjetivo relacional aporta contenido especializado en su asociación con el componente nominal. 2. El adjetivo relacional es portador de un valor semántico que hace posible identificar con más precisión la relación conceptual de los elementos -adjetivo y sustantivo - de la combinación léxica resultante, especialmente en algunas formaciones ambiguas. 3. El adjetivo relacional, como modificador natural del sustantivo al que acompaña, podría imponer cierta restricción en sus combinaciones y, por tanto, hacer una selección discriminada de los integrantes de la combinación léxica especializada. Teniendo en cuenta las anteriores hipótesis, esta investigación ha delimitado y caracterizado el segmento léxico objeto de estudio: la ‘combinación léxica especializada (CLE)’ formalmente representada por la estructura sintáctica [adjR+n], en donde adjR es el adjetivo y n el sustantivo al que acompaña. De igual forma hemos descrito el marco teórico desde el que abordar nuestro análisis. Se trata de la teoría del Lexicón Generatvio (LG) y de la representación semántica (Pustojovsky, 1995) que propone como explicación de la generación de significados. Hemos analizado las distintas estructuras de representación léxica y en especial la estructura qualia a través de la cual hemos identificado la relación semántica que mantienen los dos ítems léxicos [adjR+n] de la estructura sintáctica de nuestro estudio. El estudio semántico de las dos piezas léxicas ha permitido, además, comprobar el valor denominativo del adjetivo en la combinación. Ha sido necesario elaborar un corpus de textos escritos en inglés y español pertenecientes al discurso de especialidad de las TIC. Este material ha sido procesado para nuestros fines utilizando distintas herramientas electrónicas. Se ha hecho uso de lexicones electrónicos, diccionarios online generales y de especialidad y corpus de referencia online, estos últimos para poder eventualmente validad nuetros datos. Asimismo se han utilizado motores de búsqueda, entre ellos WordNet Search 3.1, para obtener la información semántica de nuestros elementos léxicos. Nuestras conclusiones han corroborado las hipótesis que se planteaban en esta tesis, en especial la referente al valor denominativo-conceptual del adjetivo relacional el cual, junto con el sustantivo al que acompaña, forma parte de la representación cognitiva del lenguaje de especialidad de las TIC. Como continuación a este estudio se proponen sugerencias sobre líneas futuras de investigación así como el diseño de herramientas informáticas que pudieran incorporar estos datos semánticos como complemento de los ítems léxicos dotados de valor denominativo-conceptual. ABSTRACT This research falls within the field of the so-called Specialized Languages which for the purpose of this study is the Information and Communication Technology (ICT) discourse. Considering their several distinguishing features terminology concentrates our interest from the point of view of linguistics. It is broadly assumed that terms represent concepts of a subject field. For the classical view of terminology (Wüster, 1968) these terms are formally represented by nouns. Both lexicology and terminology have made significant contributions to the study of terms. Later research as well as other theories on Terminology such as the Communicative Theory of Terminology (Cabré, 1993) have shown that other lexical units can also represent knowledge organization. On these bases, we have focused our research on the relational adjective which represents a functional unit different from a noun while still connected to the noun by means of its nominal root. This may have a potential terminological interest. Therefore the present research is based on the next hypotheses: 1. The relational adjective conveys specialized information when combined with the noun. 2. The relational adjective has a semantic meaning which helps understand the conceptual relationship between the adjective and the noun being modified and disambiguate certain senses of the resulting lexical combination. 3. The relational adjective may impose some restrictions when choosing the nouns it modifies. Considering the above hypotheses, this study has identified and described a multi-word lexical unit pattern [Radj+n] referred to as a Specialized Lexical Combination (SLC) linguistically realized by a relational adjective, Radj, and a noun, n. The analysis of such a syntactic pattern is addressed from the framework of the Generative Lexicon (Pustojovsky, 1995). Such theory provides several levels of semantic description which help lexical decomposition performed generatively. These levels of semantic representation are connected through generative operations or generative devices which account for the compositional interpretation of any linguistic utterance in a given context. This study analyses these different levels and focuses on one of them, i.e. the qualia structure since it may encode the conceptual meaning of the syntactic pattern [Radj+n]. The semantic study of these two lexical items has ultimately confirmed the conceptual meaning of the relational adjective. A corpus made of online ICT articles from magazines written in English and Spanish – some being their translations - has been used for the word extraction. For this purpose some word processing software packages have been employed. Moreover online general language and specialized language dictionaries have been consulted. Search engines, namely WordNet Search 3.1, have been also exploited to find the semantic information of our lexical units. Online reference corpora in English and Spanish have been used for a contrastive analysis of our data. Finally our conclusions have confirmed our initial hypotheses, i.e. relational adjectives are specialized lexical units which together with the nouns are part of the knowledge representation of the ICT subject field. Proposals for new research have been made together with some other suggestions for the design of computer applications to visually show the conceptual meaning of certain lexical units.