872 resultados para Comparable Corpus
Resumo:
info:eu-repo/semantics/published
Resumo:
En lingüística, principalmente en el idioma inglés, se usa el Índice de Niebla de Gunning para determinar la legibilidad de un texto. El índice estima los años de educación formal necesarios para comprenderel texto en una primera lectura. Un Índice de 11 años apunta a una persona con el colegio finalizado, (Gunning, 1973). Analizamos en esta investigación la variación del Índice al cambiar la forma de obtener uno de los parámetros. En la fórmula original se consideran “palabras complejas” las que tienen tres o más sílabas. En su lugar utilizamos “palabras desconocidas” que son aquellas cuyo uso es poco familiar, según un corpus construido durante la investigación, partiendo de millones de libros digitalizados por Google y la Universidad de Harvard. Aunque la variación de los resultados dependerá del valor asignado para determinarsi una palabra es desconocida la investigación es pionera en el uso de un corpus para calcular el Índice de Niebla.
Resumo:
For some years now the Internet and World Wide Web communities have envisaged moving to a next generation of Web technologies by promoting a globally unique, and persistent, identifier for identifying and locating many forms of published objects . These identifiers are called Universal Resource Names (URNs) and they hold out the prospect of being able to refer to an object by what it is (signified by its URN), rather than by where it is (the current URL technology). One early implementation of URN ideas is the Unicode-based Handle technology, developed at CNRI in Reston Virginia. The Digital Object Identifier (DOI) is a specific URN naming convention proposed just over 5 years ago and is now administered by the International DOI organisation, founded by a consortium of publishers and based in Washington DC. The DOI is being promoted for managing electronic content and for intellectual rights management of it, either using the published work itself, or, increasingly via metadata descriptors for the work in question. This paper describes the use of the CNRI handle parser to navigate a corpus of papers for the Electronic Publishing journal. These papers are in PDF format and based on our server in Nottingham. For each paper in the corpus a metadata descriptor is prepared for every citation appearing in the References section. The important factor is that the underlying handle is resolved locally in the first instance. In some cases (e.g. cross-citations within the corpus itself and links to known resources elsewhere) the handle can be handed over to CNRI for further resolution. This work shows the encouraging prospect of being able to use persistent URNs not only for intellectual property negotiations but also for search and discovery. In the test domain of this experiment every single resource, referred to within a given paper, can be resolved, at least to the level of metadata about the referred object. If the Web were to become more fully URN aware then a vast directed graph of linked resources could be accessed, via persistent names. Moreover, if these names delivered embedded metadata when resolved, the way would be open for a new generation of vastly more accurate and intelligent Web search engines.
Resumo:
This thesis investigates the standardisation of Modern Scottish Gaelic orthography from the mid-eighteenth century to the twenty-first. It presents the results of the first corpus-based analysis of Modern Scottish Gaelic orthographic development combined with an analytic approach that places orthographic choices in their sociolinguistic context. The theoretical framework behind the analysis centres on discussion of how the language ideologies of the phonographic ideal, historicism, autonomy, vernacularism and the ideology of the standard itself have shaped orthographic conventions and debates. It argues that current spelling norms reflect an orthography that is the result of compromise, historical factors and pragmatic function. The research uses a digital corpus to examine how three particular features have been used over time: the dialect variation between <eu> and <ia>; variation in s + stop consonant clusters (sd/st, sg/sc, sb/sp); and the use of the grave and acute accents. Evidence is drawn from the Corpas na Gàidhlig electronic corpus created at the University of Glasgow: the sub-corpus used in this study includes 117 published texts representing a period of over 250 years from 1750 to 2007, and a total size of over four and a quarter million words. The results confirm a key period of reform between 1750 and the early nineteenth century, and thereafter a settled norm being established in the early nineteenth century. Since then, some variation has been acceptable although changes and reform of some features have centred on increasing uniformity and regularisation.
Resumo:
Este artigo constitui uma reflexão sobre as vantagens da utilização de corpora no processo de ensino/aprendizagem das línguas. O trabalho com corpora na sala de aula acarreta uma aproximação entre as práticas de investigação e as práticas de ensino-aprendizagem. O aluno adquire o papel de um investigador que pretende obter respostas a partir dos dados disponíveis no corpus. Deste modo, o aluno descobre a língua por meio das suas próprias observações, transformando-se em agente do seu processo de aprendizagem. Equacionada sob um certo ponto de vista de configuração tradicionalista, a utilização da informática na análise lexical afigura-se improfícua, no entanto, muitos estudiosos das Humanidades em geral, para além de revelarem a salutar consciência da indispensável adesão das Humanidades à informática, como forma de garantir a vitalidade das Humanidades, no que respeita à análise estatístico-lexical, preconizam que a utilização do computador constitui uma mais-valia. Ao longo deste artigo, procuraremos refletir sobre as seguintes questões: Quais são os benefícios das abordagens lexicais inspiradas na exploração de corpora ou em conceitos da Linguística de Corpus? Qual é o papel da informática na análise lexical? Que novas potencialidades apresentam as concordâncias na sala de aula?
Resumo:
El uso de (grandes) corpus textuales como base empírica para el análisis de fenómenos gramaticales ocupa un lugar central dentro de la lingüística contemporánea. La gramática histórica del español no es ninguna excepción, y desde principios del presente milenio los historiadores de la lengua disponen de dos grandes corpus diacrónicos ampliamente usados en el mundo entero, como son el CORDE de la Real Academia Española y el Corpus del español de Mark Davies (2002-). Al lado de los grandes corpus muestras de textos de menor extensión, pero con características relevantes para la investigación en cuestión, también se utilizan como base de análisis empíricos.
Resumo:
En esta tesis se realiza un estudio contrastivo de los textos en español y alemán para el contrato de arrendamiento por temporada, centrándose en el caso de alojamiento no compartido en una casa rural, donde se muestran las influencias que existen desde el punto de vista cultural, legal y social en los textos tanto a nivel de macroestructural como a nivel de microfunciones del lenguaje. En el trabajo se exponen las dificultades para realizar un estudio a nivel microfuncional completo, por lo que se centra, una vez establecido un contrato tipo a nivel macroestructural, en los aspectos más importantes dentro del estudio realizado: las microfunciones temporales y condicionales. El trabajo se ha dividido en dos partes principales para las que se justifica un estudio bottom-up. Para el análisis de los textos se ha utilizado la herramienta Atlas.ti incluyéndose en los anexos toda la documentación generada con dicho software. Las conclusiones principales que se desprenden de este trabajo son: El contrato de alojamiento turístico extrahotelero en español está en desuso, por lo que es necesario usar el contrato de arrendamiento por temporada. En el caso alemán, se usa el «Mietvertrag für ein Ferienhaus oder eine Ferienwohnung» (arrendamiento de un chalé vacacional o de un apartamento turístico) que es un subgénero de «Beherbergungsvertrag» (contrato de alojamiento u hospedaje). Ambos contratos se someten a la legislación arrendaticia. Es necesario centrarse en ramas muy limitadas de texto para poder elaborar un corpus comparable, por lo que se debe usar un planteamiento empírico con el género textual de contrato en el primer nivel y el análisis de las microfunciones en segundo nivel para poder confeccionar una tipología contrastiva. Es imprescindible incluir los aspectos culturales de las lenguas a comparar, ya que el texto no se debe estudiar solamente bajo aspectos lingüísticos. El hecho de que existan términos en un idioma que no hay en otro a nivel léxico se reconfirma a nivel textual, mejor dicho a nivel de género o a nivel de subgénero de texto. Los contratos, al estar dentro de un ordenamiento jurídico no son textos estables, los cambios en legislación influyen en los textos o incluso en su desaparición en un determinado contexto comunicativo. Un mismo género de texto no supone coincidencia a nivel de macroestructura, existen bloques comunes pero también diferencias importantes por legislación, convenciones culturales, normativas europeas, etc. La determinación de una microfunción depende del género textual analizado. En el caso de las microfunciones temporales, para el género textual analizado, se definen siete criterios temporales. Frente a la clasificación jerarquizada en tres niveles (funciones generales, subfunciones y microfunciones), se plantea establecer las microfunciones dominantes del texto para confeccionar más fácilmente una tipología textual.
Resumo:
De nos jours, les séries télévisées américaines représentent une part incontournable de la culture populaire, à tel point que plusieurs traductions audiovisuelles coexistent au sein de la francophonie. Outre le doublage qui permet leur diffusion à la télévision, elles peuvent être sous titrées jusqu’à trois fois soit, en ordre chronologique : par des fans sur Internet; au Québec, pour la vente sur DVD en Amérique du Nord; et en France, pour la vente sur DVD en Europe. Pourtant, bien que ces trois sous titrages répondent aux mêmes contraintes linguistiques (celles de la langue française) et techniques (diffusion au petit écran), ils diffèrent dans leur traitement des dialogues originaux. Nous établissons dans un premier temps les pratiques à l’œuvre auprès des professionnels et des amateurs. Par la suite, l’analyse des traductions ainsi que le recours à un corpus comparable de séries télévisées françaises et québécoises permettent d’établir les normes linguistiques (notamment eu égard à la variété) et culturelles appliquées par les différents traducteurs et, subsidiairement, de définir ce que cache l’appellation « Canadian French ». Cette thèse s’inscrit dans le cadre des études descriptives et sociologiques. Nous y décrivons la réalité professionnelle des traducteurs de l’audiovisuel et l’influence que les fansubbers exercent non seulement sur la pratique professionnelle, mais aussi sur de nouvelles méthodes de formation de la prochaine génération de traducteurs. Par ailleurs, en étudiant plusieurs traductions d’une même œuvre, nous démontrons que les variétés de français ne sauraient justifier, à elles seules, la multiplication de l’offre en sous titrage, vu le faible taux de différences purement linguistiques.
Resumo:
In evaluating Plutarch’s contacts with other cultures of his era, scholars have not reached consensus so far regarding the relationship between the Chaironean and Early Christian writers. A good example of this lack of consensus rises when we come to the views of the creation of human soul. The aim of the following paper is to deal with those contacts by, after an analysis of Plutarch’s texts, taking into an account the sources of NHC, heresiologists, and also the contemporary Corpus Hermeticum in order to highlight their similitudes and/or differences about the motif of the soul’s birth.