1000 resultados para Web as a Corpus
Resumo:
Cette étude s’encadre dans le projet Language Toolkit, qui dérive de la collaboration entre la Chambre de Commerce de Forlì-Cesena et la Scuola di Lingue e Letterature, Traduzione e Interpretazione de Forlì. L’objectif du projet est de permettre aux étudiants de dernière année de faculté de connaître l’univers des entreprises. Grâce à la collaboration avec APA-CT srl de Forlì, leader dans le secteur de la phytothérapie vétérinaire, et spécialisée dans la production de compléments alimentaires naturels destinés aux animaux, on a réalisé la localisation en français du site web GreenVet. Cette dissertation se compose de quatre chapitres. Le premier chapitre offre une présentation de APA-CT srl et de ses produits. De plus, on définit les détails du projet de localisation du site web GreenVet. Dans le deuxième chapitre on propose, en premier lieu, une réflexion sur les langues spéciales et sur la terminologie scientifique. En deuxième lieu, on aborde, aussi bien du point de vue théorique que du point de vue pratique (à travers des exemples), les caractéristiques de la terminologie de la phytothérapie vétérinaire. En troisième lieu, on explique la méthodologie de travail adoptée pendant la réalisation du projet de localisation, qui a été divisé en deux sous-phases : d’abord, on a effectué une recherche terminologique pour délimiter le domaine en question et, après, on a crée des ressources (corpus, glossaire) utiles pour la traduction. Le troisième chapitre offre une réflexion à propos de la localisation des sites web. Ensuite, on propose une analyse contrastive entre les sites web italiens et français traitant de la phytothérapie vétérinaire. Finalement, le quatrième chapitre est dédié à l’activité pratique de localisation. On a analysé le texte de départ au niveau de la structure, des aspects linguistiques et on a individué les difficultés de traduction. Après, on explique la méthodologie de travail suivie et les stratégies adoptées pendant la traduction.
Resumo:
La presente tesi magistrale si inserisce nell’ambito del progetto Language Toolkit e nasce in particolare dalla collaborazione tra il presente autore e l’azienda Tecnopress S.a.s. Nell’ottica dell’internazionalizzazione della propria attività l’azienda ha richiesto che il proprio sito web venisse sottoposto ad un processo di localizzazione dall’italiano verso l’inglese. Sulla base di queste premesse si è deciso di dividere il lavoro in tre parti: una fase teorica, una fase preparatoria e una fase pratica. La prima fase si è occupata di gettare le basi teoriche necessarie per affrontare consapevolmente l’incarico assegnato. Alla luce delle conclusioni della fase teorica è stata constatata l’esigenza di modificare la natura dell’intervento che si era preventivato di effettuare sul sito web. Fulcro della localizzazione è infatti il locale, ovvero la combinazione di regione socioculturale e lingua presa a riferimento per un processo di localizzazione web. Nelle richieste avanzate dall’azienda figuravano esclusivamente indicazioni relative alla lingua (l’inglese), non già alla regione socioculturale su cui modellare l’intervento di localizzazione del sito. Si è rivelato pertanto necessario procedere autonomamente alla definizione di un locale per il presente progetto, che è stato fatto coincidere con la macrozona europea e cui è stato associato un modello ibrido di English Lingua Franca e Simplified Technical English. Il focus dell’intervento non è stato dunque una regione geografica circoscritta ma una realtà socioculturale molto più ampia e variegata: l’adozione di un locale così ampio e il rispetto dell’indicazione sulla lingua hanno portato il presente autore a optare per un intervento di standardizzazione web. Chiude il presente lavoro una fase operativa, durante la quale sono state create le risorse necessarie al progetto (si segnala in particolare un corpus su misura) e sono state effettuate la standardizzazione e una serie di considerazioni traduttive.
Resumo:
En esta tesis se trabaja sobre la hipótesis de que el componente didáctico del discurso divulgativo queda delimitado por estrategias discursivas originadas en el tratamiento modal y actualizadas en los niveles funcional, situacional, semántico y formal-gramatical. El objetivo es caracterizar tales estrategias para identificar tendencias en la realización lingüísticodiscursiva del componente didáctico. El corpus se ha formado teniendo en cuenta soporte (web), formato (hipertexto) y dominio disciplinar (Análisis Sensorial de Vinos). La metodología es, fundamentalmente, cualitativo-ejemplar, basada en el modelo multinivel propuesto por Ciapuscio (2003) para el análisis de textos especializados. Los resultados sugieren que en el nivel funcional, el componente didáctico se distingue por el predominio de los términos positivos de las categorías modales epistémica (función informar) y ética (función dirigir); en el nivel situacional, por tres tipos de construcciones discursivas: la del enunciador experto, la del enunciatario lego y la de la pertenencia del lego a la comunidad especializada; en el nivel semántico, por la estandarización de partes textuales y por el predominio tanto de axiologización eufórica ética y cognoscitiva, como de secuencias expositivas y de procedimientos explicativos causales, descriptivos e ilustrativos; en el nivel formal, por recursos paratextuales e hipertextuales que refuerzan la actualización del componente didáctico.
Resumo:
Las técnicas de teledetección constituyen una herramienta indispensable para caracterizar los tipos de hábitat en áreas extensas y detectar los cambios ambientales resultantes de los procesos naturales y las actividades antrópicas. Estas potencialidades se incrementaron con el lanzamiento de los satélites de alta resolución espacial. En este marco constituye una herramienta de análisis para varias disciplinas como la gestión del territorio, la ecología y la conservación. Actualmente los ecosistemas de bosques presentan alta vulnerabilidad debido a los cambios de uso del suelo, la fragmentación y la invasión de especies exóticas siendo objeto de estudio de varias disciplinas. Este trabajo se realizó con el objetivo de analizar la producción científica que vincula el uso de imágenes satelitales de alta resolución con los ecosistemas de bosques. Se conformó un corpus documental de 979 registros obtenidos de la base Web of Science (WOS) (1985-2015). Mediante la aplicación de metodologías de los Estudios Métricos de la Información combinadas con Análisis de Redes Sociales se identificaron los autores y las instituciones con mayor producción y las publicaciones más relevantes del dominio. Se identificaron cinco frentes de investigación; a) vinculado a los aspectos técnicos de la teledetección; b) cambio climático y bosques; c) conservación de la biodiversidad; y dos relacionados con el tipo de ecosistema de bosque: d) bosques tropicales y e) bosques boreales. Estos resultados evidencian que el estudio de los bosques templados (presentes en nuestra región) y sus principales amenazas no se ha desarrollado en el corpus estudiado. Se señala el aporte de los EMI en la orientación de líneas de investigación relevantes para la región.
Resumo:
Las técnicas de teledetección constituyen una herramienta indispensable para caracterizar los tipos de hábitat en áreas extensas y detectar los cambios ambientales resultantes de los procesos naturales y las actividades antrópicas. Estas potencialidades se incrementaron con el lanzamiento de los satélites de alta resolución espacial. En este marco constituye una herramienta de análisis para varias disciplinas como la gestión del territorio, la ecología y la conservación. Actualmente los ecosistemas de bosques presentan alta vulnerabilidad debido a los cambios de uso del suelo, la fragmentación y la invasión de especies exóticas siendo objeto de estudio de varias disciplinas. Este trabajo se realizó con el objetivo de analizar la producción científica que vincula el uso de imágenes satelitales de alta resolución con los ecosistemas de bosques. Se conformó un corpus documental de 979 registros obtenidos de la base Web of Science (WOS) (1985-2015). Mediante la aplicación de metodologías de los Estudios Métricos de la Información combinadas con Análisis de Redes Sociales se identificaron los autores y las instituciones con mayor producción y las publicaciones más relevantes del dominio. Se identificaron cinco frentes de investigación; a) vinculado a los aspectos técnicos de la teledetección; b) cambio climático y bosques; c) conservación de la biodiversidad; y dos relacionados con el tipo de ecosistema de bosque: d) bosques tropicales y e) bosques boreales. Estos resultados evidencian que el estudio de los bosques templados (presentes en nuestra región) y sus principales amenazas no se ha desarrollado en el corpus estudiado. Se señala el aporte de los EMI en la orientación de líneas de investigación relevantes para la región.
Resumo:
Las técnicas de teledetección constituyen una herramienta indispensable para caracterizar los tipos de hábitat en áreas extensas y detectar los cambios ambientales resultantes de los procesos naturales y las actividades antrópicas. Estas potencialidades se incrementaron con el lanzamiento de los satélites de alta resolución espacial. En este marco constituye una herramienta de análisis para varias disciplinas como la gestión del territorio, la ecología y la conservación. Actualmente los ecosistemas de bosques presentan alta vulnerabilidad debido a los cambios de uso del suelo, la fragmentación y la invasión de especies exóticas siendo objeto de estudio de varias disciplinas. Este trabajo se realizó con el objetivo de analizar la producción científica que vincula el uso de imágenes satelitales de alta resolución con los ecosistemas de bosques. Se conformó un corpus documental de 979 registros obtenidos de la base Web of Science (WOS) (1985-2015). Mediante la aplicación de metodologías de los Estudios Métricos de la Información combinadas con Análisis de Redes Sociales se identificaron los autores y las instituciones con mayor producción y las publicaciones más relevantes del dominio. Se identificaron cinco frentes de investigación; a) vinculado a los aspectos técnicos de la teledetección; b) cambio climático y bosques; c) conservación de la biodiversidad; y dos relacionados con el tipo de ecosistema de bosque: d) bosques tropicales y e) bosques boreales. Estos resultados evidencian que el estudio de los bosques templados (presentes en nuestra región) y sus principales amenazas no se ha desarrollado en el corpus estudiado. Se señala el aporte de los EMI en la orientación de líneas de investigación relevantes para la región.
Resumo:
OntoTag - A Linguistic and Ontological Annotation Model Suitable for the Semantic Web
1. INTRODUCTION. LINGUISTIC TOOLS AND ANNOTATIONS: THEIR LIGHTS AND SHADOWS
Computational Linguistics is already a consolidated research area. It builds upon the results of other two major ones, namely Linguistics and Computer Science and Engineering, and it aims at developing computational models of human language (or natural language, as it is termed in this area). Possibly, its most well-known applications are the different tools developed so far for processing human language, such as machine translation systems and speech recognizers or dictation programs.
These tools for processing human language are commonly referred to as linguistic tools. Apart from the examples mentioned above, there are also other types of linguistic tools that perhaps are not so well-known, but on which most of the other applications of Computational Linguistics are built. These other types of linguistic tools comprise POS taggers, natural language parsers and semantic taggers, amongst others. All of them can be termed linguistic annotation tools.
Linguistic annotation tools are important assets. In fact, POS and semantic taggers (and, to a lesser extent, also natural language parsers) have become critical resources for the computer applications that process natural language. Hence, any computer application that has to analyse a text automatically and ‘intelligently’ will include at least a module for POS tagging. The more an application needs to ‘understand’ the meaning of the text it processes, the more linguistic tools and/or modules it will incorporate and integrate.
However, linguistic annotation tools have still some limitations, which can be summarised as follows:
1. Normally, they perform annotations only at a certain linguistic level (that is, Morphology, Syntax, Semantics, etc.).
2. They usually introduce a certain rate of errors and ambiguities when tagging. This error rate ranges from 10 percent up to 50 percent of the units annotated for unrestricted, general texts.
3. Their annotations are most frequently formulated in terms of an annotation schema designed and implemented ad hoc.
A priori, it seems that the interoperation and the integration of several linguistic tools into an appropriate software architecture could most likely solve the limitations stated in (1). Besides, integrating several linguistic annotation tools and making them interoperate could also minimise the limitation stated in (2). Nevertheless, in the latter case, all these tools should produce annotations for a common level, which would have to be combined in order to correct their corresponding errors and inaccuracies. Yet, the limitation stated in (3) prevents both types of integration and interoperation from being easily achieved.
In addition, most high-level annotation tools rely on other lower-level annotation tools and their outputs to generate their own ones. For example, sense-tagging tools (operating at the semantic level) often use POS taggers (operating at a lower level, i.e., the morphosyntactic) to identify the grammatical category of the word or lexical unit they are annotating. Accordingly, if a faulty or inaccurate low-level annotation tool is to be used by other higher-level one in its process, the errors and inaccuracies of the former should be minimised in advance. Otherwise, these errors and inaccuracies would be transferred to (and even magnified in) the annotations of the high-level annotation tool.
Therefore, it would be quite useful to find a way to
(i) correct or, at least, reduce the errors and the inaccuracies of lower-level linguistic tools;
(ii) unify the annotation schemas of different linguistic annotation tools or, more generally speaking, make these tools (as well as their annotations) interoperate.
Clearly, solving (i) and (ii) should ease the automatic annotation of web pages by means of linguistic tools, and their transformation into Semantic Web pages (Berners-Lee, Hendler and Lassila, 2001). Yet, as stated above, (ii) is a type of interoperability problem. There again, ontologies (Gruber, 1993; Borst, 1997) have been successfully applied thus far to solve several interoperability problems. Hence, ontologies should help solve also the problems and limitations of linguistic annotation tools aforementioned.
Thus, to summarise, the main aim of the present work was to combine somehow these separated approaches, mechanisms and tools for annotation from Linguistics and Ontological Engineering (and the Semantic Web) in a sort of hybrid (linguistic and ontological) annotation model, suitable for both areas. This hybrid (semantic) annotation model should (a) benefit from the advances, models, techniques, mechanisms and tools of these two areas; (b) minimise (and even solve, when possible) some of the problems found in each of them; and (c) be suitable for the Semantic Web. The concrete goals that helped attain this aim are presented in the following section.
2. GOALS OF THE PRESENT WORK
As mentioned above, the main goal of this work was to specify a hybrid (that is, linguistically-motivated and ontology-based) model of annotation suitable for the Semantic Web (i.e. it had to produce a semantic annotation of web page contents). This entailed that the tags included in the annotations of the model had to (1) represent linguistic concepts (or linguistic categories, as they are termed in ISO/DCR (2008)), in order for this model to be linguistically-motivated; (2) be ontological terms (i.e., use an ontological vocabulary), in order for the model to be ontology-based; and (3) be structured (linked) as a collection of ontology-based
Resumo:
En este trabajo se presentan las principales características de Calíope, una aplicación web que es capaz de manejar un corpus y un glosario de términos en inglés y en español. La singularidad más importante de esta herramienta es que permite interrelacionar estos dos recursos. Así, por ejemplo, los resultados de la búsqueda de concordancias se pueden incorporar automáticamente a los ejemplos de uso del término correspondiente en el glosario; y desde la lista de palabras de un texto del corpus se pueden añadir términos al glosario o acceder a la información de un término que esté en el glosario.
Resumo:
Ontology antipatterns are structures that reflect ontology modelling problems because they lead to inconsistencies, bad reasoning performance or bad formalisation of domain knowledge. We propose four methods for the detection of antipatterns using SPARQL queries.We conduct some experiments to detect antipattern in a corpus of OWL ontologies.
Resumo:
Basándonos en la recopilación inicial de preposiciones, locuciones preposicionales, términos con preposición dependiente y phrasal verbs utilizados en el texto técnico realizada en otros proyectos anteriores del Departamento de Lingüística Aplicada a la Ciencia y a la Tecnología, el objetivo de este trabajo es completar, organizar, actualizar y dar visibilidad a esta información inicial. Tras realizar un proceso exhaustivo de verificación, unificación, clasificación y ampliación de la información existente, en caso necesario, el listado resultante se utiliza para elaborar un glosario de términos con preposición. El objetivo final de este proyecto es que este glosario esté a disposición de los usuarios, a través de una consulta on-line, en la página del ILLLab (http://illlab.euitt.upm.es/wordpress/), dependiente del Departamento de Lingüística Aplicada a la Ciencia y a la Tecnología. Para incluir en el glosario ejemplos actualizados de textos técnicos, se ha recopilado un corpus lingüístico de textos técnicos, tomando como base diferentes números de la revista IEEE Spectrum, en su edición digital, publicados entre los años 2009 y 2012. El objetivo de esta recopilación es la de ofrecer al consultante diferentes ejemplos de uso en el texto técnico de los distintos términos con preposición que componen el glosario, de manera que pueda acceder de manera rápida y sencilla a ejemplos de uso real de los términos que está buscando, con objeto de clarificar aspectos relacionados con su uso o, en su caso, facilitar su aprendizaje. Toda esta información, tanto el listado de términos con preposición como las frases pertenecientes al corpus recopilado, se incorpora a una base de datos, alojada dentro de la misma página web del ILLLab. A través de un formulario de consulta, a disposición del usuario en dicha página, se pueden obtener todos los términos recopilados que coincidan con los criterios de búsqueda introducidos. El usuario puede realizar dos tipos de búsqueda principales: por preposición o por término completo. Además, puede elegir una búsqueda global (entre todos los términos que integran el glosario) o parcial (en una sola de las categorías en las que se han dividido los diferentes términos, de acuerdo con su función gramatical). Por último, se presentan unas estadísticas de uso de los términos recopilados dentro de los diferentes textos que integran el corpus lingüístico, de manera que pueda establecerse una relación de los que aparecen con más frecuencia en el texto técnico. ABSTRACT. Based on the initial collection of prepositions, prepositional phrases, dependent prepositions and phrasal verbs used in technical texts collected on previous projects in the Department of Applied Linguistics to Science and Technology, the aim of this project is to improve, organize, update and provide visibility to this initial information. Following a process of verification, unification, classification and extension of existing information, if necessary, a glossary of terms with preposition is built. The ultimate objective of this project is to make this glossary available to users through an online consultation in the ILLLab webpage (http://illlab.euitt.upm.es/wordpress/). The administration of tis webpage depends of the Department of Applied Linguistics in Science and Technology. A linguistic corpus of technical texts has been compiled, based on different numbers of the IEEE Spectrum magazine, in its online edition, published between the years 2009 and 2012. The aim of this collection is to provide different examples of use in the technical text for the terms included in the glossary, so that examples of the actual use of the terms consulted can be easily and quickly accessed, in order to clarify doubts regarding their meaning or translation into Spanish and facilitate learning. All this information, both the list of terms with prepositional phrases as well as the corpus developed, is incorporated in a database. Through a searching form, the ILLLab's user may obtain all the terms matching the search criteria entered. The user can perform two types of main search: by preposition or by full term. Additionally, a global search can be selected (including all terms included in the glossary) or a partial one (including only one of the glossary's categories). Finally, some statistics of use are presented according to the various texts included in the corpus, so a relation of the most frequent prepositions in the technical text can be established.
Resumo:
The great amount of text produced every day in the Web turned it as one of the main sources for obtaining linguistic corpora, that are further analyzed with Natural Language Processing techniques. On a global scale, languages such as Portuguese - official in 9 countries - appear on the Web in several varieties, with lexical, morphological and syntactic (among others) differences. Besides, a unified spelling system for Portuguese has been recently approved, and its implementation process has already started in some countries. However, it will last several years, so different varieties and spelling systems coexist. Since PoS-taggers for Portuguese are specifically built for a particular variety, this work analyzes different training corpora and lexica combinations aimed at building a model with high-precision annotation in several varieties and spelling systems of this language. Moreover, this paper presents different dictionaries of the new orthography (Spelling Agreement) as well as a new freely available testing corpus, containing different varieties and textual typologies.
Resumo:
The aim of this paper is to evaluate the efficacy of the application WebBootCaT to create specialised corpora automatically, investigating the translation of articles of association from Italian into English. The first section reflects on the relevant literature and proposes the utility of corpora for translators. The second section discusses the methodology employed, and the third section analyses the results obtained and comments on how language professionals could possibly exploit the application to its full. The fourth section provides a few concrete usage examples of the thus built corpora, to then conclude that WebBootCaT is a genuinely powerful tool that could be implemented by professional translators in order to save time and improve their translations in the long term.
Resumo:
Corpus Linguistics is a young discipline. The earliest work was done in the 1960s, but corpora only began to be widely used by lexicographers and linguists in the late 1980s, by language teachers in the late 1990s, and by language students only very recently. This course in corpus linguistics was held at the Departamento de Linguistica Aplicada, E.T.S.I. de Minas, Universidad Politecnica de Madrid from June 15-19 1998. About 45 teachers registered for the course. 30% had PhDs in linguistics, 20% in literature, and the rest were doctorandi or qualified English teachers. The course was designed to introduce the use of corpora and other computational resources in teaching and research, with special reference to scientific and technological discourse in English. Each participant had a computer networked with the lecturer’s machine, whose display could be projected onto a large screen. Application programs were loaded onto the central server, and telnet and a web browser were available. COBUILD gave us permission to access the 323 million word Bank of English corpus, Mike Scott allowed us to use his Wordsmith Tools software, and Tim Johns gave us a copy of his MicroConcord program.
Resumo:
UK universities are accepting increasing numbers of students whose L1 is not English on a wide range of programmes at all levels. These students require additional support and training in English, focussing on their academic disciplines. Corpora have been used in EAP since the 1980s, mainly for research, but a growing number of researchers and practitioners have been advocating the use of corpora in EAP pedagogy, and such use is gradually increasing. This paper outlines the processes and factors to be considered in the design and compilation of an EAP corpus (e.g., the selection and acquisition of texts, metadata, data annotation, software tools and outputs, web interface, and screen displays), especially one intended to be used for teaching. Such a corpus would also facilitate EAP research in terms of longitudinal studies, student progression and development, and course and materials design. The paper has been informed by the preparatory work on the EAP subcorpus of the ACORN corpus project at Aston University. © 2007 Elsevier Ltd. All rights reserved.
Resumo:
In this paper we propose algorithms for combining and ranking answers from distributed heterogeneous data sources in the context of a multi-ontology Question Answering task. Our proposal includes a merging algorithm that aggregates, combines and filters ontology-based search results and three different ranking algorithms that sort the final answers according to different criteria such as popularity, confidence and semantic interpretation of results. An experimental evaluation on a large scale corpus indicates improvements in the quality of the search results with respect to a scenario where the merging and ranking algorithms were not applied. These collective methods for merging and ranking allow to answer questions that are distributed across ontologies, while at the same time, they can filter irrelevant answers, fuse similar answers together, and elicit the most accurate answer(s) to a question.