995 resultados para Text Corpus


Relevância:

70.00% 70.00%

Publicador:

Resumo:

Ce mémoire de maitrise vise à dresser un portrait des erreurs syntaxiques des élèves du secondaire en analysant un corpus de textes de cinq groupes du Québec, de la 1re à la 5e secondaire. Les résultats actuels aux épreuves ministérielles des élèves de 5e secondaire nous indiquent que les élèves éprouvent des difficultés avec l’écriture du français. Une analyse approfondie nous permet de comprendre que l’amélioration de la situation passe par une meilleure connaissance des erreurs syntaxiques des élèves. En nous appuyant sur la grille de Boivin et Pinsonneault (2014), nous avons analysé les données provenant du codage des textes d’élèves de la 1re à la 5e secondaire. L’analyse de ces données nous a permis de constater que parmi les sept grandes catégories d’erreurs de la grille, c’est en syntaxe que les élèves commettent le plus d’erreurs. Une incursion au cœur des six sous-catégories de la syntaxe a révélé que la ponctuation causait le plus de problème aux élèves, et ce, à tous les niveaux. Les erreurs liées à la détermination de la catégorie grammaticale des mots (homophones) arrivaient en deuxième place. Par la suite, nous avons précisé davantage l’analyse en déterminant, pour chacun des codes, l’évolution du nombre d’erreurs d’un niveau du secondaire à l’autre. Il est ressorti de cette étude que les deux principales erreurs, basées sur les sous-catégories syntaxiques, sont celles portant sur l’usage de la virgule et celles liées à la confusion qui existe encore un verbe terminant par «er» et un adjectif ou un participe passé terminant par «é-e-s».

Relevância:

70.00% 70.00%

Publicador:

Resumo:

This study uses a purpose-built corpus to explore the linguistic legacy of Britain’s maritime history found in the form of hundreds of specialised ‘Maritime Expressions’ (MEs), such as TAKEN ABACK, ANCHOR and ALOOF, that permeate modern English. Selecting just those expressions commencing with ’A’, it analyses 61 MEs in detail and describes the processes by which these technical expressions, from a highly specialised occupational discourse community, have made their way into modern English. The Maritime Text Corpus (MTC) comprises 8.8 million words, encompassing a range of text types and registers, selected to provide a cross-section of ‘maritime’ writing. It is analysed using WordSmith analytical software (Scott, 2010), with the 100 million-word British National Corpus (BNC) as a reference corpus. Using the MTC, a list of keywords of specific salience within the maritime discourse has been compiled and, using frequency data, concordances and collocations, these MEs are described in detail and their use and form in the MTC and the BNC is compared. The study examines the transformation from ME to figurative use in the general discourse, in terms of form and metaphoricity. MEs are classified according to their metaphorical strength and their transference from maritime usage into new registers and domains such as those of business, politics, sports and reportage etc. A revised model of metaphoricity is developed and a new category of figurative expression, the ‘resonator’, is proposed. Additionally, developing the work of Lakov and Johnson, Kovesces and others on Conceptual Metaphor Theory (CMT), a number of Maritime Conceptual Metaphors are identified and their cultural significance is discussed.

Relevância:

70.00% 70.00%

Publicador:

Resumo:

The paper relates about our ongoing work on the creation of a corpus of Bulgarian and Ukrainian parallel texts. We discuss some differences in the approaches and the interpretation of some concepts, as well as various problems associated with the construction of our corpus, in particular the occasional ‘nonparallelism’ of original and translated texts. We give examples of the application of the parallel corpus for the study of lexical semantics and note the outstanding role of the corpus in the lexicographic description of Ukrainian and Bulgarian translation equivalents. We draw attention to the importance of creating parallel corpora as objects of national as well as global cultural heritage.

Relevância:

60.00% 60.00%

Publicador:

Resumo:

This paper analyzes and evaluates, in the context of Ontology learning, some techniques to identify and extract candidate terms to classes of a taxonomy. Besides, this work points out some inconsistencies that may be occurring in the preprocessing of text corpus, and proposes techniques to obtain good terms candidate to classes of a taxonomy.

Relevância:

60.00% 60.00%

Publicador:

Resumo:

Na elaboração do presente trabalho, que tem como tema “Os manuais de língua portuguesa e o desenvolvimento da expressão oral no ensino secundário de Cabo Verde”, procurou-se investigar, a partir da perspectiva dos manuais de Língua Portuguesa, até que ponto os mesmos podem servir ou não para o desenvolvimento da competência comunicativa dos alunos do ensino secundário, na modalidade de expressão oral. Para isso foi adoptada uma metodologia situada no campo da investigação educacional, sem pôr de lado os métodos da pesquisa qualitativa e quantitativa, o que permitiu abordar as questões relacionadas com as constantes situações de insucesso na aprendizagem da Língua Portuguesa, cujas causas têm sido atribuídas, quase sempre, aos factores como as metodológicas, aos problemas linguísticos, decorrentes da forte presença da língua materna no quotidiano dos aprendentes e ao uso de materiais desajustados da realidade nacional. Assim, para o cumprimento dos objectivos propostos, foi possível trabalhar sobre dois corpora; por um lado analisaram-se os manuais do ensino secundário, por outro, foi examinado o inquérito aplicado tanto aos professores como aos alunos, e cujo tratamento dos dados permitiu confirmar a aceitação entusiástica dos manuais escolares no contexto pedagógico, apesar da descrença na potencialidade dos exercícios propostos em desenvolver a capacidade de expressão oral dos alunos. Outro aspecto digno de registo foi o desejo manifestado pelos informantes em ter outros materiais capazes de melhorar o ensino do Português como língua segunda. Em termos do ensino da citada disciplina, foram apresentadas algumas sugestões para que a sua melhoria reverta a favor do sucesso de aprendizagem de todos os alunos

Relevância:

60.00% 60.00%

Publicador:

Resumo:

Descreve a implementação de um software de reconhecimento de voz para o Português Brasileiro. Dentre os objetivos do trabalho tem-se a construção de um sistema de voz contínua para grandes vocabulários, apto a ser usado em aplicações em tempo-real. São apresentados os principais conceitos e características de tais sistemas, além de todos os passos necessários para construção. Como parte desse trabalho foram produzidos e disponibilizados vários recursos: modelos acústicos e de linguagem, novos corpora de voz e texto. O corpus de texto vem sendo construído através da extração e formatação automática de textos de jornais na Internet. Além disso, foram produzidos dois corpora de voz, um baseado em audiobooks e outro produzido especificamente para simular testes em tempo-real. O trabalho também propõe a utilização de técnicas de adaptação de locutor para resolução de problemas de descasamento acústico entre corpora de voz. Por último, é apresentada uma interface de programação de aplicativos que busca facilitar a utilização do decodificador Julius. Testes de desempenho são apresentados, comparando os sistemas desenvolvidos e um software comercial.

Relevância:

60.00% 60.00%

Publicador:

Resumo:

This theoretical/applied study contemplates (socio)linguistic, (socio)terminological studies of the lexicon and specialized translation. It is aimed at analyzing a text corpus undergoing official translations from French into Portuguese and from Portuguese into French and a text corpus originally written in Swiss French. The objective is observing the similarities and differences between the first and second terminological group. Problems arise from the comparison of this material: would lexical particularities of Swiss French be a relevant difficulty for the Brazilian translator, whose training privileges the French spoken in France? Does the methodology favor cognate terms and those with a statelism status (institutional romandism)

Relevância:

60.00% 60.00%

Publicador:

Resumo:

This paper proposes a sequential coupling of a Hidden Markov Model (HMM) recognizer for offline handwritten English sentences with a probabilistic bottom-up chart parser using Stochastic Context-Free Grammars (SCFG) extracted from a text corpus. Based on extensive experiments, we conclude that syntax analysis helps to improve recognition rates significantly.

Relevância:

60.00% 60.00%

Publicador:

Resumo:

We introduce a type of 2-tier convolutional neural network model for learning distributed paragraph representations for a special task (e.g. paragraph or short document level sentiment analysis and text topic categorization). We decompose the paragraph semantics into 3 cascaded constitutes: word representation, sentence composition and document composition. Specifically, we learn distributed word representations by a continuous bag-of-words model from a large unstructured text corpus. Then, using these word representations as pre-trained vectors, distributed task specific sentence representations are learned from a sentence level corpus with task-specific labels by the first tier of our model. Using these sentence representations as distributed paragraph representation vectors, distributed paragraph representations are learned from a paragraph-level corpus by the second tier of our model. It is evaluated on DBpedia ontology classification dataset and Amazon review dataset. Empirical results show the effectiveness of our proposed learning model for generating distributed paragraph representations.

Relevância:

60.00% 60.00%

Publicador:

Resumo:

Motivation: In molecular biology, molecular events describe observable alterations of biomolecules, such as binding of proteins or RNA production. These events might be responsible for drug reactions or development of certain diseases. As such, biomedical event extraction, the process of automatically detecting description of molecular interactions in research articles, attracted substantial research interest recently. Event trigger identification, detecting the words describing the event types, is a crucial and prerequisite step in the pipeline process of biomedical event extraction. Taking the event types as classes, event trigger identification can be viewed as a classification task. For each word in a sentence, a trained classifier predicts whether the word corresponds to an event type and which event type based on the context features. Therefore, a well-designed feature set with a good level of discrimination and generalization is crucial for the performance of event trigger identification. Results: In this article, we propose a novel framework for event trigger identification. In particular, we learn biomedical domain knowledge from a large text corpus built from Medline and embed it into word features using neural language modeling. The embedded features are then combined with the syntactic and semantic context features using the multiple kernel learning method. The combined feature set is used for training the event trigger classifier. Experimental results on the golden standard corpus show that >2.5% improvement on F-score is achieved by the proposed framework when compared with the state-of-the-art approach, demonstrating the effectiveness of the proposed framework. © 2014 The Author 2014. The source code for the proposed framework is freely available and can be downloaded at http://cse.seu.edu.cn/people/zhoudeyu/ETI_Sourcecode.zip.

Relevância:

60.00% 60.00%

Publicador:

Resumo:

En este trabajo nos proponemos analizar la colocación latina poena afficere, ‘imponer un castigo’, un tipo de colocación con especificidades tanto sintácticas como semánticas que la distinguen de las construcciones verbo-nominales más prototípicas: el sustantivo predicativo funciona no como Objeto Directo sino como tercer argumento del verbo soporte, un esquema sintáctico que, como intentaremos demostrar, resulta ideal para la expresión de predicados causativos. De los ejemplos documentados de poena afficere en un amplio corpus de textos, intentaremos destacar las principales características de este tipo de colocación. Para su descripción y formalización nos serviremos del marco teórico propuesto por la Teoría Sentido-Texto.

Relevância:

30.00% 30.00%

Publicador:

Resumo:

Este artigo apresenta a etapa fundamental de um processo investigativo maior, a constituição e a análise interpretativa de um corpus lingüístico capaz de propiciar avanço na direção apontada em etapa prévia - quando focos e questões de interesse foram consolidados - de um estudo sobre reflexividade e articulação empreendedora. Daí essa "colcha" aqui tecida ser denominada "virtuosa", ou seja, algo capaz (que tem a virtude) de "produzir efeitos". Pretende-se trazer à tona esse processo de entrelaçamento de evidências oriundas das mais diversas fontes e a natural construção desse corpus e das interpretações, à luz do aporte teórico dos autores. Como foi tecido esse corpus? Qual foi sua importância para o avanço deste estudo? Estas são as principais questões. Como resultado, o referido corpus demonstrou ter grande utilidade para acesso e agrupamento de evidências no "caso ilustrativo", e a interpretação, à luz do aporte teórico, de questões importantes (previamente elencadas) para o fenômeno central em estudo: a "articulação empreendedora de caráter reflexivo", por meio das evidências encontradas no caso.

Relevância:

30.00% 30.00%

Publicador:

Resumo:

Em Portugal, o turismo é uma actividade económica que gera ganhos significativos e a promoção turística do país no mercado externo assenta cada vez mais na criação de sites multilingues. Este artigo examina um corpus constituído por textos provenientes de sites de Regiões de Turismo de Portugal, em português, e as respectivas traduções para inglês, com o objectivo de demonstrar o modo como os tradutores adicionam informação inexistente no texto original. Através da análise desta característica específica dos sites oficiais traduzidos para promover o destino ―Portugal‖ no mercado externo pretende salientar-se a importância que as estratégias de tradução assumem no marketing do destino turístico, uma vez que a informação adicionada cria uma determinada imagem de uma região. Em termos teóricos e metodológicos, este artigo enquadra-se no âmbito da Linguística de Corpus.