571 resultados para Corpora Pedunculata
Resumo:
In this genre analysis research paper, we compare U.S. patents, contracts, and regulations on technical matters with a focus upon the relation between vagueness and communicative purposes and subpurposes of these three genres. Our main interest is the investigation of intergeneric conventions across the three genres, based on the software analysis of three corpora (one for each genre, 1 million words per corpus). The result of the investigation is that intergeneric conventions are found at the level of types of expressed linguistic vagueness, but that intergeneric conventions at the level of actual formulations are rare. The conclusion is that at this latter level the influence from the situation type underlying the individual genre is more important than the overarching legal character of the genres, when we talk about introducing explicit vagueness in the text.
Resumo:
This paper describes the UPM system for the Spanish-English translation task at the NAACL 2012 workshop on statistical machine translation. This system is based on Moses. We have used all available free corpora, cleaning and deleting some repetitions. In this paper, we also propose a technique for selecting the sentences for tuning the system. This technique is based on the similarity with the sentences to translate. With our approach, we improve the BLEU score from 28.37% to 28.57%. And as a result of the WMT12 challenge we have obtained a 31.80% BLEU with the 2012 test set. Finally, we explain different experiments that we have carried out after the competition.
Resumo:
El objetivo de este Proyecto Fin de Carrera es abordar el análisis del capítulo de conclusiones de tesis de ingeniería de telecomunicación a partir de un corpus comparable en inglés y español. A través del léxico podrán conocerse las expresiones típicas y la estructura de capítulo de conclusiones, tanto en inglés como en español. Para empezar este Proyecto, se ha compilado los corpus que se quieren comparar, en total se ha digitalizado tres corpus, uno con 24 conclusiones de tesis doctorales en español, otro con el mismo número de capítulos de conclusiones de tesis doctorales en inglés (PhD) y por último un corpus de conclusiones de tesis de fin de máster y de grado. El primer análisis que se ha realizado es el de la estructura de las conclusiones a partir de los títulos y subtítulos del capítulo. Se han comparado los títulos más utilizados y se han comentado las coincidencias y diferencias entre los corpus. La estructura vista a través de los subtítulos, se ha comparado con la propuesta por la autora Glasman-Deal (2011) en trabajos académicos de investigación, principalmente en artículos de investigación. La siguiente parte del Proyecto se ha centrado en el estudio del léxico, para ello nos hemos ayudado de la herramienta informática Wordsmith tools de la que se han explicado sus herramientas y funciones más útiles para este trabajo entre ellas el plot, que informa número de archivos en la que aparece cada palabra en el corpus. Las palabras con mayor plot son las más usadas por todos los doctorandos cuando escriben el capítulo de conclusiones .Se han elaborado unas pirámides donde se han colocado las palabras propias del género académico de las tesis por orden de uso. Las más usadas, con mayor plot, en la base y según se asciende aparecen las que tienen menor plot, con el fin de ver de una forma gráfica el peso que tiene cada palabra en el corpus. El siguiente paso del análisis del léxico ha tenido el objetivo de diferenciar los contextos de uso de las palabras incluidas en las pirámides. Se ha diferenciado entre los usos de las palabras dependiendo de su denotación académica o técnica. Esta comparación ha permitido comprobar que dentro del mismo corpus un sustantivo como contribuciones tiene connotación positiva o negativa dependiendo del contexto. Con los ejemplos aportados por los corpus se proporciona una base para el análisis lingüístico, centrado en los sustantivos, en este trabajo. Para finalizar el Proyecto, se ha implementado una base de datos con los resultados obtenidos del análisis de los sustantivos en la que se pueden ver las palabras que corresponden a cada nivel de la pirámide y ejemplos del uso de estas palabras. The aim of this Project is to analyze the concluding chapter of PhD thesis in the field of telecommunication engineering by means of a comparable corpus in English and Spanish. Through the lexis we will be able to capture useful expressions and the typical structure of the chapter in these specialized thesis, either in English and Spanish. To start with, three corpora have been compiled. The first one consists of 24 concluding chapters of PhD thesis in Spanish; the second, is made up of the same number of chapters of PhD thesis in the English language; and finally, 24 further chapters of Master and Degree thesis in English were digitalized and prepared for lexis analysis. Second, the study of the structure of the chapter of conclusions has been carried out. In this part the most common titles in the chapter of conclusions have been analysed and compared so as to find differences and similarities between the two languages compared. Moreover, the structure found through the subtitles in the conclusions of the thesis has been compared with the structure proposed by Glasman-Deal (2011) in her book Science Research Writing. Third, the study has been focused on the lexis of each corpus. These corpora have been treated with a lexis analyser called Wordsmith tools. The variables of frequency and plot have been applied to withdraw the most widely used nouns from the list of all the words found in any of the corpus. A pyramidal structure has been designed in order to show the academic or gender nouns - the ones usually found in the concluding chapter of thesis – nouns with a higher plot in the corpus. Two different types of context have been found for these nouns: technical and academic denotation. To show the difference in use of these nouns, arranged examples of contexts are given for each of the words studied. Finally, a database has been implemented to arrange the results of the lexis study. In this database the most significant examples of each noun are shown.
Resumo:
This approach aims at aligning, unifying and expanding the set of sentiment lexicons which are available on the web in order to increase their robustness of coverage. A sentiment lexicon is a critical and essential resource for tagging subjective corpora on the web or elsewhere. In many situations, the multilingual property of the sentiment lexicon is important because the writer is using two languages alternately in the same text, message or post. Our USL approach computes the unified strength of polarity of each lexical entry based on the Pearson correlation coefficient which measures how correlated lexical entries are with a value between 1 and -1, where 1 indicates that the lexical entries are perfectly correlated, 0 indicates no correlation, and -1 means they are perfectly inversely correlated and the UnifiedMetrics procedure for CPU and GPU, respectively.
Resumo:
Scientific workflows provide the means to define, execute and reproduce computational experiments. However, reusing existing workflows still poses challenges for workflow designers. Workflows are often too large and too specific to reuse in their entirety, so reuse is more likely to happen for fragments of workflows. These fragments may be identified manually by users as sub-workflows, or detected automatically. In this paper we present the FragFlow approach, which detects workflow fragments automatically by analyzing existing workflow corpora with graph mining algorithms. FragFlow detects the most common workflow fragments, links them to the original workflows and visualizes them. We evaluate our approach by comparing FragFlow results against user-defined sub-workflows from three different corpora of the LONI Pipeline system. Based on this evaluation, we discuss how automated workflow fragment detection could facilitate workflow reuse.
Resumo:
Recently, experts and practitioners in language resources have started recognizing the benefits of the linked data (LD) paradigm for the representation and exploitation of linguistic data on the Web. The adoption of the LD principles is leading to an emerging ecosystem of multilingual open resources that conform to the Linguistic Linked Open Data Cloud, in which datasets of linguistic data are interconnected and represented following common vocabularies, which facilitates linguistic information discovery, integration and access. In order to contribute to this initiative, this paper summarizes several key aspects of the representation of linguistic information as linked data from a practical perspective. The main goal of this document is to provide the basic ideas and tools for migrating language resources (lexicons, corpora, etc.) as LD on the Web and to develop some useful NLP tasks with them (e.g., word sense disambiguation). Such material was the basis of a tutorial imparted at the EKAW’14 conference, which is also reported in the paper.
Resumo:
This paper presents new techniques with relevant improvements added to the primary system presented by our group to the Albayzin 2012 LRE competition, where the use of any additional corpora for training or optimizing the models was forbidden. In this work, we present the incorporation of an additional phonotactic subsystem based on the use of phone log-likelihood ratio features (PLLR) extracted from different phonotactic recognizers that contributes to improve the accuracy of the system in a 21.4% in terms of Cavg (we also present results for the official metric during the evaluation, Fact). We will present how using these features at the phone state level provides significant improvements, when used together with dimensionality reduction techniques, especially PCA. We have also experimented with applying alternative SDC-like configurations on these PLLR features with additional improvements. Also, we will describe some modifications to the MFCC-based acoustic i-vector system which have also contributed to additional improvements. The final fused system outperformed the baseline in 27.4% in Cavg.
Resumo:
Esta investigación se enmarca dentro de los denominados lenguajes de especialidad que para esta tesis será el de las Tecnologías de la Información y la Comunicación (TIC). De todos los aspectos relacionados con el estudio de estos lenguajes que pudieran tener interés lingüístico ha primado el análisis del componente terminológico. Tradicionalmente la conceptualización de un campo del saber se representaba mayoritariamente a través del elemento nominal, así lo defiende la Teoría General de la Terminología (Wüster, 1968). Tanto la lexicología como la lexicografía han aportado importantes contribuciones a los estudios terminológicos para la identificación del componente léxico a través del cual se transmite la información especializada. No obstante esos primeros estudios terminológicos que apuntaban al sustantivo como elmentos denominativo-conceptual, otras teorías más recientes, entre las que destacamos la Teoría Comunicativa de la Terminología (Cabré, 1999) identifican otras estructuras morfosintácticas integradas por otros elementos no nominales portadores igualmente de esa carga conceptual. A partir de esta consideración, hemos seleccionado para este estudio el adjetivo relacional en tanto que representa otra categoría gramatical distinta al sustantivo y mantiene un vínculo con éste debido a su procedencia. Todo lo cual puede suscitar cierto interés terminológico. A través de esta investigación, nos hemos propuesto demostrar las siguientes hipótesis: 1. El adjetivo relacional aporta contenido especializado en su asociación con el componente nominal. 2. El adjetivo relacional es portador de un valor semántico que hace posible identificar con más precisión la relación conceptual de los elementos -adjetivo y sustantivo - de la combinación léxica resultante, especialmente en algunas formaciones ambiguas. 3. El adjetivo relacional, como modificador natural del sustantivo al que acompaña, podría imponer cierta restricción en sus combinaciones y, por tanto, hacer una selección discriminada de los integrantes de la combinación léxica especializada. Teniendo en cuenta las anteriores hipótesis, esta investigación ha delimitado y caracterizado el segmento léxico objeto de estudio: la ‘combinación léxica especializada (CLE)’ formalmente representada por la estructura sintáctica [adjR+n], en donde adjR es el adjetivo y n el sustantivo al que acompaña. De igual forma hemos descrito el marco teórico desde el que abordar nuestro análisis. Se trata de la teoría del Lexicón Generatvio (LG) y de la representación semántica (Pustojovsky, 1995) que propone como explicación de la generación de significados. Hemos analizado las distintas estructuras de representación léxica y en especial la estructura qualia a través de la cual hemos identificado la relación semántica que mantienen los dos ítems léxicos [adjR+n] de la estructura sintáctica de nuestro estudio. El estudio semántico de las dos piezas léxicas ha permitido, además, comprobar el valor denominativo del adjetivo en la combinación. Ha sido necesario elaborar un corpus de textos escritos en inglés y español pertenecientes al discurso de especialidad de las TIC. Este material ha sido procesado para nuestros fines utilizando distintas herramientas electrónicas. Se ha hecho uso de lexicones electrónicos, diccionarios online generales y de especialidad y corpus de referencia online, estos últimos para poder eventualmente validad nuetros datos. Asimismo se han utilizado motores de búsqueda, entre ellos WordNet Search 3.1, para obtener la información semántica de nuestros elementos léxicos. Nuestras conclusiones han corroborado las hipótesis que se planteaban en esta tesis, en especial la referente al valor denominativo-conceptual del adjetivo relacional el cual, junto con el sustantivo al que acompaña, forma parte de la representación cognitiva del lenguaje de especialidad de las TIC. Como continuación a este estudio se proponen sugerencias sobre líneas futuras de investigación así como el diseño de herramientas informáticas que pudieran incorporar estos datos semánticos como complemento de los ítems léxicos dotados de valor denominativo-conceptual. ABSTRACT This research falls within the field of the so-called Specialized Languages which for the purpose of this study is the Information and Communication Technology (ICT) discourse. Considering their several distinguishing features terminology concentrates our interest from the point of view of linguistics. It is broadly assumed that terms represent concepts of a subject field. For the classical view of terminology (Wüster, 1968) these terms are formally represented by nouns. Both lexicology and terminology have made significant contributions to the study of terms. Later research as well as other theories on Terminology such as the Communicative Theory of Terminology (Cabré, 1993) have shown that other lexical units can also represent knowledge organization. On these bases, we have focused our research on the relational adjective which represents a functional unit different from a noun while still connected to the noun by means of its nominal root. This may have a potential terminological interest. Therefore the present research is based on the next hypotheses: 1. The relational adjective conveys specialized information when combined with the noun. 2. The relational adjective has a semantic meaning which helps understand the conceptual relationship between the adjective and the noun being modified and disambiguate certain senses of the resulting lexical combination. 3. The relational adjective may impose some restrictions when choosing the nouns it modifies. Considering the above hypotheses, this study has identified and described a multi-word lexical unit pattern [Radj+n] referred to as a Specialized Lexical Combination (SLC) linguistically realized by a relational adjective, Radj, and a noun, n. The analysis of such a syntactic pattern is addressed from the framework of the Generative Lexicon (Pustojovsky, 1995). Such theory provides several levels of semantic description which help lexical decomposition performed generatively. These levels of semantic representation are connected through generative operations or generative devices which account for the compositional interpretation of any linguistic utterance in a given context. This study analyses these different levels and focuses on one of them, i.e. the qualia structure since it may encode the conceptual meaning of the syntactic pattern [Radj+n]. The semantic study of these two lexical items has ultimately confirmed the conceptual meaning of the relational adjective. A corpus made of online ICT articles from magazines written in English and Spanish – some being their translations - has been used for the word extraction. For this purpose some word processing software packages have been employed. Moreover online general language and specialized language dictionaries have been consulted. Search engines, namely WordNet Search 3.1, have been also exploited to find the semantic information of our lexical units. Online reference corpora in English and Spanish have been used for a contrastive analysis of our data. Finally our conclusions have confirmed our initial hypotheses, i.e. relational adjectives are specialized lexical units which together with the nouns are part of the knowledge representation of the ICT subject field. Proposals for new research have been made together with some other suggestions for the design of computer applications to visually show the conceptual meaning of certain lexical units.
Resumo:
The formation of estrogens from C19 steroids is catalyzed by aromatase cytochrome P450 (P450arom), the product of the cyp19 gene. The actions of estrogen include dimorphic anatomical, functional, and behavioral effects on the development of both males and females, considerations that prompted us to examine the consequences of deficiency of aromatase activity in mice. Mice lacking a functional aromatase enzyme (ArKO) were generated by targeted disruption of the cyp19 gene. Male and female ArKO mice were born with the expected Mendelian frequency from F1 parents and grew to adulthood. Female ArKO mice at 9 weeks of age displayed underdeveloped external genitalia and uteri. Ovaries contained numerous follicles with abundant granulosa cells and evidence of antrum formation that appeared arrested before ovulation. No corpora lutea were present. Additionally the stroma were hyperplastic with structures that appeared to be atretic follicles. Development of the mammary glands approximated that of a prepubertal female. Examination of male ArKO mice of the same age revealed essentially normal internal anatomy but with enlargement of the male accessory sex glands because of increased content of secreted material. The testes appeared normal. Male ArKO mice are capable of breeding and produce litters of approximately average size. Whereas serum estradiol levels were at the limit of detection, testosterone levels were elevated, as were the levels of follicle-stimulating hormone and luteinizing hormone. The phenotype of these animals differs markedly from that of the previously reported ERKO mice, in which the estrogen receptor α is deleted by targeted disruption.
Resumo:
A cDNA encoding a cytochrome P450 enzyme was isolated from a cDNA library of the corpora allata (CA) from reproductively active Diploptera punctata cockroaches. This P450 from the endocrine glands that produce the insect juvenile hormone (JH) is most closely related to P450 proteins of family 4 and was named CYP4C7. The CYP4C7 gene is expressed selectively in the CA; its message could not be detected in the fat body, corpora cardiaca, or brain, but trace levels of expression were found in the midgut and caeca. The levels of CYP4C7 mRNA in the CA, measured by ribonuclease protection assays, were linked to the activity cycle of the glands. In adult females, CYP4C7 expression increased immediately after the peak of JH synthesis, reaching a maximum on day 7, just before oviposition. mRNA levels then declined after oviposition and during pregnancy. The CYP4C7 protein was produced in Escherichia coli as a C-terminal His-tagged recombinant protein. In a reconstituted system with insect NADPH cytochrome P450 reductase, cytochrome b5, and NADPH, the purified CYP4C7 metabolized (2E,6E)-farnesol to a more polar product that was identified by GC-MS and by NMR as (10E)-12-hydroxyfarnesol. CYP4C7 converted JH III to 12-trans-hydroxy JH III and metabolized other JH-like sesquiterpenoids as well. This ω-hydroxylation of sesquiterpenoids appears to be a metabolic pathway in the corpora allata that may play a role in the suppression of JH biosynthesis at the end of the gonotrophic cycle.
Resumo:
The active form of vitamin D, 1α,25-dihydroxyvitamin D [1α,25(OH)2D], is synthesized from its precursor 25 hydroxyvitamin D [25(OH)D] via the catalytic action of the 25(OH)D-1α-hydroxylase [1α(OH)ase] enzyme. Many roles in cell growth and differentiation have been attributed to 1,25(OH)2D, including a central role in calcium homeostasis and skeletal metabolism. To investigate the in vivo functions of 1,25(OH)2D and the molecular basis of its actions, we developed a mouse model deficient in 1α(OH)ase by targeted ablation of the hormone-binding and heme-binding domains of the 1α(OH)ase gene. After weaning, mice developed hypocalcemia, secondary hyperparathyroidism, retarded growth, and the skeletal abnormalities characteristic of rickets. These abnormalities are similar to those described in humans with the genetic disorder vitamin D dependent rickets type I [VDDR-I; also known as pseudovitamin D-deficiency rickets (PDDR)]. Altered non-collagenous matrix protein expression and reduced numbers of osteoclasts were also observed in bone. Female mutant mice were infertile and exhibited uterine hypoplasia and absent corpora lutea. Furthermore, histologically enlarged lymph nodes in the vicinity of the thyroid gland and a reduction in CD4- and CD8-positive peripheral T lymphocytes were observed. Alopecia, reported in vitamin D receptor (VDR)-deficient mice and in humans with VDDR-II, was not seen. The findings establish a critical role for the 1α(OH)ase enzyme in mineral and skeletal homeostasis as well as in female reproduction and also point to an important role in regulating immune function.
Resumo:
The field of natural language processing (NLP) has seen a dramatic shift in both research direction and methodology in the past several years. In the past, most work in computational linguistics tended to focus on purely symbolic methods. Recently, more and more work is shifting toward hybrid methods that combine new empirical corpus-based methods, including the use of probabilistic and information-theoretic techniques, with traditional symbolic methods. This work is made possible by the recent availability of linguistic databases that add rich linguistic annotation to corpora of natural language text. Already, these methods have led to a dramatic improvement in the performance of a variety of NLP systems with similar improvement likely in the coming years. This paper focuses on these trends, surveying in particular three areas of recent progress: part-of-speech tagging, stochastic parsing, and lexical semantics.
Resumo:
Introdução: O excesso de peso em adultos jovens está associado ao desenvolvimento de doenças crônicas não transmissíveis (DCNT) e à diminuição da qualidade de vida e ao aumento da mortalidade precoce. A transição da adolescência para a fase adulta é o período de maior risco para a incidência da obesidade. Objetivo: Estimar o efeito o índice de massa corpora (IMC) aos 20 anos sobre a incidência de DCNT em adultos brasileiros com idade entre 30 a 49 anos. Métodos: Foram selecionados 12.079 indivíduos de 30 a 49 anos da Pesquisa Nacional de Saúde (PNS), realizada no ano de 2013. O modelo adotado para determinação das DCNT foi aquele proposto pela Organização Mundial de Saúde. A incidência das DCNT (hipertensão, doenças cardiovasculares, diabetes e câncer, entre outras), informada pela data do diagnóstico, foi modelada como função do IMC aos 20 anos. Os indivíduos sem a doença até o presente foram considerados como censura. As estimativas de sobrevida foram calculadas com o método de Kaplan-Meier (KM) para cada uma das doenças, estratificada por sexo e ajustada por escolaridade. A análise dos fatores de risco para as doenças foi feita utilizando-se o modelo de riscos proporcionais de Cox. Resultados: Nas curvas de sobrevida KM, indivíduos com IMC >=25kg/m² apresentaram incidência mais elevada e precoce de DCNT, principalmente hipertensão, diabetes e depressão. A idade mediana para incidência do diabetes em obesos foi de 47 anos para homens e 48 anos para mulheres. A incidência da hipertensão arterial foi 4,2 por mil com sobrevida mediana de 48 e 44 anos em mulheres com excesso de peso e obesidade, respectivamente. Dentre os fatores de risco associados as DCNT, o tabagismo em idade precoce foi associado à incidência de depressão. Conclusão: O excesso de peso em adultos jovens aumenta a incidência precoce de DCNT, com efeitos negativos na qualidade de vida, lazer e produtividade, além de aumentar a demanda por serviços de saúde. Torna-se necessário que a intervenção para redução dessas doenças seja direcionada para o período da infância e adolescência com ações que promovam a redução da exposição desses indivíduos à alimentação de má qualidade e incentivo a prática de atividade, não uso do tabaco e consumo moderado de álcool.
Resumo:
A residência multiprofissional em saúde é uma modalidade de ensino de pós graduação lato sensu, voltada para a educação em serviço. Emerge no contexto brasileiro como uma proposta complementar a fim de se atingir as metas e os princípios preconizados pelo sistema único de saúde (SUS), principalmente quanto à integralidade. Além de trazer implicações e lançar desafios ao exercício profissional do psicólogo, inserindo-o no entrelaçamento de campos densos e complexos (saúde, educação e políticas públicas), a modalidade propõe que profissionais com formações diferentes atuem num mesmo campo, com discussões e intervenções conjuntas. A questão que move a pesquisa é a posição-sujeito no programa de residência multiprofissional face ao modelo de educação-saúde vinculado. Assevera-se que a posição-sujeito é objeto discursivo deslizante (de tessitura simbólica) que toma em consideração o sujeito constituído no claudicar da linguagem e interpelado pelo inconsciente e que se manifesta como efeito de significantes em direção ao grande Outro. Para tal, vale-se da interface dos aportes teóricos da análise de discurso pêchetiana e da psicanálise lacaniana. A análise de discurso sustenta o discurso como efeito de sentidos mediados pela ideologia e ocupa-se, especialmente, da incursão da alteridade do discurso-outro sobre o mesmo. A psicanálise lacaniana, por sua vez, reitera a primazia do inconsciente estruturado como linguagem diante de um eu imaginário e versa para o sujeito marcado como falta que, dividido, faz do discurso o estatuto do significado. Assim, é proeminente na análise do objeto a metodologia indiciária dada ao caráter simbólico e cambiante da posição-sujeito no discurso. A análise se realizou mediante o dispositivo da interpretação como gesto analítico, que acompanha as elações próprias do objeto. O corpora é constituído por uma materialidade escrita e por uma oral. A escrita compõe-se de recortes de leis, portarias e resoluções que fundam a modalidade de residência multiprofissional e reforçam os ideias do sistema único de saúde; a materialidade oral compõe-se de recortes e fragmentos discursivos advindos da transcrição de supervisões realizadas mediante a prática clínica do psicólogo-residente na cena hospitalar. Da análise, conclui-se que a materialidade escrita se posta como campo-Outro que ordena a estrutura política da residência multiprofissional e direciona a manutenção da ordem e reprodução das relações hierárquicas mediante ideologia assujeitante. Essa materialidade, por sua vez, age como intradiscurso e reverbera-se na memória discursiva e na prática clínica. A posição-sujeito, no plano da articulação significante, faz deslizar e produzir sentidos que denotam ora a manutenção e reprodução de uma posição fusionada ao discurso médico, científico-positivista; ora a posição-sujeito é marcada pelo saber condicionado ao fetiche da mercadoria, deflagrando a ordem do capital nas insígnias da multiprofissionalidade e da educação permanente. O trabalho propiciou, enfim, acompanhar as transmutações da posição-sujeito, independentemente do indivíduo ou da naturalização de sentidos provenientes da função que exerce. O objeto posição-sujeito reiterou a construção da realidade a partir da condição faltante. É essa condição faltante e incompleta que outorga ao desejo o modo de o sujeito se posicionar desta e outra maneira - na formação, no trabalho, na vida.
Resumo:
Esta tese, com o intuito de contribuir para uma reflexão em torno da história da formação da língua portuguesa no Brasil, propõe como objetivo geral realizar um estudo do léxico no município de Cáceres-MT, tendo como base a discussão sobre manutenção, tendência à manutenção, desuso, tendência ao desuso e neologismo semântico de unidades lexicais extraídas de um manuscrito oitocentista. Os objetivos específicos são os seguintes: (i) compreender a história social da Capitania de Mato Grosso e do município de Cáceres, a partir das informações constantes no manuscrito Memoria, e aspectos que envolvam as condições de produção do documento e a biografia do autor; (ii) levantar o léxico do manuscrito, com recorte nos substantivos e adjetivos para servir de base na seleção das unidades lexicais a serem testadas in loco, e investigar a acepção registrada no documento das unidades lexicais, caracterizando, assim, o léxico do período oitocentista; (iii), fazer um cotejo lexicográfico abrangendo dicionários gerais dos séculos XVIII ao XXI; (iv) testar e identificar, a partir do corpus oral constituído por meio de pesquisa de campo na região urbana cacerense, o grau de manutenção, tendência à manutenção, desuso, tendência ao desuso e neologismo semântico em relação às unidades lexicais e suas respectivas acepções registradas no manuscrito. Dessa forma, toma-se como corpus de língua escrita de análise o manuscrito oitocentista Memoria sobre o plano de guerra offensiva e deffensiva da Capitania de Matto Grosso e, a partir das unidades lexicais selecionadas e extraídas dele, realizou-se a pesquisa de campo para o recolhimento do corpus de língua oral. Antes dessa recolha, tendo como base teórico-metodológica as disciplinas de Dialetologia e de Geolinguística, selecionou-se a localidade (município de Cáceres - MT) e os informantes (total de dezesseis); elaborou-se o questionário semântico-lexical, considerando fundamentalmente a proposta apresentada pelo Comitê Nacional do Projeto ALiB (2001); e realizou-se a pesquisa de campo e as transcrições das entrevistas. Para análise de natureza semântico-lexical dos corpora, recorreu aos estudos lexicográficos e lexicológicos. Tomando por base os resultados do estudo realizado, constatou-se que na realidade linguística do informante cacerense encontram-se unidades que já integravam o léxico oitocentista da língua portuguesa escrita no Brasil, ou seja, há uma memória semântico-lexical que se mantém no sistema lexical, provavelmente, devido às condições sócioculturais do município de Cáceres, Mato Grosso, cuja população, em grande parte, por quase duzentos anos, viveu na área rural. Todavia, vislumbrou-se um certo equilíbrio entre a manutenção do léxico oitocentista sem deixar de lado a inovação e o mecanismo polissêmico constitutivo do léxico.