559 resultados para Corpora


Relevância:

20.00% 20.00%

Publicador:

Resumo:

This article presents and evaluates a model to automatically derive word association networks from text corpora. Two aspects were evaluated: To what degree can corpus-based word association networks (CANs) approximate human word association networks with respect to (1) their ability to quantitatively predict word associations and (2) their structural network characteristics. Word association networks are the basis of the human mental lexicon. However, extracting such networks from human subjects is laborious, time consuming and thus necessarily limited in relation to the breadth of human vocabulary. Automatic derivation of word associations from text corpora would address these limitations. In both evaluations corpus-based processing provided vector representations for words. These representations were then employed to derive CANs using two measures: (1) the well known cosine metric, which is a symmetric measure, and (2) a new asymmetric measure computed from orthogonal vector projections. For both evaluations, the full set of 4068 free association networks (FANs) from the University of South Florida word association norms were used as baseline human data. Two corpus based models were benchmarked for comparison: a latent topic model and latent semantic analysis (LSA). We observed that CANs constructed using the asymmetric measure were slightly less effective than the topic model in quantitatively predicting free associates, and slightly better than LSA. The structural networks analysis revealed that CANs do approximate the FANs to an encouraging degree.

Relevância:

20.00% 20.00%

Publicador:

Resumo:

Earlier workers have observed that in the leydig cell desensitization brings results in addition to down regulation of receptors, in leisons in the steroidogenlc pathway. In the present study immature rats having heavily leutinized ovaries were given 50 iu hCG and the desenasitized CL removed 48h later were used. At that time no change in the 5 3MSD activity and CAMP binding activity(a measure of CAMP dependent protein kinase) was observed.Followlng desensitization however,l)a significent increase in phosphodiestrase activity,ii)a 50% reduction in total mitochondrial cholesterol level, iii)a significant reduction in its ability to utilize cholesterol or hydrolyse its ester and iv)a significant lowering(by 66%)in cholesterol side chain clean age activity(by measuring pregnanalone formed) was observed. Pregnanalone production was restored to normalcy if exogenous cholesterol was added to the mitohondrial preparation. The results suggest that luteal desensitization is due in addition to down regulation of LH receptors, to a marked reduction in available cholesterol pool in the mitochondrial compartment. The increase in phosphodiestrase activity, though probably a secondary effect,might effectively contribute to the overall reduction in the steroid out-put by increasing the catabolism of CAMP.(Aided by grants from ICMR,New Delhi and WHO, Geneva).

Relevância:

20.00% 20.00%

Publicador:

Resumo:

Scatter/Gather systems are increasingly becoming useful in browsing document corpora. Usability of the present-day systems are restricted to monolingual corpora, and their methods for clustering and labeling do not easily extend to the multilingual setting, especially in the absence of dictionaries/machine translation. In this paper, we study the cluster labeling problem for multilingual corpora in the absence of machine translation, but using comparable corpora. Using a variational approach, we show that multilingual topic models can effectively handle the cluster labeling problem, which in turn allows us to design a novel Scatter/Gather system ShoBha. Experimental results on three datasets, namely the Canadian Hansards corpus, the entire overlapping Wikipedia of English, Hindi and Bengali articles, and a trilingual news corpus containing 41,000 articles, confirm the utility of the proposed system.

Relevância:

20.00% 20.00%

Publicador:

Resumo:

Identifying translations from comparable corpora is a well-known problem with several applications, e.g. dictionary creation in resource-scarce languages. Scarcity of high quality corpora, especially in Indian languages, makes this problem hard, e.g. state-of-the-art techniques achieve a mean reciprocal rank (MRR) of 0.66 for English-Italian, and a mere 0.187 for Telugu-Kannada. There exist comparable corpora in many Indian languages with other ``auxiliary'' languages. We observe that translations have many topically related words in common in the auxiliary language. To model this, we define the notion of a translingual theme, a set of topically related words from auxiliary language corpora, and present a probabilistic framework for translation induction. Extensive experiments on 35 comparable corpora using English and French as auxiliary languages show that this approach can yield dramatic improvements in performance (e.g. MRR improves by 124% to 0.419 for Telugu-Kannada). A user study on WikiTSu, a system for cross-lingual Wikipedia title suggestion that uses our approach, shows a 20% improvement in the quality of titles suggested.

Relevância:

20.00% 20.00%

Publicador:

Resumo:

Presentation for the 5th International Conference on Corpus Linguistics (CILC 2013), V Congreso Internacional de Lingüistica de Corpus.

Relevância:

20.00% 20.00%

Publicador:

Resumo:

Esta pesquisa tem como objetivo principal investigar como aprendizes brasileiros de língua inglesa usam advérbios com terminação em ly no inglês escrito, e comparar ao uso que deles fazem os falantes de inglês como língua materna. Para tanto, o trabalho encontra suporte teórico e metodológico na Linguística de Corpus e fundamenta-se na área chamada de pesquisa sobre corpora de aprendizes, que se ocupa da coleta e armazenagem de dados linguísticos de sujeitos aprendizes de uma língua estrangeira, para a formação de um corpus que possa ser utilizado para fins descritivos e pedagógicos. Esta área objetiva identificar em que aspectos os aprendizes diferem ou se assemelham aos falantes nativos. Os corpora empregados na pesquisa são o corpus de estudo (Br-ICLE), contendo inglês escrito por brasileiros, compilado de acordo com o projeto ICLE (International Corpus of Learner English) e dois corpora de referência (LOCNESS e BAWE), contendo inglês escrito por falantes de inglês como língua materna. Os resultados indicam que os alunos brasileiros usam, em demasia, as categorias de advérbios que indicam veracidade, realidade e intensidade, em relação ao uso que deles fazem os falantes nativos, além de usarem esses advérbios de forma distinta. Os resultados sugerem que, além das diferenças apresentadas em termos de frequência (seja pelo sobreuso ou subuso dos advérbios), os aprendizes apresentavam combinações errôneas, ou em termos de colocados ou em termos de prosódia semântica. E finalmente a pesquisa revela que a preferência dos aprendizes por advérbios que exprimem veracidade, realidade e intensidade cria a impressão de um discurso muito assertivo. Conclui-se que as diferenças encontradas podem estar ligadas a fatores como o tamanho dos corpora, a influência da língua materna dos aprendizes, a internalização dos elementos linguísticos necessários para a produção de um texto em língua estrangeira, a falta de fluência dos aprendizes e o contexto de sala de aula nas universidades

Relevância:

20.00% 20.00%

Publicador:

Resumo:

Investigou-se pelo presente estudo se a concepção presente na Teoria de Replicadores, expressa através do conceito de meme (DAWKINS, 1979), poderia ser um modelo compatível para explicar a propagação de memes no substrato das mídias sociais. No âmbito dos estudos locais, Recuero (2006) sugeriu uma transdução desse modelo, baseando-se nas concepções de Dawkins (1979). Refletindo sobre o posicionamento epistemológico de Recuero (2006), o presente trabalho, baseando-se em Dennett (1995), Blackmore (2002) e Tyler (2011b; 2013b), procedeu às instâncias de Análise Conceitual e Composicional dessa transdução. A partir do conceito de memeplexo (BLACKMORE, 2002), esta pesquisa de base linguística (HALLIDAY, 1987) entende os memes, no substrato das mídias digitais/sociais, como práticas de produção e distribuição linguístico-midiáticas, propaladas a partir de diversas unidades de propagação e das relações criadas pelos internautas nesse processo de transmissão. Investigando tais relações, a partir da instância de Análise Relacional, propõe-se examinar duas unidades de propagação. Expressões meméticas (Que deselegante e #Tenso) e imagens meméticas (oriundas do fenômeno memético Nana em desastres). Integram este estudo dois corpora de expressões meméticas (5275 postagens oriundas ou redirecionadas para o Twitter.com total de 83.655 palavras/tokens) e um corpus bilíngue (Português/Inglês) de imagens meméticas (um total de 134 imagens oriundas do Tumblr.com e Facebook.com). Para analisar os corpora de expressões meméticas utilizou-se a metodologia de Linguística de Corpus (BERBER-SARDINHA, 2004; SHEPHERD, 2009; SOUZA JÚNIOR, 2012, 2013b, 2013c). Para a análise do corpus multimodal de imagens meméticas, utilizou-se a metodologia que chamamos de Análise Propagatória. Objetivamos verificar se essas unidades de propagação e as práticas linguístico-midiáticas que estas transmitem, evoluiriam somente devido a aspectos memético-midiáticos, conforme Recuero (2006) apontara, e com padrão de propagação internalista (DAWKINS, 1979; 1982). Após análise dos dados, revelou-se que, ao nível do propósito, os fenômenos locais investigados não evoluíram por padrão internalista (ou homogêneo) de propagação. Tais padrões revelam ser de natureza externalista (ou heterogênea). Ademais, constatou-se que princípios constitutivos meméticos de evolução como os de fecundidade, longevidade (DAWKINS 1979; 1982) e o de design (DENNETT, 1995), junto com o princípio midiático de evolução de alcance (RECUERO, 2006) mantiveram-se presentes com alto grau de influencia nas propagações de natureza externalista. Por outro lado, o princípio memético da fidelidade (DAWKINS, 1979; 1982) foi o que menos influenciou esses padrões de propagação. Neutralizando a fidelidade, e impulsionados pelo princípio de design, destacaram-se nesse processo evolutivo os princípios linguísticos sistematizadores revelados por este estudo. Isto é: o princípio da funcionalidade (memes evoluem porque podem indicar propósitos diferentes) e o princípio do alcance linguístico (memes podem ser direcionados a itens animados/ inanimados; para internautas em idioma nativo/ estrangeiro)

Relevância:

20.00% 20.00%

Publicador:

Resumo:

Experiments show that for a large corpus, Zipf’s law does not hold for all rank of words: the frequencies fall below those predicted by Zipf’s law for ranks greater than about 5,000 word types in the English language and about 30,000 word types in the inflected languages Irish and Latin. It also does not hold for syllables or words in the syllable-based languages, Chinese or Vietnamese. However, when single words are combined together with word n-grams in one list and put in rank order, the frequency of tokens in the combined list extends Zipf’s law with a slope close to -1 on a log-log plot in all five languages. Further experiments have demonstrated the validity of this extension of Zipf’s law to n-grams of letters, phonemes or binary bits in English. It is shown theoretically that probability theory
alone can predict this behavior in randomly created n-grams of binary bits.