960 resultados para Bilingual Digital Corpus


Relevância:

100.00% 100.00%

Publicador:

Resumo:

The paper describes three software packages - the main components of a software system for processing and web-presentation of Bulgarian language resources – parallel corpora and bilingual dictionaries. The author briefly presents current versions of the core components “Dictionary” and “Corpus” as well as the recently developed component “Connection” that links both “Dictionary” and “Corpus”. The components main functionalities are described as well. Some examples of the usage of the system’s web-applications are included.

Relevância:

100.00% 100.00%

Publicador:

Resumo:

The paper presents our considerations related to the creation of a digital corpus of Bulgarian dialects. The dialectological archive of Bulgarian language consists of more than 250 audio tapes. All tapes were recorded between 1955 and 1965 in the course of regular dialectological expeditions throughout the country. The records typically contain interviews with inhabitants of small villages in Bulgaria. The topics covered are usually related to such issues as birth, everyday life, marriage, family relationship, death, etc. Only a few tapes contain folk songs from different regions of the country. Taking into account the progressive deterioration of the magnetic media and the realistic prospects of data loss, the Institute for Bulgarian Language at the Academy of Sciences launched in 1997 a project aiming at restoration and digital preservation of the dialectological archive. Within the framework of this project more than the half of the records was digitized, de-noised and stored on digital recording media. Since then restoration and digitization activities are done in the Institute on a regular basis. As a result a large collection of sound files has been gathered. Our further efforts are aimed at the creation of a digital corpus of Bulgarian dialects, which will be made available for phonological and linguistic research. Such corpora typically include besides the sound files two basic elements: a transcription, aligned with the sound file, and a set of standardized metadata that defines the corpus. In our work we will present considerations on how these tasks could be realized in the case of the corpus of Bulgarian dialects. Our suggestions will be based on a comparative analysis of existing methods and techniques to build such corpora, and by selecting the ones that fit closer to the particular needs. Our experience can be used in similar institutions storing folklore archives, history related spoken records etc.

Relevância:

100.00% 100.00%

Publicador:

Resumo:

Thematization is recognized as a fundamental phenomenon in the construction of messages and texts by di erent linguistic schools. This location within a text privileges the elements that guide the reader in the orientation and interpretation of discourse at di erent levels. Thematizing a linguistic unit by locating it in the rst-initial position of a clause, paragraph, or text, confers upon it a special status: a signal of the organizational strategy which characterizes di erent text types playing a role as a variable in the distinction of registers, text types and genres. However, in spite of the importance of the study of thematization for message and textual structuring, to date there are no linguistic studies that have undertook the task of validating its aspects in a comparative manner, either for linguistic or computational purposes. This study, therefore, lls a research gap by implementing a methodology based on contrastive corpus annotation, which allows to empirically validate aspects of the phenomenon of Thematization in English and Spanish, it also seeks to develop a bilingual English-Spanish comparable corpus of newspaper texts automatically annotated with thematic features at clausal and discourse levels. The empirically validated categories (Thematic Field and its elements: Textual Theme, Interpersonal Theme, PreHead and Head) are used to annotate a larger corpus of three newspaper genres news reports, editorials and letters to the editor in terms of thematic choices. This characterization, reveals interesting results, such as the use of genre-speci c strategies in thematic position. In addition, the thesis investigates the possibility to automate the annotation of thematic features in the bilingual corpus through the development of a set of JAVA rules implemented in GATE. It also shows the e cacy of this method in comparison with the manual annotation results...

Relevância:

100.00% 100.00%

Publicador:

Resumo:

A presente pesquisa tem por objetivo investigar como a palavra paz é entendida, em termos de conceito, pelo Conselho de Segurança da Organização das Nações Unidas. Para tanto, são analisados trinta e sete relatórios oficiais produzidos pelo Conselho de Segurança, no período de agosto de 1994 a junho de 2009, acerca das missões de paz realizadas em trinta e uma regiões/países que apresentavam ameaça à paz e à segurança internacionais durante aquele período. De acordo com a Conselheira Gilda Santos Neves, chefe da Divisão das Nações Unidas do Ministério das Relações Exteriores, em seu texto O Brasil e a Criação da Comissão para a Consolidação da Paz (2008), a paz é algo que se consolida e não se constrói. Tal posição norteia a presente pesquisa, uma vez que o objetivo aqui é mapear as expressões linguísticas realizadas através da palavra paz. As bases teóricas desta pesquisa encontram-se fundamentadas na teoria da metáfora cognitiva, de Lakoff e Johnson (1980), bem como no estudo de Deignan (2005) em seu livro intitulado Metaphor and Corpus Linguistics, que visa a fornecer os benefícios que a abordagem cognitiva de metáforas pode obter através da análise de corpora digitalizados. Após compilar os relatórios do Conselho de Segurança e prepará-los para serem lidos pelo programa computacional WordSmith Tools 3.0, foram extraídas todas as ocorrências da palavra paz dos referidos relatórios. Das 686 ocorrências geradas, foram deixadas para análise somente aquelas com sentido metafórico e, no total, nove esquemas conceptuais foram construídos. A pesquisa feita sugere que, para o Conselho de Segurança, a paz é algo profundamente desejado tanto pela população das zonas de conflito quanto pela comunidade internacional. No entanto, a paz não é facilmente construída ou estabelecida. Alcançar a paz implica seguir um processo com diferentes etapas, ou seja, com início, meio e fim, bem como superar obstáculos e retrocessos que surgem no meio do caminho. Para tanto, diversos investimentos têm de ser feitos por todos aqueles envolvidos e realmente interessados na paz mundial. Por fim, vê-se que a visão da Conselheira Gilda Santos Neves, de acordo com as metáforas aqui analisadas, está correta, já que, conforme apontam os resultados do presente estudo, o conceito de paz, para o Conselho de Segurança, não é o de algo a ser construído do zero

Relevância:

90.00% 90.00%

Publicador:

Resumo:

Presentation for the 5th International Conference on Corpus Linguistics (CILC 2013), V Congreso Internacional de Lingüistica de Corpus.

Relevância:

90.00% 90.00%

Publicador:

Resumo:

O presente estudo tem como objetivo geral traçar um perfil das escolhas léxico-gramaticais da escrita em inglês de um grupo de aprendizes brasileiros na cidade do Rio de Janeiro, ao longo dos anos de 2009 a 2012, através da análise de sua produção de quadrigramas (ou blocos de quatro itens lexicais usados com frequência por vários aprendizes) em composições escritas como parte da avaliação final de curso. Como objetivo específico, a pesquisa pretendeu analisar se os quadrigramas produzidos estavam dentre aqueles que haviam sido previamente ensinados para a execução da redação ou se pertenceriam a alguma outra categoria, isto é, quadrigramas já incorporados ao uso da língua ou quadrigramas errôneos usados com abrangência pela população investigada. Para tal, foram coletadas composições escritas por aprendizes de mesmo nível de proficiência de várias filiais de um mesmo curso livre de inglês na cidade do Rio de Janeiro. Em seguida, essas composições foram digitadas e anotadas para constituírem um corpus digital facilmente identificável em termos do tipo e gênero textual, perfil do aprendiz, filial e área de origem do Rio de Janeiro. O estudo faz uso de preceitos e métodos da Linguística de Corpus, área da Linguística que compila grandes quantidades de textos e deles extrai dados com o auxílio de um programa de computador para mapear uso, frequência, distribuição e abrangência de determinados fenômenos linguístico ou discursivo. O resultado demonstra que os aprendizes investigados usaram poucos quadrigramas ensinados e, coletivamente, preferiram usar outros que não haviam sido ensinados nas aulas específicas para o nível cursado. O estudo também demonstrou que quando o gênero textual faz parte de seu mundo pessoal, os aprendizes parecem utilizar mais quadrigramas previamente ensinados. Isto pode querer dizer que o gênero pode influenciar nas escolhas léxico-gramaticais corretas. O estudo abre portas para se compreender a importância de blocos léxico-gramaticais em escrita em L2 como forma de assegurar fluência e acuracidade no idioma e sugere que é preciso proporcionar maiores oportunidades de prática e conscientização dos aprendizes quanto ao uso de tais blocos

Relevância:

90.00% 90.00%

Publicador:

Resumo:

Investigou-se pelo presente estudo se a concepção presente na Teoria de Replicadores, expressa através do conceito de meme (DAWKINS, 1979), poderia ser um modelo compatível para explicar a propagação de memes no substrato das mídias sociais. No âmbito dos estudos locais, Recuero (2006) sugeriu uma transdução desse modelo, baseando-se nas concepções de Dawkins (1979). Refletindo sobre o posicionamento epistemológico de Recuero (2006), o presente trabalho, baseando-se em Dennett (1995), Blackmore (2002) e Tyler (2011b; 2013b), procedeu às instâncias de Análise Conceitual e Composicional dessa transdução. A partir do conceito de memeplexo (BLACKMORE, 2002), esta pesquisa de base linguística (HALLIDAY, 1987) entende os memes, no substrato das mídias digitais/sociais, como práticas de produção e distribuição linguístico-midiáticas, propaladas a partir de diversas unidades de propagação e das relações criadas pelos internautas nesse processo de transmissão. Investigando tais relações, a partir da instância de Análise Relacional, propõe-se examinar duas unidades de propagação. Expressões meméticas (Que deselegante e #Tenso) e imagens meméticas (oriundas do fenômeno memético Nana em desastres). Integram este estudo dois corpora de expressões meméticas (5275 postagens oriundas ou redirecionadas para o Twitter.com total de 83.655 palavras/tokens) e um corpus bilíngue (Português/Inglês) de imagens meméticas (um total de 134 imagens oriundas do Tumblr.com e Facebook.com). Para analisar os corpora de expressões meméticas utilizou-se a metodologia de Linguística de Corpus (BERBER-SARDINHA, 2004; SHEPHERD, 2009; SOUZA JÚNIOR, 2012, 2013b, 2013c). Para a análise do corpus multimodal de imagens meméticas, utilizou-se a metodologia que chamamos de Análise Propagatória. Objetivamos verificar se essas unidades de propagação e as práticas linguístico-midiáticas que estas transmitem, evoluiriam somente devido a aspectos memético-midiáticos, conforme Recuero (2006) apontara, e com padrão de propagação internalista (DAWKINS, 1979; 1982). Após análise dos dados, revelou-se que, ao nível do propósito, os fenômenos locais investigados não evoluíram por padrão internalista (ou homogêneo) de propagação. Tais padrões revelam ser de natureza externalista (ou heterogênea). Ademais, constatou-se que princípios constitutivos meméticos de evolução como os de fecundidade, longevidade (DAWKINS 1979; 1982) e o de design (DENNETT, 1995), junto com o princípio midiático de evolução de alcance (RECUERO, 2006) mantiveram-se presentes com alto grau de influencia nas propagações de natureza externalista. Por outro lado, o princípio memético da fidelidade (DAWKINS, 1979; 1982) foi o que menos influenciou esses padrões de propagação. Neutralizando a fidelidade, e impulsionados pelo princípio de design, destacaram-se nesse processo evolutivo os princípios linguísticos sistematizadores revelados por este estudo. Isto é: o princípio da funcionalidade (memes evoluem porque podem indicar propósitos diferentes) e o princípio do alcance linguístico (memes podem ser direcionados a itens animados/ inanimados; para internautas em idioma nativo/ estrangeiro)

Relevância:

90.00% 90.00%

Publicador:

Resumo:

This thesis investigates the standardisation of Modern Scottish Gaelic orthography from the mid-eighteenth century to the twenty-first. It presents the results of the first corpus-based analysis of Modern Scottish Gaelic orthographic development combined with an analytic approach that places orthographic choices in their sociolinguistic context. The theoretical framework behind the analysis centres on discussion of how the language ideologies of the phonographic ideal, historicism, autonomy, vernacularism and the ideology of the standard itself have shaped orthographic conventions and debates. It argues that current spelling norms reflect an orthography that is the result of compromise, historical factors and pragmatic function. The research uses a digital corpus to examine how three particular features have been used over time: the dialect variation between <eu> and <ia>; variation in s + stop consonant clusters (sd/st, sg/sc, sb/sp); and the use of the grave and acute accents. Evidence is drawn from the Corpas na Gàidhlig electronic corpus created at the University of Glasgow: the sub-corpus used in this study includes 117 published texts representing a period of over 250 years from 1750 to 2007, and a total size of over four and a quarter million words. The results confirm a key period of reform between 1750 and the early nineteenth century, and thereafter a settled norm being established in the early nineteenth century. Since then, some variation has been acceptable although changes and reform of some features have centred on increasing uniformity and regularisation.

Relevância:

80.00% 80.00%

Publicador:

Resumo:

Esta pesquisa analisa o discurso de educação de qualidade nas políticas curriculares para a Educação Básica forjadas no Brasil, no período compreendido entre 2003 e 2011, na vigência do governo de Luís Inácio Lula da Silva e no início do governo Dilma Roussef, procurando entender os nexos estabelecidos entre currículo e qualidade. Para tanto, é investigado o contexto de produção dos textos da referida política o Ministério da Educação (MEC), por meio da leitura de cinquenta e sete documentos assinados e/ou encomendados pela Secretaria de Educação Básica (SEB), pelo Conselho Nacional de Educação (CNE) e pelo Instituto Nacional de Estudos e Pesquisas Educacionais (INEP), os quais constituíram um corpus de estudo para esta pesquisa. Tal leitura tem como ferramenta de entrada e organização dos textos o programa computacional WordSmith Tools (versão 5), a partir do qual foi possível focar em significantes identificados como condutores dos sentidos de qualidade. A análise desse corpus de estudo é relacionada ainda aos programas de governo divulgados pelo Partido dos Trabalhadores na ocasião das campanhas eleitorais de 2002, 2006 e 2010, com vistas a uma maior compreensão do contexto político partidário ao qual a política curricular se conecta. A pesquisa se fundamenta na Teoria do Discurso de Ernesto Laclau, articulada às teorias do currículo produzidas por Alice Lopes e Elizabeth Macedo e à abordagem do ciclo de políticas de Stephen Ball e colaboradores. Com essa filiação teórica entende-se as políticas de currículo como produção cultural discursiva em múltiplos contextos, marcada pela contingência do social. A tese apresentada é a de que, na política Lula/Dilma, o significante educação de qualidade é tendencialmente vazio, representando, no que se refere ao currículo, tanto demandas por um ensino voltado para a distribuição igualitária do conhecimento, visto como possibilidade de promover a justiça social, quanto demandas por um ensino voltado para resultados estipulados e mensurados por meio de sistemas de avaliação nacional que atestam sua eficiência e que representam o discurso da qualidade que se pretende total, segundo o qual a educação é um investimento que precisa dar retornos. A equivalência entre demandas, aparentemente, antagônicas, é possibilitada pelo vínculo que o significante qualidade estabelece com a demanda por justiça social, ao ser adjetivado como social, dando origem ao discurso da qualidade social. A política de qualidade social da educação, portanto, constrói um discurso de promoção da justiça social por meio do currículo comum e da centralidade do conhecimento (verificável), lançando mão do vocabulário das perspectivas críticas e ao mesmo tempo utilizando-se de ações das perspectivas instrumentais, que reduz o currículo às dimensões instrucionais. São, portanto, duas cadeias de equivalência em disputa no cenário educacional: a cadeia da qualidade social, representada pelo projeto de poder Lula/Dilma, que se justifica pela demanda da justiça social e opera a ressignificação das lógicas da centralização curricular e suas formas de avaliar, e a cadeia da qualidade que se pretende total, representada pelo projeto de poder FHC, que condiciona a educação às demandas de produtividade do mercado

Relevância:

80.00% 80.00%

Publicador:

Resumo:

Fado was listed as UNESCO Intangible Cultural Heritage in 2011. This dissertation describes a theoretical model, as well as an automatic system, able to generate instrumental music based on the musics and vocal sounds typically associated with fado’s practice. A description of the phenomenon of fado, its musics and vocal sounds, based on ethnographic, historical sources and empirical data is presented. The data includes the creation of a digital corpus, of musical transcriptions, identified as fado, and statistical analysis via music information retrieval techniques. The second part consists in the formulation of a theory and the coding of a symbolic model, as a proof of concept, for the automatic generation of instrumental music based on the one in the corpus.

Relevância:

60.00% 60.00%

Publicador:

Resumo:

The article briefly reviews bilingual Slovak-Bulgarian/Bulgarian-Slovak parallel and aligned corpus. The corpus is collected and developed as results of the collaboration in the frameworks of the joint research project between Institute of Mathematics and Informatics, Bulgarian Academy of Sciences, and Ľ. Štúr Institute of Linguistics, Slovak Academy of Sciences. The multilingual corpora are large repositories of language data with an important role in preserving and supporting the world's cultural heritage, because the natural language is an outstanding part of the human cultural values and collective memory, and a bridge between cultures. This bilingual corpus will be widely applicable to the contrastive studies of the both Slavic languages, will also be useful resource for language engineering research and development, especially in machine translation.

Relevância:

40.00% 40.00%

Publicador:

Resumo:

Following the internationalization of contemporary higher education, academic institutions based in non-English speaking countries are increasingly urged to produce contents in English to address international prospective students and personnel, as well as to increase their attractiveness. The demand for English translations in the institutional academic domain is consequently increasing at a rate exceeding the capacity of the translation profession. Resources for assisting non-native authors and translators in the production of appropriate texts in L2 are therefore required in order to help academic institutions and professionals streamline their translation workload. Some of these resources include: (i) parallel corpora to train machine translation systems and multilingual authoring tools; and (ii) translation memories for computer-aided tools. The purpose of this study is to create and evaluate reference resources like the ones mentioned in (i) and (ii) through the automatic sentence alignment of a large set of Italian and English as a Lingua Franca (ELF) institutional academic texts given as equivalent but not necessarily parallel (i.e. translated). In this framework, a set of aligning algorithms and alignment tools is examined in order to identify the most profitable one(s) in terms of accuracy and time- and cost-effectiveness. In order to determine the text pairs to align, a sample is selected according to document length similarity (characters) and subsequently evaluated in terms of extent of noisiness/parallelism, alignment accuracy and content leverageability. The results of these analyses serve as the basis for the creation of an aligned bilingual corpus of academic course descriptions, which is eventually used to create a translation memory in TMX format.

Relevância:

30.00% 30.00%

Publicador:

Resumo:

Language-use has proven to be the most complex and complicating of all Internet features, yet people and institutions invest enormously in language and crosslanguage features because they are fundamental to the success of the Internet’s past, present and future. The thesis takes into focus the developments of the latter – features that facilitate and signify linking between or across languages – both in their historical and current contexts. In the theoretical analysis, the conceptual platform of inter-language linking is developed to both accommodate efforts towards a new social complexity model for the co-evolution of languages and language content, as well as to create an open analytical space for language and cross-language related features of the Internet and beyond. The practiced uses of inter-language linking have changed over the last decades. Before and during the first years of the WWW, mechanisms of inter-language linking were at best important elements used to create new institutional or content arrangements, but on a large scale they were just insignificant. This has changed with the emergence of the WWW and its development into a web in which content in different languages co-evolve. The thesis traces the inter-language linking mechanisms that facilitated these dynamic changes by analysing what these linking mechanisms are, how their historical as well as current contexts can be understood and what kinds of cultural-economic innovation they enable and impede. The study discusses this alongside four empirical cases of bilingual or multilingual media use, ranging from television and web services for languages of smaller populations, to large-scale, multiple languages involving web ventures by the British Broadcasting Corporation, the Special Broadcasting Service Australia, Wikipedia and Google. To sum up, the thesis introduces the concepts of ‘inter-language linking’ and the ‘lateral web’ to model the social complexity and co-evolution of languages online. The resulting model reconsiders existing social complexity models in that it is the first that can explain the emergence of large-scale, networked co-evolution of languages and language content facilitated by the Internet and the WWW. Finally, the thesis argues that the Internet enables an open space for language and crosslanguage related features and investigates how far this process is facilitated by (1) amateurs and (2) human-algorithmic interaction cultures.