968 resultados para Digital Corpus
Resumo:
The paper presents our considerations related to the creation of a digital corpus of Bulgarian dialects. The dialectological archive of Bulgarian language consists of more than 250 audio tapes. All tapes were recorded between 1955 and 1965 in the course of regular dialectological expeditions throughout the country. The records typically contain interviews with inhabitants of small villages in Bulgaria. The topics covered are usually related to such issues as birth, everyday life, marriage, family relationship, death, etc. Only a few tapes contain folk songs from different regions of the country. Taking into account the progressive deterioration of the magnetic media and the realistic prospects of data loss, the Institute for Bulgarian Language at the Academy of Sciences launched in 1997 a project aiming at restoration and digital preservation of the dialectological archive. Within the framework of this project more than the half of the records was digitized, de-noised and stored on digital recording media. Since then restoration and digitization activities are done in the Institute on a regular basis. As a result a large collection of sound files has been gathered. Our further efforts are aimed at the creation of a digital corpus of Bulgarian dialects, which will be made available for phonological and linguistic research. Such corpora typically include besides the sound files two basic elements: a transcription, aligned with the sound file, and a set of standardized metadata that defines the corpus. In our work we will present considerations on how these tasks could be realized in the case of the corpus of Bulgarian dialects. Our suggestions will be based on a comparative analysis of existing methods and techniques to build such corpora, and by selecting the ones that fit closer to the particular needs. Our experience can be used in similar institutions storing folklore archives, history related spoken records etc.
Resumo:
A presente pesquisa tem por objetivo investigar como a palavra paz é entendida, em termos de conceito, pelo Conselho de Segurança da Organização das Nações Unidas. Para tanto, são analisados trinta e sete relatórios oficiais produzidos pelo Conselho de Segurança, no período de agosto de 1994 a junho de 2009, acerca das missões de paz realizadas em trinta e uma regiões/países que apresentavam ameaça à paz e à segurança internacionais durante aquele período. De acordo com a Conselheira Gilda Santos Neves, chefe da Divisão das Nações Unidas do Ministério das Relações Exteriores, em seu texto O Brasil e a Criação da Comissão para a Consolidação da Paz (2008), a paz é algo que se consolida e não se constrói. Tal posição norteia a presente pesquisa, uma vez que o objetivo aqui é mapear as expressões linguísticas realizadas através da palavra paz. As bases teóricas desta pesquisa encontram-se fundamentadas na teoria da metáfora cognitiva, de Lakoff e Johnson (1980), bem como no estudo de Deignan (2005) em seu livro intitulado Metaphor and Corpus Linguistics, que visa a fornecer os benefícios que a abordagem cognitiva de metáforas pode obter através da análise de corpora digitalizados. Após compilar os relatórios do Conselho de Segurança e prepará-los para serem lidos pelo programa computacional WordSmith Tools 3.0, foram extraídas todas as ocorrências da palavra paz dos referidos relatórios. Das 686 ocorrências geradas, foram deixadas para análise somente aquelas com sentido metafórico e, no total, nove esquemas conceptuais foram construídos. A pesquisa feita sugere que, para o Conselho de Segurança, a paz é algo profundamente desejado tanto pela população das zonas de conflito quanto pela comunidade internacional. No entanto, a paz não é facilmente construída ou estabelecida. Alcançar a paz implica seguir um processo com diferentes etapas, ou seja, com início, meio e fim, bem como superar obstáculos e retrocessos que surgem no meio do caminho. Para tanto, diversos investimentos têm de ser feitos por todos aqueles envolvidos e realmente interessados na paz mundial. Por fim, vê-se que a visão da Conselheira Gilda Santos Neves, de acordo com as metáforas aqui analisadas, está correta, já que, conforme apontam os resultados do presente estudo, o conceito de paz, para o Conselho de Segurança, não é o de algo a ser construído do zero
Resumo:
O presente estudo tem como objetivo geral traçar um perfil das escolhas léxico-gramaticais da escrita em inglês de um grupo de aprendizes brasileiros na cidade do Rio de Janeiro, ao longo dos anos de 2009 a 2012, através da análise de sua produção de quadrigramas (ou blocos de quatro itens lexicais usados com frequência por vários aprendizes) em composições escritas como parte da avaliação final de curso. Como objetivo específico, a pesquisa pretendeu analisar se os quadrigramas produzidos estavam dentre aqueles que haviam sido previamente ensinados para a execução da redação ou se pertenceriam a alguma outra categoria, isto é, quadrigramas já incorporados ao uso da língua ou quadrigramas errôneos usados com abrangência pela população investigada. Para tal, foram coletadas composições escritas por aprendizes de mesmo nível de proficiência de várias filiais de um mesmo curso livre de inglês na cidade do Rio de Janeiro. Em seguida, essas composições foram digitadas e anotadas para constituírem um corpus digital facilmente identificável em termos do tipo e gênero textual, perfil do aprendiz, filial e área de origem do Rio de Janeiro. O estudo faz uso de preceitos e métodos da Linguística de Corpus, área da Linguística que compila grandes quantidades de textos e deles extrai dados com o auxílio de um programa de computador para mapear uso, frequência, distribuição e abrangência de determinados fenômenos linguístico ou discursivo. O resultado demonstra que os aprendizes investigados usaram poucos quadrigramas ensinados e, coletivamente, preferiram usar outros que não haviam sido ensinados nas aulas específicas para o nível cursado. O estudo também demonstrou que quando o gênero textual faz parte de seu mundo pessoal, os aprendizes parecem utilizar mais quadrigramas previamente ensinados. Isto pode querer dizer que o gênero pode influenciar nas escolhas léxico-gramaticais corretas. O estudo abre portas para se compreender a importância de blocos léxico-gramaticais em escrita em L2 como forma de assegurar fluência e acuracidade no idioma e sugere que é preciso proporcionar maiores oportunidades de prática e conscientização dos aprendizes quanto ao uso de tais blocos
Resumo:
The paper describes three software packages - the main components of a software system for processing and web-presentation of Bulgarian language resources – parallel corpora and bilingual dictionaries. The author briefly presents current versions of the core components “Dictionary” and “Corpus” as well as the recently developed component “Connection” that links both “Dictionary” and “Corpus”. The components main functionalities are described as well. Some examples of the usage of the system’s web-applications are included.
Resumo:
This thesis investigates the standardisation of Modern Scottish Gaelic orthography from the mid-eighteenth century to the twenty-first. It presents the results of the first corpus-based analysis of Modern Scottish Gaelic orthographic development combined with an analytic approach that places orthographic choices in their sociolinguistic context. The theoretical framework behind the analysis centres on discussion of how the language ideologies of the phonographic ideal, historicism, autonomy, vernacularism and the ideology of the standard itself have shaped orthographic conventions and debates. It argues that current spelling norms reflect an orthography that is the result of compromise, historical factors and pragmatic function. The research uses a digital corpus to examine how three particular features have been used over time: the dialect variation between <eu> and <ia>; variation in s + stop consonant clusters (sd/st, sg/sc, sb/sp); and the use of the grave and acute accents. Evidence is drawn from the Corpas na Gàidhlig electronic corpus created at the University of Glasgow: the sub-corpus used in this study includes 117 published texts representing a period of over 250 years from 1750 to 2007, and a total size of over four and a quarter million words. The results confirm a key period of reform between 1750 and the early nineteenth century, and thereafter a settled norm being established in the early nineteenth century. Since then, some variation has been acceptable although changes and reform of some features have centred on increasing uniformity and regularisation.
Resumo:
Esta pesquisa analisa o discurso de educação de qualidade nas políticas curriculares para a Educação Básica forjadas no Brasil, no período compreendido entre 2003 e 2011, na vigência do governo de Luís Inácio Lula da Silva e no início do governo Dilma Roussef, procurando entender os nexos estabelecidos entre currículo e qualidade. Para tanto, é investigado o contexto de produção dos textos da referida política o Ministério da Educação (MEC), por meio da leitura de cinquenta e sete documentos assinados e/ou encomendados pela Secretaria de Educação Básica (SEB), pelo Conselho Nacional de Educação (CNE) e pelo Instituto Nacional de Estudos e Pesquisas Educacionais (INEP), os quais constituíram um corpus de estudo para esta pesquisa. Tal leitura tem como ferramenta de entrada e organização dos textos o programa computacional WordSmith Tools (versão 5), a partir do qual foi possível focar em significantes identificados como condutores dos sentidos de qualidade. A análise desse corpus de estudo é relacionada ainda aos programas de governo divulgados pelo Partido dos Trabalhadores na ocasião das campanhas eleitorais de 2002, 2006 e 2010, com vistas a uma maior compreensão do contexto político partidário ao qual a política curricular se conecta. A pesquisa se fundamenta na Teoria do Discurso de Ernesto Laclau, articulada às teorias do currículo produzidas por Alice Lopes e Elizabeth Macedo e à abordagem do ciclo de políticas de Stephen Ball e colaboradores. Com essa filiação teórica entende-se as políticas de currículo como produção cultural discursiva em múltiplos contextos, marcada pela contingência do social. A tese apresentada é a de que, na política Lula/Dilma, o significante educação de qualidade é tendencialmente vazio, representando, no que se refere ao currículo, tanto demandas por um ensino voltado para a distribuição igualitária do conhecimento, visto como possibilidade de promover a justiça social, quanto demandas por um ensino voltado para resultados estipulados e mensurados por meio de sistemas de avaliação nacional que atestam sua eficiência e que representam o discurso da qualidade que se pretende total, segundo o qual a educação é um investimento que precisa dar retornos. A equivalência entre demandas, aparentemente, antagônicas, é possibilitada pelo vínculo que o significante qualidade estabelece com a demanda por justiça social, ao ser adjetivado como social, dando origem ao discurso da qualidade social. A política de qualidade social da educação, portanto, constrói um discurso de promoção da justiça social por meio do currículo comum e da centralidade do conhecimento (verificável), lançando mão do vocabulário das perspectivas críticas e ao mesmo tempo utilizando-se de ações das perspectivas instrumentais, que reduz o currículo às dimensões instrucionais. São, portanto, duas cadeias de equivalência em disputa no cenário educacional: a cadeia da qualidade social, representada pelo projeto de poder Lula/Dilma, que se justifica pela demanda da justiça social e opera a ressignificação das lógicas da centralização curricular e suas formas de avaliar, e a cadeia da qualidade que se pretende total, representada pelo projeto de poder FHC, que condiciona a educação às demandas de produtividade do mercado
Resumo:
Investigou-se pelo presente estudo se a concepção presente na Teoria de Replicadores, expressa através do conceito de meme (DAWKINS, 1979), poderia ser um modelo compatível para explicar a propagação de memes no substrato das mídias sociais. No âmbito dos estudos locais, Recuero (2006) sugeriu uma transdução desse modelo, baseando-se nas concepções de Dawkins (1979). Refletindo sobre o posicionamento epistemológico de Recuero (2006), o presente trabalho, baseando-se em Dennett (1995), Blackmore (2002) e Tyler (2011b; 2013b), procedeu às instâncias de Análise Conceitual e Composicional dessa transdução. A partir do conceito de memeplexo (BLACKMORE, 2002), esta pesquisa de base linguística (HALLIDAY, 1987) entende os memes, no substrato das mídias digitais/sociais, como práticas de produção e distribuição linguístico-midiáticas, propaladas a partir de diversas unidades de propagação e das relações criadas pelos internautas nesse processo de transmissão. Investigando tais relações, a partir da instância de Análise Relacional, propõe-se examinar duas unidades de propagação. Expressões meméticas (Que deselegante e #Tenso) e imagens meméticas (oriundas do fenômeno memético Nana em desastres). Integram este estudo dois corpora de expressões meméticas (5275 postagens oriundas ou redirecionadas para o Twitter.com total de 83.655 palavras/tokens) e um corpus bilíngue (Português/Inglês) de imagens meméticas (um total de 134 imagens oriundas do Tumblr.com e Facebook.com). Para analisar os corpora de expressões meméticas utilizou-se a metodologia de Linguística de Corpus (BERBER-SARDINHA, 2004; SHEPHERD, 2009; SOUZA JÚNIOR, 2012, 2013b, 2013c). Para a análise do corpus multimodal de imagens meméticas, utilizou-se a metodologia que chamamos de Análise Propagatória. Objetivamos verificar se essas unidades de propagação e as práticas linguístico-midiáticas que estas transmitem, evoluiriam somente devido a aspectos memético-midiáticos, conforme Recuero (2006) apontara, e com padrão de propagação internalista (DAWKINS, 1979; 1982). Após análise dos dados, revelou-se que, ao nível do propósito, os fenômenos locais investigados não evoluíram por padrão internalista (ou homogêneo) de propagação. Tais padrões revelam ser de natureza externalista (ou heterogênea). Ademais, constatou-se que princípios constitutivos meméticos de evolução como os de fecundidade, longevidade (DAWKINS 1979; 1982) e o de design (DENNETT, 1995), junto com o princípio midiático de evolução de alcance (RECUERO, 2006) mantiveram-se presentes com alto grau de influencia nas propagações de natureza externalista. Por outro lado, o princípio memético da fidelidade (DAWKINS, 1979; 1982) foi o que menos influenciou esses padrões de propagação. Neutralizando a fidelidade, e impulsionados pelo princípio de design, destacaram-se nesse processo evolutivo os princípios linguísticos sistematizadores revelados por este estudo. Isto é: o princípio da funcionalidade (memes evoluem porque podem indicar propósitos diferentes) e o princípio do alcance linguístico (memes podem ser direcionados a itens animados/ inanimados; para internautas em idioma nativo/ estrangeiro)
Resumo:
Fado was listed as UNESCO Intangible Cultural Heritage in 2011. This dissertation describes a theoretical model, as well as an automatic system, able to generate instrumental music based on the musics and vocal sounds typically associated with fado’s practice. A description of the phenomenon of fado, its musics and vocal sounds, based on ethnographic, historical sources and empirical data is presented. The data includes the creation of a digital corpus, of musical transcriptions, identified as fado, and statistical analysis via music information retrieval techniques. The second part consists in the formulation of a theory and the coding of a symbolic model, as a proof of concept, for the automatic generation of instrumental music based on the one in the corpus.
Resumo:
The article briefly reviews bilingual Slovak-Bulgarian/Bulgarian-Slovak parallel and aligned corpus. The corpus is collected and developed as results of the collaboration in the frameworks of the joint research project between Institute of Mathematics and Informatics, Bulgarian Academy of Sciences, and Ľ. Štúr Institute of Linguistics, Slovak Academy of Sciences. The multilingual corpora are large repositories of language data with an important role in preserving and supporting the world's cultural heritage, because the natural language is an outstanding part of the human cultural values and collective memory, and a bridge between cultures. This bilingual corpus will be widely applicable to the contrastive studies of the both Slavic languages, will also be useful resource for language engineering research and development, especially in machine translation.
Resumo:
Children’s Literature Digital Resources incorporates primary texts published from white settlement to 1945, including children’s and young adult fiction, poetry, short stories, and picture books. This collection is supported by selected secondary material. The objective is to provide a centralised access point for information about Australian children's literature and writers and a growing body of full-text primary resources. Four key aims are: * To establish an important digital facility for research, teaching, and information provision around Australian children’s literature; * To provide access to a wide range of high-quality full-text data, both primary and secondary resources; * To provide access to essential library and research information infrastructure and facilities for established and emerging researchers in the fields of Humanities and Education; To enable research while preserving important heritage material. The collection contains texts digitised for AustLit through cooperation with various Australian libraries. The collection includes children’s and young adult fiction, poetry, picture books, short stories, and critical articles relating to relevant primary texts. Authors of primary sources include Irene Cheyne, E. W. Cole, Richard Rowe, Lillian M. Pyke, and Dorothy Wall. Secondary sources include critical works by Clare Bradford, Heather Scutter, Kerry White, Sharyn Pearce, and Marcie Muir. These full-text materials are keyword searchable (both within individual texts and across the CLDR corpus) and can be downloaded for research purposes. As well as digitising primary and secondary material, the project locates and provides pathways to existing online resources or internet publications to enhance AustLit's Children's Literature subset. These resources include both primary and secondary texts.
Resumo:
In this paper, we describe a machine-translated parallel English corpus for the NTCIR Chinese, Japanese and Korean (CJK) Wikipedia collections. This document collection is named CJK2E Wikipedia XML corpus. The corpus could be used by the information retrieval research community and knowledge sharing in Wikipedia in many ways; for example, this corpus could be used for experimentations in cross-lingual information retrieval, cross-lingual link discovery, or omni-lingual information retrieval research. Furthermore, the translated CJK articles could be used to further expand the current coverage of the English Wikipedia.
Resumo:
Através da pesquisa de campo realizada nas festas de Corpus Christi da cidade de Matão/SP nos anos 2011 e 2012, são abordados os temas festa, imagem, cultura e sagrado. Especificamente focada na confecção dos tapetes, são observados e analisados seus processos e representações em aspectos individuais e coletivos. São inúmeros seus significados e interpretações se o percebemos em sua forma viva de seu lastro histórico até os dias atuais. Saliento a importância do registro desta manifestação cultural, pois através dele do estudo de suas imagens e significações buscamos um maior entendimento de como este evento acontece e de como é percebida e interiorizada pelo seu público
Resumo:
The creative industries sector faces a constantly changing context characterised by the speed of the development and deployment of digital information systems and Information Communications Technologies (ICT) on a global scale. This continuous digital disruption has had significant impact on the whole value chain of the sector: creation and production; discovery and distribution; and consumption of cultural goods and services. As a result, creative enterprises must evolve business and operational models and practices to be sustainable. Enterprises of all scales, type, and operational model are affected, and all sectors face ongoing digital disruption. Management consultancy practitioners and business strategy academics have called for new strategy development frameworks and toolkits, fit for a continuously changing world. This thesis investigates a novel approach to organisational change appropriate to the digital age, in the context of the creative sector in Scotland. A set of concepts, methods, tools, and processes to generate theoretical learning and practical knowing was created to support enterprises to digitally adapt through undertaking journeys of change and organisational development. The framework is called The AmbITion Approach. It was developed by blending participatory action research (PAR) methods and modern management consultancy, design, and creative practices. Empirical work also introduced to the framework Coghlan and Rashford’s change categories. These enabled the definition and description of the extent to which organisations developed: whether they experienced first order (change), second order (adaptation) or third order (transformation) change. Digital research tools for inquiry were tested by a pilot study, and then embedded in a longitudinal study over two years of twentyone participant organisations from Scotland’s creative sector. The author applied and investigated the novel approach in a national digital development programme for Scotland’s creative industries. The programme was designed and delivered by the author and ran nationally between 2012-14. Detailed grounded thematic analysis of the data corpus was undertaken, along with analysis of rich media case studies produced by the organisations about their change journeys. The results of studies on participants, and validation criteria applied to the results, demonstrated that the framework triggers second (adaptation) and third order change (transformation) in creative industry enterprises. The AmbITion Approach framework is suitable for the continuing landscape of digital disruption within the creative sector. The thesis contributes to practice the concepts, methods, tools, and processes of The AmbITion Approach, which have been empirically tested in the field, and validated as a new framework for business transformation in a digital age. The thesis contributes to knowledge a theoretical and conceptual framework with a specific set of constructs and criteria that define first, second, and third order change in creative enterprises, and a robust research and action framework for the analysis of the quality, validity and change achieved by action research based development programmes. The thesis additionally contributes to the practice of research, adding to our understanding of the value of PAR and design thinking approaches and creative practices as methods for change.
Resumo:
The Leaving Certificate (LC) is the national, standardised state examination in Ireland necessary for entry to third level education – this presents a massive, raw corpus of data with the potential to yield invaluable insight into the phenomena of learner interlanguage. With samples of official LC Spanish examination data, this project has compiled a digitised corpus of learner Spanish comprised of the written and oral production of 100 candidates. This corpus was then analysed using a specific investigative corpus technique, Computer-aided Error Analysis (CEA, Dagneaux et al, 1998). CEA is a powerful apparatus in that it greatly facilitates the quantification and analysis of a large learner corpus in digital format. The corpus was both compiled and analysed with the use of UAM Corpus Tool (O’Donnell 2013). This Tool allows for the recording of candidate-specific variables such as grade, examination level, task type and gender, therefore allowing for critical analysis of the corpus as one unit, as separate written and oral sub corpora and also of performance per task, level and gender. This is an interdisciplinary work combining aspects of Applied Linguistics, Learner Corpus Research and Foreign Language (FL) Learning. Beginning with a review of the context of FL learning in Ireland and Europe, I go on to discuss the disciplinary context and theoretical framework for this work and outline the methodology applied. I then perform detailed quantitative and qualitative analyses before going on to combine all research findings outlining principal conclusions. This investigation does not make a priori assumptions about the data set, the LC Spanish examination, the context of FLs or of any aspect of learner competence. It undertakes to provide the linguistic research community and the domain of Spanish language learning and pedagogy in Ireland with an empirical, descriptive profile of real learner performance, characterising learner difficulty.