870 resultados para Multilingual Corpus
Resumo:
This is a dataset of recordings and transcriptions of spoken English collected from a range of university classrooms. UNITALK is a modest-sized untagged synchronic specialized full-text corpus of spoken academic discourse collected from fifteen university classrooms. UNITALK was designed to study the genre of small group teaching contexts across academic divisions and subject disciplines and specifically designed to study those teaching events whose goal is to work on collaborative ideas or tasks. The corpus is over 100,000 words and can be used to investigate academic language use and small group university teaching and learning contexts.
Resumo:
We have recorded a new corpus of emotionally coloured conversations. Users were recorded while holding conversations with an operator who adopts in sequence four roles designed to evoke emotional reactions. The operator and the user are seated in separate rooms; they see each other through teleprompter screens, and hear each other through speakers. To allow high quality recording, they are recorded by five high-resolution, high framerate cameras, and by four microphones. All sensor information is recorded synchronously, with an accuracy of 25 μs. In total, we have recorded 20 participants, for a total of 100 character conversational and 50 non-conversational recordings of approximately 5 minutes each. All recorded conversations have been fully transcribed and annotated for five affective dimensions and partially annotated for 27 other dimensions. The corpus has been made available to the scientific community through a web-accessible database.
Resumo:
This paper presents a new approach to single-channel speech enhancement involving both noise and channel distortion (i.e., convolutional noise). The approach is based on finding longest matching segments (LMS) from a corpus of clean, wideband speech. The approach adds three novel developments to our previous LMS research. First, we address the problem of channel distortion as well as additive noise. Second, we present an improved method for modeling noise. Third, we present an iterative algorithm for improved speech estimates. In experiments using speech recognition as a test with the Aurora 4 database, the use of our enhancement approach as a preprocessor for feature extraction significantly improved the performance of a baseline recognition system. In another comparison against conventional enhancement algorithms, both the PESQ and the segmental SNR ratings of the LMS algorithm were superior to the other methods for noisy speech enhancement. Index Terms: corpus-based speech model, longest matching segment, speech enhancement, speech recognition
Resumo:
Este artigo é um estudo comparativo do conto AT 956 B (The Clever Maiden Alone at Home Kills the Robbers), centrado na análise de versões portuguesas e espanholas, embora recorrendo a outras tradições europeias e do Norte de África. O objectivo final da análise é estabelecer uma matriz da estrutura deste conto-tipo tal como ele aparece em Portugal, na sua relação com outras tradições próximas. As versões são analizadas tendo em linha de conta os seus aspectos narrativos, simbólicos e etno-sociológicos.
Resumo:
Dissertação de mest., Natural Language Processing & Human Language Technology, Faculdade de Ciências Humanas e Sociais, Univ. do Algarve, 2011
Resumo:
Dans le cadre des travaux du Centre d'analyse et de traitement informatique du français québécois (CATIFQ) sur la caractérisation des textes de langue publique québécoise, la présente étude porte sur le vocabulaire sociopolitique en situation officielle au Québec. Cette étude est basée sur un corpus de mémoires présentés à la Commission Bélanger-Campeau sur l'avenir politique et constitutionnel du Québec. Constitué à partir d'une norme élaborée au CATIFQ, et permettant de ce fait la comparaison des données avec d'autres corpus similaires, le corpus Bélanger-Campeau compte 250 000 occurrences et 8355 vocables. Sa richesse, la synchronie de ses données et les critères de sa constitution en font un point de repère pertinent pour la description du français québécois. À partir de ce corpus, nous avons sélectionné les vocables de trois réseaux propres au questionnement constitutionnel et identitaire faisant l'objet de la Commission Bélanger-Campeau: le réseau des groupes humains (communauté, État, nation, pays, peuple, société), le réseau des options constitutionnelles (autonomie, fédéralisme, indépendance, souveraineté, statu quo) et le réseau identitaire (anglais, anglophone, autochtone, canadien, français, francophone, immigrant, québécois). Notre cadre théorique et méthodologique s'appuie sur des travaux antérieurs, mais l'analyse des trois réseaux du corpus Bélanger-Campeau s'est faite en vase clos. Puis nous avons comparé nos résultats aux définitions de dictionnaires français et québécois, de même qu'à des recherches antérieures touchant le vocabulaire sociopolitique. Nous concluons de cette démarche l'importance d'étudier les vocables en contexte, notamment en se penchant sur la cooccurrence, pour en cerner le plus objectivement possible les nuances sémantiques. De plus, l'analyse du corpus Bélanger-Campeau a permis la description de vocables et d'acceptions propres aux contextes québécois et canadien, et souvent absents des dictionnaires consultés, ou inadéquatement définis. Enfin, l'examen des cooccurrents nous a permis d'identifier nombre de collocations propres au français d'ici et caractéristiques de notre situation sociopolitique (peuple fondateur, projet de société, société distincte, fédéralisme renouvelé, souveraineté-association, Canada anglais, rêve canadien, canadien-anglais, canadien-français et fait français).
Resumo:
Thesis (Master's)--University of Washington, 2015
Resumo:
O objectivo principal deste ensaio é discutir o interesse crescente que os Estudos da Tradução tem expressado acerca da Lingüística de Corpus e seu importante papel para a investigação do fenómeno tradutório. O ensaio apresenta os primeiros trabalhos na interface entre corpora e tradução e como a disciplina dos Estudos da Tradução de base em corpus evoluiu na última década. Uma atenção mais pontual é dada à noção de estudos em corpus de pequena dimensão e sua influência no campo das pesquisas em tradução no Brasil. Além disso, o ensaio explora como o conceito de representatividade tem recebido definições diferentes nos estudos dos fenómenos tradutórios de base em corpus.
Resumo:
O códice medieval chega-nos, materialmente, como resultado de uma sobreposição de intervenções, induzidas pela necessidade de conservar e transmitir o seu conteúdo intelectual, espiritual e artístico. As sucessivas alterações na aparência dos códices iluminados do fundo medieval do Mosteiro de Lorvão, sobretudo ao nível das encadernações, constitui matéria para uma análise estratigráfica, que nos propomos desenvolver e sistematizar. Este estudo, de modelo arqueológico, utiliza os elementos codicológicos, enquanto elementos de linguagem visual, integrados num determinado sistema cronológico, permitindo descrever o processo de transformação desses manuscritos, ao longo do tempo. Complementamos o estudo arqueológico dos códices laurbanenses com a análise das manchas de manuseamento, sedimentadas sobre as margens do suporte de pergaminho, durante a leitura e acesso continuados. Caracterizadas pelo grau de saturação e interpretadas quanto à sua distribuição no corpo de texto, ampliam a perspectiva sobre o estado de conservação do manuscrito medieval e significado do ‘dano’. Esta abordagem, pretende contribuir com novos dados, de carácter interdisciplinar, para o estudo dos códices medievais, assim como para a reflexão teórica sobre a caracterização e conservação destas alterações temporais.
Resumo:
Com esta tese almejámos compreender se o corpus literário consignado aos alunos dos 11º e 12º anos do Ensino Secundário Geral – ESG, fomenta a interculturalidade, em função dos diferentes grupos étnicos moçambicanos. Cientistas sociais têm apontado como prioridade, na área de Educação Cultural, o estabelecimento de estratégias para promover a interculturalidade, uma vez que Moçambique é um país multilingue e multicultural. Verificámos que a literatura, nomeadamente, ainda não foi abordada como prática que, a partir de recursos pedagógicos específicos, pode alavancar este princípio. Assim, realizámos uma pesquisa com o objetivo de: a) analisar as formas de interpretação de interculturalidade, a partir das representações culturais constantes do corpus literário obrigatório, por parte de intervenientes do processo educativo; b) mapear as representações culturais do mosaico identitário moçambicano nesse corpus literário; c) discutir se essas representações culturais promovem a interculturalidade; d) verificar de que forma é que esse corpus literário é utilizado enquanto meio que, a partir das respectivas representações culturais, pode estimular a interculturalidade. Como metodologia de trabalho analisámos diferentes estudos que abordam a interculturalidade, o texto literário e a Educação Cultural, para apreendermos que valor acrescentar relativamente à implementação da mesma em Moçambique. Debruçámo-nos também sobre a Agenda Nacional 2025 que traça os objetivos que o país deseja alcançar em Moçambique. No tocante às diretrizes escolares, estudámos os documentos que preconizam o que é prioritário para efetivar o Sistema Nacional de Ensino; analisámos o corpus literário obrigatório para os 11º e 12º anos do ESG moçambicano; aplicámos três questionários a intervenientes do processo educativo: alunos da Escola Portuguesa de Moçambique (estudado como grupo de controle) e alunos do ESG; uma planificadora curricular e uma autora de manuais de ensino. Um quarto questionário foi aplicado a um conjunto de nativos de cada grupo étnico moçambicano. Os documentos mencionados e as perguntas abertas dos questionários tiveram uma abordagem qualitativa. As perguntas fechadas foram analisadas de acordo com o método quantitativo. Recorremos ainda a um quadro teórico assente nos Estudos Culturais e na Teoria Literária, especificamente na Estética da Receção e na Sociologia da Leitura, por colocarem o leitor no centro de hipóteses de descodificação textual. No tocante ao questionário aplicado aos alunos, medimos os resultados da formação, realizada a partir desse tipo de texto, com recurso à corrente do Interacionismo Sócio-discursivo. Os resultados dessa análise levaram-nos a constatar que, na ótica da receção ativa de textos, as práticas educativas devem estimular os alunos a interpretarem os diferentes sentidos para os quais a obra literária aponta, atendendo à literariedade do texto, no quadro de modalizações culturais, uma vez que algumas obras literárias moçambicanas assentam sobre uma escrita de base etnográfica. Este pode ser um recurso para despertar os alunos para uma consciência intercultural. A conclusão a que chegámos é a de que o atual corpus literário tem limitações na promoção da interculturalidade. Foi nesse sentido que apresentámos um cânone literário multicultural e um modelo de análise de representações culturais dos grupos étnicos moçambicanos susceptível de aplicação aos contextos educativos
Resumo:
Considerando a língua como um produto da sociedade, mas também como um meio fundamental para o estabelecimento de relações entre os homens, procuramos perceber o seu lugar na sociedade globalizada, com o objectivo de desenvolver uma metodologia de análise terminológica que contribua para uma maior qualidade da comunicação especializada na sociedade em rede. Este trabalho está organizado em duas partes, sendo a primeira dedicada à reflexão sobre o papel da língua na sociedade em rede, focando questões essenciais em torno da tensão existente entre o multilinguismo e a hegemonia do inglês enquanto lingua franca, sobretudo no espaço europeu. Interessa-nos, por um lado, reflectir sobre a definição de políticas linguísticas, concretamente na Europa multilingue dos 28, e, por outro, salientar o papel preponderante que a língua tem na transmissão do conhecimento. A segunda parte deste trabalho concretiza a investigação efectuada na primeira com base na análise do relato financeiro, um domínio do saber que não só é inerentemente multilingue ¾ porque a sua aplicação é transnacional ¾ mas também reflecte a tensão identificada na primeira parte, na medida em que o inglês assume, no mundo dos negócios em geral e nos mercados financeiros em particular, o papel hegemónico de lingua franca. A abordagem terminológica que defendemos é semasiológica para fins onomasiológicos, pelo que partimos da análise do texto de especialidade, organizado em corpora de especialidade. Discutimos subsequentemente os resultados da nossa análise com os especialistas que os irão validar e cuja colaboração em diversos vi momentos do processo de análise terminológica e conceptual é fundamental para garantir a qualidade dos recursos terminológicos produzidos. Nesta óptica, exploramos um corpus de textos legislativos no âmbito do Sistema de Normalização Contabilística (SNC), de modo a delinearmos uma metodologia de trabalho que, no futuro, conduzirá à construção de uma base de dados terminológica do relato financeiro. Concomitantemente, efectuamos também um estudo sobre a Estrutura Conceptual do SNC, para o qual elaboramos uma comparação ao nível da tradução especializada no relato financeiro, com base num corpus paralelo composto pela legislação contabilística internacional endossada pela União Europeia. Utilizamos o corpus paralelo constituído por textos redigidos originalmente em inglês e traduzidos para português, em articulação com o corpus de especialidade criado com a legislação relativa ao normativo contabilístico português, para testar uma metodologia de extracção de equivalentes. Defendemos, por fim, que a harmonização no relato financeiro para além de se reger por políticas contabilísticas comuns, deve ter subjacentes questões terminológicas. É necessário, portanto, harmonizar a terminologia do relato financeiro, possibilitando aos especialistas uma comunicação em português isenta da interferência do inglês herdado das normas internacionais, através dos dois processos que identificamos: a tradução e a adaptação das Normas Internacionais de Contabilidade.