886 resultados para Anotación de corpus


Relevância:

20.00% 20.00%

Publicador:

Resumo:

This is a dataset of recordings and transcriptions of spoken English collected from a range of university classrooms. UNITALK is a modest-sized untagged synchronic specialized full-text corpus of spoken academic discourse collected from fifteen university classrooms. UNITALK was designed to study the genre of small group teaching contexts across academic divisions and subject disciplines and specifically designed to study those teaching events whose goal is to work on collaborative ideas or tasks. The corpus is over 100,000 words and can be used to investigate academic language use and small group university teaching and learning contexts.

Relevância:

20.00% 20.00%

Publicador:

Resumo:

We have recorded a new corpus of emotionally coloured conversations. Users were recorded while holding conversations with an operator who adopts in sequence four roles designed to evoke emotional reactions. The operator and the user are seated in separate rooms; they see each other through teleprompter screens, and hear each other through speakers. To allow high quality recording, they are recorded by five high-resolution, high framerate cameras, and by four microphones. All sensor information is recorded synchronously, with an accuracy of 25 μs. In total, we have recorded 20 participants, for a total of 100 character conversational and 50 non-conversational recordings of approximately 5 minutes each. All recorded conversations have been fully transcribed and annotated for five affective dimensions and partially annotated for 27 other dimensions. The corpus has been made available to the scientific community through a web-accessible database.

Relevância:

20.00% 20.00%

Publicador:

Resumo:

This paper presents a new approach to single-channel speech enhancement involving both noise and channel distortion (i.e., convolutional noise). The approach is based on finding longest matching segments (LMS) from a corpus of clean, wideband speech. The approach adds three novel developments to our previous LMS research. First, we address the problem of channel distortion as well as additive noise. Second, we present an improved method for modeling noise. Third, we present an iterative algorithm for improved speech estimates. In experiments using speech recognition as a test with the Aurora 4 database, the use of our enhancement approach as a preprocessor for feature extraction significantly improved the performance of a baseline recognition system. In another comparison against conventional enhancement algorithms, both the PESQ and the segmental SNR ratings of the LMS algorithm were superior to the other methods for noisy speech enhancement. Index Terms: corpus-based speech model, longest matching segment, speech enhancement, speech recognition

Relevância:

20.00% 20.00%

Publicador:

Resumo:

Este artigo é um estudo comparativo do conto AT 956 B (The Clever Maiden Alone at Home Kills the Robbers), centrado na análise de versões portuguesas e espanholas, embora recorrendo a outras tradições europeias e do Norte de África. O objectivo final da análise é estabelecer uma matriz da estrutura deste conto-tipo tal como ele aparece em Portugal, na sua relação com outras tradições próximas. As versões são analizadas tendo em linha de conta os seus aspectos narrativos, simbólicos e etno-sociológicos.

Relevância:

20.00% 20.00%

Publicador:

Resumo:

Dissertação de mest., Natural Language Processing & Human Language Technology, Faculdade de Ciências Humanas e Sociais, Univ. do Algarve, 2011

Relevância:

20.00% 20.00%

Publicador:

Resumo:

Dans le cadre des travaux du Centre d'analyse et de traitement informatique du français québécois (CATIFQ) sur la caractérisation des textes de langue publique québécoise, la présente étude porte sur le vocabulaire sociopolitique en situation officielle au Québec. Cette étude est basée sur un corpus de mémoires présentés à la Commission Bélanger-Campeau sur l'avenir politique et constitutionnel du Québec. Constitué à partir d'une norme élaborée au CATIFQ, et permettant de ce fait la comparaison des données avec d'autres corpus similaires, le corpus Bélanger-Campeau compte 250 000 occurrences et 8355 vocables. Sa richesse, la synchronie de ses données et les critères de sa constitution en font un point de repère pertinent pour la description du français québécois. À partir de ce corpus, nous avons sélectionné les vocables de trois réseaux propres au questionnement constitutionnel et identitaire faisant l'objet de la Commission Bélanger-Campeau: le réseau des groupes humains (communauté, État, nation, pays, peuple, société), le réseau des options constitutionnelles (autonomie, fédéralisme, indépendance, souveraineté, statu quo) et le réseau identitaire (anglais, anglophone, autochtone, canadien, français, francophone, immigrant, québécois). Notre cadre théorique et méthodologique s'appuie sur des travaux antérieurs, mais l'analyse des trois réseaux du corpus Bélanger-Campeau s'est faite en vase clos. Puis nous avons comparé nos résultats aux définitions de dictionnaires français et québécois, de même qu'à des recherches antérieures touchant le vocabulaire sociopolitique. Nous concluons de cette démarche l'importance d'étudier les vocables en contexte, notamment en se penchant sur la cooccurrence, pour en cerner le plus objectivement possible les nuances sémantiques. De plus, l'analyse du corpus Bélanger-Campeau a permis la description de vocables et d'acceptions propres aux contextes québécois et canadien, et souvent absents des dictionnaires consultés, ou inadéquatement définis. Enfin, l'examen des cooccurrents nous a permis d'identifier nombre de collocations propres au français d'ici et caractéristiques de notre situation sociopolitique (peuple fondateur, projet de société, société distincte, fédéralisme renouvelé, souveraineté-association, Canada anglais, rêve canadien, canadien-anglais, canadien-français et fait français).

Relevância:

20.00% 20.00%

Publicador:

Resumo:

Thesis (Master's)--University of Washington, 2015

Relevância:

20.00% 20.00%

Publicador:

Resumo:

O objectivo principal deste ensaio é discutir o interesse crescente que os Estudos da Tradução tem expressado acerca da Lingüística de Corpus e seu importante papel para a investigação do fenómeno tradutório. O ensaio apresenta os primeiros trabalhos na interface entre corpora e tradução e como a disciplina dos Estudos da Tradução de base em corpus evoluiu na última década. Uma atenção mais pontual é dada à noção de estudos em corpus de pequena dimensão e sua influência no campo das pesquisas em tradução no Brasil. Além disso, o ensaio explora como o conceito de representatividade tem recebido definições diferentes nos estudos dos fenómenos tradutórios de base em corpus.

Relevância:

20.00% 20.00%

Publicador:

Resumo:

Em Portugal, o turismo é uma actividade económica que gera ganhos significativos e a promoção turística do país no mercado externo assenta cada vez mais na criação de sites multilingues. Este artigo examina um corpus constituído por textos provenientes de sites de Regiões de Turismo de Portugal, em português, e as respectivas traduções para inglês, com o objectivo de demonstrar o modo como os tradutores adicionam informação inexistente no texto original. Através da análise desta característica específica dos sites oficiais traduzidos para promover o destino ―Portugal‖ no mercado externo pretende salientar-se a importância que as estratégias de tradução assumem no marketing do destino turístico, uma vez que a informação adicionada cria uma determinada imagem de uma região. Em termos teóricos e metodológicos, este artigo enquadra-se no âmbito da Linguística de Corpus.