904 resultados para Audio-Visual Automatic Speech Recognition


Relevância:

100.00% 100.00%

Publicador:

Resumo:

Signifying road-related events with warnings can be highly beneficial, especially when imminent attention is needed. This thesis describes how modality, urgency and situation can influence driver responses to multimodal displays used as warnings. These displays utilise all combinations of audio, visual and tactile modalities, reflecting different urgency levels. In this way, a new rich set of cues is designed, conveying information multimodally, to enhance reactions during driving, which is a highly visual task. The importance of the signified events to driving is reflected in the warnings, and safety-critical or non-critical situations are communicated through the cues. Novel warning designs are considered, using both abstract displays, with no semantic association to the signified event, and language-based ones, using speech. These two cue designs are compared, to discover their strengths and weaknesses as car alerts. The situations in which the new cues are delivered are varied, by simulating both critical and non-critical events and both manual and autonomous car scenarios. A novel set of guidelines for using multimodal driver displays is finally provided, considering the modalities utilised, the urgency signified, and the situation simulated.

Relevância:

100.00% 100.00%

Publicador:

Resumo:

In political debates, the media[tisation] can determine the use of language with the aim to increase their spectacularisation and polarisation, possibly by means of criticism and humour, respectively. These linguistic strategies are often used in order to shape what was defined by Goffman as one’s face. Politicians, in particular, can recur to facework in a double sense: shaping their own face positively and/or that of their opponents negatively. Starting from the sociologic theory of face by Goffman and Levinson, with the help of corpus analysis tools, this research investigated the ways in which various forms of criticism and forms of humour were conducted in 3 electoral debates on a national scale (Germany, Ireland, and New Zealand) and 1 debate for the municipal election in Rome. The transcripts were revised after automatic transcriptions were extracted or found online, of which the audio-visual content is available on the Internet. The CADS research aimed to investigate the role that criticism and humour played within each participant’s discourse, and to identify differences and similarities among the strategies used by political leaders and moderators in different countries, and in different cultural, political, and media contexts.

Relevância:

100.00% 100.00%

Publicador:

Resumo:

The differences in spectral shape resolution abilities among cochlear implant ~CI! listeners, and between CI and normal-hearing ~NH! listeners, when listening with the same number of channels ~12!, was investigated. In addition, the effect of the number of channels on spectral shape resolution was examined. The stimuli were rippled noise signals with various ripple frequency-spacings. An adaptive 4IFC procedure was used to determine the threshold for resolvable ripple spacing, which was the spacing at which an interchange in peak and valley positions could be discriminated. The results showed poorer spectral shape resolution in CI compared to NH listeners ~average thresholds of approximately 3000 and 400 Hz, respectively!, and wide variability among CI listeners ~range of approximately 800 to 8000 Hz!. There was a significant relationship between spectral shape resolution and vowel recognition. The spectral shape resolution thresholds of NH listeners increased as the number of channels increased from 1 to 16, while the CI listeners showed a performance plateau at 4–6 channels, which is consistent with previous results using speech recognition measures. These results indicate that this test may provide a measure of CI performance which is time efficient and non-linguistic, and therefore, if verified, may provide a useful contribution to the prediction of speech perception in adults and children who use CIs.

Relevância:

100.00% 100.00%

Publicador:

Resumo:

Speech understanding disorders in the elderly may be due to peripheral or central auditory dysfunctions. Asymmetry of results in dichotic testing increases with age, and may reflect on a lack of inter-hemisphere transmission and cognitive decline. Aim: To investigate auditory processing of aged people with no hearing complaints. Study design: clinical prospective. Materials and Methods: Twenty-two voluntary individuals, aged between 55 and 75 years, were evaluated. They reported no hearing complaints and had maximal auditory thresholds of 40 dB HL until 4 KHz, 80% of minimal speech recognition scores and peripheral symmetry between the ears. We used two kinds of tests: speech in noise and dichotic alternated dissyllables (SSW). Results were compared between males and females, right and left ears and between age groups. Results: There were no significant differences between genders, in both tests. Their Left ears showed worse results, in the competitive condition of SSW. Individuals aged 65 or older had poorer performances than those aged 55 to 64. Conclusion: Central auditory tests showed worse performance with aging. The employment of a dichotic test in the auditory evaluation setting in the elderly may help in the early identification of degenerative processes, which are common among these patients.

Relevância:

100.00% 100.00%

Publicador:

Resumo:

Despite their limitations, linear filter models continue to be used to simulate the receptive field properties of cortical simple cells. For theoreticians interested in large scale models of visual cortex, a family of self-similar filters represents a convenient way in which to characterise simple cells in one basic model. This paper reviews research on the suitability of such models, and goes on to advance biologically motivated reasons for adopting a particular group of models in preference to all others. In particular, the paper describes why the Gabor model, so often used in network simulations, should be dropped in favour of a Cauchy model, both on the grounds of frequency response and mutual filter orthogonality.

Relevância:

100.00% 100.00%

Publicador:

Resumo:

Esta pesquisa investiga a relação entre os repertórios de ação coletiva adotados por organizações de movimentos sociais e a efetividade das instituições participativas (IPs) que tratam das políticas de comunicações no Brasil, ou seja, o Conselho de Comunicação Social do Congresso Nacional (CCS) e a 1ª Conferência Nacional de Comunicação (ConfeCom). A discussão gira em torno das ações implementadas pelo Coletivo Intervozes, organização da sociedade civil que atua nos movimentos sociais em prol do direito à comunicação e de sua democratização. Nesse contexto, dá-se ênfase às ações por um novo marco legal e regulatório das comunicações, consideradas como resultado dos problemas de efetividade observados no CCS e na ConfeCom. O trabalho está dividido em quatro capítulos. No primeiro, o destaque é para o Coletivo Intervozes, sua história, forma de organização, além de seus principais eixos de atuação e ações. No segundo, essencialmente teórico, enfatizam-se as definições conceituais que envolvem os movimentos sociais e a mudança institucional. O capítulo 3 é dedicado à análise dos problemas de efetividade nas IPs atinentes à área de comunicações e suas relações com os repertórios de ação coletiva. Como variáveis de análise, utiliza-se o acesso/representação da sociedade civil e as funções atribuídas às IPs. No último capítulo, analisa-se as características do movimento social que reivindica um novo marco legal e regulatório das comunicações e que surgiu como ação alternativa às IPs na defesa de mudanças institucionais para o setor. Como esta é uma pesquisa qualitativa, as análises foram feitas a partir de entrevistas semiestruturadas com membros do Coletivo Intervozes e especialistas da área; de acesso a documentos públicos produzidos pela organização e a dados bibliográficos, audiovisuais e sonoros referentes ao CCS e à ConfeCom.

Relevância:

100.00% 100.00%

Publicador:

Resumo:

Dissertação apresentada à Escola Superior de Comunicação Social como parte dos requisitos para obtenção de grau de mestre em Audiovisual e Multimédia.

Relevância:

100.00% 100.00%

Publicador:

Resumo:

Tese de Doutoramento, Gestão Interdisciplinar da Paisagem, 11 Fevereiro de 2016, Universidade dos Açores.

Relevância:

100.00% 100.00%

Publicador:

Resumo:

Les méthodes modernes d’enseignement exigent de recréer le milieu de la langue étudiée, de faire parler les élèves dans des situations différentes. En Géorgie, l’enseignement de la langue étrangère s’effectue à partir de 6 ans, en même temps que celui de la langue maternelle. Les élèves apprennent à écrire en français après l’apprentissage de l’écriture en géorgien. A l’âge de 7-10 ans, ils connaissent déjà 3 alphabets différents : le géorgien, le latin et le cyrillique. L’objectif de cet article est de proposer une méthode qui pourra faciliter l’apprentissage du français aux non francophones grâce aux moyens audiovisuels qui sont très efficaces surtout au moment quand l’enfant ne sait ni lire, ni écrire en langue étrangère. Cependant, les moyens audiovisuels doivent être utilisés à des doses normales sans empêcher l’activité de l’élève.

Relevância:

100.00% 100.00%

Publicador:

Resumo:

Trabalho Final de Mestrado para obtenção do grau de Mestre em Engenharia Informática e Computadores

Relevância:

100.00% 100.00%

Publicador:

Resumo:

Relatório Final de Estágio apresentado à Escola Superior de Dança, com vista à obtenção do grau de Mestre em Ensino de Dança.

Relevância:

100.00% 100.00%

Publicador:

Resumo:

In the last twenty years genetic algorithms (GAs) were applied in a plethora of fields such as: control, system identification, robotics, planning and scheduling, image processing, and pattern and speech recognition (Bäck et al., 1997). In robotics the problems of trajectory planning, collision avoidance and manipulator structure design considering a single criteria has been solved using several techniques (Alander, 2003). Most engineering applications require the optimization of several criteria simultaneously. Often the problems are complex, include discrete and continuous variables and there is no prior knowledge about the search space. These kind of problems are very more complex, since they consider multiple design criteria simultaneously within the optimization procedure. This is known as a multi-criteria (or multiobjective) optimization, that has been addressed successfully through GAs (Deb, 2001). The overall aim of multi-criteria evolutionary algorithms is to achieve a set of non-dominated optimal solutions known as Pareto front. At the end of the optimization procedure, instead of a single optimal (or near optimal) solution, the decision maker can select a solution from the Pareto front. Some of the key issues in multi-criteria GAs are: i) the number of objectives, ii) to obtain a Pareto front as wide as possible and iii) to achieve a Pareto front uniformly spread. Indeed, multi-objective techniques using GAs have been increasing in relevance as a research area. In 1989, Goldberg suggested the use of a GA to solve multi-objective problems and since then other researchers have been developing new methods, such as the multi-objective genetic algorithm (MOGA) (Fonseca & Fleming, 1995), the non-dominated sorted genetic algorithm (NSGA) (Deb, 2001), and the niched Pareto genetic algorithm (NPGA) (Horn et al., 1994), among several other variants (Coello, 1998). In this work the trajectory planning problem considers: i) robots with 2 and 3 degrees of freedom (dof ), ii) the inclusion of obstacles in the workspace and iii) up to five criteria that are used to qualify the evolving trajectory, namely the: joint traveling distance, joint velocity, end effector / Cartesian distance, end effector / Cartesian velocity and energy involved. These criteria are used to minimize the joint and end effector traveled distance, trajectory ripple and energy required by the manipulator to reach at destination point. Bearing this ideas in mind, the paper addresses the planning of robot trajectories, meaning the development of an algorithm to find a continuous motion that takes the manipulator from a given starting configuration up to a desired end position without colliding with any obstacle in the workspace. The chapter is organized as follows. Section 2 describes the trajectory planning and several approaches proposed in the literature. Section 3 formulates the problem, namely the representation adopted to solve the trajectory planning and the objectives considered in the optimization. Section 4 studies the algorithm convergence. Section 5 studies a 2R manipulator (i.e., a robot with two rotational joints/links) when the optimization trajectory considers two and five objectives. Sections 6 and 7 show the results for the 3R redundant manipulator with five goals and for other complementary experiments are described, respectively. Finally, section 8 draws the main conclusions.

Relevância:

100.00% 100.00%

Publicador:

Resumo:

Com o crescimento da informação disponível na Web, arquivos pessoais e profissionais, protagonizado tanto pelo aumento da capacidade de armazenamento de dados, como pelo aumento exponencial da capacidade de processamento dos computadores, e do fácil acesso a essa mesma informação, um enorme fluxo de produção e distribuição de conteúdos audiovisuais foi gerado. No entanto, e apesar de existirem mecanismos para a indexação desses conteúdos com o objectivo de permitir a pesquisa e acesso aos mesmos, estes apresentam normalmente uma grande complexidade algorítmica ou exigem a contratação de pessoal altamente qualificado, para a verificação e categorização dos conteúdos. Nesta dissertação pretende-se estudar soluções de anotação colaborativa de conteúdos e desenvolver uma ferramenta que facilite a anotação de um arquivo de conteúdos audiovisuais. A abordagem implementada é baseada no conceito dos “Jogos com Propósito” (GWAP – Game With a Purpose) e permite que os utilizadores criem tags (metadatos na forma de palavras-chave) de forma a atribuir um significado a um objecto a ser categorizado. Assim, e como primeiro objectivo, foi desenvolvido um jogo com o propósito não só de entretenimento, mas também que permita a criação de anotações audiovisuais perante os vídeos que são apresentados ao jogador e, que desta forma, se melhore a indexação e categorização dos mesmos. A aplicação desenvolvida permite ainda a visualização dos conteúdos e metadatos categorizados, e com o objectivo de criação de mais um elemento informativo, permite a inserção de um like num determinado instante de tempo do vídeo. A grande vantagem da aplicação desenvolvida reside no facto de adicionar anotações a pontos específicos do vídeo, mais concretamente aos seus instantes de tempo. Trata-se de uma funcionalidade nova, não disponível em outras aplicações de anotação colaborativa de conteúdos audiovisuais. Com isto, o acesso aos conteúdos será bastante mais eficaz pois será possível aceder, por pesquisa, a pontos específicos no interior de um vídeo.

Relevância:

100.00% 100.00%

Publicador:

Resumo:

O que significa hoje um pensamento do figural? Qual a sua importância no quadro hegemónico do Arquivo Audiovisual e Multimédia Contemporâneo? Qual a relação que o cinema, enquanto assimilável ao pensamento do figural, tem com o Arquivo, tendo em conta a recente apropriação, interpretação, reconfiguração e interrogação das estruturas arquivísticas e materiais de arquivo, por parte de cineastas que usam o cinema, ele próprio, uma forma de arquivagem e material de arquivo, como ferramenta privilegiada de interpelação do Arquivo? Qual a potencial relevância do cinema, encarado nesta perspectiva, face à necessidade política de conceber um exterior do Arquivo? Estas são algumas das perguntas que estão na origem desta tese e a que ela procura responder, através da proposta de (re)corte de um arquivo de filmes e enunciados teóricos e da sua interpelação mútua. Com efeito, a imagem ou ideia de figural supõe uma reconfiguração das relações entre visível e dizível que não só nos serve de topos inspirador da metodologia da tese, num esforço de procurar inscrever a espacialização exigida pelo pensamento do figural na sua própria estrutura, como, sobretudo, nos fornece o quadro teórico de partida para pensar hoje, na senda de autores como Jean- François Lyotard, Michel Foucault e Gilles Deleuze, a relevância simultaneamente epistemológica e política da assimilação de certos gestos cinematográficos contemporâneos a uma imagem do pensamento com estes contornos. Assim, o cinema, sobretudo na sua forma ensaística, é identificado com a possibilidade de pôr em prática, um pensamento do interstício figural, que contraria a identidade dominante do ver e do falar, que rege o paradigma contemporâneo da comunicação, assente na respectiva conversão mútua - as imagens reduzem-se à sua significação ou conteúdo e as palavras convertem-se em imagens legíveis. Através das possibilidades oferecidas pela montagem cinematográfica, trata-se, então, de reenviar as imagens a uma leitura que só elas podem dar, e as palavras a um novo tipo de escuta e entendimento, o que se traduz, em termos da relação do cinema ao Arquivo contemporâneo, na sugestão de que o cinema é uma ferramenta de requalificação do saber que aquele supõe. A nossa hipótese é, pois, a de que o cinema em geral, e certos filmes em particular, ao permitirem a perscrutação arqueológica do Arquivo, introduzem delay na nossa relação aos “documentos”, sendo que é aí, nesse intervalo entre o registo e a sua retoma, que se joga a possibilidade de resistência face ao poder difuso do Arquivo, tal como se manifesta na internet, na televisão, nas redes que hoje geram a regulação, tratamento e transmissão da informação; porque possui uma dimensão audiovisual que lhe permite articular e desarticular arquivos e corpos, e dado que as relações entre dizível e visível não estão estabilizadas, o cinema torna possível a reescrita das figuras, ou seja, um pensamento que não dispõe de uma forma já feita de verdade para o encontro das frases e das experiências, mas que extrai relações essenciais e verdadeiras dos acontecimentos do nosso presente e da nossa história, precisamente a partir da exploração do intervalo instável entre discurso e figura, e da experimentação ao nível da recolagem entre enunciados e visibilidades.

Relevância:

100.00% 100.00%

Publicador:

Resumo:

This paper develops the model of Bicego, Grosso, and Otranto (2008) and applies Hidden Markov Models to predict market direction. The paper draws an analogy between financial markets and speech recognition, seeking inspiration from the latter to solve common issues in quantitative investing. Whereas previous works focus mostly on very complex modifications of the original hidden markov model algorithm, the current paper provides an innovative methodology by drawing inspiration from thoroughly tested, yet simple, speech recognition methodologies. By grouping returns into sequences, Hidden Markov Models can then predict market direction the same way they are used to identify phonemes in speech recognition. The model proves highly successful in identifying market direction but fails to consistently identify whether a trend is in place. All in all, the current paper seeks to bridge the gap between speech recognition and quantitative finance and, even though the model is not fully successful, several refinements are suggested and the room for improvement is significant.