3 resultados para Fusão de classificadores

em Portal do Conhecimento - Ministerio do Ensino Superior Ciencia e Inovacao, Cape Verde


Relevância:

20.00% 20.00%

Publicador:

Resumo:

Os classificadores múltiplos são processos que utilizam um conjunto de modelos, cada um deles obtido pela aplicação de um processo de aprendizagem para um problema dado. Combinam vários classificadores individuais, em que para cada um deles são utilizados dados de treino para gerar limites de decisão diferentes. As decisões produzidas pelos classificadores individuais contém erros, que são combinados pelos classificadores múltiplos de forma a reduzir o erro total. Estes têm vindo a ganhar uma crescente importância devido principalmente ao facto de permitirem obter um melhor desempenho quando comparado com o obtido por qualquer um dos modelos que o compõem, principalmente quando as correlações entre os erros cometidos pelos modelos de base são baixos. A investigação nesta área tem crescido, tornando-se uma área de investigação importante. No entanto, para que o desempenho seja melhor do que o desempenho obtido por cada classificador individualmente, é necessário que cada um deles produza uma decisão diferente originando uma diversidade de classificação. Esta diversidade pode ser obtida tanto pela utilização de diferentes conjuntos de dados para o treino individual de cada classificador, como também pela utilização de diferentes parâmetros de formação de diferentes classificadores. Apesar disso, a utilização de classificadores múltiplos para aplicações no mundo real pode apresentar-se como dispendiosa e morosa. Tem-se notado nos dias de hoje que o desenvolvimento web tem vindo a crescer exponencialmente, assim como o uso de bases de dados. Desta forma, combinando a forte utilização da linguagem R para cálculos estatísticos com a crescente utilização das tecnologias web, foi implementado um protótipo que facilitasse a utilização dos classificadores múltiplos, mais precisamente, foi desenvolvida uma aplicação web que permitisse o teste para aprendizagem com classificadores múltiplos, sendo utilizadas as tecnologias PHP, R e MySQL. Com esta aplicação pretende-se que seja possível testar algoritmos independentes do software em que estejam desenvolvidos, não sendo necessariamente escritos em R. Nesta Dissertação foi utilizada a expressão “classificadores múltiplos” por ser a mais comum, apesar de ser redutora e existirem outros termos mais genéricos como por exemplo modelos múltiplos e ensemble learning.

Relevância:

10.00% 10.00%

Publicador:

Resumo:

Esta tese resume os trabalhos desenvolvidos na área de processamento automático de fala com o objetivo de incrementar a quantidade de recursos linguísticos disponíveis para o português europeu. O estágio de desenvolvimento e a aplicação das tecnologias de fala para uma língua estão relacionados com a quantidade e a qualidade de recursos disponíveis para esta língua. Poucas línguas apresentam, no domínio público e livre, todos os recursos necessários para desenvolver as tecnologias de fala. A língua portuguesa, como muitas outras, tem escassez de recursos públicos e livres, o que pode dificultar o desenvolvimento e a aplicação de tecnologias de fala que incorporam esta língua. Os trabalhos descritos nesta tese apresentam uma abordagem para criar bases de dados de fala, recorrendo apenas aos recursos do domínio público e livres, partindo de sinais multimédia sem transcrições ortográficas ou fonéticas. É apresentada uma solução para aproveitar a grande disponibilidade de material multimédia existente no domínio público (podcasts por exemplo) e selecionar segmentos de fala adequados para treinar modelos acústicos. Para isso, foram desenvolvidos vários sistemas para segmentar e classificar automaticamente os noticiários. Estes sistemas podem ser combinados para criar bases de dados de fala com transcrição fonética sem a intervenção humana. Foi desenvolvido um sistema de conversão automático de grafemas para fonemas que se apoia em regras fonológicas e modelos estatísticos. Esta abordagem híbrida é justificada pelos desenvolvimentos de algoritmos de aprendizagem automática aplicados a conversão de grafemas para fonemas e pelo fato do português apresentar uma razoável regularidade fonética e fonológica bem como uma ortografia de base fonológica. Com auxílio deste sistema, foi criado um dicionário de pronunciação com cerca de 40 mil entradas, que foram verificadas manualmente. Foram implementados sistemas de segmentação e de diarização de locutor para segmentar sinais de áudio. Estes sistemas utilizam várias técnicas como a impressão digital acústica, modelos com misturas de gaussianas e critério de informação bayesiana que normalmente são aplicadas noutras tarefas de processamento de fala. Para selecionar os segmentos adequados ou descartar os segmentos com fala não preparada que podem prejudicar o treino de modelos acústicos, foi desenvolvido um sistema de deteção de estilos de fala. A deteção de estilos de fala baseia-se na combinação de parâmetros acústicos e parâmetros prosódicos, na segmentação automática e em classificadores de máquinas de vetores de suporte. Ainda neste âmbito, fez-se um estudo com o intuito de caracterizar os eventos de hesitações presentes nos noticiários em português. A transcrição fonética da base de dados de fala é indispensável no processo de treino de modelos acústicos. É frequente recorrer a sistemas de reconhecimento de fala de grande vocabulário para fazer transcrição automática quando a base de dados não apresenta nenhuma transcrição. Nesta tese, é proposto um sistema de word-spotting para fazer a transcrição fonética dos segmentos de fala. Fez-se uma implementação preliminar de um sistema de word-spotting baseado em modelos de fonemas. Foi proposta uma estratégia para diminuir o tempo de resposta do sistema, criando, a priori, uma espécie de “assinatura acústica” para cada sinal de áudio com os valores de todos os cálculos que não dependem da palavra a pesquisar, como a verosimilhanças de todos os estados dos modelos de fonemas. A deteção de uma palavra utiliza medidas de similaridade entre as verosimilhanças do modelo da palavra e do modelo de enchimento, um detetor de picos e um limiar definido por forma a minimizar os erros de deteção. Foram publicados vários recursos para a língua portuguesa que resultaram da aplicação dos vários sistemas desenvolvidos ao longo da execução desta tese com especial destaque para o sistema de conversão de grafemas para fonemas a partir do qual se publicaram vários dicionários de pronunciação, dicionários com as palavras homógrafas heterofónicas, dicionário com estrangeirismos, modelos estatísticos para a conversão de grafemas para fonemas, o código fonte de todo sistema de treino e conversão e um demonstrador online.

Relevância:

10.00% 10.00%

Publicador:

Resumo:

As ilhas de Cabo Verde elevam-se de um soco submarino, em forma de ferradura, situado a uma profundidade da ordem de 3.000 metros. Deste soco emergem três pedestais bem distintos1. A Norte, compreendendo as ilhas de St° Antão, S. Vicente, St.ª Luzia e S. Nicolau e os ilhéus Boi, Pássaros, Branco e Raso. A Leste e a Sul, com as ilhas do Sal, Boa Vista, Maio e Santiago e os ilhéus Rabo de Junco, Curral de Dadó, Fragata, Chano, Baluarte e de Santa Maria. A Oeste, compreendendo as ilhas do Fogo e da Brava e os ilhéus Grande, Luís Carneiro e de Cima (Fig. 1 - Mapa de Cabo Verde e distribuição das ilhas nos três pedestais). A formação das ilhas teria sido iniciada por uma actividade vulcânica submarina central, mais tarde completada por uma rede físsural manifestada nos afloramentos. A maior parte das ilhas é dominada por emissões de escoadas lávicas e de materiais piroclásticos (escórias, bagacinas ou "lapilli" e cinzas) subaéreos, predominantemente basálticas. O Arquipélago de Cabo Verde fica localizado na margem Oriental do Atlântico Norte, a cerca de 450 Km da Costa Ocidental da África e a cerca de 1.400 Km a SSW das Canárias, limitado pelos paralelos 17° 13' (Ponta Cais dos Fortes, Ilha de St° Antão) e 14º 48' (Ponta de Nho Martinho, Ilha Brava), de latitude Norte e pelos meridianos de 22° 42' (ilhéu Baluarte, Ilha da Boa Vista) e 25° 22' (Ponta Chã de Mangrado, Ilha de St° Antão) de longitude Oeste de Greenwich. O Arquipélago de Cabo Verde fica situado a cerca de 2.000 Km a Leste do actual "rift" da "Crista Média Atlântica" e a Oeste da zona de quietude magnética ("quite zone"), entre as isócronas dos 120 e 140 M.A., segundo Vacquier (1972), e a dos 107 e 153 M.A., segundo Haynes & Rabinowitz (1975), argumentos invocados para se considerar que as ilhas teriam sido geradas em ambiente oceânico. O Arquipélago de Cabo Verde fica situado numa região elevada do actual fundo oceânico, que faz parte da "Crista de Cabo Verde" (" Cape Verde Rise"), e que na vizinhança das ilhas corresponde a um domo com cerca de 400 Km de largura (Lancelot et al., 1977). Presume-se que um domo daquelas dimensões representa um fenómeno importante, possivelmente relacionado com descompressão e fusão parcial (Le Bas, 1980) que forneceria a fonte dos magmas que originaram as ilhas (Stillman et al., 1982). As ilhas se teriam implantado por um mecanismo do tipo "hot-spot", de acordo com alguns autores.