4 resultados para machine learning algorithms
em Universidade Federal do Pará
Resumo:
O processamento de voz tornou-se uma tecnologia cada vez mais baseada na modelagem automática de vasta quantidade de dados. Desta forma, o sucesso das pesquisas nesta área está diretamente ligado a existência de corpora de domínio público e outros recursos específicos, tal como um dicionário fonético. No Brasil, ao contrário do que acontece para a língua inglesa, por exemplo, não existe atualmente em domínio público um sistema de Reconhecimento Automático de Voz (RAV) para o Português Brasileiro com suporte a grandes vocabulários. Frente a este cenário, o trabalho tem como principal objetivo discutir esforços dentro da iniciativa FalaBrasil [1], criada pelo Laboratório de Processamento de Sinais (LaPS) da UFPA, apresentando pesquisas e softwares na área de RAV para o Português do Brasil. Mais especificamente, o presente trabalho discute a implementação de um sistema de reconhecimento de voz com suporte a grandes vocabulários para o Português do Brasil, utilizando a ferramenta HTK baseada em modelo oculto de Markov (HMM) e a criação de um módulo de conversão grafema-fone, utilizando técnicas de aprendizado de máquina.
Resumo:
Aborda a classificação automática de faltas do tipo curto-circuito em linhas de transmissão. A maioria dos sistemas de transmissão possuem três fases (A, B e C). Por exemplo, um curto-circuito entre as fases A e B pode ser identicado como uma falta\AB". Considerando a possibilidade de um curto-circuito com a fase terra (T), a tarefa ao longo desse trabalho de classificar uma série temporal em uma das 11 faltas possíveis: AT, BT, CT, AB, AC, BC, ABC, ABT, ACT, BCT, ABCT. Estas faltas são responsáveis pela maioria dos distúrbios no sistema elétrico. Cada curto-circuito é representado por uma seqüência (série temporal) e ambos os tipos de classificação, on-line (para cada curto segmento extraído do sinal) e off-line (leva em consideração toda a seqüência), são investigados. Para evitar a atual falta de dados rotulados, o simulador Alternative Transient Program (ATP) é usado para criar uma base de dados rotulada e disponibilizada em domínio público. Alguns trabalhos na literatura não fazem distinção entre as faltas ABC e ABCT. Assim, resultados distinguindo esse dois tipos de faltas adotando técnicas de pré-processamento, diferentes front ends (por exemplo wavelets) e algoritmos de aprendizado (árvores de decisão e redes neurais) são apresentados. O custo computacional estimado durante o estágio de teste de alguns classificadores é investigado e a escolha dos parâmetros dos classificadores é feita a partir de uma seleção automática de modelo. Os resultados obtidos indicam que as árvores de decisão e as redes neurais apresentam melhores resultados quando comparados aos outros classificadores.
Resumo:
A edição dos procedimentos de distribuição de energia elétrica (PRODIST) confirmou a análise comparativa entre empresas de distribuição de energia elétrica estabelecida pela Resolução 024/2000 como base para o estabelecimento das metas dos indicadores de continuidade DEC (Índice de Duração Equivalente de Interrupção por Consumidor) e FEC (Índice de Frequência Equivalente de Interrupção por Consumidor). O estabelecimento das metas é influenciado diretamente pela definição dos conjuntos de unidades consumidoras das empresas de distribuição de energia elétrica, portanto, é de interesse das empresas distribuidoras uma boa definição desses conjuntos. Este trabalho apresenta o desenvolvimento de uma metodologia baseada em técnicas de aprendizado de máquina que auxilie as empresas de distribuição de energia elétrica na tomada de decisão da definição de conjuntos de unidades consumidoras objetivando melhor compatibilidade das metas para os indicadores de DEC e FEC com a realidade dos conjuntos em relação às características ambientais e de infra-estrutura da área de concessão da empresa distribuidora.
Resumo:
Durante o processo de extração do conhecimento em bases de dados, alguns problemas podem ser encontrados como por exemplo, a ausência de determinada instância de um atributo. A ocorrência de tal problemática pode causar efeitos danosos nos resultados finais do processo, pois afeta diretamente a qualidade dos dados a ser submetido a um algoritmo de aprendizado de máquina. Na literatura, diversas propostas são apresentadas a fim de contornar tal dano, dentre eles está a de imputação de dados, a qual estima um valor plausível para substituir o ausente. Seguindo essa área de solução para o problema de valores ausentes, diversos trabalhos foram analisados e algumas observações foram realizadas como, a pouca utilização de bases sintéticas que simulem os principais mecanismos de ausência de dados e uma recente tendência a utilização de algoritmos bio-inspirados como tratamento do problema. Com base nesse cenário, esta dissertação apresenta um método de imputação de dados baseado em otimização por enxame de partículas, pouco explorado na área, e o aplica para o tratamento de bases sinteticamente geradas, as quais consideram os principais mecanismos de ausência de dados, MAR, MCAR e NMAR. Os resultados obtidos ao comprar diferentes configurações do método à outros dois conhecidos na área (KNNImpute e SVMImpute) são promissores para sua utilização na área de tratamento de valores ausentes uma vez que alcançou os melhores valores na maioria dos experimentos realizados.