950 resultados para Wavelet Packet e Máquinas de Vetor de Suporte
Resumo:
Esta tese resume os trabalhos desenvolvidos na área de processamento automático de fala com o objetivo de incrementar a quantidade de recursos linguísticos disponíveis para o português europeu. O estágio de desenvolvimento e a aplicação das tecnologias de fala para uma língua estão relacionados com a quantidade e a qualidade de recursos disponíveis para esta língua. Poucas línguas apresentam, no domínio público e livre, todos os recursos necessários para desenvolver as tecnologias de fala. A língua portuguesa, como muitas outras, tem escassez de recursos públicos e livres, o que pode dificultar o desenvolvimento e a aplicação de tecnologias de fala que incorporam esta língua. Os trabalhos descritos nesta tese apresentam uma abordagem para criar bases de dados de fala, recorrendo apenas aos recursos do domínio público e livres, partindo de sinais multimédia sem transcrições ortográficas ou fonéticas. É apresentada uma solução para aproveitar a grande disponibilidade de material multimédia existente no domínio público (podcasts por exemplo) e selecionar segmentos de fala adequados para treinar modelos acústicos. Para isso, foram desenvolvidos vários sistemas para segmentar e classificar automaticamente os noticiários. Estes sistemas podem ser combinados para criar bases de dados de fala com transcrição fonética sem a intervenção humana. Foi desenvolvido um sistema de conversão automático de grafemas para fonemas que se apoia em regras fonológicas e modelos estatísticos. Esta abordagem híbrida é justificada pelos desenvolvimentos de algoritmos de aprendizagem automática aplicados a conversão de grafemas para fonemas e pelo fato do português apresentar uma razoável regularidade fonética e fonológica bem como uma ortografia de base fonológica. Com auxílio deste sistema, foi criado um dicionário de pronunciação com cerca de 40 mil entradas, que foram verificadas manualmente. Foram implementados sistemas de segmentação e de diarização de locutor para segmentar sinais de áudio. Estes sistemas utilizam várias técnicas como a impressão digital acústica, modelos com misturas de gaussianas e critério de informação bayesiana que normalmente são aplicadas noutras tarefas de processamento de fala. Para selecionar os segmentos adequados ou descartar os segmentos com fala não preparada que podem prejudicar o treino de modelos acústicos, foi desenvolvido um sistema de deteção de estilos de fala. A deteção de estilos de fala baseia-se na combinação de parâmetros acústicos e parâmetros prosódicos, na segmentação automática e em classificadores de máquinas de vetores de suporte. Ainda neste âmbito, fez-se um estudo com o intuito de caracterizar os eventos de hesitações presentes nos noticiários em português. A transcrição fonética da base de dados de fala é indispensável no processo de treino de modelos acústicos. É frequente recorrer a sistemas de reconhecimento de fala de grande vocabulário para fazer transcrição automática quando a base de dados não apresenta nenhuma transcrição. Nesta tese, é proposto um sistema de word-spotting para fazer a transcrição fonética dos segmentos de fala. Fez-se uma implementação preliminar de um sistema de word-spotting baseado em modelos de fonemas. Foi proposta uma estratégia para diminuir o tempo de resposta do sistema, criando, a priori, uma espécie de “assinatura acústica” para cada sinal de áudio com os valores de todos os cálculos que não dependem da palavra a pesquisar, como a verosimilhanças de todos os estados dos modelos de fonemas. A deteção de uma palavra utiliza medidas de similaridade entre as verosimilhanças do modelo da palavra e do modelo de enchimento, um detetor de picos e um limiar definido por forma a minimizar os erros de deteção. Foram publicados vários recursos para a língua portuguesa que resultaram da aplicação dos vários sistemas desenvolvidos ao longo da execução desta tese com especial destaque para o sistema de conversão de grafemas para fonemas a partir do qual se publicaram vários dicionários de pronunciação, dicionários com as palavras homógrafas heterofónicas, dicionário com estrangeirismos, modelos estatísticos para a conversão de grafemas para fonemas, o código fonte de todo sistema de treino e conversão e um demonstrador online.
Resumo:
Speech processing and consequent recognition are important areas of Digital Signal Processing since speech allows people to communicate more natu-rally and efficiently. In this work, a speech recognition system is developed for re-cognizing digits in Malayalam. For recognizing speech, features are to be ex-tracted from speech and hence feature extraction method plays an important role in speech recognition. Here, front end processing for extracting the features is per-formed using two wavelet based methods namely Discrete Wavelet Transforms (DWT) and Wavelet Packet Decomposition (WPD). Naive Bayes classifier is used for classification purpose. After classification using Naive Bayes classifier, DWT produced a recognition accuracy of 83.5% and WPD produced an accuracy of 80.7%. This paper is intended to devise a new feature extraction method which produces improvements in the recognition accuracy. So, a new method called Dis-crete Wavelet Packet Decomposition (DWPD) is introduced which utilizes the hy-brid features of both DWT and WPD. The performance of this new approach is evaluated and it produced an improved recognition accuracy of 86.2% along with Naive Bayes classifier.
Resumo:
One of the most important goals of bioinformatics is the ability to identify genes in uncharacterized DNA sequences on world wide database. Gene expression on prokaryotes initiates when the RNA-polymerase enzyme interacts with DNA regions called promoters. In these regions are located the main regulatory elements of the transcription process. Despite the improvement of in vitro techniques for molecular biology analysis, characterizing and identifying a great number of promoters on a genome is a complex task. Nevertheless, the main drawback is the absence of a large set of promoters to identify conserved patterns among the species. Hence, a in silico method to predict them on any species is a challenge. Improved promoter prediction methods can be one step towards developing more reliable ab initio gene prediction methods. In this work, we present an empirical comparison of Machine Learning (ML) techniques such as Na¨ýve Bayes, Decision Trees, Support Vector Machines and Neural Networks, Voted Perceptron, PART, k-NN and and ensemble approaches (Bagging and Boosting) to the task of predicting Bacillus subtilis. In order to do so, we first built two data set of promoter and nonpromoter sequences for B. subtilis and a hybrid one. In order to evaluate of ML methods a cross-validation procedure is applied. Good results were obtained with methods of ML like SVM and Naïve Bayes using B. subtilis. However, we have not reached good results on hybrid database
Sistema inteligente para detecção de manchas de óleo na superfície marinha através de imagens de SAR
Resumo:
Oil spill on the sea, accidental or not, generates enormous negative consequences for the affected area. The damages are ambient and economic, mainly with the proximity of these spots of preservation areas and/or coastal zones. The development of automatic techniques for identification of oil spots on the sea surface, captured through Radar images, assist in a complete monitoring of the oceans and seas. However spots of different origins can be visualized in this type of imaging, which is a very difficult task. The system proposed in this work, based on techniques of digital image processing and artificial neural network, has the objective to identify the analyzed spot and to discern between oil and other generating phenomena of spot. Tests in functional blocks that compose the proposed system allow the implementation of different algorithms, as well as its detailed and prompt analysis. The algorithms of digital image processing (speckle filtering and gradient), as well as classifier algorithms (Multilayer Perceptron, Radial Basis Function, Support Vector Machine and Committe Machine) are presented and commented.The final performance of the system, with different kind of classifiers, is presented by ROC curve. The true positive rates are considered agreed with the literature about oil slick detection through SAR images presents
Resumo:
As condições meteorológicas são determinantes para a produção agrícola; a precipitação, em particular, pode ser citada como a mais influente por sua relação direta com o balanço hídrico. Neste sentido, modelos agrometeorológicos, os quais se baseiam nas respostas das culturas às condições meteorológicas, vêm sendo cada vez mais utilizados para a estimativa de rendimentos agrícolas. Devido às dificuldades de obtenção de dados para abastecer tais modelos, métodos de estimativa de precipitação utilizando imagens dos canais espectrais dos satélites meteorológicos têm sido empregados para esta finalidade. O presente trabalho tem por objetivo utilizar o classificador de padrões floresta de caminhos ótimos para correlacionar informações disponíveis no canal espectral infravermelho do satélite meteorológico GOES-12 com a refletividade obtida pelo radar do IPMET/UNESP localizado no município de Bauru, visando o desenvolvimento de um modelo para a detecção de ocorrência de precipitação. Nos experimentos foram comparados quatro algoritmos de classificação: redes neurais artificiais (ANN), k-vizinhos mais próximos (k-NN), máquinas de vetores de suporte (SVM) e floresta de caminhos ótimos (OPF). Este último obteve melhor resultado, tanto em eficiência quanto em precisão.
Resumo:
Coordenação de Aperfeiçoamento de Pessoal de Nível Superior (CAPES)
Resumo:
Coordenação de Aperfeiçoamento de Pessoal de Nível Superior (CAPES)
Resumo:
Pós-graduação em Ciência da Computação - IBILCE
Resumo:
The use of mobile robots in the agriculture turns out to be interesting in tasks of cultivation and application of pesticides in minute quantities to reduce environmental pollution. In this paper we present the development of a system to control an autonomous mobile robot navigation through tracks in plantations. Track images are used to control robot direction by preprocessing them to extract image features, and then submitting such characteristic features to a support vector machine to find out the most appropriate route. As the overall goal of the project to which this work is connected is the robot control in real time, the system will be embedded onto a hardware platform. However, in this paper we report the software implementation of a support vector machine, which so far presented around 93% accuracy in predicting the appropriate route.
Resumo:
A prática do ioga tem se tornado cada vez mais popular, não apenas pelos benefícios físicos, mas principalmente pelo bem-estar psicológico trazido pela sua prática. Um dos componentes do ioga é o Prãnãyama, ou controle da respiração. A atenção e a respiração são dois mecanismos fisiológicos e involuntários requeridos para a execução do Prãnãyama. O principal objetivo desse estudo foi verificar se variáveis contínuas do EEG (potência de diferentes faixas que o compõem) seriam moduladas pelo controle respiratório, comparando-se separadamente as duas fases do ciclo respiratório (inspiração e expiração), na situação de respiração espontânea e controlada. Fizeram parte do estudo 19 sujeitos (7 homens/12 mulheres, idade média de 36,89 e DP = ± 14,46) que foram convidados a participar da pesquisa nas dependências da Faculdade de Saúde da Universidade Metodista de São Paulo. Para o registro do eletroencefalograma foi utilizado um sistema de posicionamento de cinco eletrodos Ag AgCl (FPz, Fz, Cz, Pz e Oz) fixados a uma touca de posicionamento rápido (Quick-Cap, Neuromedical Supplies®), em sistema 10-20. Foram obtidos valores de máxima amplitude de potência (espectro de potência no domínio da frequência) nas frequências teta, alfa e beta e delta e calculada a razão teta/beta nas diferentes fases do ciclo respiratório (inspiração e expiração), separadamente, nas condições de respiração espontânea e de controle respiratório. Para o registro do ciclo respiratório, foi utilizada uma cinta de esforço respiratório M01 (Pletismógrafo). Os resultados mostram diferenças significativas entre as condições de respiração espontânea e de controle com valores das médias da razão teta/beta menores na respiração controlada do que na respiração espontânea e valores de média da potência alfa sempre maiores no controle respiratório. Diferenças significativas foram encontradas na comparação entre inspiração e expiração da respiração controlada com diminuição dos valores das médias da razão teta/beta na inspiração e aumento nos valores das médias da potência alfa, sobretudo na expiração. Os achados deste estudo trazem evidências de que o controle respiratório modula variáveis eletrofisiológicas relativas à atenção refletindo um estado de alerta, porém mais relaxado do que na situação de respiração espontânea.
Resumo:
A avaliação perceptivo-auditiva tem papel fundamental no estudo e na avaliação da voz, no entanto, por ser subjetiva está sujeita a imprecisões e variações. Por outro lado, a análise acústica permite a reprodutibilidade de resultados, porém precisa ser aprimorada, pois não analisa com precisão vozes com disfonias mais intensas e com ondas caóticas. Assim, elaborar medidas que proporcionem conhecimentos confiáveis em relação à função vocal resulta de uma necessidade antiga dentro desta linha de pesquisa e atuação clínica. Neste contexto, o uso da inteligência artificial, como as redes neurais artificiais, indica ser uma abordagem promissora. Objetivo: Validar um sistema automático utilizando redes neurais artificiais para a avaliação de vozes rugosas e soprosas. Materiais e métodos: Foram selecionadas 150 vozes, desde neutras até com presença em grau intenso de rugosidade e/ou soprosidade, do banco de dados da Clínica de Fonoaudiologia da Faculdade de Odontologia de Bauru (FOB/USP). Dessas vozes, 23 foram excluídas por não responderem aos critérios de inclusão na amostra, assim utilizaram-se 123 vozes. Procedimentos: avaliação perceptivo-auditiva pela escala visual analógica de 100 mm e pela escala numérica de quatro pontos; extração de características do sinal de voz por meio da Transformada Wavelet Packet e dos parâmetros acústicos: jitter, shimmer, amplitude da derivada e amplitude do pitch; e validação do classificador por meio da parametrização, treino, teste e avaliação das redes neurais artificiais. Resultados: Na avaliação perceptivo-auditiva encontrou-se, por meio do teste Coeficiente de Correlação Intraclasse (CCI), concordâncias inter e intrajuiz excelentes, com p = 0,85 na concordância interjuízes e p variando de 0,87 a 0,93 nas concordâncias intrajuiz. Em relação ao desempenho da rede neural artificial, na discriminação da soprosidade e da rugosidade e dos seus respectivos graus, encontrou-se o melhor desempenho para a soprosidade no subconjunto composto pelo jitter, amplitude do pitch e frequência fundamental, no qual obteve-se taxa de acerto de 74%, concordância excelente com a avaliação perceptivo-auditiva da escala visual analógica (0,80 no CCI) e erro médio de 9 mm. Para a rugosidade, o melhor subconjunto foi composto pela Transformada Wavelet Packet com 1 nível de decomposição, jitter, shimmer, amplitude do pitch e frequência fundamental, no qual obteve-se 73% de acerto, concordância excelente (0,84 no CCI), e erro médio de 10 mm. Conclusão: O uso da inteligência artificial baseado em redes neurais artificiais na identificação, e graduação da rugosidade e da soprosidade, apresentou confiabilidade excelente (CCI > 0,80), com resultados semelhantes a concordância interjuízes. Dessa forma, a rede neural artificial revela-se como uma metodologia promissora de avaliação vocal, tendo sua maior vantagem a objetividade na avaliação.
Resumo:
A prática do ioga tem se tornado cada vez mais popular, não apenas pelos benefícios físicos, mas principalmente pelo bem-estar psicológico trazido pela sua prática. Um dos componentes do ioga é o Prãnãyama, ou controle da respiração. A atenção e a respiração são dois mecanismos fisiológicos e involuntários requeridos para a execução do Prãnãyama. O principal objetivo desse estudo foi verificar se variáveis contínuas do EEG (potência de diferentes faixas que o compõem) seriam moduladas pelo controle respiratório, comparando-se separadamente as duas fases do ciclo respiratório (inspiração e expiração), na situação de respiração espontânea e controlada. Fizeram parte do estudo 19 sujeitos (7 homens/12 mulheres, idade média de 36,89 e DP = ± 14,46) que foram convidados a participar da pesquisa nas dependências da Faculdade de Saúde da Universidade Metodista de São Paulo. Para o registro do eletroencefalograma foi utilizado um sistema de posicionamento de cinco eletrodos Ag AgCl (FPz, Fz, Cz, Pz e Oz) fixados a uma touca de posicionamento rápido (Quick-Cap, Neuromedical Supplies®), em sistema 10-20. Foram obtidos valores de máxima amplitude de potência (espectro de potência no domínio da frequência) nas frequências teta, alfa e beta e delta e calculada a razão teta/beta nas diferentes fases do ciclo respiratório (inspiração e expiração), separadamente, nas condições de respiração espontânea e de controle respiratório. Para o registro do ciclo respiratório, foi utilizada uma cinta de esforço respiratório M01 (Pletismógrafo). Os resultados mostram diferenças significativas entre as condições de respiração espontânea e de controle com valores das médias da razão teta/beta menores na respiração controlada do que na respiração espontânea e valores de média da potência alfa sempre maiores no controle respiratório. Diferenças significativas foram encontradas na comparação entre inspiração e expiração da respiração controlada com diminuição dos valores das médias da razão teta/beta na inspiração e aumento nos valores das médias da potência alfa, sobretudo na expiração. Os achados deste estudo trazem evidências de que o controle respiratório modula variáveis eletrofisiológicas relativas à atenção refletindo um estado de alerta, porém mais relaxado do que na situação de respiração espontânea.
Resumo:
Lung cancer is one of the most common types of cancer and has the highest mortality rate. Patient survival is highly correlated with early detection. Computed Tomography technology services the early detection of lung cancer tremendously by offering aminimally invasive medical diagnostic tool. However, the large amount of data per examination makes the interpretation difficult. This leads to omission of nodules by human radiologist. This thesis presents a development of a computer-aided diagnosis system (CADe) tool for the detection of lung nodules in Computed Tomography study. The system, called LCD-OpenPACS (Lung Cancer Detection - OpenPACS) should be integrated into the OpenPACS system and have all the requirements for use in the workflow of health facilities belonging to the SUS (Brazilian health system). The LCD-OpenPACS made use of image processing techniques (Region Growing and Watershed), feature extraction (Histogram of Gradient Oriented), dimensionality reduction (Principal Component Analysis) and classifier (Support Vector Machine). System was tested on 220 cases, totaling 296 pulmonary nodules, with sensitivity of 94.4% and 7.04 false positives per case. The total time for processing was approximately 10 minutes per case. The system has detected pulmonary nodules (solitary, juxtavascular, ground-glass opacity and juxtapleural) between 3 mm and 30 mm.
Resumo:
Several are the areas in which digital images are used in solving day-to-day problems. In medicine the use of computer systems have improved the diagnosis and medical interpretations. In dentistry it’s not different, increasingly procedures assisted by computers have support dentists in their tasks. Set in this context, an area of dentistry known as public oral health is responsible for diagnosis and oral health treatment of a population. To this end, oral visual inspections are held in order to obtain oral health status information of a given population. From this collection of information, also known as epidemiological survey, the dentist can plan and evaluate taken actions for the different problems identified. This procedure has limiting factors, such as a limited number of qualified professionals to perform these tasks, different diagnoses interpretations among other factors. Given this context came the ideia of using intelligent systems techniques in supporting carrying out these tasks. Thus, it was proposed in this paper the development of an intelligent system able to segment, count and classify teeth from occlusal intraoral digital photographic images. The proposed system makes combined use of machine learning techniques and digital image processing. We first carried out a color-based segmentation on regions of interest, teeth and non teeth, in the images through the use of Support Vector Machine. After identifying these regions were used techniques based on morphological operators such as erosion and transformed watershed for counting and detecting the boundaries of the teeth, respectively. With the border detection of teeth was possible to calculate the Fourier descriptors for their shape and the position descriptors. Then the teeth were classified according to their types through the use of the SVM from the method one-against-all used in multiclass problem. The multiclass classification problem has been approached in two different ways. In the first approach we have considered three class types: molar, premolar and non teeth, while the second approach were considered five class types: molar, premolar, canine, incisor and non teeth. The system presented a satisfactory performance in the segmenting, counting and classification of teeth present in the images.
Resumo:
Several are the areas in which digital images are used in solving day-to-day problems. In medicine the use of computer systems have improved the diagnosis and medical interpretations. In dentistry it’s not different, increasingly procedures assisted by computers have support dentists in their tasks. Set in this context, an area of dentistry known as public oral health is responsible for diagnosis and oral health treatment of a population. To this end, oral visual inspections are held in order to obtain oral health status information of a given population. From this collection of information, also known as epidemiological survey, the dentist can plan and evaluate taken actions for the different problems identified. This procedure has limiting factors, such as a limited number of qualified professionals to perform these tasks, different diagnoses interpretations among other factors. Given this context came the ideia of using intelligent systems techniques in supporting carrying out these tasks. Thus, it was proposed in this paper the development of an intelligent system able to segment, count and classify teeth from occlusal intraoral digital photographic images. The proposed system makes combined use of machine learning techniques and digital image processing. We first carried out a color-based segmentation on regions of interest, teeth and non teeth, in the images through the use of Support Vector Machine. After identifying these regions were used techniques based on morphological operators such as erosion and transformed watershed for counting and detecting the boundaries of the teeth, respectively. With the border detection of teeth was possible to calculate the Fourier descriptors for their shape and the position descriptors. Then the teeth were classified according to their types through the use of the SVM from the method one-against-all used in multiclass problem. The multiclass classification problem has been approached in two different ways. In the first approach we have considered three class types: molar, premolar and non teeth, while the second approach were considered five class types: molar, premolar, canine, incisor and non teeth. The system presented a satisfactory performance in the segmenting, counting and classification of teeth present in the images.