1000 resultados para Classificação automática de texto
Resumo:
Ao me ter sido apresentado o tema focado neste trabalho, a curiosidade apoderou-se de mim para tentar perceber o que eram os algoritmos genéticos, a aprendizagem automática e a aplicação dos algoritmos genéticos sobre este tipo de aprendizagem e onde é que estas técnicas podiam ser aplicadas. Assim, neste trabalho é realizado um estudo destes temas relativamente ao seu funcionamento, aplicabilidade, problemas e soluções existentes, bem como, a comparação entre duas das mais conhecidas abordagens ao nível da aprendizagem automática baseada em algoritmos genéticos. São no fim apresentados programas exemplificativos de implementações de aplicação de algoritmos genéticos a problemas de optimização/descoberta e de aprendizagem automática. Este texto está organizado em cinco capítulos, sendo o primeiro a introdução, o segundo é uma apresentação dos algoritmos genéticos, no terceiro capítulo é apresentada a técnica de aprendizagem automática baseada em algoritmos genéticos, as suas diferentes abordagens e implementações, aplicabilidade e comparação entre abordagens. No quarto capítulo são apresentados alguns exemplos práticos que pretendem demonstrar a forma como se implementam algumas das abordagens referidas nos capítulos anteriores com o intuito de ver o seu funcionamento na prática e comparar diferentes algoritmos no mesmo problema.
Resumo:
Introdução Actualmente, as mensagens electrónicas são consideradas um importante meio de comunicação. As mensagens electrónicas – vulgarmente conhecidas como emails – são utilizadas fácil e frequentemente para enviar e receber o mais variado tipo de informação. O seu uso tem diversos fins gerando diariamente um grande número de mensagens e, consequentemente um enorme volume de informação. Este grande volume de informação requer uma constante manipulação das mensagens de forma a manter o conjunto organizado. Tipicamente esta manipulação consiste em organizar as mensagens numa taxonomia. A taxonomia adoptada reflecte os interesses e as preferências particulares do utilizador. Motivação A organização manual de emails é uma actividade morosa e que consome tempo. A optimização deste processo através da implementação de um método automático, tende a melhorar a satisfação do utilizador. Cada vez mais existe a necessidade de encontrar novas soluções para a manipulação de conteúdo digital poupando esforços e custos ao utilizador; esta necessidade, concretamente no âmbito da manipulação de emails, motivou a realização deste trabalho. Hipótese O objectivo principal deste projecto consiste em permitir a organização ad-hoc de emails com um esforço reduzido por parte do utilizador. A metodologia proposta visa organizar os emails num conjunto de categorias, disjuntas, que reflectem as preferências do utilizador. A principal finalidade deste processo é produzir uma organização onde as mensagens sejam classificadas em classes apropriadas requerendo o mínimo número esforço possível por parte do utilizador. Para alcançar os objectivos estipulados, este projecto recorre a técnicas de mineração de texto, em especial categorização automática de texto, e aprendizagem activa. Para reduzir a necessidade de inquirir o utilizador – para etiquetar exemplos de acordo com as categorias desejadas – foi utilizado o algoritmo d-confidence. Processo de organização automática de emails O processo de organizar automaticamente emails é desenvolvido em três fases distintas: indexação, classificação e avaliação. Na primeira fase, fase de indexação, os emails passam por um processo transformativo de limpeza que visa essencialmente gerar uma representação dos emails adequada ao processamento automático. A segunda fase é a fase de classificação. Esta fase recorre ao conjunto de dados resultantes da fase anterior para produzir um modelo de classificação, aplicando-o posteriormente a novos emails. Partindo de uma matriz onde são representados emails, termos e os seus respectivos pesos, e um conjunto de exemplos classificados manualmente, um classificador é gerado a partir de um processo de aprendizagem. O classificador obtido é então aplicado ao conjunto de emails e a classificação de todos os emails é alcançada. O processo de classificação é feito com base num classificador de máquinas de vectores de suporte recorrendo ao algoritmo de aprendizagem activa d-confidence. O algoritmo d-confidence tem como objectivo propor ao utilizador os exemplos mais significativos para etiquetagem. Ao identificar os emails com informação mais relevante para o processo de aprendizagem, diminui-se o número de iterações e consequentemente o esforço exigido por parte dos utilizadores. A terceira e última fase é a fase de avaliação. Nesta fase a performance do processo de classificação e a eficiência do algoritmo d-confidence são avaliadas. O método de avaliação adoptado é o método de validação cruzada denominado 10-fold cross validation. Conclusões O processo de organização automática de emails foi desenvolvido com sucesso, a performance do classificador gerado e do algoritmo d-confidence foi relativamente boa. Em média as categorias apresentam taxas de erro relativamente baixas, a não ser as classes mais genéricas. O esforço exigido pelo utilizador foi reduzido, já que com a utilização do algoritmo d-confidence obteve-se uma taxa de erro próxima do valor final, mesmo com um número de casos etiquetados abaixo daquele que é requerido por um método supervisionado. É importante salientar, que além do processo automático de organização de emails, este projecto foi uma excelente oportunidade para adquirir conhecimento consistente sobre mineração de texto e sobre os processos de classificação automática e recuperação de informação. O estudo de áreas tão interessantes despertou novos interesses que consistem em verdadeiros desafios futuros.
Resumo:
Nos últimos anos, o fácil acesso em termos de custos, ferramentas de produção, edição e distribuição de conteúdos audiovisuais, contribuíram para o aumento exponencial da produção diária deste tipo de conteúdos. Neste paradigma de superabundância de conteúdos multimédia existe uma grande percentagem de sequências de vídeo que contém material explícito, sendo necessário existir um controlo mais rigoroso, de modo a não ser facilmente acessível a menores. O conceito de conteúdo explícito pode ser caraterizado de diferentes formas, tendo o trabalho descrito neste documento incidido sobre a deteção automática de nudez feminina presente em sequências de vídeo. Este processo de deteção e classificação automática de material para adultos pode constituir uma ferramenta importante na gestão de um canal de televisão. Diariamente podem ser recebidas centenas de horas de material sendo impraticável a implementação de um processo manual de controlo de qualidade. A solução criada no contexto desta dissertação foi estudada e desenvolvida em torno de um produto especifico ligado à área do broadcasting. Este produto é o mxfSPEEDRAIL F1000, sendo este uma solução da empresa MOG Technologies. O objetivo principal do projeto é o desenvolvimento de uma biblioteca em C++, acessível durante o processo de ingest, que permita, através de uma análise baseada em funcionalidades de visão computacional, detetar e sinalizar na metadata do sinal, quais as frames que potencialmente apresentam conteúdo explícito. A solução desenvolvida utiliza um conjunto de técnicas do estado da arte adaptadas ao problema a tratar. Nestas incluem-se algoritmos para realizar a segmentação de pele e deteção de objetos em imagens. Por fim é efetuada uma análise critica à solução desenvolvida no âmbito desta dissertação de modo a que em futuros desenvolvimentos esta seja melhorada a nível do consumo de recursos durante a análise e a nível da sua taxa de sucesso.
Resumo:
Dissertação para obtenção do Grau de Mestre em Engenharia Biomédica
Resumo:
A classificação automática de sons urbanos é importante para o monitoramento ambiental. Este trabalho apresenta uma nova metodologia para classificar sons urbanos, que se baseia na descoberta de padrões frequentes (motifs) nos sinais sonoros e utiliza-los como atributos para a classificação. Para extrair os motifs é utilizado um método de descoberta multi-resolução baseada em SAX. Para a classificação são usadas árvores de decisão e SVMs. Esta nova metodologia é comparada com outra bastante utilizada baseada em MFCC. Para a realização de experiências foi utilizado o dataset UrbanSound disponível publicamente. Realizadas as experiências, foi possível concluir que os atributos motif são melhores que os MFCC a discriminar sons com timbres semelhantes e que os melhores resultados são conseguidos com ambos os tipos de atributos combinados. Neste trabalho foi também desenvolvida uma aplicação móvel para Android que permite utilizar os métodos de classificação desenvolvidos num contexto de vida real e expandir o dataset.
Resumo:
Dissertação de mestrado integrado em Engenharia Biomédica (área de especialização em Informática Médica)
Resumo:
o exame para o diagnóstico de doenças da laringe é usualmente realizado através da videolaringoscopia e videoestroboscopia. A maioria das doenças na laringe provoca mudanças na voz do paciente. Diversos índices têm sido propostos para avaliar quantitativamente a qualidade da voz. Também foram propostos vários métodos para classificação automática de patologias da laringe utilizando apenas a voz do paciente. Este trabalho apresenta a aplicação da Transformada Wavelet Packet e do algoritmo Best Basis [COI92] para a classificação automática de vozes em patológicas ou normais. Os resultados obtidos mostraram que é possível classificar a voz utilizando esta Transformada. Tem-se como principal conclusão que um classificador linear pode ser obtido ao se empregar a Transformada Wavelet Packet como extrator de características. O classificador é linear baseado na existência ou não de nós na decomposição da Transformada Wavelet Packet. A função Wavelet que apresentou os melhores resultados foi a sym1et5 e a melhor função custo foi a entropia. Este classificador linear separa vozes normais de vozes patológicas com um erro de classificação de 23,07% para falsos positivos e de 14,58%para falsos negativos.
Resumo:
The skin cancer is the most common of all cancers and the increase of its incidence must, in part, caused by the behavior of the people in relation to the exposition to the sun. In Brazil, the non-melanoma skin cancer is the most incident in the majority of the regions. The dermatoscopy and videodermatoscopy are the main types of examinations for the diagnosis of dermatological illnesses of the skin. The field that involves the use of computational tools to help or follow medical diagnosis in dermatological injuries is seen as very recent. Some methods had been proposed for automatic classification of pathology of the skin using images. The present work has the objective to present a new intelligent methodology for analysis and classification of skin cancer images, based on the techniques of digital processing of images for extraction of color characteristics, forms and texture, using Wavelet Packet Transform (WPT) and learning techniques called Support Vector Machine (SVM). The Wavelet Packet Transform is applied for extraction of texture characteristics in the images. The WPT consists of a set of base functions that represents the image in different bands of frequency, each one with distinct resolutions corresponding to each scale. Moreover, the characteristics of color of the injury are also computed that are dependants of a visual context, influenced for the existing colors in its surround, and the attributes of form through the Fourier describers. The Support Vector Machine is used for the classification task, which is based on the minimization principles of the structural risk, coming from the statistical learning theory. The SVM has the objective to construct optimum hyperplanes that represent the separation between classes. The generated hyperplane is determined by a subset of the classes, called support vectors. For the used database in this work, the results had revealed a good performance getting a global rightness of 92,73% for melanoma, and 86% for non-melanoma and benign injuries. The extracted describers and the SVM classifier became a method capable to recognize and to classify the analyzed skin injuries
Resumo:
Aborda a classificação automática de faltas do tipo curto-circuito em linhas de transmissão. A maioria dos sistemas de transmissão possuem três fases (A, B e C). Por exemplo, um curto-circuito entre as fases A e B pode ser identicado como uma falta\AB". Considerando a possibilidade de um curto-circuito com a fase terra (T), a tarefa ao longo desse trabalho de classificar uma série temporal em uma das 11 faltas possíveis: AT, BT, CT, AB, AC, BC, ABC, ABT, ACT, BCT, ABCT. Estas faltas são responsáveis pela maioria dos distúrbios no sistema elétrico. Cada curto-circuito é representado por uma seqüência (série temporal) e ambos os tipos de classificação, on-line (para cada curto segmento extraído do sinal) e off-line (leva em consideração toda a seqüência), são investigados. Para evitar a atual falta de dados rotulados, o simulador Alternative Transient Program (ATP) é usado para criar uma base de dados rotulada e disponibilizada em domínio público. Alguns trabalhos na literatura não fazem distinção entre as faltas ABC e ABCT. Assim, resultados distinguindo esse dois tipos de faltas adotando técnicas de pré-processamento, diferentes front ends (por exemplo wavelets) e algoritmos de aprendizado (árvores de decisão e redes neurais) são apresentados. O custo computacional estimado durante o estágio de teste de alguns classificadores é investigado e a escolha dos parâmetros dos classificadores é feita a partir de uma seleção automática de modelo. Os resultados obtidos indicam que as árvores de decisão e as redes neurais apresentam melhores resultados quando comparados aos outros classificadores.
Resumo:
En este artículo se presenta un nuevo método híbrido de categorización automática de texto, que combina un algoritmo de aprendizaje computacional, que permite construir un modelo base de clasificación sin mucho esfuerzo a partir de un corpus etiquetado, con un sistema basado en reglas en cascada que se emplea para filtrar y reordenar los resultados de dicho modelo base. El modelo puede afinarse añadiendo reglas específicas para aquellas categorías difíciles que no se han entrenado de forma satisfactoria. Se describe una implementación realizada mediante el algoritmo kNN y un lenguaje básico de reglas basado en listas de términos que aparecen en el texto a clasificar. El sistema se ha evaluado en diferentes escenarios incluyendo el corpus de noticias Reuters-21578 para comparación con otros enfoques, y los modelos IPTC y EUROVOC. Los resultados demuestran que el sistema obtiene una precisión y cobertura comparables con las de los mejores métodos del estado del arte.
Resumo:
Lung cancer is the most common of malignant tumors, with 1.59 million new cases worldwide in 2012. Early detection is the main factor to determine the survival of patients affected by this disease. Furthermore, the correct classification is important to define the most appropriate therapeutic approach as well as suggest the prognosis and the clinical disease evolution. Among the exams used to detect lung cancer, computed tomography have been the most indicated. However, CT images are naturally complex and even experts medical are subject to fault detection or classification. In order to assist the detection of malignant tumors, computer-aided diagnosis systems have been developed to aid reduce the amount of false positives biopsies. In this work it was developed an automatic classification system of pulmonary nodules on CT images by using Artificial Neural Networks. Morphological, texture and intensity attributes were extracted from lung nodules cut tomographic images using elliptical regions of interest that they were subsequently segmented by Otsu method. These features were selected through statistical tests that compare populations (T test of Student and U test of Mann-Whitney); from which it originated a ranking. The features after selected, were inserted in Artificial Neural Networks (backpropagation) to compose two types of classification; one to classify nodules in malignant and benign (network 1); and another to classify two types of malignancies (network 2); featuring a cascade classifier. The best networks were associated and its performance was measured by the area under the ROC curve, where the network 1 and network 2 achieved performance equal to 0.901 and 0.892 respectively.
Resumo:
Unidade 1 do módulo de Saúde do Adulto II do curso de especialização em Saúde da Família produzido pela UNA-SUS/UFMA, com apresentação visual trabalhada para atender aos alunos participantes do programa Mais Médicos. Neste material apresenta-se algumas estratégias aplicáveis à atenção básica que visam melhorar o acolhimento do adulto pelas equipes de Saúde da Família.
Resumo:
Currently, owing to the occurrence of environmental problems, along with the need of environmental preservation, both the territory management of Hydrographic Basin and the conservation of natural resources have proven to have remarkable importance. Thus, the mean goal of the research is to raise and scrutinize social-economic and technologic data from the Mogi Guaçu River Hydrographic Basin (São Paulo, Brazil). The aim is to group municipalities with similar characteristics regarding the collected data, which may direct joint actions in the Hydrographic Basin Management. There were used both the methods of factorial analysis and automatic hierarchical classifications. Additionally, there is going to be applied a Geographical Information System to represent the outcomes of the methods aforementioned, through the evolvement of a geo-referenced database, which will allow the obtainment of information categorically distributed including theme maps of interest. The main characteristics adopted to group the municipalities were: agricultural area, sugar cane production, small farms, animal production, number of agriculture machinery and equipments and agricultural income. The methodology adopted in the Mogi Guaçu River Hydrographic Basin will be analyzed vis-à-vis its appropriateness on basin management, as well as the possibility of assisting the studies on behalf of the São Paulo Hydrographic Basin groups, to regional development.
Resumo:
Objetivou-se apresentar a mortalidade infantil por causas no Estado de São Paulo, Brasil, com base nos dados de 1983 obtidos a partir da classificação por causas múltiplas de morte, disponíveis desde a implantação do Sistema de Classificação Automática de Causas de Morte. Detectaram-se dois tipos de casos bem definidos: os óbitos ocorridos predominantemente no período neonatal, e cujo processo mórbido envolve quase que exclusivamente as afecções pertencentes ao Capítulo das Perinatais da Classificação Internacional de Doenças; e os óbitos ocorridos principalmente no período pós-neonatal, em cujo processo mórbido aparecem mencionadas significativamente as infecções intestinais, a septicemia, a desnutrição, a desidratação e a broncopneumonia. O estudo da associação entre as principais causas de morte mostrou, por um lado, a imaturidade e a prematuridade fortemente relacionadas com as afecções respiratórias do recém-nascido e com as infecções específicas do período perinatal; e por outro lado, um complexo inter-relacionamento entre as outras cinco causas mencionadas.
Resumo:
No panorama socioeconómico atual, a contenção de despesas e o corte no financiamento de serviços secundários consumidores de recursos conduzem à reformulação de processos e métodos das instituições públicas, que procuram manter a qualidade de vida dos seus cidadãos através de programas que se mostrem mais eficientes e económicos. O crescimento sustentado das tecnologias móveis, em conjunção com o aparecimento de novos paradigmas de interação pessoa-máquina com recurso a sensores e sistemas conscientes do contexto, criaram oportunidades de negócio na área do desenvolvimento de aplicações com vertente cívica para indivíduos e empresas, sensibilizando-os para a disponibilização de serviços orientados ao cidadão. Estas oportunidades de negócio incitaram a equipa do projeto a desenvolver uma plataforma de notificação de problemas urbanos baseada no seu sistema de informação geográfico para entidades municipais. O objetivo principal desta investigação foca a idealização, conceção e implementação de uma solução completa de notificação de problemas urbanos de caráter não urgente, distinta da concorrência pela facilidade com que os cidadãos são capazes de reportar situações que condicionam o seu dia-a-dia. Para alcançar esta distinção da restante oferta, foram realizados diversos estudos para determinar características inovadoras a implementar, assim como todas as funcionalidades base expectáveis neste tipo de sistemas. Esses estudos determinaram a implementação de técnicas de demarcação manual das zonas problemáticas e reconhecimento automático do tipo de problema reportado nas imagens, ambas desenvolvidas no âmbito deste projeto. Para a correta implementação dos módulos de demarcação e reconhecimento de imagem, foram feitos levantamentos do estado da arte destas áreas, fundamentando a escolha de métodos e tecnologias a integrar no projeto. Neste contexto, serão apresentadas em detalhe as várias fases que constituíram o processo de desenvolvimento da plataforma, desde a fase de estudo e comparação de ferramentas, metodologias, e técnicas para cada um dos conceitos abordados, passando pela proposta de um modelo de resolução, até à descrição pormenorizada dos algoritmos implementados. Por último, é realizada uma avaliação de desempenho ao par algoritmo/classificador desenvolvido, através da definição de métricas que estimam o sucesso ou insucesso do classificador de objetos. A avaliação é feita com base num conjunto de imagens de teste, recolhidas manualmente em plataformas públicas de notificação de problemas, confrontando os resultados obtidos pelo algoritmo com os resultados esperados.