RESUMO Este estudo tem por propósito comparar conceitual e metodologicamente cinco classificadores para a estratificação socioeconômica da sociedade brasileira e mensurar os trade-offs de erros de classificação entre eles. Com base nos algoritmos de classificação de cada critério, classificamos os 55.970 domicílios que compõem a amostra representativa da pesquisa de orçamentos familiares (POF), realizada pelo Instituto Brasileiro de Geografia e Estatística (IBGE). Os resultados obtidos permitem afirmar que o classificador de máxima verossimilhança foi o que apresentou a melhor performance em explicar o nível de consumo das famílias brasileiras por estrato socioeconômico, seguido do classificador bayesiano adaptável, da Associação Brasileira de Empresas de Pesquisa (ABEP) simplificado, do ABEP antigo e da Secretaria de Assuntos Estratégicos (SAE). Os três primeiros classificadores estão sustentados no conceito da renda permanente/riqueza do domicílio, incorporando os dois primeiros uma importante inovação: classificar um domicílio levando em conta sua localização geográfica e a composição familiar. Esses novos classificadores possibilitam aos pesquisadores e gestores de marketing segmentar e estudar mercados baseados em critério válido, fidedigno e confiável de estratificação socioeconômica.
Dissertação apresentada para o cumprimento dos requisitos necessários à obtenção do grau de Mestre em Gestão do Território, àrea de Especialização em Detecção Remota e Sistemas de Informação Geográfica
Dissertação de Mestrado em Gestão do Território, Área de Especialização em Detecção Remota e Sistemas de Informação Geográfica
Dissertação para obtenção do Grau de Mestre em Engenharia Biomédica
Resumo: O objetivo deste trabalho foi avaliar o desempenho dos classificadores digitais SVM e K-NN para a classificação orientada a objeto em imagens Landsat-8, aplicados ao mapeamento de uso e cobertura do solo da Alta Bacia do Rio Piracicaba-Jaguari, MG. A etapa de pré-processamento contou com a conversão radiométrica e a minimização dos efeitos atmosféricos. Em seguida, foi feita a fusão das bandas multiespectrais (30 m) com a banda pancromática (15 m). Com base em composições RGB e inspeções de campo, definiram-se 15 classes de uso e cobertura do solo. Para a segmentação de bordas, aplicaram-se os limiares 10 e 60 para as configurações de segmentação e união no aplicativo ENVI. A classificação foi feita usando SVM e K-NN. Ambos os classificadores apresentaram elevados valores de índice Kappa (k): 0,92 para SVM e 0,86 para K-NN, significativamente diferentes entre si a 95% de probabilidade. Uma significativa melhoria foi observada para SVM, na classificação correta de diferentes tipologias florestais. A classificação orientada a objetos é amplamente aplicada em imagens de alta resolução espacial; no entanto, os resultados obtidos no presente trabalho mostram a robustez do método também para imagens de média resolução espacial.
Com o objetivo de comparar dois classificadores de imagens para a estimativa da cobertura vegetal do solo, foram avaliadas as coberturas proporcionadas pela semeadura de leguminosas e de gramíneas, sob diferentes espaçamentos, preparo do solo e condições de céu com e sem nuvens. O experimento foi conduzido em quatro parcelas experimentais de perda de solo, com 22 m x 3,5 m, instaladas em um Argissolo Vermelho-Amarelo. Os tratamentos consistiram: a) mucuna-cinza (Mucuna pruriens) em nível; b) crotalária (Crotalaria juncea) em sulcos dispostos em nível; c) milho (Zea mays L.) em sulcos dispostos em nível, e d) milho semeado no sentido do declive. Foram tomadas fotografias das parcelas dos 15 aos 85 dias após a semeadura para posterior análise, utilizando o Sistema Integrado para Análise de Raízes e Cobertura do Solo (SIARCS) e um algoritmo baseado na emissividade das bandas do verde e do vermelho (SEROBIN). A maior cobertura do solo foi obtida na parcela cultivada com crotálaria (85,8%), a qual também foi alcançada em menor tempo (56 dias após semeadura). Por outro lado, as menores coberturas foram proporcionadas pelos tratamentos milho em nível e milho morro abaixo (38,6 e 35,2%, respectivamente). As exatidões globais foram de 0,96 e 0,92, para as classificações realizadas com os programas SIARCS e SEROBIN, respectivamente, não havendo, no entanto, diferença estatística entre os dois classificadores utilizados, de acordo com o teste Z aplicado, a 5% de probabilidade.
Atualmente, pesquisadores das mais diversas áreas, tais como: Geologia, Física, Cartografia, Oceanografia, entre outras, utilizam imagens de satélite como uma fonte valiosa para a extração de informações sobre a superfície terrestre. Muitas vezes, a análise (classificação) destas imagens é realizada por métodos tradicionais sejam eles supervisionados (como o Método de Máxima Verossimilhança Gaussiana) ou nãosupervisionados (como o Método de Seleção pelo Pico do Histograma). Entretanto, pode-se utilizar as Redes Neurais Artificiais como uma alternativa para o aumento da acurácia em classificações digitais. Neste trabalho, utilizou-se imagens multi-espectrais do satélite LANDSAT 5-TM para a identificação de espécies vegetais (Mata Nativa, Eucalyptus e Acácia) em uma região próxima aos municípios de General Câmara, Santo Amaro e Taquari, no Estado do Rio Grande do Sul, Brasil. Comparou-se qualitativamente e quantitativamente os resultados obtidos pelo método de Máxima Verossimilhança Gaussiana e por uma Rede Neural Artificial Multinível com BackPropagation na classificação da área de estudo. Para tanto, parte desta área foi mapeada através de uma verificação de campo e com o auxílio de classificadores nãosupervisionados (Kohonen, que é uma Rede Neural, e o método de Seleção pelo Pico do Histograma). Com isto, foi possível coletar dois conjuntos de amostras, sendo que um deles foi utilizado para o treinamento dos métodos e o outro (conjunto de reconhecimento) serviu para a avaliação das classificações obtidas. Após o treinamento, parte da área de estudo foi classificada por ambos os métodos. Em seguida, os resultados obtidos foram avaliados através do uso de Tabelas de Contingência, considerando um nível de significância de 5%. Por fim, na maior parte dos testes realizados, a Rede Neural Artificial Multinível com BackPropagation apresentou valores de acurácia superiores ao Método de Máxima Verossimilhança Gaussiana. Assim, com este trabalho observou-se que não há diferença significativa de classificação para as espécies vegetais, ao nível de 5%, para a área de estudo considerada, na época de aquisição da imagem, para o conjunto de reconhecimento.
A presente dissertação apresenta a análise dos classificadores nominais específicos chineses, embasada na Lingüística Cognitiva, tendo como arcabouço teórico a Semântica Cognitiva Experiencialista e a Teoria Prototípica, visando a revelar as motivações semânticas subjacentes e as propriedades de categorização dos classificadores nominais chineses, quando colocados junto a substantivos. Foram analisados todos os classificadores nominais, a partir dos modelos da Semântica Cognitiva Experiencialista, baseados em Lakoff (1987). A amostragem envolveu dados retirados de livros, revistas e internet e da própria experiência vivencial de pesquisadora. Estão descritas as análises de dez classificadores, selecionados pela relevância cultural e potencial de explicitação dos aspectos discutidos. O estudo revela que a combinação de classificadores com substantivos não é arbitrária, como alguns lingüistas chineses acreditam, mas, sim, um reflexo da interação humana com o mundo objetivo, baseada na cognição.
Este trabalho minera as informações coletadas no processo de vestibular entre 2009 e 2012 para o curso de graduação de administração de empresas da FGV-EAESP, para estimar classificadores capazes de calcular a probabilidade de um novo aluno ter bom desempenho. O processo de KDD (Knowledge Discovery in Database) desenvolvido por Fayyad et al. (1996a) é a base da metodologia adotada e os classificadores serão estimados utilizando duas ferramentas matemáticas. A primeira é a regressão logística, muito usada por instituições financeiras para avaliar se um cliente será capaz de honrar com seus pagamentos e a segunda é a rede Bayesiana, proveniente do campo de inteligência artificial. Este estudo mostre que os dois modelos possuem o mesmo poder discriminatório, gerando resultados semelhantes. Além disso, as informações que influenciam a probabilidade de o aluno ter bom desempenho são a sua idade no ano de ingresso, a quantidade de vezes que ele prestou vestibular da FGV/EAESP antes de ser aprovado, a região do Brasil de onde é proveniente e as notas das provas de matemática fase 01 e fase 02, inglês, ciências humanas e redação. Aparentemente o grau de formação dos pais e o grau de decisão do aluno em estudar na FGV/EAESP não influenciam nessa probabilidade.
The use of the maps obtained from remote sensing orbital images submitted to digital processing became fundamental to optimize conservation and monitoring actions of the coral reefs. However, the accuracy reached in the mapping of submerged areas is limited by variation of the water column that degrades the signal received by the orbital sensor and introduces errors in the final result of the classification. The limited capacity of the traditional methods based on conventional statistical techniques to solve the problems related to the inter-classes took the search of alternative strategies in the area of the Computational Intelligence. In this work an ensemble classifiers was built based on the combination of Support Vector Machines and Minimum Distance Classifier with the objective of classifying remotely sensed images of coral reefs ecosystem. The system is composed by three stages, through which the progressive refinement of the classification process happens. The patterns that received an ambiguous classification in a certain stage of the process were revalued in the subsequent stage. The prediction non ambiguous for all the data happened through the reduction or elimination of the false positive. The images were classified into five bottom-types: deep water; under-water corals; inter-tidal corals; algal and sandy bottom. The highest overall accuracy (89%) was obtained from SVM with polynomial kernel. The accuracy of the classified image was compared through the use of error matrix to the results obtained by the application of other classification methods based on a single classifier (neural network and the k-means algorithm). In the final, the comparison of results achieved demonstrated the potential of the ensemble classifiers as a tool of classification of images from submerged areas subject to the noise caused by atmospheric effects and the water column
Equipment maintenance is the major cost factor in industrial plants, it is very important the development of fault predict techniques. Three-phase induction motors are key electrical equipments used in industrial applications mainly because presents low cost and large robustness, however, it isn t protected from other fault types such as shorted winding and broken bars. Several acquisition ways, processing and signal analysis are applied to improve its diagnosis. More efficient techniques use current sensors and its signature analysis. In this dissertation, starting of these sensors, it is to make signal analysis through Park s vector that provides a good visualization capability. Faults data acquisition is an arduous task; in this way, it is developed a methodology for data base construction. Park s transformer is applied into stationary reference for machine modeling of the machine s differential equations solution. Faults detection needs a detailed analysis of variables and its influences that becomes the diagnosis more complex. The tasks of pattern recognition allow that systems are automatically generated, based in patterns and data concepts, in the majority cases undetectable for specialists, helping decision tasks. Classifiers algorithms with diverse learning paradigms: k-Neighborhood, Neural Networks, Decision Trees and Naïves Bayes are used to patterns recognition of machines faults. Multi-classifier systems are used to improve classification errors. It inspected the algorithms homogeneous: Bagging and Boosting and heterogeneous: Vote, Stacking and Stacking C. Results present the effectiveness of constructed model to faults modeling, such as the possibility of using multi-classifiers algorithm on faults classification
Traditional applications of feature selection in areas such as data mining, machine learning and pattern recognition aim to improve the accuracy and to reduce the computational cost of the model. It is done through the removal of redundant, irrelevant or noisy data, finding a representative subset of data that reduces its dimensionality without loss of performance. With the development of research in ensemble of classifiers and the verification that this type of model has better performance than the individual models, if the base classifiers are diverse, comes a new field of application to the research of feature selection. In this new field, it is desired to find diverse subsets of features for the construction of base classifiers for the ensemble systems. This work proposes an approach that maximizes the diversity of the ensembles by selecting subsets of features using a model independent of the learning algorithm and with low computational cost. This is done using bio-inspired metaheuristics with evaluation filter-based criteria
Although some individual techniques of supervised Machine Learning (ML), also known as classifiers, or algorithms of classification, to supply solutions that, most of the time, are considered efficient, have experimental results gotten with the use of large sets of pattern and/or that they have a expressive amount of irrelevant data or incomplete characteristic, that show a decrease in the efficiency of the precision of these techniques. In other words, such techniques can t do an recognition of patterns of an efficient form in complex problems. With the intention to get better performance and efficiency of these ML techniques, were thought about the idea to using some types of LM algorithms work jointly, thus origin to the term Multi-Classifier System (MCS). The MCS s presents, as component, different of LM algorithms, called of base classifiers, and realized a combination of results gotten for these algorithms to reach the final result. So that the MCS has a better performance that the base classifiers, the results gotten for each base classifier must present an certain diversity, in other words, a difference between the results gotten for each classifier that compose the system. It can be said that it does not make signification to have MCS s whose base classifiers have identical answers to the sames patterns. Although the MCS s present better results that the individually systems, has always the search to improve the results gotten for this type of system. Aim at this improvement and a better consistency in the results, as well as a larger diversity of the classifiers of a MCS, comes being recently searched methodologies that present as characteristic the use of weights, or confidence values. These weights can describe the importance that certain classifier supplied when associating with each pattern to a determined class. These weights still are used, in associate with the exits of the classifiers, during the process of recognition (use) of the MCS s. Exist different ways of calculating these weights and can be divided in two categories: the static weights and the dynamic weights. The first category of weights is characterizes for not having the modification of its values during the classification process, different it occurs with the second category, where the values suffers modifications during the classification process. In this work an analysis will be made to verify if the use of the weights, statics as much as dynamics, they can increase the perfomance of the MCS s in comparison with the individually systems. Moreover, will be made an analysis in the diversity gotten for the MCS s, for this mode verify if it has some relation between the use of the weights in the MCS s with different levels of diversity
In systems that combine the outputs of classification methods (combination systems), such as ensembles and multi-agent systems, one of the main constraints is that the base components (classifiers or agents) should be diverse among themselves. In other words, there is clearly no accuracy gain in a system that is composed of a set of identical base components. One way of increasing diversity is through the use of feature selection or data distribution methods in combination systems. In this work, an investigation of the impact of using data distribution methods among the components of combination systems will be performed. In this investigation, different methods of data distribution will be used and an analysis of the combination systems, using several different configurations, will be performed. As a result of this analysis, it is aimed to detect which combination systems are more suitable to use feature distribution among the components
RePART (Reward/Punishment ART) is a neural model that constitutes a variation of the Fuzzy Artmap model. This network was proposed in order to minimize the inherent problems in the Artmap-based model, such as the proliferation of categories and misclassification. RePART makes use of additional mechanisms, such as an instance counting parameter, a reward/punishment process and a variable vigilance parameter. The instance counting parameter, for instance, aims to minimize the misclassification problem, which is a consequence of the sensitivity to the noises, frequently presents in Artmap-based models. On the other hand, the use of the variable vigilance parameter tries to smoouth out the category proliferation problem, which is inherent of Artmap-based models, decreasing the complexity of the net. RePART was originally proposed in order to minimize the aforementioned problems and it was shown to have better performance (higer accuracy and lower complexity) than Artmap-based models. This work proposes an investigation of the performance of the RePART model in classifier ensembles. Different sizes, learning strategies and structures will be used in this investigation. As a result of this investigation, it is aimed to define the main advantages and drawbacks of this model, when used as a component in classifier ensembles. This can provide a broader foundation for the use of RePART in other pattern recognition applications