1000 resultados para seleção de atributos


Relevância:

100.00% 100.00%

Publicador:

Resumo:

Classifier ensembles are systems composed of a set of individual classifiers and a combination module, which is responsible for providing the final output of the system. In the design of these systems, diversity is considered as one of the main aspects to be taken into account since there is no gain in combining identical classification methods. The ideal situation is a set of individual classifiers with uncorrelated errors. In other words, the individual classifiers should be diverse among themselves. One way of increasing diversity is to provide different datasets (patterns and/or attributes) for the individual classifiers. The diversity is increased because the individual classifiers will perform the same task (classification of the same input patterns) but they will be built using different subsets of patterns and/or attributes. The majority of the papers using feature selection for ensembles address the homogenous structures of ensemble, i.e., ensembles composed only of the same type of classifiers. In this investigation, two approaches of genetic algorithms (single and multi-objective) will be used to guide the distribution of the features among the classifiers in the context of homogenous and heterogeneous ensembles. The experiments will be divided into two phases that use a filter approach of feature selection guided by genetic algorithm

Relevância:

80.00% 80.00%

Publicador:

Resumo:

Traditional applications of feature selection in areas such as data mining, machine learning and pattern recognition aim to improve the accuracy and to reduce the computational cost of the model. It is done through the removal of redundant, irrelevant or noisy data, finding a representative subset of data that reduces its dimensionality without loss of performance. With the development of research in ensemble of classifiers and the verification that this type of model has better performance than the individual models, if the base classifiers are diverse, comes a new field of application to the research of feature selection. In this new field, it is desired to find diverse subsets of features for the construction of base classifiers for the ensemble systems. This work proposes an approach that maximizes the diversity of the ensembles by selecting subsets of features using a model independent of the learning algorithm and with low computational cost. This is done using bio-inspired metaheuristics with evaluation filter-based criteria

Relevância:

70.00% 70.00%

Publicador:

Resumo:

The objective of the researches in artificial intelligence is to qualify the computer to execute functions that are performed by humans using knowledge and reasoning. This work was developed in the area of machine learning, that it s the study branch of artificial intelligence, being related to the project and development of algorithms and techniques capable to allow the computational learning. The objective of this work is analyzing a feature selection method for ensemble systems. The proposed method is inserted into the filter approach of feature selection method, it s using the variance and Spearman correlation to rank the feature and using the reward and punishment strategies to measure the feature importance for the identification of the classes. For each ensemble, several different configuration were used, which varied from hybrid (homogeneous) to non-hybrid (heterogeneous) structures of ensemble. They were submitted to five combining methods (voting, sum, sum weight, multiLayer Perceptron and naïve Bayes) which were applied in six distinct database (real and artificial). The classifiers applied during the experiments were k- nearest neighbor, multiLayer Perceptron, naïve Bayes and decision tree. Finally, the performance of ensemble was analyzed comparatively, using none feature selection method, using a filter approach (original) feature selection method and the proposed method. To do this comparison, a statistical test was applied, which demonstrate that there was a significant improvement in the precision of the ensembles

Relevância:

60.00% 60.00%

Publicador:

Resumo:

Data Mining surge, hoje em dia, como uma ferramenta importante e crucial para o sucesso de um negócio. O considerável volume de dados que atualmente se encontra disponível, por si só, não traz valor acrescentado. No entanto, as ferramentas de Data Mining, capazes de transformar dados e mais dados em conhecimento, vêm colmatar esta lacuna, constituindo, assim, um trunfo que ninguém quer perder. O presente trabalho foca-se na utilização das técnicas de Data Mining no âmbito da atividade bancária, mais concretamente na sua atividade de telemarketing. Neste trabalho são aplicados catorze algoritmos a uma base de dados proveniente do call center de um banco português, resultante de uma campanha para a angariação de clientes para depósitos a prazo com taxas de juro favoráveis. Os catorze algoritmos aplicados no caso prático deste projeto podem ser agrupados em sete grupos: Árvores de Decisão, Redes Neuronais, Support Vector Machine, Voted Perceptron, métodos Ensemble, aprendizagem Bayesiana e Regressões. De forma a beneficiar, ainda mais, do que a área de Data Mining tem para oferecer, este trabalho incide ainda sobre o redimensionamento da base de dados em questão, através da aplicação de duas estratégias de seleção de atributos: Best First e Genetic Search. Um dos objetivos deste trabalho prende-se com a comparação dos resultados obtidos com os resultados presentes no estudo dos autores Sérgio Moro, Raul Laureano e Paulo Cortez (Sérgio Moro, Laureano, & Cortez, 2011). Adicionalmente, pretende-se identificar as variáveis mais relevantes aquando da identificação do potencial cliente deste produto financeiro. Como principais conclusões, depreende-se que os resultados obtidos são comparáveis com os resultados publicados pelos autores mencionados, sendo os mesmos de qualidade e consistentes. O algoritmo Bagging é o que apresenta melhores resultados e a variável referente à duração da chamada telefónica é a que mais influencia o sucesso de campanhas similares.

Relevância:

60.00% 60.00%

Publicador:

Resumo:

RESUMO O objetivo deste trabalho foi desenvolver uma metodologia baseada em técnicas de mineração de dados para selecionar os principais marcadores SNP (Single Nucleotide Polymorphism) para as raças de ovinos: Crioula, Morada Nova e Santa Inês. Os dados utilizados foram obtidos do Consórcio Internacional de Ovinos e são compostos por 72 animais das raças citadas, e cada animal possui 49.034 marcadores SNP. Considerando que o número de atributos (marcadores) é muito maior que o de observações (animais), foram aplicadas as técnicas de predição LASSO (Least Absolute Shrinkage and Selection Operator), Random Forest e Boosting para a geração de modelos preditivos que incorporam métodos de seleção de atributos. Os resultados revelaram que os modelos preditivos selecionaram os principais marcadores SNP para identificação das raças estudadas. O modelo LASSO selecionou um total de 29 marcadores relevantes. A partir dos modelos Random Forest e Boosting, foram obtidos 27 e 20 marcadores importantes, respectivamente. Por meio da intersecção dos modelos gerados, identificou-se um subconjunto de 18 marcadores com maior potencial de identificação das raças.

Relevância:

60.00% 60.00%

Publicador:

Resumo:

Esta tese apresenta contribuições ao processo de Descoberta de Conhecimento em Bases de Dados (DCBD). DCBD pode ser entendido como um conjunto de técnicas automatizadas – ou semi-automatizadas – otimizadas para extrair conhecimento a partir de grandes bases de dados. Assim, o já, de longa data, praticado processo de descoberta de conhecimento passa a contar com aprimoramentos que o tornam mais fácil de ser realizado. A partir dessa visão, bem conhecidos algoritmos de Estatística e de Aprendizado de Máquina passam a funcionar com desempenho aceitável sobre bases de dados cada vez maiores. Da mesma forma, tarefas como coleta, limpeza e transformação de dados e seleção de atributos, parâmetros e modelos recebem um suporte que facilita cada vez mais a sua execução. A contribuição principal desta tese consiste na aplicação dessa visão para a otimização da descoberta de conhecimento a partir de dados não-classificados. Adicionalmente, são apresentadas algumas contribuições sobre o Modelo Neural Combinatório (MNC), um sistema híbrido neurossimbólico para classificação que elegemos como foco de trabalho. Quanto à principal contribuição, percebeu-se que a descoberta de conhecimento a partir de dados não-classificados, em geral, é dividida em dois subprocessos: identificação de agrupamentos (aprendizado não-supervisionado) seguida de classificação (aprendizado supervisionado). Esses subprocessos correspondem às tarefas de rotulagem dos itens de dados e obtenção das correlações entre os atributos da entrada e os rótulos. Não encontramos outra razão para que haja essa separação que as limitações inerentes aos algoritmos específicos. Uma dessas limitações, por exemplo, é a necessidade de iteração de muitos deles buscando a convergência para um determinado modelo. Isto obriga a que o algoritmo realize várias leituras da base de dados, o que, para Mineração de Dados, é proibitivo. A partir dos avanços em DCBD, particularmente com o desenvolvimento de algoritmos de aprendizado que realizam sua tarefa em apenas uma leitura dos dados, fica evidente a possibilidade de se reduzir o número de acessos na realização do processo completo. Nossa contribuição, nesse caso, se materializa na proposta de uma estrutura de trabalho para integração dos dois paradigmas e a implementação de um protótipo dessa estrutura utilizando-se os algoritmos de aprendizado ART1, para identificação de agrupamentos, e MNC, para a tarefa de classificação. É também apresentada uma aplicação no mapeamento de áreas homogêneas de plantio de trigo no Brasil, de 1975 a 1999. Com relação às contribuições sobre o MNC são apresentados: (a) uma variante do algoritmo de treinamento que permite uma redução significativa do tamanho do modelo após o aprendizado; (b) um estudo sobre a redução da complexidade do modelo com o uso de máquinas de comitê; (c) uma técnica, usando o método do envoltório, para poda controlada do modelo final e (d) uma abordagem para tratamento de inconsistências e perda de conhecimento que podem ocorrer na construção do modelo.

Relevância:

40.00% 40.00%

Publicador:

Resumo:

Pesquisas sobre a variabilidade espacial dos atributos do solo que influenciam a produtividade são de uma grande importância para o desenvolvimento de novas técnicas que beneficiam a agricultura. A variabilidade desses atributos pode ser avaliada por técnicas de geoestatística e auxiliar no mapeamento e manejo do solo. Este trabalho teve por objetivo avaliar a qualidade do ajuste dos modelos teóricos espaciais segundo o Critério de Informação de Akaike, de Filliben, de Validação Cruzada e o valor máximo do logaritmo da função verossimilhança, de dados da umidade do solo, da densidade do solo e da resistência do solo à penetração, nas camadas de 0 a 0,1, 0,1 a 0,2 e 0,2 a 0,3 m, e de produtividade da soja do ano agrícola 2004-2005. Os parâmetros dos modelos de variabilidade espacial foram estimados por meio dos métodos de mínimos quadrados ordinários, mínimos quadrados ponderados e máxima verossimilhança. A pesquisa foi desenvolvida em uma área de 57 ha de um Latossolo Vermelho distroférrico, utilizando-se uma malha de 75 x 75 m georreferenciada. Concluiu-se que, dos métodos de avaliação de ajustes estudados, o da Validação Cruzada foi o mais adequado para escolha do melhor ajuste do modelo de variabilidade espacial; conseqüentemente têm-se mapas temáticos mais acurados.

Relevância:

40.00% 40.00%

Publicador:

Resumo:

The objective of this study was to assess families and highlight the superior progenies of sugarcane originating from 38 biparental crosses for the following attributes: tons of cane per hectare (TCH), tons of biomass per hectare (TBIOH), brix (% cane juice), fiber content, purity, pol and total recoverable sugar (TRS). The data were analyzed by mixed model REML / BLUP in the REML (Restricted Maximum Likelihood) allowed us to estimate genetic parameters and BLUP (best linear unbiased prediction) to predict the additive and genotypic values. The best family for the attributes TCH and TBIOH was 41, whose parents are cultivars IACSP022019 x CTC9. In individual selection for TCH, the plant number 3 of Block 2, the crossing 78, showed the best results. To TBIOH the plant number 33, Block 1, family 41, showed the best results. Families 40, 41, 43, 68, 69, 79, 91, 92 and 147, were higher for the variables brix, pol, purity, and ATR, where as 85 families, 147, 148, 149, 161, 163, 177, 178, 179, and 183 were higher for fiber. The family 147 whose parents are IACSP042286 x IACSP963055, showed three progenies ranked among the top ten for both brix, and for fiber, which identifies the combination as a potential source of progenies for bioenergy production.

Relevância:

30.00% 30.00%

Publicador:

Resumo:

Os processos de gestão do Sistema Único de Saúde (SUS) são apoiados por um conjunto de sistemas de informação de abrangência nacional, com funcionalidades para as áreas epidemiológicas, ambulatoriais, hospitalares e administrativas. Este artigo propõe um modelo para avaliação de sistemas de informação em saúde que possa ser aplicado aos sistemas do SUS. É descrito o processo de pesquisa, análise e classificação dos indicadores de avaliação para o modelo. Os indicadores foram obtidos por meio de pesquisa em bases bibliográficas e classificados segundo os atributos de qualidade da norma ISO/IEC 25010, adotada como modelo de qualidade no estudo. Como resultado, 66 indicadores foram identificados e mapeados, abrangendo todas as características de qualidade do modelo. Este trabalho poderá contribuir como mais uma referência para estudos que envolvam processos de avaliação da qualidade de softwares em saúde e auxiliar na normatização de planos de avaliação e monitoramento de qualidade de sistemas e dados em saúde pública no Brasil e em projetos de melhoria de softwares.

Relevância:

30.00% 30.00%

Publicador:

Resumo:

Pesquisas comparativas em fragmentos florestais que visem avaliar o efeito de diferentes impactos antrópicos sobre o solo são praticamente inexistentes. Assim, o objetivo principal deste trabalho foi caracterizar e comparar os horizontes orgânicos do solo em relação a algumas variáveis pedológicas sob mata primária e sob capoeira de idade avançada, com mais de 40 anos, resultado da seleção e extração de indivíduos arbóreos de valor comercial. Para isso, foram estudadas duas áreas de Mata Atlântica da região de Tabuleiros Terciários do norte do Espírito Santo: a Mata Alta, uma mata primária, e a Capoeira de Extração, uma mata secundária. Na Mata Alta, verificou-se débil acumulação orgânica superficial (4,0 t ha-1), devida à rápida decomposição dos aportes orgânicos que caem sobre o solo. O primeiro horizonte do solo caracteriza-se pela presença de um suborizonte de interface com as camadas foliares (A11), mais rico em carbono e nutrientes que o suborizonte A12 subjacente, pela maior saturação por bases (entre 50 e 70%) e por apresentar uma relação C/N menor que 12. Nesta mata, verificou-se a estabilidade sazonal tanto dos estoques orgânicos como dos nutritivos. A Capoeira de Extração apresentou, em relação à mata não perturbada, maior acumulação do estoque superficial de matéria orgânica (5,5 t ha-1, no verão, e 7,5 t ha-1, no inverno), bem como maior conteúdo de carbono e de nutrientes no solo, principalmente no inverno, indicando um bloqueio na decomposição e na ciclagem de nutrientes. A retirada de determinadas espécies arbóreas, em princípio, pode explicar a diferença observada no processo de decomposição e na ciclagem de nutrientes.

Relevância:

30.00% 30.00%

Publicador:

Resumo:

O objetivo deste trabalho foi avaliar critérios de seleção em progênies de cruzamento entre a cultivar de tomateiro Santa Clara (Solanum lycopersicum) e a espécie silvestre S. habrochaites f. glabratum, quanto a atributos de qualidade dos frutos e de resistência à requeima (Phytophthora infestans). As famílias foram avaliadas em delineamento de blocos ao acaso, em dois ensaios, com duas repetições e seis testemunhas comuns a ambos os ensaios. Ganhos diretos e indiretos foram estimados entre famílias F2:3 para seleção simultânea quanto à resistência à requeima, determinada pela quantificação da área abaixo da curva de progresso da doença (AACPD), e quanto à acidez titulável e aos teores de sólidos solúveis dos frutos. Os critérios de seleção proporcionaram ganhos genéticos satisfatórios, adequados ao ideótipo proposto de decréscimo na AACPD e de incremento nos valores médios de sólidos solúveis e acidez titulável. A seleção direta e indireta e o índice de Mulamba & Mock resultam em ganhos individuais mais equilibrados e em maiores ganhos totais.

Relevância:

30.00% 30.00%

Publicador:

Resumo:

Para obtenção de materiais superiores, é necessário que o genótipo selecionado reúna, simultaneamente, uma série de atributos favoráveis que satisfaçam às exigências dos consumidores, produtores e processadores. Foram analisadas 50 progênies de açaizeiro conduzidas em dois delineamentos tipo látice, com duas repetições e cinco plantas por parcela, por um período de três safras, para as características de produção e peso de cem de frutos. O objetivo deste trabalho foi estimar parâmetros genéticos e fenotípicos e realizar a predição de valores genéticos dos indivíduos e progênies de açaizeiro irrigado no Estado do Pará, visando à seleção e ao melhoramento genético simultâneo para as características citadas, empregando a metodologia REML/BLUP. Foram empregados na seleção e na estimativa dos ganhos preditos, os índices com base na média de postos (ranks) e níveis independentes de eliminação, empregando uma intensidade de seleção de 20 %. Foi obtido ganho genético de 20,76 % em relação à média do experimento com a seleção dos 20 melhores indivíduos para produção de frutos. Acima de cinco medições ou safras na avaliação de progênies de açaizeiro para produção de frutos, pouco acrescentará em termos de eficiência seletiva, sendo então injustificado seu uso. O índice com base na média de postos (rank) revelou-se o mais eficiente em selecionar, simultaneamente, progênies superiores para produção e menor peso de frutos, sendo recomendado seu uso em programa de melhoramento genético do açaizeiro.

Relevância:

30.00% 30.00%

Publicador:

Resumo:

A macadâmia apresenta-se como uma importante alternativa para a fruticultura paulista, principalmente pela sua rusticidade e pelo valor alcançado por seus frutos. No entanto, estudos relacionados ao seu desenvolvimento e às suas características produtivas e químicas säo necessários para a adequada escolha da cultivar. Com o objetivo de caracterizar o desenvolvimento e a produção de diferentes cultivares de macadâmia nas condições climáticas, no sudoeste do Estado de Säo Paulo, foram conduzidos experimentos instalados no município de Dois Córregos-SP, nos ciclos produtivos de 2009/2010 e 2010/2011, para avaliação do ciclo fenológico da cultivar HAES-344, o desempenho produtivo, a caracterização física e o perfil de ácidos graxos das cultivares HAES-344, HAES-660, IAC 1-21, HAES-816, IAC 4-20, IAC Campinas-B, Aloha e IAC 4-12 B de macadâmia. O intumescimento de gemas ocorreu de maio a junho, a antese de final de julho a início de agosto e a queda de frutos de fevereiro a março. As cultivares HAES-344, IAC 1-21 e IAC 4-12 B apresentaram a maior produção. A cultivar HAES-816 apresentou os maiores valores para as variáveis diâmetro da casca e da amêndoa e massa da amêndoa. Para a taxa de recuperação de noz (TR), os melhores resultados foram obtidos pelas cultivares HAES-344, HAES-660 e Aloha. As cultivares HAES-660 (68,48%), IAC 4-20 (66,88%) e IAC 1-21 (66,76%) apresentaram as maiores porcentagens de óleo. Todas as cultivares apresentaram em sua composição os ácidos palmitoleico, palmítico, oleico, linoleico e linolênico.