976 resultados para Agrupamento de dados


Relevância:

100.00% 100.00%

Publicador:

Resumo:

Symbolic Data Analysis (SDA) main aims to provide tools for reducing large databases to extract knowledge and provide techniques to describe the unit of such data in complex units, as such, interval or histogram. The objective of this work is to extend classical clustering methods for symbolic interval data based on interval-based distance. The main advantage of using an interval-based distance for interval-based data lies on the fact that it preserves the underlying imprecision on intervals which is usually lost when real-valued distances are applied. This work includes an approach allow existing indices to be adapted to interval context. The proposed methods with interval-based distances are compared with distances punctual existing literature through experiments with simulated data and real data interval

Relevância:

100.00% 100.00%

Publicador:

Resumo:

Pós-graduação em Ciência da Computação - IBILCE

Relevância:

100.00% 100.00%

Publicador:

Resumo:

Neste artigo é apresentada uma abordagem para aumentar a eficácia das Redes Neurais Artificiais de Funções de Base Radial utilizando um algoritmo de agrupamento de dados via Floresta de Caminhos Ótimos. Algumas técnicas comumente empregadas para essa tarefa, como o conhecido k-médias, requerem um determinado número de classes/agrupamentos prévio à sua execução. Embora o número de classes seja conhecido em problemas supervisionados, o número real de agrupamentos é difícil de ser encontrado, dado que uma classe pode ser representada por mais de um agrupamento. Experimentos em nove bases de dados, em conjunto com análises estatísticas, demonstraram que o classificador por Floresta de Caminhos Ótimos possui um melhor desempenho que a técnica k-médias, bem como encontra as médias das distribuições Gaussianas em posições muito similares às encontradas por este último. Entretanto, o classificador por Floresta de Caminhos Ótimos possui um custo computacional maior, dado que a sua etapa de treinamento é mais custosa que a da técnica k-médias.

Relevância:

80.00% 80.00%

Publicador:

Resumo:

The use of clustering methods for the discovery of cancer subtypes has drawn a great deal of attention in the scientific community. While bioinformaticians have proposed new clustering methods that take advantage of characteristics of the gene expression data, the medical community has a preference for using classic clustering methods. There have been no studies thus far performing a large-scale evaluation of different clustering methods in this context. This work presents the first large-scale analysis of seven different clustering methods and four proximity measures for the analysis of 35 cancer gene expression data sets. Results reveal that the finite mixture of Gaussians, followed closely by k-means, exhibited the best performance in terms of recovering the true structure of the data sets. These methods also exhibited, on average, the smallest difference between the actual number of classes in the data sets and the best number of clusters as indicated by our validation criteria. Furthermore, hierarchical methods, which have been widely used by the medical community, exhibited a poorer recovery performance than that of the other methods evaluated. Moreover, as a stable basis for the assessment and comparison of different clustering methods for cancer gene expression data, this study provides a common group of data sets (benchmark data sets) to be shared among researchers and used for comparisons with new methods

Relevância:

70.00% 70.00%

Publicador:

Resumo:

Os métodos espectrais são ferramentas úteis na análise de dados, sendo capazes de fornecer informações sobre a estrutura organizacional de dados. O agrupamento de dados utilizando métodos espectrais é comumente baseado em relações de similaridade definida entre os dados. O objetivo deste trabalho é estudar a capacidade de agrupamento de métodos espectrais e seu comportamento, em casos limites. Considera-se um conjunto de pontos no plano e usa-se a similaridade entre os nós como sendo o inverso da distância Euclidiana. Analisa-se a qual distância mínima, entre dois pontos centrais, o agrupamento espectral é capaz de reagrupar os dados em dois grupos distintos. Acessoriamente, estuda-se a capacidade de reagrupamento caso a dispersão entre os dados seja aumentada. Inicialmente foram realizados experimentos considerando uma distância fixa entre dois pontos, a partir dos quais os dados são gerados e, então, reduziu-se a distância entre estes pontos até que o método se tornasse incapaz de efetuar a separação dos pontos em dois grupos distintos. Em seguida, retomada a distância inicial, os dados foram gerados a partir da adição de uma perturbação normal, com variância crescente, e observou-se até que valor de variância o método fez a separação dos dados em dois grupos distintos de forma correta. A partir de um conjunto de pontos obtidos com a execução do algoritmo de evolução diferencial, para resolver um problema multimodal, testa-se a capacidade do método em separar os indivíduos em grupos diferentes.

Relevância:

70.00% 70.00%

Publicador:

Resumo:

The main goal of this work is to investigate the suitability of applying cluster ensemble techniques (ensembles or committees) to gene expression data. More specifically, we will develop experiments with three diferent cluster ensembles methods, which have been used in many works in literature: coassociation matrix, relabeling and voting, and ensembles based on graph partitioning. The inputs for these methods will be the partitions generated by three clustering algorithms, representing diferent paradigms: kmeans, ExpectationMaximization (EM), and hierarchical method with average linkage. These algorithms have been widely applied to gene expression data. In general, the results obtained with our experiments indicate that the cluster ensemble methods present a better performance when compared to the individual techniques. This happens mainly for the heterogeneous ensembles, that is, ensembles built with base partitions generated with diferent clustering algorithms

Relevância:

70.00% 70.00%

Publicador:

Resumo:

Pós-graduação em Ciência da Computação - IBILCE

Relevância:

70.00% 70.00%

Publicador:

Resumo:

Pós-graduação em Ciência da Computação - IBILCE

Relevância:

60.00% 60.00%

Publicador:

Resumo:

Dissertação para a obtenção do grau de Mestre em Engenharia Electrotécnica Ramo de Energia

Relevância:

60.00% 60.00%

Publicador:

Resumo:

Esta pesquisa é um estudo comparativo de casos que tem o objetivo de analisar a influência da estrutura, objetivos dos grupos organizacionais e a qualificação da linha intermediária no desempenho de duas administrações públicas municipais. Centralização, formalização e complexidade foram as dimensões da estrutura consideradas nesse estudo. O desempenho foi caracterizado por indicadores nas áreas social, política e econômico- financeira. Foram coletados dados primários, utilizando-se entrevistas semi-estruturadas, e dados secundários. Os dados foram analisados principalmente através de técnicas qualitativas. Também foi utilizado um processo de agrupamento para dados qualitativos. A pesquisa revelou que a estrutura organizacional difere entre as duas organizações estudadas, especialmente quanto à centralização e formalização. Com respeito aos objetivos dos grupos, concluiu- se que há uma clara distinção entre os casos estudados, com maior ênfase no nível estratégico. Em um dos casos percebem- se objetivos político-partidários evidentes e no outro prevalecem objetivos de eficiência administrativa. O exame da qualificação da linha intermediária evidenciou uma variação na formação e experiência do nível tático da área da saúde. Por fim, o presente estudo revelou diferença no desempenho organizacional entre as duas organizações, que pode ser atribuída à estrutura, objetivos dos grupos e qualificação da linha intermediária. Pelos resultados da pesquisa, é possível perceber que a centralização e a formalização, duas dimensões da estrutura, influenciam o desempenho organizacional. Também há evidências de que os objetivos dos grupos e a qualificação da linha intermediária têm efeito sobre o desempenho. Com base nessas conclusões, é proposto um modelo explicativo do desempenho de administrações municipais, envolvendo centralização, objetivos do grupo estratégico e qualificação e identificação com a atividade dos grupos tático e operacional.

Relevância:

60.00% 60.00%

Publicador:

Resumo:

Este estudo teve por objetivo avaliar a eficácia de uma estratégia de ensino sobre diagnósticos de enfermagem, fundamentada na aprendizagem, baseada em problemas no desempenho do raciocínio clínico e julgamento diagnóstico dos discentes de graduação. É estudo experimental, realizado em duas fases: validação de conteúdo dos problemas e aplicação da estratégia educativa. Os resultados mostraram melhora na capacidade de agrupamento dos dados dos discentes do grupo experimental. Conclui-se que houve influência positiva da estratégia implementada

Relevância:

60.00% 60.00%

Publicador:

Resumo:

In this paper artificial neural network (ANN) based on supervised and unsupervised algorithms were investigated for use in the study of rheological parameters of solid pharmaceutical excipients, in order to develop computational tools for manufacturing solid dosage forms. Among four supervised neural networks investigated, the best learning performance was achieved by a feedfoward multilayer perceptron whose architectures was composed by eight neurons in the input layer, sixteen neurons in the hidden layer and one neuron in the output layer. Learning and predictive performance relative to repose angle was poor while to Carr index and Hausner ratio (CI and HR, respectively) showed very good fitting capacity and learning, therefore HR and CI were considered suitable descriptors for the next stage of development of supervised ANNs. Clustering capacity was evaluated for five unsupervised strategies. Network based on purely unsupervised competitive strategies, classic "Winner-Take-All", "Frequency-Sensitive Competitive Learning" and "Rival-Penalize Competitive Learning" (WTA, FSCL and RPCL, respectively) were able to perform clustering from database, however this classification was very poor, showing severe classification errors by grouping data with conflicting properties into the same cluster or even the same neuron. On the other hand it could not be established what was the criteria adopted by the neural network for those clustering. Self-Organizing Maps (SOM) and Neural Gas (NG) networks showed better clustering capacity. Both have recognized the two major groupings of data corresponding to lactose (LAC) and cellulose (CEL). However, SOM showed some errors in classify data from minority excipients, magnesium stearate (EMG) , talc (TLC) and attapulgite (ATP). NG network in turn performed a very consistent classification of data and solve the misclassification of SOM, being the most appropriate network for classifying data of the study. The use of NG network in pharmaceutical technology was still unpublished. NG therefore has great potential for use in the development of software for use in automated classification systems of pharmaceutical powders and as a new tool for mining and clustering data in drug development

Relevância:

60.00% 60.00%

Publicador:

Resumo:

Data clustering is applied to various fields such as data mining, image processing and pattern recognition technique. Clustering algorithms splits a data set into clusters such that elements within the same cluster have a high degree of similarity, while elements belonging to different clusters have a high degree of dissimilarity. The Fuzzy C-Means Algorithm (FCM) is a fuzzy clustering algorithm most used and discussed in the literature. The performance of the FCM is strongly affected by the selection of the initial centers of the clusters. Therefore, the choice of a good set of initial cluster centers is very important for the performance of the algorithm. However, in FCM, the choice of initial centers is made randomly, making it difficult to find a good set. This paper proposes three new methods to obtain initial cluster centers, deterministically, the FCM algorithm, and can also be used in variants of the FCM. In this work these initialization methods were applied in variant ckMeans.With the proposed methods, we intend to obtain a set of initial centers which are close to the real cluster centers. With these new approaches startup if you want to reduce the number of iterations to converge these algorithms and processing time without affecting the quality of the cluster or even improve the quality in some cases. Accordingly, cluster validation indices were used to measure the quality of the clusters obtained by the modified FCM and ckMeans algorithms with the proposed initialization methods when applied to various data sets

Relevância:

60.00% 60.00%

Publicador:

Resumo:

Pós-graduação em Educação Escolar - FCLAR

Relevância:

60.00% 60.00%

Publicador:

Resumo:

Utilizando-se dados magnetotelúricos (MT), foi obtida uma imagem geo-elétrica nítida da região do Juruá, Bacia do Solimões, na forma de seções geo-elétricas. Os dados de campo foram registrados ao longo de três linhas de 15 km, espaçadas de 3.5 km, recobrindo uma área de 100 km2. O espaçamento entre as 35 estações é irregular, variando de 400 m a 3500 m. A faixa de freqüências utilizada cobriu de 0.001 Hz até 300 Hz, o que permitiu investigar de 100 m até 60 km de profundidade. Os dados apresentam-se afetados pelo efeito de distorção estática. Para corrigir este efeito foi utilizada a mediana da resistividade do primeiro condutor, correspondente à Formação Solimões. Foi utilizado o invariante do tensor MT para interpretar a estrutura geo-elétrica do Juruá. As seções geo-elétricas foram obtidas a partir do agrupamento dos dados resultantes da transformação de Bostick e da inversão 1D de Occam, para cada estação. Foi identificada uma seqüência de camadas condutivas e resistivas, correspondentes ao pacote sedimentar, uma zona de falhas e o topo do embasamento geo-elétrico, caracterizando a Bacia do Solimões. Abaixo do embasamento geo-elétrico foram também identificados uma zona condutora, seguida por uma camada de baixa condutividade, a profundidades iguais ou superiores a 20 km. Esta camada é interpretada como sendo de composição de gabro, estando associada a processos de acreção vertical, intimamente ligados à estabilização crustal e espessamento da litosfera. Os resultados apresentam uma boa concordância com os perfis de resistividade de poços e dados sísmicos de superfície.