938 resultados para k-means clustering
Resumo:
Non-parametric multivariate analyses of complex ecological datasets are widely used. Following appropriate pre-treatment of the data inter-sample resemblances are calculated using appropriate measures. Ordination and clustering derived from these resemblances are used to visualise relationships among samples (or variables). Hierarchical agglomerative clustering with group-average (UPGMA) linkage is often the clustering method chosen. Using an example dataset of zooplankton densities from the Bristol Channel and Severn Estuary, UK, a range of existing and new clustering methods are applied and the results compared. Although the examples focus on analysis of samples, the methods may also be applied to species analysis. Dendrograms derived by hierarchical clustering are compared using cophenetic correlations, which are also used to determine optimum in flexible beta clustering. A plot of cophenetic correlation against original dissimilarities reveals that a tree may be a poor representation of the full multivariate information. UNCTREE is an unconstrained binary divisive clustering algorithm in which values of the ANOSIM R statistic are used to determine (binary) splits in the data, to form a dendrogram. A form of flat clustering, k-R clustering, uses a combination of ANOSIM R and Similarity Profiles (SIMPROF) analyses to determine the optimum value of k, the number of groups into which samples should be clustered, and the sample membership of the groups. Robust outcomes from the application of such a range of differing techniques to the same resemblance matrix, as here, result in greater confidence in the validity of a clustering approach.
Resumo:
Forensic speaker comparison exams have complex characteristics, demanding a long time for manual analysis. A method for automatic recognition of vowels, providing feature extraction for acoustic analysis is proposed, aiming to contribute as a support tool in these exams. The proposal is based in formant measurements by LPC (Linear Predictive Coding), selectively by fundamental frequency detection, zero crossing rate, bandwidth and continuity, with the clustering being done by the k-means method. Experiments using samples from three different databases have shown promising results, in which the regions corresponding to five of the Brasilian Portuguese vowels were successfully located, providing visualization of a speaker’s vocal tract behavior, as well as the detection of segments corresponding to target vowels.
Resumo:
The main objective of this study is to apply recently developed methods of physical-statistic to time series analysis, particularly in electrical induction s profiles of oil wells data, to study the petrophysical similarity of those wells in a spatial distribution. For this, we used the DFA method in order to know if we can or not use this technique to characterize spatially the fields. After obtain the DFA values for all wells, we applied clustering analysis. To do these tests we used the non-hierarchical method called K-means. Usually based on the Euclidean distance, the K-means consists in dividing the elements of a data matrix N in k groups, so that the similarities among elements belonging to different groups are the smallest possible. In order to test if a dataset generated by the K-means method or randomly generated datasets form spatial patterns, we created the parameter Ω (index of neighborhood). High values of Ω reveals more aggregated data and low values of Ω show scattered data or data without spatial correlation. Thus we concluded that data from the DFA of 54 wells are grouped and can be used to characterize spatial fields. Applying contour level technique we confirm the results obtained by the K-means, confirming that DFA is effective to perform spatial analysis
Resumo:
This dissertation introduces a new approach for assessing the effects of pediatric epilepsy on the language connectome. Two novel data-driven network construction approaches are presented. These methods rely on connecting different brain regions using either extent or intensity of language related activations as identified by independent component analysis of fMRI data. An auditory description decision task (ADDT) paradigm was used to activate the language network for 29 patients and 30 controls recruited from three major pediatric hospitals. Empirical evaluations illustrated that pediatric epilepsy can cause, or is associated with, a network efficiency reduction. Patients showed a propensity to inefficiently employ the whole brain network to perform the ADDT language task; on the contrary, controls seemed to efficiently use smaller segregated network components to achieve the same task. To explain the causes of the decreased efficiency, graph theoretical analysis was carried out. The analysis revealed no substantial global network feature differences between the patient and control groups. It also showed that for both subject groups the language network exhibited small-world characteristics; however, the patient’s extent of activation network showed a tendency towards more random networks. It was also shown that the intensity of activation network displayed ipsilateral hub reorganization on the local level. The left hemispheric hubs displayed greater centrality values for patients, whereas the right hemispheric hubs displayed greater centrality values for controls. This hub hemispheric disparity was not correlated with a right atypical language laterality found in six patients. Finally it was shown that a multi-level unsupervised clustering scheme based on self-organizing maps, a type of artificial neural network, and k-means was able to fairly and blindly separate the subjects into their respective patient or control groups. The clustering was initiated using the local nodal centrality measurements only. Compared to the extent of activation network, the intensity of activation network clustering demonstrated better precision. This outcome supports the assertion that the local centrality differences presented by the intensity of activation network can be associated with focal epilepsy.
Resumo:
Il riconoscimento delle condizioni del manto stradale partendo esclusivamente dai dati raccolti dallo smartphone di un ciclista a bordo del suo mezzo è un ambito di ricerca finora poco esplorato. Per lo sviluppo di questa tesi è stata sviluppata un'apposita applicazione, che combinata a script Python permette di riconoscere differenti tipologie di asfalto. L’applicazione raccoglie i dati rilevati dai sensori di movimento integrati nello smartphone, che registra i movimenti mentre il ciclista è alla guida del suo mezzo. Lo smartphone è fissato in un apposito holder fissato sul manubrio della bicicletta e registra i dati provenienti da giroscopio, accelerometro e magnetometro. I dati sono memorizzati su file CSV, che sono elaborati fino ad ottenere un unico DataSet contenente tutti i dati raccolti con le features estratte mediante appositi script Python. A ogni record sarà assegnato un cluster deciso in base ai risultati prodotti da K-means, risultati utilizzati in seguito per allenare algoritmi Supervised. Lo scopo degli algoritmi è riconoscere la tipologia di manto stradale partendo da questi dati. Per l’allenamento, il DataSet è stato diviso in due parti: il training set dal quale gli algoritmi imparano a classificare i dati e il test set sul quale gli algoritmi applicano ciò che hanno imparato per dare in output la classificazione che ritengono idonea. Confrontando le previsioni degli algoritmi con quello che i dati effettivamente rappresentano si ottiene la misura dell’accuratezza dell’algoritmo.
Resumo:
L’elaborato di tesi è frutto di un percorso di tirocinio svolto in Gruppo Montenegro S.r.l., il cui obiettivo risiede nello sviluppo di un algoritmo per la pallettizzazione e la saturazione del mezzo di trasporto per la Divisione Food. Nello specifico viene proposto un algoritmo euristico elaborato nel linguaggio di programmazione Python. La divisione Food è costituita da tre categorie: Cannamela, Cuore e Vitalia.Queste comprendono prodotti molto eterogenei. Attraverso il coinvolgimento delle funzioni aziendali di Packaging e Qualità, sono stati stabiliti i vincoli da rispettare per la pallettizzazione dei prodotti. L’algoritmo proposto viene descritto suddividendo il processo in tre macro-step. La prima parte affronta il problema del 3D Bin Packing Problem, utilizzando e modificando un programma già presente in letteratura per soddisfare le esigenze della categoria Cannamela. Quest’ultima a differenza delle altre categorie, viene allestita in groupage preallestito poiché gli ordini Cannamela possono contenere quantità non-multiple rispetto alle quantità contenute nell’imballo secondario. La seconda parte dell’algoritmo si occupa della creazione dei pallet per le categorie Cuore e Vitalia. Attraverso l’utilizzo dell’algoritmo di clustering K-means sono state create famiglie di codici che permettessero l’allestimento di pallet con prodotti considerati simili. Di conseguenza, l’algoritmo per la pallettizzazione delle due categorie viene sviluppato ex-novo basandosi sulla percentuale di occupazione del prodotto nel pallet. L’ultima parte dell’algoritmo studia la possibilità di sovrapporre i pallet precedentemente creati. Infine, viene effettuata un’analisi di un periodo strategico confrontando i risultatidell’algoritmo Python con quelli dell’algoritmo presente nel gestionale aziendale. I risultati vengono poi analizzati in relazione a due impatti importanti per l’azienda:economici e ambientali.
Resumo:
Remotely sensed imagery has been widely used for land use/cover classification thanks to the periodic data acquisition and the widespread use of digital image processing systems offering a wide range of classification algorithms. The aim of this work was to evaluate some of the most commonly used supervised and unsupervised classification algorithms under different landscape patterns found in Rondônia, including (1) areas of mid-size farms, (2) fish-bone settlements and (3) a gradient of forest and Cerrado (Brazilian savannah). Comparison with a reference map based on the kappa statistics resulted in good to superior indicators (best results - K-means: k=0.68; k=0.77; k=0.64 and MaxVer: k=0.71; k=0.89; k=0.70 respectively for three areas mentioned). Results show that choosing a specific algorithm requires to take into account both its capacity to discriminate among various spectral signatures under different landscape patterns as well as a cost/benefit analysis considering the different steps performed by the operator performing a land cover/use map. it is suggested that a more systematic assessment of several options of implementation of a specific project is needed prior to beginning a land use/cover mapping job.
Resumo:
In this paper an approach to extreme event control in wastewater treatment plant operation by use of automatic supervisory control is discussed. The framework presented is based on the fact that different operational conditions manifest themselves as clusters in a multivariate measurement space. These clusters are identified and linked to specific and corresponding events by use of principal component analysis and fuzzy c-means clustering. A reduced system model is assigned to each type of extreme event and used to calculate appropriate local controller set points. In earlier work we have shown that this approach is applicable to wastewater treatment control using look-up tables to determine current set points. In this work we focus on the automatic determination of appropriate set points by use of steady state and dynamic predictions. The performance of a relatively simple steady-state supervisory controller is compared with that of a model predictive supervisory controller. Also, a look-up table approach is included in the comparison, as it provides a simple and robust alternative to the steady-state and model predictive controllers, The methodology is illustrated in a simulation study.
Resumo:
Localization of signaling complexes to specific micro-domains coordinates signal transduction at the plasma membrane. Using immunogold electron microscopy of plasma membrane sheets coupled with spatial point pattern analysis, we have visualized morphologically featureless microdomains including lipid rafts, in situ and at high resolution. We find that an inner-plasma membrane lipid raft marker displays cholesterol-dependent clustering in microdomains with a mean diameter of 44 nm that occupy 35% of the cell surface. Cross-linking an outer-leaflet raft protein results in the redistribution of inner leaflet rafts, but they retain their modular structure. Analysis of Ras microlocalization shows that inactive H-ras is distributed between lipid rafts and a cholesterol-independent micro-domain. Conversely, activated H-ras and K-ras reside predominantly in nonoverlapping, cholesterol-independent microdomains. Galectin-1 stabilizes the association of activated H-ras with these nonraft microdomains, whereas K-ras clustering is supported by farnesylation, but not geranylgeranylation. These results illustrate that the inner plasma membrane comprises a complex mosaic of discrete microdomains. Differential spatial localization within this framework can likely account for the distinct signal outputs from the highly homologous Ras proteins.
Resumo:
As redes sociais virtuais são um meio potencialmente rápido e económico de promoção de negócios onde se geram clientes potenciais, exposição para o negocio, informações de mercado e tráfego do Website; se promove o marketing, a recomendação, o marketing directo, a gestão da marca e a prospecção de dados/ pesquisa e se potencia a subcontratação de tarefas de desing/ desenvolvimento, pesquisa, criação de conteúdo e gestão de comunidade. O estudo teve por base um questionário colocado nas redes sociais virtuais e no grupo de divulgação da Association for Information Systems, de 12 de Abril a 14 de Junho de 2012, tendo-se obtido 450 respostas, das quais 330 foram validas.Obtiveram-se respostas de todo o Mundo, predominantemente de Portugal(61,33%) e Brasil(10,89%), tendo-se concluído que o Facebook(78,51%) e o Linkedin(71,99%) são percebidos como as redes sociais virtuais mais úteis na promoção de negócios. Para melhor compreender a percepção que os utilizadores das redes sociais virtuais têm sobre as vantagens e oportunidades destas redes na promoção de negócios, foi utilizada a analise de clusters tendo a solução k-means se mostrando a mais estável e a de mais fácil interpretação lógica, permitindo a segmentação dos utilizadores em três clusters: Cluster 1("mais pessimista"), Cluster 2("intermédio") e Cluster 3("mais optimista"). Esta segmentação permite identificar correlações entre as variáveis grupo, morada, sexo, área de estudo, situação profissional e o numero de empregados do negocio, com os diferentes segmentos. Adicionalmente, verificam-se correlações entre as variáveis grupo, morada, sexo, área de estudo e situação profissional e a variável horas/ semana a usar as redes sociais virtuais na promoção de negócios. Espera-se que este trabalho contribua para a identificação e desenvolvimento dos métodos e estratégias que potenciem a promoção de negócios nas redes sociais virtuais.
Resumo:
RESUMO A farinha é um derivado da mandioca de grande importância alimentar, porém com pequena padronização, por causa do processo artesanal de fabricação. O objetivo deste estudo foi analisar a variabilidade da farinha de mandioca artesanal, produzida no Território da Cidadania do Vale do Juruá, Acre, e agrupar os municípios produtores de acordo com suas características físico-químicas, por meio de análises multivariadas, determinando sua influência na qualidade da farinha de mandioca. Foram analisadas 138 amostras de farinhas, coletadas nos municípios de Cruzeiro do Sul, Mâncio Lima, Rodrigues Alves, Porto Walter e Marechal Thaumaturgo, com determinação da umidade, cinzas, proteína total, extrato etéreo, fibra total, carboidratos totais, valor energético, acidez titulável, pH e atividade de água. Os dados foram analisados pela estatística descritiva com comparação de médias pelo teste de Tukey e estatística multivariada, de forma complementar entre si; com análises de agrupamento hierárquica, pela distância euclidiana e método de Ward, e, não hierárquica, k-means, análise de componentes principais, pela matriz de correlação, e análise discriminante, pelo método da exclusão progressiva passo a passo. Os resultados mostraram que as farinhas encontram-se dentro das normas de qualidade exigidas em legislação. As diferentes análises multivariadas foram coerentes, indicando que há um padrão de distribuição das características físico-químicas das farinhas, o que sugere padrões no processo de fabricação, distribuídos conforme a localização dos municípios analisados. As características de maior influência na discriminação das farinhas são acidez, pH, atividade de água e umidade, indicando que o modo de fabricação tem grande influência na qualidade da farinha produzida.
Resumo:
OBJETIVO: Caracterizar e analisar os perfis tecnológicos dos centros de testagem e aconselhamento para HIV no Brasil. MÉTODOS: Utilizou-se questionário estruturado e auto-aplicado com 78 questões, respondido por 320 (83,6%) dos 383 centros brasileiros, durante 2006. Foram analisadas respostas que caracterizam o perfil tecnológico dos serviços mediante o uso da técnica de agrupamento k-means. As associações entre os perfis descritos e os contextos municipais foram analisadas usando-se qui-quadrado e análise de resíduo no caso de proporções, Anova e Bonferroni para médias. RESULTADOS: Os centros apresentaram deficiências significativas quanto à garantia do atendimento adequado. Foram identificados quatro perfis tecnológicos. O perfil "assistência" (21,6%) foi predominante entre os serviços instituídos antes de 1993, em regiões com alta incidência de Aids e municípios de grande porte. O perfil "prevenção" (30,0%), prevalente entre 1994-1998, foi o que mais correspondeu às normas do Ministério da Saúde, com melhores indicadores de resolubilidade e produtividade. O perfil "assistência e prevenção" (26,9%), inserido nos serviços de Aids, foi predominante entre 1999-2002 e desenvolvia o conjunto mais completo de atividades, incluindo tratamento de doenças sexualmente transmissíveis. O perfil "oferta de diagnóstico" (21,6%) foi o mais precário e localizado onde a epidemia é mais recente e com menor proporção de pessoas testadas. CONCLUSÕES: Os centros de testagem e aconselhamento constituem um conjunto de serviços heterogêneos e as diretrizes que nortearam a implantação dos serviços no Brasil não estão plenamente incorporadas, influindo nos baixos indicadores de resolubilidade e produtividade e no desenvolvimento insuficiente de ação de prevenção.
Resumo:
Dissertação para a obtenção do grau de Mestre em Engenharia Electrotécnica Ramo de Energia
Resumo:
Trabalho realizado pelos alunos do 1º ano, 2º semestre, da licenciatura de RPCE, 2015, no âmbito da unidade curricular de Estatística Multivariada
Resumo:
Com base no modelo de Resposta à Intervenção (RtI), este estudo centrouse em três objetivos: construir um instrumento vocacionado para a determinação do nível de competências fundamentais, do 1º ao 6º anos, na disciplina de Matemática; avaliar o valor preditivo do instrumento sobre a necessidade de intervenção; examinar o efeito de uma intervenção planeada com base na avaliação diagnóstica desse instrumento. Para dar resposta ao primeiro e segundo objetivos foram consideradas duas amostras de conveniência: a primeira, constituída por 5 docentes, avaliou a versão teste do instrumento e a segunda, constituída por 6 docentes, avaliou a sua versão final (perfazendo um total de 75 alunos). Recorrendo ao método kmeans, os resultados mostraram que o instrumento é de útil e fácil aplicação, permitindo aos docentes avaliarem e identificarem o grupo de desempenho a que pertence cada aluno, em relação à média dos resultados da respetiva turma. Relativamente ao terceiro objetivo, foi constituída uma amostra de 7 alunos de uma turma do 4º ano. A intervenção decorreu ao longo de 11 semanas, com 2 sessões semanais, cuja duração variou entre 10 a 35 minutos. Para avaliar os efeitos da intervenção, foi realizado um pré e um pós-teste, assim como 2 sessões de avaliação intermédia (checkpoints), tendo-se recorrido ao teste não paramétrico de Friedman e ao teste de Wilcoxon, para avaliar a significância das diferenças entre os tempos e os níveis de suporte, para o aluno resolver a tarefa com sucesso, respetivamente. Os resultados mostraram diferenças estatiscamente significativas, particularmente entre as duas avaliações intermédia consideradas.