983 resultados para Semi-supervised clustering


Relevância:

20.00% 20.00%

Publicador:

Resumo:

Most traditional data mining algorithms struggle to cope with the sheer scale of data efficiently. In this paper, we propose a general framework to accelerate existing clustering algorithms to cluster large-scale datasets which contain large numbers of attributes, items, and clusters. Our framework makes use of locality sensitive hashing (LSH) to significantly reduce the cluster search space. We also theoretically prove that our framework has a guaranteed error bound in terms of the clustering quality. This framework can be applied to a set of centroid-based clustering algorithms that assign an object to the most similar cluster, and we adopt the popular K-Modes categorical clustering algorithm to present how the framework can be applied. We validated our framework with five synthetic datasets and a real world Yahoo! Answers dataset. The experimental results demonstrate that our framework is able to speed up the existing clustering algorithm between factors of 2 and 6, while maintaining comparable cluster purity.

Relevância:

20.00% 20.00%

Publicador:

Resumo:

Application of sensor-based technology within activity monitoring systems is becoming a popular technique within the smart environment paradigm. Nevertheless, the use of such an approach generates complex constructs of data, which subsequently requires the use of intricate activity recognition techniques to automatically infer the underlying activity. This paper explores a cluster-based ensemble method as a new solution for the purposes of activity recognition within smart environments. With this approach activities are modelled as collections of clusters built on different subsets of features. A classification process is performed by assigning a new instance to its closest cluster from each collection. Two different sensor data representations have been investigated, namely numeric and binary. Following the evaluation of the proposed methodology it has been demonstrated that the cluster-based ensemble method can be successfully applied as a viable option for activity recognition. Results following exposure to data collected from a range of activities indicated that the ensemble method had the ability to perform with accuracies of 94.2% and 97.5% for numeric and binary data, respectively. These results outperformed a range of single classifiers considered as benchmarks.

Relevância:

20.00% 20.00%

Publicador:

Resumo:

To assess the outcomes of cataract surgery performed by novice surgeons during training in a rural programme. Design: Retrospective study. Participants: Three hundred thirty-four patients operated by two trainees under supervision at rural Chinese county hospitals. Methods: Two trainees performed surgeries under supervision. Visual acuity, refraction and examinations were carried out 3 months postoperatively. Main Outcome Measures: Postoperative uncorrected visual acuity, pinhole visual acuity, causes of visual impairment (postoperative uncorrected visual acuity<6/18) Results: Among 518 operated patients, 426 (82.2%) could be contacted and 334 (64.4% of operated patients) completed the examinations. The mean age was 74.1±8.8 years and 62.9% were women. Postoperative uncorrected visual acuity was available in 372 eyes. Among them, uncorrected visual acuity was ≥6/18 in 278 eyes (74.7%) and <6/60 in 60 eyes (16.1%), and 323 eyes (86.8%) had pinhole visual acuity≥6/18 and 38 eyes (10.2%) had pinhole visual acuity<6/60. Main causes of visual impairment were uncorrected refractive error (63.9%) and comorbid eye disease (24.5%). Comorbid eye diseases associated with pinhole visual acuity<6/60 (n=23, 6.2%) included glaucoma, other optic nerve atrophy, vitreous haemorrhage and retinal detachment. Conclusions: The findings suggest that hands-on training remains safe and effective even when not implemented in centralized training centres. Further refinement of the training protocol, providing postoperative refractive services and more accurate preoperative intraocular lens calculations, can help optimize outcomes. © 2012 The Authors Clinical and Experimental Ophthalmology © 2012 Royal Australian and New Zealand College of Ophthalmologists.

Relevância:

20.00% 20.00%

Publicador:

Resumo:

Social networks generally display a positively skewed degree distribution and higher values for clustering coefficient and degree assortativity than would be expected from the degree sequence. For some types of simulation studies, these properties need to be varied in the artificial networks over which simulations are to be conducted. Various algorithms to generate networks have been described in the literature but their ability to control all three of these network properties is limited. We introduce a spatially constructed algorithm that generates networks with constrained but arbitrary degree distribution, clustering coefficient and assortativity. Both a general approach and specific implementation are presented. The specific implementation is validated and used to generate networks with a constrained but broad range of property values. © Copyright JASSS.

Relevância:

20.00% 20.00%

Publicador:

Resumo:

Poilão dam reservoir (Cape Verde Archipelago) is in critical conditions, owing the excessive silting up, the high concentration of nitrates and the pronounced anoxia all over the lake. Considering that the most suitable remediation strategy is the removal of the bottom sediments where nutrients are preferentially concentrated, we have done a geochemical study, in order of evaluating their suitability to agricultural use. Analyses indicate that sediments are rich in a few key nutrients, when compared with parent soils. Thus, adding suitable sediments to nearby degraded soils can improve food crops for smallholder farmers living in close proximity to this system.

Relevância:

20.00% 20.00%

Publicador:

Resumo:

A presente tese resulta de um trabalho de investigação cujo objectivo se centrou no problema de localização-distribuição (PLD) que pretende abordar, de forma integrada, duas actividades logísticas intimamente relacionadas: a localização de equipamentos e a distribuição de produtos. O PLD, nomeadamente a sua modelação matemática, tem sido estudado na literatura, dando origem a diversas aproximações que resultam de diferentes cenários reais. Importa portanto agrupar as diferentes variantes por forma a facilitar e potenciar a sua investigação. Após fazer uma revisão e propor uma taxonomia dos modelos de localização-distribuição, este trabalho foca-se na resolução de alguns modelos considerados como mais representativos. É feita assim a análise de dois dos PLDs mais básicos (os problema capacitados com procura nos nós e nos arcos), sendo apresentadas, para ambos, propostas de resolução. Posteriormente, é abordada a localização-distribuição de serviços semiobnóxios. Este tipo de serviços, ainda que seja necessário e indispensável para o público em geral, dada a sua natureza, exerce um efeito desagradável sobre as comunidades contíguas. Assim, aos critérios tipicamente utilizados na tomada de decisão sobre a localização destes serviços (habitualmente a minimização de custo) é necessário adicionar preocupações que reflectem a manutenção da qualidade de vida das regiões que sofrem o impacto do resultado da referida decisão. A abordagem da localização-distribuição de serviços semiobnóxios requer portanto uma análise multi-objectivo. Esta análise pode ser feita com recurso a dois métodos distintos: não interactivos e interactivos. Ambos são abordados nesta tese, com novas propostas, sendo o método interactivo proposto aplicável a outros problemas de programação inteira mista multi-objectivo. Por último, é desenvolvida uma ferramenta de apoio à decisão para os problemas abordados nesta tese, sendo apresentada a metodologia adoptada e as suas principais funcionalidades. A ferramenta desenvolvida tem grandes preocupações com a interface de utilizador, visto ser direccionada para decisores que tipicamente não têm conhecimentos sobre os modelos matemáticos subjacentes a este tipo de problemas.

Relevância:

20.00% 20.00%

Publicador:

Resumo:

Nos últimos anos temos vindo a assistir a uma mudança na forma como a informação é disponibilizada online. O surgimento da web para todos possibilitou a fácil edição, disponibilização e partilha da informação gerando um considerável aumento da mesma. Rapidamente surgiram sistemas que permitem a coleção e partilha dessa informação, que para além de possibilitarem a coleção dos recursos também permitem que os utilizadores a descrevam utilizando tags ou comentários. A organização automática dessa informação é um dos maiores desafios no contexto da web atual. Apesar de existirem vários algoritmos de clustering, o compromisso entre a eficácia (formação de grupos que fazem sentido) e a eficiência (execução em tempo aceitável) é difícil de encontrar. Neste sentido, esta investigação tem por problemática aferir se um sistema de agrupamento automático de documentos, melhora a sua eficácia quando se integra um sistema de classificação social. Analisámos e discutimos dois métodos baseados no algoritmo k-means para o clustering de documentos e que possibilitam a integração do tagging social nesse processo. O primeiro permite a integração das tags diretamente no Vector Space Model e o segundo propõe a integração das tags para a seleção das sementes iniciais. O primeiro método permite que as tags sejam pesadas em função da sua ocorrência no documento através do parâmetro Social Slider. Este método foi criado tendo por base um modelo de predição que sugere que, quando se utiliza a similaridade dos cossenos, documentos que partilham tags ficam mais próximos enquanto que, no caso de não partilharem, ficam mais distantes. O segundo método deu origem a um algoritmo que denominamos k-C. Este para além de permitir a seleção inicial das sementes através de uma rede de tags também altera a forma como os novos centróides em cada iteração são calculados. A alteração ao cálculo dos centróides teve em consideração uma reflexão sobre a utilização da distância euclidiana e similaridade dos cossenos no algoritmo de clustering k-means. No contexto da avaliação dos algoritmos foram propostos dois algoritmos, o algoritmo da “Ground truth automática” e o algoritmo MCI. O primeiro permite a deteção da estrutura dos dados, caso seja desconhecida, e o segundo é uma medida de avaliação interna baseada na similaridade dos cossenos entre o documento mais próximo de cada documento. A análise de resultados preliminares sugere que a utilização do primeiro método de integração das tags no VSM tem mais impacto no algoritmo k-means do que no algoritmo k-C. Além disso, os resultados obtidos evidenciam que não existe correlação entre a escolha do parâmetro SS e a qualidade dos clusters. Neste sentido, os restantes testes foram conduzidos utilizando apenas o algoritmo k-C (sem integração de tags no VSM), sendo que os resultados obtidos indicam que a utilização deste algoritmo tende a gerar clusters mais eficazes.

Relevância:

20.00% 20.00%

Publicador:

Resumo:

Background Clustering of lifestyle risk behaviours is very important in predicting premature mortality. Understanding the extent to which risk behaviours are clustered in deprived communities is vital to most effectively target public health interventions. Methods We examined co-occurrence and associations between risk behaviours (smoking, alcohol consumption, poor diet, low physical activity and high sedentary time) reported by adults living in deprived London neighbourhoods. Associations between sociodemographic characteristics and clustered risk behaviours were examined. Latent class analysis was used to identify underlying clustering of behaviours. Results Over 90% of respondents reported at least one risk behaviour. Reporting specific risk behaviours predicted reporting of further risk behaviours. Latent class analyses revealed four underlying classes. Membership of a maximal risk behaviour class was more likely for young, white males who were unable to work. Conclusions Compared with recent national level analysis, there was a weaker relationship between education and clustering of behaviours and a very high prevalence of clustering of risk behaviours in those unable to work. Young, white men who report difficulty managing on income were at high risk of reporting multiple risk behaviours. These groups may be an important target for interventions to reduce premature mortality caused by multiple risk behaviours.

Relevância:

20.00% 20.00%

Publicador:

Resumo:

Dissertação de Mestrado, Biologia Marinha, Especialização em Aquacultura e Pescas, Faculdade de Ciências do Mar e do Ambiente, Universidade do Algarve, 2008

Relevância:

20.00% 20.00%

Publicador:

Resumo:

Complete supervised training algorithms for B-spline neural networks and fuzzy rule-based systems are discussed. By interducing the relationship between B-spline neural networks and certain types of fuzzy models, training algorithms developed initially for neural networks can be adapted by fuzzy systems.

Relevância:

20.00% 20.00%

Publicador:

Resumo:

One of the basic aspects of some neural networks is their attempt to approximate as much as possible their biological counterparts. The goal is to achieve a simple and robust network, easy to understand and able of simulating the human brain at a computational level. Recently a third generation of neural networks (NN) [1], called Spiking Neural Networks(SNN) was appeared. This new kind of networks use the time of a electrical pulse, or spike, to encode the information. In the first and second generation of NN analog values are used in the communication between neurons.

Relevância:

20.00% 20.00%

Publicador:

Resumo:

Dissertação de mestrado, Engenharia Biológica, Faculdade de Ciências e Tecnologia, Universidade do Algarve, 2015