877 resultados para Hier-archical clustering


Relevância:

20.00% 20.00%

Publicador:

Resumo:

The goal of most clustering algorithms is to find the optimal number of clusters (i.e. fewest number of clusters). However, analysis of molecular conformations of biological macromolecules obtained from computer simulations may benefit from a larger array of clusters. The Self-Organizing Map (SOM) clustering method has the advantage of generating large numbers of clusters, but often gives ambiguous results. In this work, SOMs have been shown to be reproducible when the same conformational dataset is independently clustered multiple times (~100), with the help of the Cramérs V-index (C_v). The ability of C_v to determine which SOMs are reproduced is generalizable across different SOM source codes. The conformational ensembles produced from MD (molecular dynamics) and REMD (replica exchange molecular dynamics) simulations of the penta peptide Met-enkephalin (MET) and the 34 amino acid protein human Parathyroid Hormone (hPTH) were used to evaluate SOM reproducibility. The training length for the SOM has a huge impact on the reproducibility. Analysis of MET conformational data definitively determined that toroidal SOMs cluster data better than bordered maps due to the fact that toroidal maps do not have an edge effect. For the source code from MATLAB, it was determined that the learning rate function should be LINEAR with an initial learning rate factor of 0.05 and the SOM should be trained by a sequential algorithm. The trained SOMs can be used as a supervised classification for another dataset. The toroidal 10×10 hexagonal SOMs produced from the MATLAB program for hPTH conformational data produced three sets of reproducible clusters (27%, 15%, and 13% of 100 independent runs) which find similar partitionings to those of smaller 6×6 SOMs. The χ^2 values produced as part of the C_v calculation were used to locate clusters with identical conformational memberships on independently trained SOMs, even those with different dimensions. The χ^2 values could relate the different SOM partitionings to each other.

Relevância:

20.00% 20.00%

Publicador:

Resumo:

Naïvement perçu, le processus d’évolution est une succession d’événements de duplication et de mutations graduelles dans le génome qui mènent à des changements dans les fonctions et les interactions du protéome. La famille des hydrolases de guanosine triphosphate (GTPases) similaire à Ras constitue un bon modèle de travail afin de comprendre ce phénomène fondamental, car cette famille de protéines contient un nombre limité d’éléments qui diffèrent en fonctionnalité et en interactions. Globalement, nous désirons comprendre comment les mutations singulières au niveau des GTPases affectent la morphologie des cellules ainsi que leur degré d’impact sur les populations asynchrones. Mon travail de maîtrise vise à classifier de manière significative différents phénotypes de la levure Saccaromyces cerevisiae via l’analyse de plusieurs critères morphologiques de souches exprimant des GTPases mutées et natives. Notre approche à base de microscopie et d’analyses bioinformatique des images DIC (microscopie d’interférence différentielle de contraste) permet de distinguer les phénotypes propres aux cellules natives et aux mutants. L’emploi de cette méthode a permis une détection automatisée et une caractérisation des phénotypes mutants associés à la sur-expression de GTPases constitutivement actives. Les mutants de GTPases constitutivement actifs Cdc42 Q61L, Rho5 Q91H, Ras1 Q68L et Rsr1 G12V ont été analysés avec succès. En effet, l’implémentation de différents algorithmes de partitionnement, permet d’analyser des données qui combinent les mesures morphologiques de population native et mutantes. Nos résultats démontrent que l’algorithme Fuzzy C-Means performe un partitionnement efficace des cellules natives ou mutantes, où les différents types de cellules sont classifiés en fonction de plusieurs facteurs de formes cellulaires obtenus à partir des images DIC. Cette analyse démontre que les mutations Cdc42 Q61L, Rho5 Q91H, Ras1 Q68L et Rsr1 G12V induisent respectivement des phénotypes amorphe, allongé, rond et large qui sont représentés par des vecteurs de facteurs de forme distincts. Ces distinctions sont observées avec différentes proportions (morphologie mutante / morphologie native) dans les populations de mutants. Le développement de nouvelles méthodes automatisées d’analyse morphologique des cellules natives et mutantes s’avère extrêmement utile pour l’étude de la famille des GTPases ainsi que des résidus spécifiques qui dictent leurs fonctions et réseau d’interaction. Nous pouvons maintenant envisager de produire des mutants de GTPases qui inversent leur fonction en ciblant des résidus divergents. La substitution fonctionnelle est ensuite détectée au niveau morphologique grâce à notre nouvelle stratégie quantitative. Ce type d’analyse peut également être transposé à d’autres familles de protéines et contribuer de manière significative au domaine de la biologie évolutive.

Relevância:

20.00% 20.00%

Publicador:

Resumo:

An Overview of known spatial clustering algorithms The space of interest can be the two-dimensional abstraction of the surface of the earth or a man-made space like the layout of a VLSI design, a volume containing a model of the human brain, or another 3d-space representing the arrangement of chains of protein molecules. The data consists of geometric information and can be either discrete or continuous. The explicit location and extension of spatial objects define implicit relations of spatial neighborhood (such as topological, distance and direction relations) which are used by spatial data mining algorithms. Therefore, spatial data mining algorithms are required for spatial characterization and spatial trend analysis. Spatial data mining or knowledge discovery in spatial databases differs from regular data mining in analogous with the differences between non-spatial data and spatial data. The attributes of a spatial object stored in a database may be affected by the attributes of the spatial neighbors of that object. In addition, spatial location, and implicit information about the location of an object, may be exactly the information that can be extracted through spatial data mining

Relevância:

20.00% 20.00%

Publicador:

Resumo:

In this paper, moving flock patterns are mined from spatio- temporal datasets by incorporating a clustering algorithm. A flock is defined as the set of data that move together for a certain continuous amount of time. Finding out moving flock patterns using clustering algorithms is a potential method to find out frequent patterns of movement in large trajectory datasets. In this approach, SPatial clusteRing algoRithm thrOugh sWarm intelligence (SPARROW) is the clustering algorithm used. The advantage of using SPARROW algorithm is that it can effectively discover clusters of widely varying sizes and shapes from large databases. Variations of the proposed method are addressed and also the experimental results show that the problem of scalability and duplicate pattern formation is addressed. This method also reduces the number of patterns produced

Relevância:

20.00% 20.00%

Publicador:

Resumo:

A spectral angle based feature extraction method, Spectral Clustering Independent Component Analysis (SC-ICA), is proposed in this work to improve the brain tissue classification from Magnetic Resonance Images (MRI). SC-ICA provides equal priority to global and local features; thereby it tries to resolve the inefficiency of conventional approaches in abnormal tissue extraction. First, input multispectral MRI is divided into different clusters by a spectral distance based clustering. Then, Independent Component Analysis (ICA) is applied on the clustered data, in conjunction with Support Vector Machines (SVM) for brain tissue analysis. Normal and abnormal datasets, consisting of real and synthetic T1-weighted, T2-weighted and proton density/fluid-attenuated inversion recovery images, were used to evaluate the performance of the new method. Comparative analysis with ICA based SVM and other conventional classifiers established the stability and efficiency of SC-ICA based classification, especially in reproduction of small abnormalities. Clinical abnormal case analysis demonstrated it through the highest Tanimoto Index/accuracy values, 0.75/98.8%, observed against ICA based SVM results, 0.17/96.1%, for reproduced lesions. Experimental results recommend the proposed method as a promising approach in clinical and pathological studies of brain diseases

Relevância:

20.00% 20.00%

Publicador:

Resumo:

Knowledge discovery in databases is the non-trivial process of identifying valid, novel potentially useful and ultimately understandable patterns from data. The term Data mining refers to the process which does the exploratory analysis on the data and builds some model on the data. To infer patterns from data, data mining involves different approaches like association rule mining, classification techniques or clustering techniques. Among the many data mining techniques, clustering plays a major role, since it helps to group the related data for assessing properties and drawing conclusions. Most of the clustering algorithms act on a dataset with uniform format, since the similarity or dissimilarity between the data points is a significant factor in finding out the clusters. If a dataset consists of mixed attributes, i.e. a combination of numerical and categorical variables, a preferred approach is to convert different formats into a uniform format. The research study explores the various techniques to convert the mixed data sets to a numerical equivalent, so as to make it equipped for applying the statistical and similar algorithms. The results of clustering mixed category data after conversion to numeric data type have been demonstrated using a crime data set. The thesis also proposes an extension to the well known algorithm for handling mixed data types, to deal with data sets having only categorical data. The proposed conversion has been validated on a data set corresponding to breast cancer. Moreover, another issue with the clustering process is the visualization of output. Different geometric techniques like scatter plot, or projection plots are available, but none of the techniques display the result projecting the whole database but rather demonstrate attribute-pair wise analysis

Relevância:

20.00% 20.00%

Publicador:

Resumo:

Ähnlich wie in Säugerzellen ist das neutrale Postlysosom in Dictyostelium discoideum von einem Coat aus filamentösem Actin umgeben. In dieser Arbeit wurde der Frage nach der Funktion dieses Actin-Cytoskeletts am späten Endosom nachgegangen. Hierzu wurde zunächst eine Analyse der Domänen des Vacuolin B durchgeführt, das als bisher spätester bekannter Marker im Endocytoseweg in Dictyostelium discoideum das neutrale, postlysosomale Kompartiment dekoriert. In einer Yeast Two Hybrid-Analyse wurden die Bereiche des Vacuolin B identifiziert, die für eine Selbst-Interaktion des Proteins notwendig und ausreichend sind. Es handelt sich dabei um die coiled-coil-Domäne und einen daran anschließenden, 18 Aminosäuren langen, alpha-helicalen Abschnitt. Diesem helicalen Bereich scheint die Funktion einer modifizierenden, die coiled-coil-Ausbildung vermittelnden oder initiierenden Faltungseinheit zuzukommen. Sie weist jedoch nicht die typischen Merkmale einer trigger-Helix auf. Lokalisationsuntersuchungen mit GFP-Deletionskonstrukten zeigten, dass es einen Zusammenhang zwischen Interaktionsfähigkeit und Bindung des Vacuolin an die Oberfläche später Endosomen gibt: Eine korrekte Lokalisation und Membranassoziation waren nur dann zu beobachten, wenn in der Yeast Two Hybrid-Analyse eine Interaktion nachgewiesen werden konnte. Es wurden die für die Lokalisation und Assoziation mit der vacuolären Membran notwendigen Sequenzbereiche identifiziert; diese waren jedoch nicht hinreichend. Vermutlich sind hierfür auch Sequenzen des N-Terminus notwendig. Die erhobenen Daten legen weiterhin eine Bedeutung der hydrophoben Domäne des Vacuolin B für die korrekte Faltung des Proteins nahe. Im Anschluss an die Domänenanalyse wurde Vacuolin dazu benutzt, durch Herstellung von Hybridproteinen Actin-interagierende Proteine gezielt an das späte Endosom zu transportieren. Es wurde deren Einfluss auf den lokalen Actin Coat und den endocytotischen Transit untersucht. Zwei Actin-bindende Proteine mit depolymerisierender Wirkung konnten im Rahmen dieser Arbeit getestet werden, nämlich Severin und Cofilin. Die Schwächung des lokalen Actin Coats durch das Vorhandensein von Severin an der späten Vacuole war nicht eindeutig festzustellen. Severin am Postlysosom führte nicht zu einer Veränderung der Transitkinetik von Flüssigphasenmarker. Allerdings konnte ein Defekt in der Phagocytose festgestellt werden. Es könnte hierbei ein Zusammenhang zwischen der Mobilisierung von intrazellulärem Calcium während der Partikelaufnahme und der Calcium-abhängigen Regulation der Severin-Aktivität bestehen. Das Hybridprotein aus Vacuolin und Cofilin zeigte neben einer Assoziation mit der vacuolären Membran auch eine Lokalisation im Cytoplasma und Cortex der Zellen. Mit der Lokalisation im Cytoplasma und Cortex korrelierte eine Veränderung der endocytotischen Aktivität. Das Vacuolin-Cofilin-Fusionsprotein am Postlysosom rief einen Verlust des lokalen Actin Coats hervor. Dies führte zu einer traubenförmigen Assoziation der späten Endosomen; exocytotische Parameter blieben jedoch unbeeinflusst. Aufgrund der hier erhobenen Daten kann vermutet werden, dass der Actin Coat am Postlysosom dazu dient, eine Agglutination dieser Endosomen zu inhibieren. Dies könnte ein Schutzmechanismus zum Ausschluss von Docking- und Fusionsereignissen sein.