875 resultados para document clustering
Resumo:
Même si le mot est ancien, la référence à la notion de document est récente dans l'Histoire, sans doute en résonance avec l'organisation de la société industrielle, sa régulation et ses valeurs. Au tournant du millénaire, le web s'est appuyé sur un renversement du circuit documentaire, jusqu'à, dans le web de données, un court-circuitage radical. S'agit-il de l'effacement d'une notion périmée au profit d'une autre ou d'un simple décalage ? Le succès du web accompagne des transformations sociales et économiques profondes. Quelles seront alors, sur nos régimes de vérité, de preuve et de transmission, les conséquences de l'éventuelle obsolescence de la notion de document ?
Resumo:
Naïvement perçu, le processus d’évolution est une succession d’événements de duplication et de mutations graduelles dans le génome qui mènent à des changements dans les fonctions et les interactions du protéome. La famille des hydrolases de guanosine triphosphate (GTPases) similaire à Ras constitue un bon modèle de travail afin de comprendre ce phénomène fondamental, car cette famille de protéines contient un nombre limité d’éléments qui diffèrent en fonctionnalité et en interactions. Globalement, nous désirons comprendre comment les mutations singulières au niveau des GTPases affectent la morphologie des cellules ainsi que leur degré d’impact sur les populations asynchrones. Mon travail de maîtrise vise à classifier de manière significative différents phénotypes de la levure Saccaromyces cerevisiae via l’analyse de plusieurs critères morphologiques de souches exprimant des GTPases mutées et natives. Notre approche à base de microscopie et d’analyses bioinformatique des images DIC (microscopie d’interférence différentielle de contraste) permet de distinguer les phénotypes propres aux cellules natives et aux mutants. L’emploi de cette méthode a permis une détection automatisée et une caractérisation des phénotypes mutants associés à la sur-expression de GTPases constitutivement actives. Les mutants de GTPases constitutivement actifs Cdc42 Q61L, Rho5 Q91H, Ras1 Q68L et Rsr1 G12V ont été analysés avec succès. En effet, l’implémentation de différents algorithmes de partitionnement, permet d’analyser des données qui combinent les mesures morphologiques de population native et mutantes. Nos résultats démontrent que l’algorithme Fuzzy C-Means performe un partitionnement efficace des cellules natives ou mutantes, où les différents types de cellules sont classifiés en fonction de plusieurs facteurs de formes cellulaires obtenus à partir des images DIC. Cette analyse démontre que les mutations Cdc42 Q61L, Rho5 Q91H, Ras1 Q68L et Rsr1 G12V induisent respectivement des phénotypes amorphe, allongé, rond et large qui sont représentés par des vecteurs de facteurs de forme distincts. Ces distinctions sont observées avec différentes proportions (morphologie mutante / morphologie native) dans les populations de mutants. Le développement de nouvelles méthodes automatisées d’analyse morphologique des cellules natives et mutantes s’avère extrêmement utile pour l’étude de la famille des GTPases ainsi que des résidus spécifiques qui dictent leurs fonctions et réseau d’interaction. Nous pouvons maintenant envisager de produire des mutants de GTPases qui inversent leur fonction en ciblant des résidus divergents. La substitution fonctionnelle est ensuite détectée au niveau morphologique grâce à notre nouvelle stratégie quantitative. Ce type d’analyse peut également être transposé à d’autres familles de protéines et contribuer de manière significative au domaine de la biologie évolutive.
Resumo:
L’adoption de la Loi concernant le cadre juridique des technologies de l’information en 2001 a permis de mettre en place un cadre juridique favorisant l’intégration des technologies de l’information dans le droit. Plus particulièrement en droit de la preuve, cela a conféré au document technologique la qualité d’élément de preuve. Dans ce contexte il a été nécessaire d’adapter certains articles du Code civil du Québec et du même fait certaines règles dont la règle de la meilleure preuve, telle que prévue à l’article 2860 C.c.Q.. Cette règle s’appuyait jusqu’à présent sur la notion d’original, notion propre au support papier dont il a fallu trouver un équivalent pour le document technologique. C’est ce qu’a fait la Loi en prévoyant à son article 12 les caractéristiques de l’original technologique. Nous nous penchons sur cette notion en regardant quelles sont ses origines et ses justifications, puis nous avons analysé l’article 12 de la Loi qui traite de l’original sous forme technologique. Enfin nous nous sommes interrogé sur la place des reproductions dans le contexte technologique et nous avons vu que celles-ci ont pris de plus en plus d’importance à côté du document original, au fur et à mesure du perfectionnement des moyens de reproduction.
Resumo:
"Ce texte se veut une réflexion sur les points à considérer avant l'adoption d'un système de dépôt électronique accessible à toutes les cours du Canada. En prenant pour exemple l'expérience torontoise, l'auteur souligne une série d'éléments à considérer avant la mise en œuvre d'un tel processus, à savoir : La nécessité de tenir compte des coûts associés à la formation des avocats, des juges, ainsi que du personnel juridique; L'attachement au document "" papier "" et le manque d'unanimité quant à la valeur du document électronique; et L'impact négatif que peut avoir l'informatisation des données sur la vie privée des contribuables. L'auteur conclu en ventant l'aspect centralisé du projet de dépôt électronique proposé par la Cour suprême en soulignant toutefois qu'un tel projet devra nécessairement évaluer les besoins des utilisateurs du système afin d'en tenir compte lors de sa conception."
Resumo:
Ce texte se veut un document de présentation visant familiariser les différents auteurs ayant participé à l’étude « Étude de faisabilité : Modèle de fournisseur de services de dépôt électronique », commandée par le Bureau du Registraire de la Cour suprême du Canada en septembre 2002 avec la notion de dépôt électronique telle qu’envisagée par le gouvernement canadien. Il fait l’état d’un modèle conceptuel de marché de fournisseur de services de dépôt électronique (FSDE) normatif géré par le secteur privé afin de fournir des services de dépôt électronique sûrs et peu coûteux aux praticiens du droit au Canada. Ce modèle envisagé par les responsables du projet pourra, grâce à l’utilisation de la norme juridique XML Court Filing 1.0, fournir une plate-forme commune de dépôt électronique et de gestion des documents offrant une interface avec les systèmes de gestion des instances et de gestion des documents de chaque tribunal. Ces travaux ne constituent pas pour autant un endossement du modèle FSDE, mais plutôt un engagement d’étudier de façon complète et systématique une solution de rechange au dépôt électronique afin d’améliorer notre connaissance collective dans ce domaine.
Resumo:
This research project is a contribution to the global field of information retrieval, specifically, to develop tools to enable information access in digital documents. We recognize the need to provide the user with flexible access to the contents of large, potentially complex digital documents, with means other than a search function or a handful of metadata elements. The goal is to produce a text browsing tool offering a maximum of information based on a fairly superficial linguistic analysis. We are concerned with a type of extensive single-document indexing, and not indexing by a set of keywords (see Klement, 2002, for a clear distinction between the two). The desired browsing tool would not only give at a glance the main topics discussed in the document, but would also present relationships between these topics. It would also give direct access to the text (via hypertext links to specific passages). The present paper, after reviewing previous research on this and similar topics, discusses the methodology and the main characteristics of a prototype we have devised. Experimental results are presented, as well as an analysis of remaining hurdles and potential applications.
Resumo:
Le fichier vidéo en format .avi accompagne mon document et correspond à l'annexe II. C'est une vidéomicroscopie dont la légende est mise en annexe II.
Resumo:
Le syndrome de Joubert est une maladie récessive caractérisée par une malformation congénitale distincte du tronc cérébral et du cervelet, associée à une anomalie des mouvements oculaires (apraxie oculomotrice), une respiration irrégulière, un retard de développement, et une ataxie à la démarche. Au cours de la dernière décennie, plus de 20 gènes responsables ont été identifiés, tous ayant un rôle important dans la structure et la fonction des cils primaires. Ainsi, le syndrome de Joubert est considéré une ciliopathie. Bien que le Syndrome de Joubert ait été décrit pour la première fois dans une famille canadienne-française en 1969, le(s) gène(s) causal demeurait inconnu dans presque tous les cas de syndrome de Joubert recensés en 2010 dans la population canadienne-française, soit début de mon projet doctoral. Nous avons identifié un total de 43 individus canadiens-français (35 familles) atteints du syndrome de Joubert. Il y avait un regroupement de familles dans la région du Bas-Saint-Laurent de la province de Québec, suggérant la présence d'un effet fondateur. L’objectif de ce projet était de caractériser la génétique du syndrome de Joubert dans la population canadienne-française. Notre hypothèse était qu’il existait un effet fondateur impliquant au moins un nouveau gène JBTS. Ainsi, dans un premier temps, nous avons utilisé une approche de cartographie par homozygotie. Cependant, nous n’avons pas identifié de région d’homozygotie partagée parmi les individus atteints, suggérant la présence d’une hétérogénéité génétique ou allélique. Nous avons donc utilisé le séquençage exomique chez nos patients, ce qui représente une approche plus puissante pour l’étude de conditions génétiquement hétérogènes. Nos travaux ont permis l’identification de deux nouveaux gènes responsables du syndrome de Joubert: C5orf42 et TMEM231. Bien que la localisation cellulaire et la fonction de C5orf42 soient inconnus au moment de cette découverte, nos résultats génétiques combinés avec des études ultérieures ont établi un rôle important de C5orf42 dans la structure et la fonction ciliaire, en particulier dans la zone de transition, qui est une zone de transition entre le cil et le reste de la cellule. TMEM231 avait déjà un rôle établi dans la zone de transition ciliaire et son interaction avec d’autres protéines impliquées dans le syndrome de Joubert était connu. Nos études ont également identifié des variants rares délétères chez un patient JBTS dans le gène ciliaire CEP104. Nous proposons donc CEP104 comme un gène candidat JBTS. Nous avons identifié des mutations causales dans 10 gènes, y compris des mutations dans CC2D2A dans 9 familles et NPHP1 dans 3 familles. Au total, nous avons identifié les mutations causales définitives chez 32 des 35 familles étudiées (91% des cas). Nous avons documenté un effet fondateur complexe dans la population canadienne-française avec de multiples mutations récurrentes dans quatre gènes différents (C5orf42, CC2D2A, TMEM231, NPHP1). Au début de ce projet de recherche, l’étiologie génétique était inconnue chez les 35 familles touchées du syndrome de Joubert. Maintenant, un diagnostique moléculaire définitif est identifié chez 32 familles, et probable chez les 3 autres. Nos travaux ont abouti à la caractérisation génétique du syndrome de Joubert dans la population canadienne-française grâce au séquençage exomique, et révèlent la présence d'un effet fondateur complexe avec une l'hétérogénéité allélique et intralocus importante. Ces découvertes ont éclairé la physiologie de cette maladie. Finalement, l’identification des gènes responsables ouvre de nouvelles perspectives diagnostiques ante-natales, et de conseils génétique, très précieuses pour les familles.
Resumo:
The work is intended to study the following important aspects of document image processing and develop new methods. (1) Segmentation ofdocument images using adaptive interval valued neuro-fuzzy method. (2) Improving the segmentation procedure using Simulated Annealing technique. (3) Development of optimized compression algorithms using Genetic Algorithm and parallel Genetic Algorithm (4) Feature extraction of document images (5) Development of IV fuzzy rules. This work also helps for feature extraction and foreground and background identification. The proposed work incorporates Evolutionary and hybrid methods for segmentation and compression of document images. A study of different neural networks used in image processing, the study of developments in the area of fuzzy logic etc is carried out in this work
Resumo:
An Overview of known spatial clustering algorithms The space of interest can be the two-dimensional abstraction of the surface of the earth or a man-made space like the layout of a VLSI design, a volume containing a model of the human brain, or another 3d-space representing the arrangement of chains of protein molecules. The data consists of geometric information and can be either discrete or continuous. The explicit location and extension of spatial objects define implicit relations of spatial neighborhood (such as topological, distance and direction relations) which are used by spatial data mining algorithms. Therefore, spatial data mining algorithms are required for spatial characterization and spatial trend analysis. Spatial data mining or knowledge discovery in spatial databases differs from regular data mining in analogous with the differences between non-spatial data and spatial data. The attributes of a spatial object stored in a database may be affected by the attributes of the spatial neighbors of that object. In addition, spatial location, and implicit information about the location of an object, may be exactly the information that can be extracted through spatial data mining
Resumo:
In this paper, moving flock patterns are mined from spatio- temporal datasets by incorporating a clustering algorithm. A flock is defined as the set of data that move together for a certain continuous amount of time. Finding out moving flock patterns using clustering algorithms is a potential method to find out frequent patterns of movement in large trajectory datasets. In this approach, SPatial clusteRing algoRithm thrOugh sWarm intelligence (SPARROW) is the clustering algorithm used. The advantage of using SPARROW algorithm is that it can effectively discover clusters of widely varying sizes and shapes from large databases. Variations of the proposed method are addressed and also the experimental results show that the problem of scalability and duplicate pattern formation is addressed. This method also reduces the number of patterns produced
Resumo:
This work proposes a parallel genetic algorithm for compressing scanned document images. A fitness function is designed with Hausdorff distance which determines the terminating condition. The algorithm helps to locate the text lines. A greater compression ratio has achieved with lesser distortion
Resumo:
A spectral angle based feature extraction method, Spectral Clustering Independent Component Analysis (SC-ICA), is proposed in this work to improve the brain tissue classification from Magnetic Resonance Images (MRI). SC-ICA provides equal priority to global and local features; thereby it tries to resolve the inefficiency of conventional approaches in abnormal tissue extraction. First, input multispectral MRI is divided into different clusters by a spectral distance based clustering. Then, Independent Component Analysis (ICA) is applied on the clustered data, in conjunction with Support Vector Machines (SVM) for brain tissue analysis. Normal and abnormal datasets, consisting of real and synthetic T1-weighted, T2-weighted and proton density/fluid-attenuated inversion recovery images, were used to evaluate the performance of the new method. Comparative analysis with ICA based SVM and other conventional classifiers established the stability and efficiency of SC-ICA based classification, especially in reproduction of small abnormalities. Clinical abnormal case analysis demonstrated it through the highest Tanimoto Index/accuracy values, 0.75/98.8%, observed against ICA based SVM results, 0.17/96.1%, for reproduced lesions. Experimental results recommend the proposed method as a promising approach in clinical and pathological studies of brain diseases
Resumo:
Knowledge discovery in databases is the non-trivial process of identifying valid, novel potentially useful and ultimately understandable patterns from data. The term Data mining refers to the process which does the exploratory analysis on the data and builds some model on the data. To infer patterns from data, data mining involves different approaches like association rule mining, classification techniques or clustering techniques. Among the many data mining techniques, clustering plays a major role, since it helps to group the related data for assessing properties and drawing conclusions. Most of the clustering algorithms act on a dataset with uniform format, since the similarity or dissimilarity between the data points is a significant factor in finding out the clusters. If a dataset consists of mixed attributes, i.e. a combination of numerical and categorical variables, a preferred approach is to convert different formats into a uniform format. The research study explores the various techniques to convert the mixed data sets to a numerical equivalent, so as to make it equipped for applying the statistical and similar algorithms. The results of clustering mixed category data after conversion to numeric data type have been demonstrated using a crime data set. The thesis also proposes an extension to the well known algorithm for handling mixed data types, to deal with data sets having only categorical data. The proposed conversion has been validated on a data set corresponding to breast cancer. Moreover, another issue with the clustering process is the visualization of output. Different geometric techniques like scatter plot, or projection plots are available, but none of the techniques display the result projecting the whole database but rather demonstrate attribute-pair wise analysis
Resumo:
Many recent Web 2.0 resource sharing applications can be subsumed under the "folksonomy" moniker. Regardless of the type of resource shared, all of these share a common structure describing the assignment of tags to resources by users. In this report, we generalize the notions of clustering and characteristic path length which play a major role in the current research on networks, where they are used to describe the small-world effects on many observable network datasets. To that end, we show that the notion of clustering has two facets which are not equivalent in the generalized setting. The new measures are evaluated on two large-scale folksonomy datasets from resource sharing systems on the web.