973 resultados para graph anonymization
Resumo:
Malgré des progrès constants en termes de capacité de calcul, mémoire et quantité de données disponibles, les algorithmes d'apprentissage machine doivent se montrer efficaces dans l'utilisation de ces ressources. La minimisation des coûts est évidemment un facteur important, mais une autre motivation est la recherche de mécanismes d'apprentissage capables de reproduire le comportement d'êtres intelligents. Cette thèse aborde le problème de l'efficacité à travers plusieurs articles traitant d'algorithmes d'apprentissage variés : ce problème est vu non seulement du point de vue de l'efficacité computationnelle (temps de calcul et mémoire utilisés), mais aussi de celui de l'efficacité statistique (nombre d'exemples requis pour accomplir une tâche donnée). Une première contribution apportée par cette thèse est la mise en lumière d'inefficacités statistiques dans des algorithmes existants. Nous montrons ainsi que les arbres de décision généralisent mal pour certains types de tâches (chapitre 3), de même que les algorithmes classiques d'apprentissage semi-supervisé à base de graphe (chapitre 5), chacun étant affecté par une forme particulière de la malédiction de la dimensionalité. Pour une certaine classe de réseaux de neurones, appelés réseaux sommes-produits, nous montrons qu'il peut être exponentiellement moins efficace de représenter certaines fonctions par des réseaux à une seule couche cachée, comparé à des réseaux profonds (chapitre 4). Nos analyses permettent de mieux comprendre certains problèmes intrinsèques liés à ces algorithmes, et d'orienter la recherche dans des directions qui pourraient permettre de les résoudre. Nous identifions également des inefficacités computationnelles dans les algorithmes d'apprentissage semi-supervisé à base de graphe (chapitre 5), et dans l'apprentissage de mélanges de Gaussiennes en présence de valeurs manquantes (chapitre 6). Dans les deux cas, nous proposons de nouveaux algorithmes capables de traiter des ensembles de données significativement plus grands. Les deux derniers chapitres traitent de l'efficacité computationnelle sous un angle différent. Dans le chapitre 7, nous analysons de manière théorique un algorithme existant pour l'apprentissage efficace dans les machines de Boltzmann restreintes (la divergence contrastive), afin de mieux comprendre les raisons qui expliquent le succès de cet algorithme. Finalement, dans le chapitre 8 nous présentons une application de l'apprentissage machine dans le domaine des jeux vidéo, pour laquelle le problème de l'efficacité computationnelle est relié à des considérations d'ingénierie logicielle et matérielle, souvent ignorées en recherche mais ô combien importantes en pratique.
Resumo:
Les simulations ont été implémentées avec le programme Java.
Resumo:
Dans un premier temps, nous avons modélisé la structure d’une famille d’ARN avec une grammaire de graphes afin d’identifier les séquences qui en font partie. Plusieurs autres méthodes de modélisation ont été développées, telles que des grammaires stochastiques hors-contexte, des modèles de covariance, des profils de structures secondaires et des réseaux de contraintes. Ces méthodes de modélisation se basent sur la structure secondaire classique comparativement à nos grammaires de graphes qui se basent sur les motifs cycliques de nucléotides. Pour exemplifier notre modèle, nous avons utilisé la boucle E du ribosome qui contient le motif Sarcin-Ricin qui a été largement étudié depuis sa découverte par cristallographie aux rayons X au début des années 90. Nous avons construit une grammaire de graphes pour la structure du motif Sarcin-Ricin et avons dérivé toutes les séquences qui peuvent s’y replier. La pertinence biologique de ces séquences a été confirmée par une comparaison des séquences d’un alignement de plus de 800 séquences ribosomiques bactériennes. Cette comparaison a soulevée des alignements alternatifs pour quelques unes des séquences que nous avons supportés par des prédictions de structures secondaires et tertiaires. Les motifs cycliques de nucléotides ont été observés par les membres de notre laboratoire dans l'ARN dont la structure tertiaire a été résolue expérimentalement. Une étude des séquences et des structures tertiaires de chaque cycle composant la structure du Sarcin-Ricin a révélé que l'espace des séquences dépend grandement des interactions entre tous les nucléotides à proximité dans l’espace tridimensionnel, c’est-à-dire pas uniquement entre deux paires de bases adjacentes. Le nombre de séquences générées par la grammaire de graphes est plus petit que ceux des méthodes basées sur la structure secondaire classique. Cela suggère l’importance du contexte pour la relation entre la séquence et la structure, d’où l’utilisation d’une grammaire de graphes contextuelle plus expressive que les grammaires hors-contexte. Les grammaires de graphes que nous avons développées ne tiennent compte que de la structure tertiaire et négligent les interactions de groupes chimiques spécifiques avec des éléments extra-moléculaires, comme d’autres macromolécules ou ligands. Dans un deuxième temps et pour tenir compte de ces interactions, nous avons développé un modèle qui tient compte de la position des groupes chimiques à la surface des structures tertiaires. L’hypothèse étant que les groupes chimiques à des positions conservées dans des séquences prédéterminées actives, qui sont déplacés dans des séquences inactives pour une fonction précise, ont de plus grandes chances d’être impliqués dans des interactions avec des facteurs. En poursuivant avec l’exemple de la boucle E, nous avons cherché les groupes de cette boucle qui pourraient être impliqués dans des interactions avec des facteurs d'élongation. Une fois les groupes identifiés, on peut prédire par modélisation tridimensionnelle les séquences qui positionnent correctement ces groupes dans leurs structures tertiaires. Il existe quelques modèles pour adresser ce problème, telles que des descripteurs de molécules, des matrices d’adjacences de nucléotides et ceux basé sur la thermodynamique. Cependant, tous ces modèles utilisent une représentation trop simplifiée de la structure d’ARN, ce qui limite leur applicabilité. Nous avons appliqué notre modèle sur les structures tertiaires d’un ensemble de variants d’une séquence d’une instance du Sarcin-Ricin d’un ribosome bactérien. L’équipe de Wool à l’université de Chicago a déjà étudié cette instance expérimentalement en testant la viabilité de 12 variants. Ils ont déterminé 4 variants viables et 8 létaux. Nous avons utilisé cet ensemble de 12 séquences pour l’entraînement de notre modèle et nous avons déterminé un ensemble de propriétés essentielles à leur fonction biologique. Pour chaque variant de l’ensemble d’entraînement nous avons construit des modèles de structures tertiaires. Nous avons ensuite mesuré les charges partielles des atomes exposés sur la surface et encodé cette information dans des vecteurs. Nous avons utilisé l’analyse des composantes principales pour transformer les vecteurs en un ensemble de variables non corrélées, qu’on appelle les composantes principales. En utilisant la distance Euclidienne pondérée et l’algorithme du plus proche voisin, nous avons appliqué la technique du « Leave-One-Out Cross-Validation » pour choisir les meilleurs paramètres pour prédire l’activité d’une nouvelle séquence en la faisant correspondre à ces composantes principales. Finalement, nous avons confirmé le pouvoir prédictif du modèle à l’aide d’un nouvel ensemble de 8 variants dont la viabilité à été vérifiée expérimentalement dans notre laboratoire. En conclusion, les grammaires de graphes permettent de modéliser la relation entre la séquence et la structure d’un élément structural d’ARN, comme la boucle E contenant le motif Sarcin-Ricin du ribosome. Les applications vont de la correction à l’aide à l'alignement de séquences jusqu’au design de séquences ayant une structure prédéterminée. Nous avons également développé un modèle pour tenir compte des interactions spécifiques liées à une fonction biologique donnée, soit avec des facteurs environnants. Notre modèle est basé sur la conservation de l'exposition des groupes chimiques qui sont impliqués dans ces interactions. Ce modèle nous a permis de prédire l’activité biologique d’un ensemble de variants de la boucle E du ribosome qui se lie à des facteurs d'élongation.
Resumo:
Aujourd’hui, on parle du Web social. Facebook par exemple, porte bien la marque de son époque ; il est devenu le réseau social le plus convoité dans le monde. Toutefois, l’entreprise a été souvent critiquée en raison de sa politique qui porte atteinte à la vie privée des personnes. Par le truchement de ses modules sociaux, Facebook a le potentiel de collecter et d’utiliser des informations considérables sur les internautes à leur insu et sans leur consentement. Ce fait est malheureusement méconnu de la majorité d’entre eux. Certes, l’entreprise doit vivre économiquement et l’exploitation des renseignements personnels constitue pour elle une source de revenu. Toutefois, cette quête de subsistance ne doit pas se faire au détriment de la vie privée des gens. En dépit des outils juridiques dont le Canada dispose en matière de protection de la vie privée, des entreprises du Web à l’image de Facebook réussissent à les contourner.
Resumo:
La compréhension des objets dans les programmes orientés objet est une tâche impor- tante à la compréhension du code. JavaScript (JS) est un langage orienté-objet dyna- mique, et son dynamisme rend la compréhension du code source très difficile. Dans ce mémoire, nous nous intéressons à l’analyse des objets pour les programmes JS. Notre approche construit de façon automatique un graphe d’objets inspiré du diagramme de classes d’UML à partir d’une exécution concrète d’un programme JS. Le graphe résul- tant montre la structure des objets ainsi que les interactions entre eux. Notre approche utilise une transformation du code source afin de produire cette in- formation au cours de l’exécution. Cette transformation permet de recueillir de l’infor- mation complète au sujet des objets crées ainsi que d’intercepter toutes les modifications de ces objets. À partir de cette information, nous appliquons plusieurs abstractions qui visent à produire une représentation des objets plus compacte et intuitive. Cette approche est implémentée dans l’outil JSTI. Afin d’évaluer l’utilité de l’approche, nous avons mesuré sa performance ainsi que le degré de réduction dû aux abstractions. Nous avons utilisé les dix programmes de réfé- rence de V8 pour cette comparaison. Les résultats montrent que JSTI est assez efficace pour être utilisé en pratique, avec un ralentissement moyen de 14x. De plus, pour 9 des 10 programmes, les graphes sont suffisamment compacts pour être visualisés. Nous avons aussi validé l’approche de façon qualitative en inspectant manuellement les graphes gé- nérés. Ces graphes correspondent généralement très bien au résultat attendu. Mots clés: Analyse de programmes, analyse dynamique, JavaScript, profilage.
Resumo:
Ce mémoire analyse l’espérance du temps de fixation conditionnellement à ce qu’elle se produise et la probabilité de fixation d’un nouvel allèle mutant dans des populations soumises à différents phénomènes biologiques en uti- lisant l’approche des processus ancestraux. Tout d’abord, l’article de Tajima (1990) est analysé et les différentes preuves y étant manquantes ou incomplètes sont détaillées, dans le but de se familiariser avec les calculs du temps de fixa- tion. L’étude de cet article permet aussi de démontrer l’importance du temps de fixation sur certains phénomènes biologiques. Par la suite, l’effet de la sé- lection naturelle est introduit au modèle. L’article de Mano (2009) cite un ré- sultat intéressant quant à l’espérance du temps de fixation conditionnellement à ce que celle-ci survienne qui utilise une approximation par un processus de diffusion. Une nouvelle méthode utilisant le processus ancestral est présentée afin d’arriver à une bonne approximation de ce résultat. Des simulations sont faites afin de vérifier l’exactitude de la nouvelle approche. Finalement, un mo- dèle soumis à la conversion génique est analysé, puisque ce phénomène, en présence de biais, a un effet similaire à celui de la sélection. Nous obtenons finalement un résultat analytique pour la probabilité de fixation d’un nouveau mutant dans la population. Enfin, des simulations sont faites afin de détermi- nerlaprobabilitédefixationainsiqueletempsdefixationconditionnellorsque les taux sont trop grands pour pouvoir les calculer analytiquement.
Resumo:
La duplication est un des évènements évolutifs les plus importants, car elle peut mener à la création de nouvelles fonctions géniques. Durant leur évolution, les génomes sont aussi affectés par des inversions, des translocations (incluant des fusions et fissions de chromosomes), des transpositions et des délétions. L'étude de l'évolution des génomes est importante, notamment pour mieux comprendre les mécanismes biologiques impliqués, les types d'évènements qui sont les plus fréquents et quels étaient les contenus en gènes des espèces ancestrales. Afin d'analyser ces différents aspects de l'évolution des génomes, des algorithmes efficaces doivent être créés pour inférer des génomes ancestraux, des histoires évolutives, des relations d'homologies et pour calculer les distances entre les génomes. Dans cette thèse, quatre projets reliés à l'étude et à l'analyse de l'évolution des génomes sont présentés : 1) Nous proposons deux algorithmes pour résoudre des problèmes reliés à la duplication de génome entier : un qui généralise le problème du genome halving aux pertes de gènes et un qui permet de calculer la double distance avec pertes. 2) Nous présentons une nouvelle méthode pour l'inférence d'histoires évolutives de groupes de gènes orthologues répétés en tandem. 3) Nous proposons une nouvelle approche basée sur la théorie des graphes pour inférer des gènes in-paralogues qui considère simultanément l'information provenant de différentes espèces afin de faire de meilleures prédictions. 4) Nous présentons une étude de l'histoire évolutive des gènes d'ARN de transfert chez 50 souches de Bacillus.
Resumo:
Nous présentons dans cette thèse notre travail dans le domaine de la visualisation. Nous nous sommes intéressés au problème de la génération des bulletins météorologiques. Étant donné une masse énorme d’information générée par Environnement Canada et un utilisateur, il faut lui générer une visualisation personnalisée qui répond à ses besoins et à ses préférences. Nous avons développé MeteoVis, un générateur de bulletin météorologique. Comme nous avons peu d’information sur le profil de l’utilisateur, nous nous sommes basés sur les utilisateurs similaires pour lui calculer ses besoins et ses préférences. Nous utilisons l'apprentissage non supervisé pour regrouper les utilisateurs similaires. Nous calculons le taux de similarité des profils utilisateurs dans le même cluster pour pondérer les besoins et les préférences. Nous avons mené, avec l’aide d'utilisateurs n’ayant aucun rapport avec le projet, des expériences d'évaluation et de comparaison de notre outil par rapport à celui utilisé actuellement par Environnement Canada. Les résultats de cette évaluation montrent que les visualisation générées par MeteoVis sont de loin meilleures que les bulletins actuels préparés par EC.
Resumo:
Des efforts de recherche considérables ont été déployés afin d'améliorer les résultats de traitement de cancers pulmonaires. L'étude de la déformation de l'anatomie du patient causée par la ventilation pulmonaire est au coeur du processus de planification de traitement radio-oncologique. À l'aide d'images de tomodensitométrie quadridimensionnelles (4DCT), une simulation dosimétrique peut être calculée sur les 10 ensembles d'images du 4DCT. Une méthode doit être employée afin de recombiner la dose de radiation calculée sur les 10 anatomies représentant une phase du cycle respiratoire. L'utilisation de recalage déformable d'images (DIR), une méthode de traitement d'images numériques, génère neuf champs vectoriels de déformation permettant de rapporter neuf ensembles d'images sur un ensemble de référence correspondant habituellement à la phase d'expiration profonde du cycle respiratoire. L'objectif de ce projet est d'établir une méthode de génération de champs de déformation à l'aide de la DIR conjointement à une méthode de validation de leur précision. Pour y parvenir, une méthode de segmentation automatique basée sur la déformation surfacique de surface à été créée. Cet algorithme permet d'obtenir un champ de déformation surfacique qui décrit le mouvement de l'enveloppe pulmonaire. Une interpolation volumétrique est ensuite appliquée dans le volume pulmonaire afin d'approximer la déformation interne des poumons. Finalement, une représentation en graphe de la vascularisation interne du poumon a été développée afin de permettre la validation du champ de déformation. Chez 15 patients, une erreur de recouvrement volumique de 7.6 ± 2.5[%] / 6.8 ± 2.1[%] et une différence relative des volumes de 6.8 ± 2.4 [%] / 5.9 ± 1.9 [%] ont été calculées pour le poumon gauche et droit respectivement. Une distance symétrique moyenne 0.8 ± 0.2 [mm] / 0.8 ± 0.2 [mm], une distance symétrique moyenne quadratique de 1.2 ± 0.2 [mm] / 1.3 ± 0.3 [mm] et une distance symétrique maximale 7.7 ± 2.4 [mm] / 10.2 ± 5.2 [mm] ont aussi été calculées pour le poumon gauche et droit respectivement. Finalement, 320 ± 51 bifurcations ont été détectées dans le poumons droit d'un patient, soit 92 ± 10 et 228 ± 45 bifurcations dans la portion supérieure et inférieure respectivement. Nous avons été en mesure d'obtenir des champs de déformation nécessaires pour la recombinaison de dose lors de la planification de traitement radio-oncologique à l'aide de la méthode de déformation hiérarchique des surfaces. Nous avons été en mesure de détecter les bifurcations de la vascularisation pour la validation de ces champs de déformation.
Resumo:
Nous présentons dans cette thèse des théorèmes de point fixe pour des contractions multivoques définies sur des espaces métriques, et, sur des espaces de jauges munis d’un graphe. Nous illustrons également les applications de ces résultats à des inclusions intégrales et à la théorie des fractales. Cette thèse est composée de quatre articles qui sont présentés dans quatre chapitres. Dans le chapitre 1, nous établissons des résultats de point fixe pour des fonctions multivoques, appelées G-contractions faibles. Celles-ci envoient des points connexes dans des points connexes et contractent la longueur des chemins. Les ensembles de points fixes sont étudiés. La propriété d’invariance homotopique d’existence d’un point fixe est également établie pour une famille de Gcontractions multivoques faibles. Dans le chapitre 2, nous établissons l’existence de solutions pour des systèmes d’inclusions intégrales de Hammerstein sous des conditions de type de monotonie mixte. L’existence de solutions pour des systèmes d’inclusions différentielles avec conditions initiales ou conditions aux limites périodiques est également obtenue. Nos résultats s’appuient sur nos théorèmes de point fixe pour des G-contractions multivoques faibles établis au chapitre 1. Dans le chapitre 3, nous appliquons ces mêmes résultats de point fixe aux systèmes de fonctions itérées assujettis à un graphe orienté. Plus précisément, nous construisons un espace métrique muni d’un graphe G et une G-contraction appropriés. En utilisant les points fixes de cette G-contraction, nous obtenons plus d’information sur les attracteurs de ces systèmes de fonctions itérées. Dans le chapitre 4, nous considérons des contractions multivoques définies sur un espace de jauges muni d’un graphe. Nous prouvons un résultat de point fixe pour des fonctions multivoques qui envoient des points connexes dans des points connexes et qui satisfont une condition de contraction généralisée. Ensuite, nous étudions des systèmes infinis de fonctions itérées assujettis à un graphe orienté (H-IIFS). Nous donnons des conditions assurant l’existence d’un attracteur unique à un H-IIFS. Enfin, nous appliquons notre résultat de point fixe pour des contractions multivoques définies sur un espace de jauges muni d’un graphe pour obtenir plus d’information sur l’attracteur d’un H-IIFS. Plus précisément, nous construisons un espace de jauges muni d’un graphe G et une G-contraction appropriés tels que ses points fixes sont des sous-attracteurs du H-IIFS.
Resumo:
Notre étude porte sur la manière dont les chercheurs universitaires junior et senior en sciences sociales au Québec établissent leurs réseaux de cosignataires et donnent une interprétation discursive à leurs activités de collaboration face à l'impact du changement institutionnel universitaire pendant la période 1990-2009. Plus spécifiquement, notre recherche s'intéresse à montrer que la création des réseaux et la collaboration scientifique par cosignature peuvent être identifiées comme des « ajustements professionnels » et se présenter aussi comme une ressource du capital social qui peut être mobilisé et qui peut produire des avantages aux chercheurs en accord avec leur statut junior ou senior. Il s’agit donc d’une recherche qui relève de la sociologie des sciences. Notre approche a été opérationnalisée à partir de l'étude de 15 membres d'un centre de recherche universitaire au Québec, et leur réseau de 447 cosignataires (y compris les chercheurs de l'étude), et à travers l'application de 7 entretiens auprès de chercheurs junior et senior du même centre. Dans le même plan opérationnel, depuis une perspective qualitative, la thèse permet d'identifier le sens discursif que les chercheurs fournissent à la collaboration et à la participation en réseaux de cosignatures. Ensuite, depuis l'analyse structurelle des réseaux, notre étude montre les connexions individuelles et leurs formes d'interprétation — spécialement la théorie des graphes et ses mesures de centralité (la centralité de degré, la centralité d’intermédiarité et la centralité de vecteur propre) — de même que l'homophilie par statut entre chercheurs. Enfin, depuis l'analyse statistique, elle montre la corrélation des périodes de l'étude et des attributs socioprofessionnels des chercheurs étudiés (sexe, statut universitaire, affiliation institutionnelle, discipline d’appartenance, pays, région du Canada et ville de travail). Notamment, les résultats de notre thèse montrent que chaque catégorie de chercheurs possède ses propres particularités structurelles et discursives en ce qui a trait à ses pratiques de collaboration en réseau, et vont confirmer que les chercheurs senior, plus que les chercheurs junior, grâce à leur capital social mobilisé, ont conservé et obtenu plus d'avantages de leur réseau de cosignataires afin de s'adapter au changement institutionnel et mieux gérer leur travail de collaboration destiné à l’espace international, mais surtout à l'espace local.
Resumo:
Le but de ce projet était de développer des méthodes d'assemblage de novo dans le but d'assembler de petits génomes, principalement bactériens, à partir de données de séquençage de nouvelle-génération. Éventuellement, ces méthodes pourraient être appliquées à l'assemblage du génome de StachEndo, une Alpha-Protéobactérie inconnue endosymbiote de l'amibe Stachyamoeba lipophora. Suite à plusieurs analyses préliminaires, il fut observé que l’utilisation de lectures Illumina avec des assembleurs par graphe DeBruijn produisait les meilleurs résultats. Ces expériences ont également montré que les contigs produits à partir de différentes tailles de k-mères étaient complémentaires pour la finition des génomes. L’ajout de longues paires de lectures chevauchantes se montra essentiel pour la finition complète des grandes répétitions génomiques. Ces méthodes permirent d'assembler le génome de StachEndo (1,7 Mb). L'annotation de ce génome permis de montrer que StachEndo possède plusieurs caractéristiques inhabituelles chez les endosymbiotes. StachEndo constitue une espèce d'intérêt pour l'étude du développement endosymbiotique.
Resumo:
Présentation: Cet article a été publié dans le journal : Computerised medical imaging and graphics (CMIG). Le but de cet article est de recaler les vertèbres extraites à partir d’images RM avec des vertèbres extraites à partir d’images RX pour des patients scoliotiques, en tenant compte des déformations non-rigides due au changement de posture entre ces deux modalités. À ces fins, une méthode de recalage à l’aide d’un modèle articulé est proposée. Cette méthode a été comparée avec un recalage rigide en calculant l’erreur sur des points de repère, ainsi qu’en calculant la différence entre l’angle de Cobb avant et après recalage. Une validation additionelle de la méthode de recalage présentée ici se trouve dans l’annexe A. Ce travail servira de première étape dans la fusion des images RM, RX et TP du tronc complet. Donc, cet article vérifie l’hypothèse 1 décrite dans la section 3.2.1.
Resumo:
Réalisé en cotutelle avec Aix Marseille Université.
Resumo:
One of the major concerns of scoliotic patients undergoing spinal correction surgery is the trunk's external appearance after the surgery. This paper presents a novel incremental approach for simulating postoperative trunk shape in scoliosis surgery. Preoperative and postoperative trunk shapes data were obtained using three-dimensional medical imaging techniques for seven patients with adolescent idiopathic scoliosis. Results of qualitative and quantitative evaluations, based on the comparison of the simulated and actual postoperative trunk surfaces, showed an adequate accuracy of the method. Our approach provides a candidate simulation tool to be used in a clinical environment for the surgery planning process.