Biblioteca Digital

738 resultados para Annotation de génomes

Représentation OWL de la ressource lexicale LVF et son utilisation dans le traitement automatique de la langue

Relevância:

10.00% 10.00%

Publicador:

Resumo:

Le dictionnaire LVF (Les Verbes Français) de J. Dubois et F. Dubois-Charlier représente une des ressources lexicales les plus importantes dans la langue française qui est caractérisée par une description sémantique et syntaxique très pertinente. Le LVF a été mis disponible sous un format XML pour rendre l’accès aux informations plus commode pour les applications informatiques telles que les applications de traitement automatique de la langue française. Avec l’émergence du web sémantique et la diffusion rapide de ses technologies et standards tels que XML, RDF/RDFS et OWL, il serait intéressant de représenter LVF en un langage plus formalisé afin de mieux l’exploiter par les applications du traitement automatique de la langue ou du web sémantique. Nous en présentons dans ce mémoire une version ontologique OWL en détaillant le processus de transformation de la version XML à OWL et nous en démontrons son utilisation dans le domaine du traitement automatique de la langue avec une application d’annotation sémantique développée dans GATE.

Une nouvelle approche computationnelle pour la découverte des sites de fixation de facteurs de transcription à l’ADN, adaptée aux données de ChIP-chip et de ChIP-séquençage

Relevância:

10.00% 10.00%

Publicador:

Resumo:

Les facteurs de transcription sont des protéines spécialisées qui jouent un rôle important dans différents processus biologiques tel que la différenciation, le cycle cellulaire et la tumorigenèse. Ils régulent la transcription des gènes en se fixant sur des séquences d’ADN spécifiques (éléments cis-régulateurs). L’identification de ces éléments est une étape cruciale dans la compréhension des réseaux de régulation des gènes. Avec l’avènement des technologies de séquençage à haut débit, l’identification de tout les éléments fonctionnels dans les génomes, incluant gènes et éléments cis-régulateurs a connu une avancée considérable. Alors qu’on est arrivé à estimer le nombre de gènes chez différentes espèces, l’information sur les éléments qui contrôlent et orchestrent la régulation de ces gènes est encore mal définie. Grace aux techniques de ChIP-chip et de ChIP-séquençage il est possible d’identifier toutes les régions du génome qui sont liées par un facteur de transcription d’intérêt. Plusieurs approches computationnelles ont été développées pour prédire les sites fixés par les facteurs de transcription. Ces approches sont classées en deux catégories principales: les algorithmes énumératifs et probabilistes. Toutefois, plusieurs études ont montré que ces approches génèrent des taux élevés de faux négatifs et de faux positifs ce qui rend difficile l’interprétation des résultats et par conséquent leur validation expérimentale. Dans cette thèse, nous avons ciblé deux objectifs. Le premier objectif a été de développer une nouvelle approche pour la découverte des sites de fixation des facteurs de transcription à l’ADN (SAMD-ChIP) adaptée aux données de ChIP-chip et de ChIP-séquençage. Notre approche implémente un algorithme hybride qui combine les deux stratégies énumérative et probabiliste, afin d’exploiter les performances de chacune d’entre elles. Notre approche a montré ses performances, comparée aux outils de découvertes de motifs existants sur des jeux de données simulées et des jeux de données de ChIP-chip et de ChIP-séquençage. SAMD-ChIP présente aussi l’avantage d’exploiter les propriétés de distributions des sites liés par les facteurs de transcription autour du centre des régions liées afin de limiter la prédiction aux motifs qui sont enrichis dans une fenêtre de longueur fixe autour du centre de ces régions. Les facteurs de transcription agissent rarement seuls. Ils forment souvent des complexes pour interagir avec l’ADN pour réguler leurs gènes cibles. Ces interactions impliquent des facteurs de transcription dont les sites de fixation à l’ADN sont localisés proches les uns des autres ou bien médier par des boucles de chromatine. Notre deuxième objectif a été d’exploiter la proximité spatiale des sites liés par les facteurs de transcription dans les régions de ChIP-chip et de ChIP-séquençage pour développer une approche pour la prédiction des motifs composites (motifs composés par deux sites et séparés par un espacement de taille fixe). Nous avons testé ce module pour prédire la co-localisation entre les deux demi-sites ERE qui forment le site ERE, lié par le récepteur des œstrogènes ERα. Ce module a été incorporé à notre outil de découverte de motifs SAMD-ChIP.

Les patrons d’expression de gènes : ont-ils évolué avec la complexité des organismes?

Relevância:

10.00% 10.00%

Publicador:

Resumo:

La régulation de la transcription est l‟un des processus cellulaires des plus fondamentaux et constitue la première étape menant à l‟expression protéique. Son altération a des effets sur l‟homéostasie cellulaire et est associée au développement de maladies telles que le cancer. Il est donc crucial de comprendre les règles fondamentales de la fonction cellulaire afin de mieux cibler les traitements pour les maladies. La transcription d‟un gène peut se produire selon l‟un des deux modes fondamentaux de transcription : en continu ou en burst. Le premier est décrit comme un processus aléatoire et stochastique qui suit une distribution de Poisson. À chaque initiation de la transcription, indépendante de la précédente, un seul transcrit est produit. L‟expression en burst se produit lorsque le promoteur est activé pour une courte période de temps pendant laquelle plusieurs transcrits naissants sont produits. Apportant la plus grande variabilité au sein d‟une population isogénique, il est représenté par une distribution bimodale, où une sous-population n‟exprime pas le gène en question, alors que le reste de la population l‟exprime fortement. Les gènes des eucaryotes inférieurs sont pour la plupart exprimés de manière continuelle, alors que les gènes des eucaryotes supérieurs le sont plutôt en burst. Le but de ce projet est d‟étudier comment l‟expression des gènes a évolué et si la transcription aléatoire, ou de Poisson, est une propriété des eucaryotes inférieurs et si ces patrons ont changé avec la complexité des organismes et des génomes. Par la technique de smFISH, nous avons étudié de manière systématique quatre gènes évolutivement conservés (mdn1+, PRP8/spp42+, pol1+ et cdc13+) qui sont continuellement transcrits dans la levure S. cerevisiae. Nous avons observé que le mode d‟expression est gène-et-organisme spécifique puisque prp8 est exprimé de manière continuelle dans la levure S. pombe, alors que les autres gènes seraient plutôt exprimés en légers burst.

Evaluating DNA damage response (DDR) activation in human prostate cancer

Relevância:

10.00% 10.00%

Publicador:

Resumo:

Introduction: Au Canada, le cancer de la prostate est le cancer le plus fréquemment diagnostiqué chez les hommes et le plus mortel après les cancers du poumon et du côlon. Il y a place à optimiser le traitement du cancer de la prostate de manière à mettre en œuvre une médecine personnalisée qui s’adapte aux caractéristiques de la maladie de chaque patient de façon individuelle. Dans ce mémoire, nous avons évalué la réponse aux dommages de l’ADN (RDA) comme biomarqueur potentiel du cancer de la prostate. Les lésions potentiellement oncogènes de l'ADN déclenche une cascade de signalisation favorisant la réparation de l'ADN et l’activation des points de contrôle du cycle cellulaire pour préserver l’intégrité du génome. La RDA est un mécanisme central de suppression tumorale chez l’homme. La RDA joue un rôle important dans l’arrêt de la prolifération des cellules dont les génomes sont compromis, et donc, prévient la progression du cancer en agissant comme une barrière. Cette réponse cellulaire détermine également comment les cellules normales et cancéreuses réagissent aux agents utilisés pour endommager l'ADN lors du traitement du cancer comme la radiothérapie ou la chimiothérapie, en plus la présence d,un certain niveau de RDA dans les cellules du cancer de la prostate peuvent également influer sur l'issue de ces traitements. L’activation des signaux de la RDA peut agir comme un frein au cancer dans plusieurs lésions pré-néoplasiques de l'homme, y compris le cancer de la prostate. Il a été démontré que la RDA est augmentée dans les cellules de néoplasie intra- épithéliale (PIN) comparativement aux cellules prostatiques normales. Toutefois, le devient de la RDA entre le PIN et l’adénocarcinome est encore mal documenté et aucune corrélation n'a été réalisée avec les données cliniques des patients. Notre hypothèse est que les niveaux d’activation de la RDA seront variables selon les différents grades et agressivité du cancer de la prostate. Ces niveaux pourront être corrélés et possiblement prédire les réponses cliniques aux traitements des patients et aider à définir une stratégie plus efficace et de nouveaux biomarqueurs pour prédire les résultats du traitement et personnaliser les traitements en conséquence. Nos objectifs sont de caractériser l'activation de la RDA dans le carcinome de la prostate et corréler ses données avec les résultats cliniques. Méthodes : Nous avons utilisé des micro-étalages de tissus (tissue microarrays- TMAs) de 300 patients ayant subi une prostatectomie radicale pour un cancer de la prostate et déterminé le niveau d’expression de protéines de RDA dans le compartiment stromal et épithélial des tissus normaux et cancéreux. Les niveaux d’expression de 53BP1, p-H2AX, p65 et p-CHK2 ont été quantifiés par immunofluorescence (IF) et par un logiciel automatisé. Ces marqueurs de RDA ont d’abord été validés sur des TMAs-cellule constitués de cellules de fibroblastes normales ou irradiées (pour induire une activation du RDA). Les données ont été quantifiées à l'aide de couches binaires couramment utilisées pour classer les pixels d'une image pour que l’analyse se fasse de manière indépendante permettant la détection de plusieurs régions morphologiques tels que le noyau, l'épithélium et le stroma. Des opérations arithmétiques ont ensuite été réalisées pour obtenir des valeurs correspondant à l'activation de la RDA qui ont ensuite été corrélées à la récidive biochimique et l'apparition de métastases osseuses. Résultats : De faibles niveaux d'expression de la protéine p65 dans le compartiment nucléaire épithélial du tissu normal de la prostate sont associés à un faible risque de récidive biochimique. Par ailleurs, nous avons aussi observé que de faibles niveaux d'expression de la protéine 53BP1 dans le compartiment nucléaire épithéliale du tissu prostatique normal et cancéreux ont été associés à une plus faible incidence de métastases osseuses. Conclusion: Ces résultats confirment que p65 a une valeur pronostique chez les patients présentant un adénocarcinome de la prostate. Ces résultats suggèrent également que le marqueur 53BP1 peut aussi avoir une valeur pronostique chez les patients avec le cancer de la prostate. La validation d'autres marqueurs de RDA pourront également être corrélés aux résultats cliniques. De plus, avec un suivi des patients plus long, il se peut que ces résultats se traduisent par une corrélation avec la survie. Les niveaux d'activité de la RDA pourront éventuellement être utilisés en clinique dans le cadre du profil du patient comme le sont actuellement l’antigène prostatique spécifique (APS) ou le Gleason afin de personnaliser le traitement.

Les modes de conceptualisation métaphorique en neuroanatomie : étude de la description anatomique du cervelet et de la moelle spinale

Relevância:

10.00% 10.00%

Publicador:

Resumo:

La présente étude s’inscrit dans une lignée de travaux de recherche en traductologie réalisés dans un cadre de sémantique cognitive et visant à dégager les modes de conceptualisation métaphorique dans les domaines de spécialité, et plus précisément dans les sciences biomédicales. Notre étude se concentre sur les modes de conceptualisation métaphorique utilisés en neuroanatomie en français, en anglais et en allemand, dans une perspective d’application à la traduction. Nous nous penchons plus spécifiquement sur la description anatomique de deux structures du système nerveux central : la moelle spinale et le cervelet. Notre objectif est de repérer et de caractériser les indices de conceptualisation métaphorique (ICM). Notre méthode s'appuie sur un corpus trilingue de textes de référence traitant de ces structures et fait appel à une annotation sémantique en langage XML, ce qui autorise une interrogation des corpus annotés au moyen du langage XQuery. Nous mettons en évidence que les ICM jouent un rôle prédominant dans la phraséologie et les dénominations propres à la description anatomique du système nerveux, comme c'est le cas en biologie cellulaire et en anatomie des muscles, des nerfs périphériques et des vaisseaux sanguins. Sous l’angle lexical, il faut distinguer les ICM prédicatifs, les ICM non prédicatifs ainsi que les ICM quasi prédicatifs. La plupart des modes de conceptualisation métaphorique préalablement repérés en biologie cellulaire et en anatomie sont également présents dans le domaine plus spécifique de la neuroanatomie. Certains ICM et modes de conceptualisation sont toutefois spécifiques à des éléments des régions étudiées. Par ailleurs, les modes de conceptualisation métaphorique en français, en anglais et en allemand sont semblables, mais sont exprimés par des réseaux lexicaux d'ICM dont la richesse varie. De plus, la composition nominale étant une des caractéristiques de l'allemand, la forme linguistique des ICM présente des caractéristiques spécifiques. Nos résultats mettent en évidence la richesse métaphorique de la neuroanatomie. Cohérents avec les résultats des études antérieures, ils enrichissent cependant la typologie des ICM et soulignent la complexité, sur les plans lexical et cognitif, de la métaphore conceptuelle.

Étude de cas sur l’ajout de vecteurs d’enregistrements typés dans Gambit Scheme

Relevância:

10.00% 10.00%

Publicador:

Resumo:

Dans le but d’optimiser la représentation en mémoire des enregistrements Scheme dans le compilateur Gambit, nous avons introduit dans celui-ci un système d’annotations de type et des vecteurs contenant une représentation abrégée des enregistrements. Ces derniers omettent la référence vers le descripteur de type et l’entête habituellement présents sur chaque enregistrement et utilisent plutôt un arbre de typage couvrant toute la mémoire pour retrouver le vecteur contenant une référence. L’implémentation de ces nouvelles fonctionnalités se fait par le biais de changements au runtime de Gambit. Nous introduisons de nouvelles primitives au langage et modifions l’architecture existante pour gérer correctement les nouveaux types de données. On doit modifier le garbage collector pour prendre en compte des enregistrements contenants des valeurs hétérogènes à alignements irréguliers, et l’existence de références contenues dans d’autres objets. La gestion de l’arbre de typage doit aussi être faite automatiquement. Nous conduisons ensuite une série de tests de performance visant à déterminer si des gains sont possibles avec ces nouvelles primitives. On constate une amélioration majeure de performance au niveau de l’allocation et du comportement du gc pour les enregistrements typés de grande taille et des vecteurs d’enregistrements typés ou non. De légers surcoûts sont toutefois encourus lors des accès aux champs et, dans le cas des vecteurs d’enregistrements, au descripteur de type.

Assessment of meat authenticity using bioinformatics, targeted peptide biomarkers and high-resolution mass spectrometry

Relevância:

10.00% 10.00%

Publicador:

Resumo:

In recent years, we observed a significant increase of food fraud ranging from false label claims to the use of additives and fillers to increase profitability. Recently in 2013, horse and pig DNA were detected in beef products sold from several retailers. Mass spectrometry has become the workhorse in protein research and the detection of marker proteins could serve for both animal species and tissue authentication. Meat species authenticity will be performed using a well defined proteogenomic annotation, carefully chosen surrogate tryptic peptides and analysis using a hybrid quadrupole-Orbitrap mass spectrometer. Selected mammalian meat samples were homogenized, proteins were extracted and digested with trypsin. The samples were analyzed using a high-resolution mass spectrometer. The chromatography was achieved using a 30 minutes linear gradient along with a BioBasic C8 100 × 1 mm column at a flow rate of 75 µL/min. The mass spectrometer was operated in full-scan high resolution and accurate mass. MS/MS spectra were collected for selected proteotypic peptides. Muscular proteins were methodically analyzed in silico in order to generate tryptic peptide mass lists and theoretical MS/MS spectra. Following a comprehensive bottom-up proteomic analysis, we were able to detect and identify a proteotypic myoglobin tryptic peptide [120-134] for each species with observed m/z below 1.3 ppm compared to theoretical values. Moreover, proteotypic peptides from myosin-1, myosin-2 and -hemoglobin were also identified. This targeted method allowed a comprehensive meat speciation down to 1% (w/w) of undesired product.

La génomique évolutive mitochondriale révèle des échanges génétiques et la ségrégation chez les Gloméromycètes

Relevância:

10.00% 10.00%

Publicador:

Resumo:

Les champignons mycorhiziens à arbuscules (CMA) sont des organismes microscopiques du sol qui jouent un rôle crucial dans les écosystèmes naturels et que l’on retrouve dans tous les habitats de la planète. Ils vivent en relation symbiotique avec la vaste majorité des plantes terrestres. Ils sont des biotrophes obligatoires, c'est-à-dire qu'ils ne peuvent croître qu'en présence d'une plante hôte. Cette symbiose permet entre autres à la plante d'acquérir des nutriments supplémentaires, en particulier du phosphore et du nitrate. Malgré le fait que cette symbiose apporte des services importants aux écosystèmes, la richesse des espèces, la structure des communautés, ainsi que la diversité fonctionnelle des CMA sont mal connues et l'approfondissement des connaissances dans ces domaines dépend d’outils de diagnostic moléculaire. Cependant, la présence de polymorphisme nucléaire intra-isolat combiné à un manque de données génomiques dans différents groupes phylogénétique de ces champignons complique le développement de marqueurs moléculaires et la détermination de l'affiliation évolutive à hauts niveaux de résolution (c.a.d. entre espèces génétiquement similaires et/ou isolats de la même espèce). . Pour ces raisons, il semble une bonne alternative d’utiliser un système génétique différent en ciblant le génome mitochondrial, qui a été démontré homogène au sein d'un même isolat de CMA. Cependant, étant donné le mode de vie particulier de ces organismes, une meilleure compréhension des processus évolutifs mitochondriaux est nécessaire afin de valoriser l'utilisation de tels marqueurs dans des études de diversité et en génétique des populations. En ce sens, mon projet de doctorat consistait à investiguerétudier: i) les vecteurs de divergences inter-isolats et -espèces génétiquement rapprochéesphylogénétiquement apparentées, ii) la plasticité des génomes mitochondriaux, iii) l'héritabilité mitochondriale et les mécanismes potentiels de ségrégation, ainsi que iv) la diversité mitochondriale intra-isolat in situ. À l'aide de la génomique mitochondriale comparative, en utilisant le séquençage nouvelle génération, on a démontré la présence de variation génétique substantielle inter-isolats et -espèces, engendrées par l'invasion d'éléments mobiles dans les génomes mitochondriaux des CMA, donnant lieu à une évolution moléculaire rapide des régions intergéniques. Cette variation permettait de développer des marqueurs spécifiques à des isolats de la même espèce. Ensuite, à l'aide d'une approche analytique par réseaux de gènes sur des éléments mobiles, on a été en mesure de démontrer des évènements de recombinaisons homologues entre des haplotypes mitochondriaux distincts, menant à des réarrangements génomiques. Cela a permis d'ouvrir les perspectives sur la dynamique mitochondriale et l'hétéroplasmie dans un même isolatsuggère une coexistence de différents haplotypes mitochondriaux dans les populations naturelles et que les cultures monosporales pourraient induirent une sous-estimation de la diversité allélique mitochondriale. Cette apparente contradiction avec l'homogénéité mitochondriale intra-isolat généralement observée, a amené à investiguer étudier les échanges génétiques à l'aide de croisements d'isolats génétiquement distincts. Malgré l'observation de quelques spores filles hétéroplasmiques, l'homoplasmie était le statut par défaut dans toutes les cultures monosporales, avec un biais en faveur de l'un des haplotypes parentaux. Ces résultats suggèrent que la ségrégation opère durant la formation de la spore et/ou le développement de la coloniedu mycélium. De plus, ils supportent la présence d'une machinerie protéique de ségrégation mitochondriale chez les CMAAMF, où l'ensemble des gènes impliqués dans ce mécanisme ont été retrouvé et sont orthologues aux autres champignons. Finalement, on est revenue aux sources avecon a étudié le polymorphisme mitochondrial intra-isolat à l'aide d'une approche conventionnelle de PCR en utilisant une Taq polymérase de haute fidélité, suivie de clonage et de séquençage Sanger, sur deux isolats de R. irregularis. Cela a permis l'observation d'hétéroplasmie in situ, ainsi que la co-expression de variantes de variantes de protéines'ARNm dans une souche in vitro. Les résultats suggèrent que d'autres études basées sur le séquençage nouvelle génération aurait potentiellement ignorée cette variation, offrant ainsi plusieurs nouveaux arguments permettant de considérer les CMA comme des organismes possédant une population de génomes mitochondriaux et nucléaires distincts.

Évolution à fine échelle des sites d'épissage des introns dans les gènes des oomycètes

Relevância:

10.00% 10.00%

Publicador:

Resumo:

Les introns sont des portions de gènes transcrites dans l’ARN messager, mais retirées pendant l’épissage avant la synthèse des produits du gène. Chez les eucaryotes, on rencontre les introns splicéosomaux, qui sont retirés de l’ARN messager par des splicéosomes. Les introns permettent plusieurs processus importants, tels que l'épissage alternatif, la dégradation des ARNs messagers non-sens, et l'encodage d'ARNs fonctionnels. Leurs rôles nous interrogent sur l'influence de la sélection naturelle sur leur évolution. Nous nous intéressons aux mutations qui peuvent modifier les produits d'un gène en changeant les sites d'épissage des introns. Ces mutations peuvent influencer le fonctionnement d'un organisme, et constituent donc un sujet d'étude intéressant, mais il n'existe actuellement pas de logiciels permettant de les étudier convenablement. Le but de notre projet était donc de concevoir une méthode pour détecter et analyser les changements des sites d'épissage des introns splicéosomaux. Nous avons finalement développé une méthode qui repère les évènements évolutifs qui affectent les introns splicéosomaux dans un jeu d'espèces données. La méthode a été exécutée sur un ensemble d'espèces d'oomycètes. Plusieurs évènements détectés ont changé les sites d’épissage et les protéines, mais de nombreux évènements trouvés ont modifié les introns sans affecter les produits des gènes. Il manque à notre méthode une étape finale d'analyse approfondie des données récoltées. Cependant, la méthode actuelle est facilement reproductible et automatise l'analyse des génomes pour la détection des évènements. Les fichiers produits peuvent ensuite être analysés dans chaque étude pour répondre à des questions spécifiques.

La génétique inverse dans l'étude des réovirus: Progrès, obstacles et développements futurs

Relevância:

10.00% 10.00%

Publicador:

Resumo:

En génétique dite « classique », l’examen d’un phénotype conduit à l’étude des gènes impliqués dans son obtention. La génétique inverse est une méthode expérimentale très puissante dans laquelle, au contraire, le matériel génétique est modifié et utilisé pour reconstruire un organisme complet, afin de déterminer le résultat de ces modifications. Cette approche est spécialement bien adaptée à l'étude des virus, compte tenu de la relative simplicité et de la petite taille de leurs génomes; l’obstacle principal demeure de récupérer des virus infectieux à partir de génomes viraux clonés. Au cours des années, cet exploit a été accompli pour des représentants de presque toutes les familles de virus de mammifères. Jusqu’à récemment, les Reoviridae, virus à génome d'ARN bicaténaire segmenté, faisaient toutefois exception. Dans cette revue, les progrès réalisés vers la mise au point de la génétique inverse pour l'étude du réovirus seront discutés. La génétique inverse pourrait avoir un impact majeur dans l'optimisation de nouvelles souches de réovirus pour leur utilisation en thérapie comme agents oncolytiques et pour le développement de vaccins dans le cas des rotavirus et des orbivirus. Les travaux actuels font toutefois ressortir les limites de l'approche, la nécessité d’une analyse prudente des résultats obtenus, ainsi que le besoin de développer des systèmes plus efficaces et polyvalents.

A Framework for TEI-Based Scholarly Text Editions

Relevância:

10.00% 10.00%

Publicador:

Resumo:

In this paper, we describe an interdisciplinary project in which visualization techniques were developed for and applied to scholarly work from literary studies. The aim was to bring Christof Schöch's electronic edition of Bérardier de Bataut's Essai sur le récit (1776) to the web. This edition is based on the Text Encoding Initiative's XML-based encoding scheme (TEI P5, subset TEI-Lite). This now de facto standard applies to machine-readable texts used chiefly in the humanities and social sciences. The intention of this edition is to make the edited text freely available on the web, to allow for alternative text views (here original and modern/corrected text), to ensure reader-friendly annotation and navigation, to permit on-line collaboration in encoding and annotation as well as user comments, all in an open source, generically usable, lightweight package. These aims were attained by relying on a GPL-based, public domain CMS (Drupal) and combining it with XSL-Stylesheets and Java Script.

Abbildung von XML-Dokumenten auf SQL:2003-konforme Datentypen

Relevância:

10.00% 10.00%

Publicador:

Resumo:

Die Auszeichnungssprache XML dient zur Annotation von Dokumenten und hat sich als Standard-Datenaustauschformat durchgesetzt. Dabei entsteht der Bedarf, XML-Dokumente nicht nur als reine Textdateien zu speichern und zu transferieren, sondern sie auch persistent in besser strukturierter Form abzulegen. Dies kann unter anderem in speziellen XML- oder relationalen Datenbanken geschehen. Relationale Datenbanken setzen dazu bisher auf zwei grundsätzlich verschiedene Verfahren: Die XML-Dokumente werden entweder unverändert als binäre oder Zeichenkettenobjekte gespeichert oder aber aufgespalten, sodass sie in herkömmlichen relationalen Tabellen normalisiert abgelegt werden können (so genanntes „Flachklopfen“ oder „Schreddern“ der hierarchischen Struktur). Diese Dissertation verfolgt einen neuen Ansatz, der einen Mittelweg zwischen den bisherigen Lösungen darstellt und die Möglichkeiten des weiterentwickelten SQL-Standards aufgreift. SQL:2003 definiert komplexe Struktur- und Kollektionstypen (Tupel, Felder, Listen, Mengen, Multimengen), die es erlauben, XML-Dokumente derart auf relationale Strukturen abzubilden, dass der hierarchische Aufbau erhalten bleibt. Dies bietet zwei Vorteile: Einerseits stehen bewährte Technologien, die aus dem Bereich der relationalen Datenbanken stammen, uneingeschränkt zur Verfügung. Andererseits lässt sich mit Hilfe der SQL:2003-Typen die inhärente Baumstruktur der XML-Dokumente bewahren, sodass es nicht erforderlich ist, diese im Bedarfsfall durch aufwendige Joins aus den meist normalisierten und auf mehrere Tabellen verteilten Tupeln zusammenzusetzen. In dieser Arbeit werden zunächst grundsätzliche Fragen zu passenden, effizienten Abbildungsformen von XML-Dokumenten auf SQL:2003-konforme Datentypen geklärt. Darauf aufbauend wird ein geeignetes, umkehrbares Umsetzungsverfahren entwickelt, das im Rahmen einer prototypischen Applikation implementiert und analysiert wird. Beim Entwurf des Abbildungsverfahrens wird besonderer Wert auf die Einsatzmöglichkeit in Verbindung mit einem existierenden, ausgereiften relationalen Datenbankmanagementsystem (DBMS) gelegt. Da die Unterstützung von SQL:2003 in den kommerziellen DBMS bisher nur unvollständig ist, muss untersucht werden, inwieweit sich die einzelnen Systeme für das zu implementierende Abbildungsverfahren eignen. Dabei stellt sich heraus, dass unter den betrachteten Produkten das DBMS IBM Informix die beste Unterstützung für komplexe Struktur- und Kollektionstypen bietet. Um die Leistungsfähigkeit des Verfahrens besser beurteilen zu können, nimmt die Arbeit Untersuchungen des nötigen Zeitbedarfs und des erforderlichen Arbeits- und Datenbankspeichers der Implementierung vor und bewertet die Ergebnisse.

Dataflow Computation for the J-Machine

Relevância:

10.00% 10.00%

Publicador:

Resumo:

The dataflow model of computation exposes and exploits parallelism in programs without requiring programmer annotation; however, instruction- level dataflow is too fine-grained to be efficient on general-purpose processors. A popular solution is to develop a "hybrid'' model of computation where regions of dataflow graphs are combined into sequential blocks of code. I have implemented such a system to allow the J-Machine to run Id programs, leaving exposed a high amount of parallelism --- such as among loop iterations. I describe this system and provide an analysis of its strengths and weaknesses and those of the J-Machine, along with ideas for improvement.

WAIS seminar: Alan Walks Wales: Data and Challenges

Relevância:

10.00% 10.00%

Publicador:

Resumo:

Abstract This seminar is a research discussion around a very interesting problem, which may be a good basis for a WAISfest theme. A little over a year ago Professor Alan Dix came to tell us of his plans for a magnificent adventure:to walk all of the way round Wales - 1000 miles 'Alan Walks Wales'. The walk was a personal journey, but also a technological and community one, exploring the needs of the walker and the people along the way. Whilst walking he recorded his thoughts in an audio diary, took lots of photos, wrote a blog and collected data from the tech instruments he was wearing. As a result Alan has extensive quantitative data (bio-sensing and location) and qualitative data (text, images and some audio). There are challenges in analysing individual kinds of data, including merging similar data streams, entity identification, time-series and textual data mining, dealing with provenance, ontologies for paths, and journeys. There are also challenges for author and third-party annotation, linking the data-sets and visualising the merged narrative or facets of it.

Dynamic Document Generation from Semantic Web Data

Relevância:

10.00% 10.00%

Publicador:

Resumo:

This talk will present an overview of the ongoing ERCIM project SMARTDOCS (SeMAntically-cReaTed DOCuments) which aims at automatically generating webpages from RDF data. It will particularly focus on the current issues and the investigated solutions in the different modules of the project, which are related to document planning, natural language generation and multimedia perspectives. The second part of the talk will be dedicated to the KODA annotation system, which is a knowledge-base-agnostic annotator designed to provide the RDF annotations required in the document generation process.

«
1
2
...
23
24
25
26
27
28
29
...
49
50
»