953 resultados para RIBOSOMAL SEQUENCES
Resumo:
Tese de mestrado. Biologia (Biologia Molecular e Genética). Universidade de Lisboa, Faculdade de Ciências, 2014
Resumo:
Dissertação de Mestrado, Biodiversidade e Biotecnologia Vegetal, 17 de Março de 2015, Universidade dos Açores.
Resumo:
The long term goal of this research is to develop a program able to produce an automatic segmentation and categorization of textual sequences into discourse types. In this preliminary contribution, we present the construction of an algorithm which takes a segmented text as input and attempts to produce a categorization of sequences, such as narrative, argumentative, descriptive and so on. Also, this work aims at investigating a possible convergence between the typological approach developed in particular in the field of text and discourse analysis in French by Adam (2008) and Bronckart (1997) and unsupervised statistical learning.
Resumo:
The neuropeptide Th1RFamide with the sequence Phe-Met-Arg-Phe-amide was originally isolated in the clam Macrocallista nimbosa (price and Greenberg, 1977). Since its discovery, a large family ofFl\1RFamide-related peptides termed FaRPs have been found to be present in all major animal phyla with functions ranging from modulation of neuronal activity to alteration of muscular contractions. However, little is known about the genetics encoding these peptides, especially in invertebrates. As FaRP-encoding genes have yet to be investigated in the invertebrate Malacostracean subphylum, the isolation and characterization ofFaRP-encoding DNA and mRNA was pursued in this project. The immediate aims of this thesis were: (1) to amplify mRNA sequences of Procambarus clarkii using a degenerate oligonucleotide primer deduced from the common amino acid sequence ofisolated Procambarus FaRPS, (2) to determine if these amplification products encode FaRP gene sequences, and (3) to create a selective cDNA library of sequences recognized by the degenerate oligonucleotide primer. The polymerase chain reaction - rapid amplification of cDNA ends (PCR-RACE) is a procedure in which a single gene-specific primer is used in conjunction with a generalized 3' or 5' primer to amplify copies ofthe region between a single point in the transcript and the 3' or 5' end of cDNA of interest (Frohman et aI., 1988). PCRRACE reactions were optimized with respect to primers used, buffer composition, cycle number, nature ofgenetic substrate to be amplified, annealing, extension and denaturation temperatures and times, and use of reamplification procedures. Amplification products were cloned into plasmid vectors and recombinant products were isolated, as were the recombinant plaques formed in the selective cDNA library. Labeled amplification products were hybridized to recombinant bacteriophage to determine ligated amplification product presence. When sequenced, the five isolated PCR-RACE amplification products were determined not to possess FaRP-encoding sequences. The 200bp, 450bp, and 1500bp sequences showed homology to the Caenorhabditis elegans cosmid K09A11, which encodes for cytochrome P450; transfer-RNA; transposase; and tRNA-Tyr, while the 500bp and 750bp sequences showed homology with the complete genome of the Vaccinia virus. Under the employed amplification conditions the degenerate oligonucleotide primer was observed to bind to and to amplify sequences with either 9 or 10bp of 17bp identity. The selective cDNA library was obselVed to be of extremely low titre. When library titre was increased, white. plaques were isolated. Amplification analysis of eight isolated Agt11 sequences from these plaques indicated an absence of an insertion sequence. The degenerate 17 base oligonucleotide primer synthesized from the common amino acid sequence ofisolated Procambarus FaRPs was thus determined to be non-specific in its binding under the conditions required for its use, and to be insufficient for the isolation and identification ofFaRP-encoding sequences. A more specific primer oflonger sequence, lower degeneracy, and higher melting temperature (TJ is recommended for further investigation into the FaRP-encoding genes of Procambarlls clarkii.
Resumo:
One of the main objectives of the mid-Atlantic transect is to improve dating resolution of sequences and unconfonnity surfaces. Dinoflagellate cysts from two Ocean Drilling Program boreholes, the onshore Leg 174AX Ocean View Site and Leg 174A continental shelf Site 1071, are used to provide age estimates for sequences and unconfonnities fonned on the New Jersey continental margin during the Miocene epoch. Despite the occasional lack of dinocysts in barren and oxidized sections, dinocyst biochronology still offers greater age control than that provided by other microfossils in marginal marine environments. An early Miocene to late Miocene chronology based on ages detennined for the two study sites is presented. In addition, .palynofacies are used to unravel the systems tract character of the Miocene sequences and provide insight into the effects of taphonomy and preservation of palynomorphs in marginal marine and shelf environments under different ~ea level conditions. More precise placement of maximum flooding surfaces is possible through the identification of condensed sections and palynofacies shifts can also reveal subaerially exposed sections and surfaces not apparent in seismic or lithological analyses. The problems with the application of the pollen record in the interpretation of Miocene climate are also discussed. Palynomorphs provide evidence for a second-order lowering of sea level during the Miocene, onto which higher order sea level fluctuations are super-imposed. Correlation of sequences and unconfonnities is attempted between onshore boreholes and from the onshore Ocean View borehole to offshore Site 1071.
Resumo:
The ease of production and manipulation has made plasmid DNA a prime target for its use in gene transfer technologies such as gene therapy and DNA vaccines. The major drawback of plasmid however is its stability within mammalian cells. Plasmid DNA is usually lost by cellular mechanisms or as a result of mitosis by simple dilution. This study set out to search for mammalian genomic DNA sequences that would enhance the stability of plasmid DNA in mammalian cells.Creating a plasmid based genomic DNA library, we were able to screen the human genome by transfecting the library into Human Embryonic Kidney (HEK 293) Cells. Cells that contained plasmid DNA were selected, using G418 for 14 days. The resulting population was then screened for the presence of biologically active plasmid DNA using the process of transformation as a detector.A commercially available plasmid DNA isolation kit was modified to extract plasmid DNA from mammalian cells. The standardized protocol had a detection limit of -0.6 plasmids per cell in one million cells. This allowed for the detection of 45 plasmids that were maintained for 32 days in the HEK 293 cells. Sequencing of selected inserts revealed a significantly higher thymine content in comparison to the human genome. Sequences with high A/T content have been associated with Scaffold/Matrix Attachment Region (S/MAR) sequences in mammalian cells. Therefore, association with the nuclear matrix might be required for the stability of plasmids in mammalian cells.
Resumo:
Children were afforded the opportunity to control the order of repetitions for three novel spatiotemporal sequences. The following was predicted: a) children and adults in the self-regulated (SELF) groups would produce faster movement (MT) and reaction times (R T) and greater recall success (RS) during retention compared to the age-matched yoked (YOKE) groups; b) children would choose to switch sequences less often than adults; c) adults would produce faster MT and RT and greater RS than the children during acquisition and retention, independent of experimental group. During acquisition, no effects were seen for RS, however for MT and RT there was a main effect for age as well as block. During retention a main effect for practice condition was seen for RS and failed to reach statistical significance for MT and RT, thus partially supporting our first and second hypotheses. The third hypothesis was not supported.
Resumo:
CD4+ T lymphocytes play an important role in CD8+ T cell-mediated responses against tumors. Considering that about 20% of melanomas express major histocompatibility complex (MHC) class II, it is plausible that concomitant antigenic presentation by MHC class I and class II complexes shapes positive (helper T cells) or negative (regulatory T cells) anti-tumor responses. Interestingly, gp100, a melanoma antigen, can be presented by both MHC class I and class II when expressed endogenously, suggesting that it can reach endosomal/MHC class II compartments (MIIC). Here, we demonstrated that the gp100 putative amino-terminal signal sequence and the last 70 residues in carboxy-terminus, are essential for MIIC localization and MHC class II presentation. Confocal microscopy analyses confirmed that gp100 was localized in LAMP-1+ endosomal/MIIC. Gp100-targeting sequences were characterized by deleting different sections in the carboxy-terminus (residues 590 to 661). Transfection in 293T cells, expressing MHC class I and class II molecules, revealed that specific deletions in carboxy-terminus resulted in decreased MHC class II presentation, without effects on MHC class I presentation, suggesting a role in MIIC trafficking for these deleted sections. Then, we used these gp100-targeting sequences to mobilize the green fluorescent protein (GFP) to endosomal compartments, and to allow MHC class II and class I presentation of minimal endogenous epitopes. Thus, we concluded that these specific sequences are MIIC targeting motifs. Consequently, these sequences could be included in expression cassettes for endogenously expressed tumor or viral antigens to promote MHC class II and class I presentation and optimize in vivo T cell responses, or as an in vitro tool for characterization of new MHC class II epitopes.
Resumo:
Affiliation: Département de Biochimie, Université de Montréal
Resumo:
Les champignons mycorhiziens à arbuscules (CMA), classés dans le phylum Glomeromycota, ne peuvent pas être facilement identifiés par la morphologie de leurs spores et leurs mycélia à l'intérieur ou à l'extérieur des racines de leurs hôtes. Ce problème fondamental d'identification rend l'étude de leur diversité, en particulier dans leur habitat naturel (sol et racine) extrêmement difficile. Les gènes ribosomaux ont été largement utilisés pour développer des amorces spécifiques et en inférer des arbres phylogénétiques. Cependant, ces gènes sont très polymorphes et existent en plusieurs copies dans le génome des CMA, ce qui complique l’interprétation des résultats. Dans notre étude, nous avons étudié le polymorphisme intra- et inter-spécifique du gène β-tubuline, présent en faible nombre de copies dans le génome des CMA, afin d’obtenir de nouvelles séquences nucléotidiques pour développer des marqueurs moléculaires. Les gènes β-tubuline amplifiés à partir de l'ADN génomique de cinq espèces du genre Glomus ont été clonés et séquencés. L’analyse des séquences indique un polymorphisme intraspécifique chez trois espèces de CMA. Deux séquences paralogues très variables ont été nouvellement identifiées chez les G. aggregatum, G. fasciculatum et G. cerebriforme. Aucun polymorphisme n’a été détecté chez les G. clarum et G. etunicatum. Toutes les séquences montrent la présence de deux introns hautement variables. La majorité des substitutions ont été localisées dans les exons et sont synonymes à 90%. La conservation des acides aminés suggère un niveau élevé de sélection négative sur le gène β-tubuline et nous permet de confirmer que les CMA représentent un ancien groupe fongique (400 million d’années). L’analyse phylogénétique, réalisée avec vingt et une séquences nucléotidiques du gène β-tubuline, a révélé que les séquences des Glomaceae forment un groupe monophylétique bien supporté, avec les Acaulosporaceae et Gigasporaceae comme groupe frère. Les séquences paralogues nouvellement identifiées chez les G. aggregatum et G. fasciculatum n'ont pas été monophylétiques au sein de chaque espèce. Les oligonucléotides ont été choisis sur la base des régions variables et conservées du gène β-tubuline. Le test PCR des amorces β-Tub.cerb.F/ β-Tub.cerb.R a révélé des bandes spécifiques de 401 pb pour les séquences paralogues du G. cerebriforme. Deux paires d’amorces ont été développées afin d’identifier les séquences du groupe nommé Tub.1. Les tests PCR nous ont permis d’identifier certaines séquences du groupe Tub.1. Une paire d’amorce β-Tub.2.F/ β-Tub.2.R nous a permis d’identifier certaines séquences paralogues du groupe nommé Tub.2. L’analyse d’autres gènes combinée à celle du gène β-tubuline permettra le développement de marqueurs moléculaires plus spécifiques pour l’identification de CMA.
Resumo:
Les interactions entre les squelettes sucre-phosphate de nucléotides jouent un rôle important dans la stabilisation des structures tertiaires de larges molécules d’ARN. Elles sont régies par des règles particulières qui gouverne leur formation mais qui jusque là demeure quasiment inconnues. Un élément structural d’ARN pour lequel les interactions sucre-phosphate sont importantes est le motif d’empaquetage de deux doubles hélices d’ARN le long du sillon mineur. Ce motif se trouve à divers endroits dans la structure du ribosome. Il consiste en deux doubles hélices interagissant de manière à ce que le squelette sucre-phosphate de l’une se niche dans le sillon mineur de l’autre et vice versa. La surface de contact entre les deux hélices est majoritairement formée par les riboses et implique au total douze nucléotides. La présente thèse a pour but d’analyser la structure interne de ce motif et sa dépendance de stabilité résultant de l’association optimale ou non des hélices, selon leurs séquences nucléotidiques. Il est démontré dans cette thèse qu’un positionnement approprié des riboses leur permet de former des contacts inter-hélices, par l’entremise d’un choix particulier de l’identité des pairs de bases impliquées. Pour différentes pairs de bases participant à ce contact inter-hélices, l’identité optimale peut être du type Watson-Crick, GC/CG, or certaines pairs de bases non Watson-Crick. Le choix adéquat de paires de bases fournit une interaction inter-hélice stable. Dans quelques cas du motif, l’identité de certaines paires de bases ne correspond pas à la structure la plus stable, ce qui pourrait refléter le fait que ces motifs devraient avoir une liberté de formation et de déformation lors du fonctionnement du ribosome.
Resumo:
Cette thèse étudie des modèles de séquences de haute dimension basés sur des réseaux de neurones récurrents (RNN) et leur application à la musique et à la parole. Bien qu'en principe les RNN puissent représenter les dépendances à long terme et la dynamique temporelle complexe propres aux séquences d'intérêt comme la vidéo, l'audio et la langue naturelle, ceux-ci n'ont pas été utilisés à leur plein potentiel depuis leur introduction par Rumelhart et al. (1986a) en raison de la difficulté de les entraîner efficacement par descente de gradient. Récemment, l'application fructueuse de l'optimisation Hessian-free et d'autres techniques d'entraînement avancées ont entraîné la recrudescence de leur utilisation dans plusieurs systèmes de l'état de l'art. Le travail de cette thèse prend part à ce développement. L'idée centrale consiste à exploiter la flexibilité des RNN pour apprendre une description probabiliste de séquences de symboles, c'est-à-dire une information de haut niveau associée aux signaux observés, qui en retour pourra servir d'à priori pour améliorer la précision de la recherche d'information. Par exemple, en modélisant l'évolution de groupes de notes dans la musique polyphonique, d'accords dans une progression harmonique, de phonèmes dans un énoncé oral ou encore de sources individuelles dans un mélange audio, nous pouvons améliorer significativement les méthodes de transcription polyphonique, de reconnaissance d'accords, de reconnaissance de la parole et de séparation de sources audio respectivement. L'application pratique de nos modèles à ces tâches est détaillée dans les quatre derniers articles présentés dans cette thèse. Dans le premier article, nous remplaçons la couche de sortie d'un RNN par des machines de Boltzmann restreintes conditionnelles pour décrire des distributions de sortie multimodales beaucoup plus riches. Dans le deuxième article, nous évaluons et proposons des méthodes avancées pour entraîner les RNN. Dans les quatre derniers articles, nous examinons différentes façons de combiner nos modèles symboliques à des réseaux profonds et à la factorisation matricielle non-négative, notamment par des produits d'experts, des architectures entrée/sortie et des cadres génératifs généralisant les modèles de Markov cachés. Nous proposons et analysons également des méthodes d'inférence efficaces pour ces modèles, telles la recherche vorace chronologique, la recherche en faisceau à haute dimension, la recherche en faisceau élagué et la descente de gradient. Finalement, nous abordons les questions de l'étiquette biaisée, du maître imposant, du lissage temporel, de la régularisation et du pré-entraînement.
Resumo:
Les ARN non codants (ARNnc) sont des transcrits d'ARN qui ne sont pas traduits en protéines et qui pourtant ont des fonctions clés et variées dans la cellule telles que la régulation des gènes, la transcription et la traduction. Parmi les nombreuses catégories d'ARNnc qui ont été découvertes, on trouve des ARN bien connus tels que les ARN ribosomiques (ARNr), les ARN de transfert (ARNt), les snoARN et les microARN (miARN). Les fonctions des ARNnc sont étroitement liées à leurs structures d’où l’importance de développer des outils de prédiction de structure et des méthodes de recherche de nouveaux ARNnc. Les progrès technologiques ont mis à la disposition des chercheurs des informations abondantes sur les séquences d'ARN. Ces informations sont accessibles dans des bases de données telles que Rfam, qui fournit des alignements et des informations structurelles sur de nombreuses familles d'ARNnc. Dans ce travail, nous avons récupéré toutes les séquences des structures secondaires annotées dans Rfam, telles que les boucles en épingle à cheveux, les boucles internes, les renflements « bulge », etc. dans toutes les familles d'ARNnc. Une base de données locale, RNAstem, a été créée pour faciliter la manipulation et la compilation des données sur les motifs de structure secondaire. Nous avons analysé toutes les boucles terminales et internes ainsi que les « bulges » et nous avons calculé un score d’abondance qui nous a permis d’étudier la fréquence de ces motifs. Tout en minimisant le biais de la surreprésentation de certaines classes d’ARN telles que l’ARN ribosomal, l’analyse des scores a permis de caractériser les motifs rares pour chacune des catégories d’ARN en plus de confirmer des motifs communs comme les boucles de type GNRA ou UNCG. Nous avons identifié des motifs abondants qui n’ont pas été étudiés auparavant tels que la « tetraloop » UUUU. En analysant le contenu de ces motifs en nucléotides, nous avons remarqué que ces régions simples brins contiennent beaucoup plus de nucléotides A et U. Enfin, nous avons exploré la possibilité d’utiliser ces scores pour la conception d’un filtre qui permettrait d’accélérer la recherche de nouveaux ARN non-codants. Nous avons développé un système de scores, RNAscore, qui permet d’évaluer un ARN en se basant sur son contenu en motifs et nous avons testé son applicabilité avec différents types de contrôles.
Resumo:
Knowledge discovery in databases is the non-trivial process of identifying valid, novel potentially useful and ultimately understandable patterns from data. The term Data mining refers to the process which does the exploratory analysis on the data and builds some model on the data. To infer patterns from data, data mining involves different approaches like association rule mining, classification techniques or clustering techniques. Among the many data mining techniques, clustering plays a major role, since it helps to group the related data for assessing properties and drawing conclusions. Most of the clustering algorithms act on a dataset with uniform format, since the similarity or dissimilarity between the data points is a significant factor in finding out the clusters. If a dataset consists of mixed attributes, i.e. a combination of numerical and categorical variables, a preferred approach is to convert different formats into a uniform format. The research study explores the various techniques to convert the mixed data sets to a numerical equivalent, so as to make it equipped for applying the statistical and similar algorithms. The results of clustering mixed category data after conversion to numeric data type have been demonstrated using a crime data set. The thesis also proposes an extension to the well known algorithm for handling mixed data types, to deal with data sets having only categorical data. The proposed conversion has been validated on a data set corresponding to breast cancer. Moreover, another issue with the clustering process is the visualization of output. Different geometric techniques like scatter plot, or projection plots are available, but none of the techniques display the result projecting the whole database but rather demonstrate attribute-pair wise analysis
Resumo:
The classical methods of analysing time series by Box-Jenkins approach assume that the observed series uctuates around changing levels with constant variance. That is, the time series is assumed to be of homoscedastic nature. However, the nancial time series exhibits the presence of heteroscedasticity in the sense that, it possesses non-constant conditional variance given the past observations. So, the analysis of nancial time series, requires the modelling of such variances, which may depend on some time dependent factors or its own past values. This lead to introduction of several classes of models to study the behaviour of nancial time series. See Taylor (1986), Tsay (2005), Rachev et al. (2007). The class of models, used to describe the evolution of conditional variances is referred to as stochastic volatility modelsThe stochastic models available to analyse the conditional variances, are based on either normal or log-normal distributions. One of the objectives of the present study is to explore the possibility of employing some non-Gaussian distributions to model the volatility sequences and then study the behaviour of the resulting return series. This lead us to work on the related problem of statistical inference, which is the main contribution of the thesis