931 resultados para Bioinformatics


Relevância:

10.00% 10.00%

Publicador:

Resumo:

La microscopie par fluorescence de cellules vivantes produit de grandes quantités de données. Ces données sont composées d’une grande diversité au niveau de la forme des objets d’intérêts et possèdent un ratio signaux/bruit très bas. Pour concevoir un pipeline d’algorithmes efficaces en traitement d’image de microscopie par fluorescence, il est important d’avoir une segmentation robuste et fiable étant donné que celle-ci constitue l’étape initiale du traitement d’image. Dans ce mémoire, je présente MinSeg, un algorithme de segmentation d’image de microscopie par fluorescence qui fait peu d’assomptions sur l’image et utilise des propriétés statistiques pour distinguer le signal par rapport au bruit. MinSeg ne fait pas d’assomption sur la taille ou la forme des objets contenus dans l’image. Par ce fait, il est donc applicable sur une grande variété d’images. Je présente aussi une suite d’algorithmes pour la quantification de petits complexes dans des expériences de microscopie par fluorescence de molécules simples utilisant l’algorithme de segmentation MinSeg. Cette suite d’algorithmes a été utilisée pour la quantification d’une protéine nommée CENP-A qui est une variante de l’histone H3. Par cette technique, nous avons trouvé que CENP-A est principalement présente sous forme de dimère.

Relevância:

10.00% 10.00%

Publicador:

Resumo:

Des évidences expérimentales récentes indiquent que les ARN changent de structures au fil du temps, parfois très rapidement, et que ces changements sont nécessaires à leurs activités biochimiques. La structure de ces ARN est donc dynamique. Ces mêmes évidences notent également que les structures clés impliquées sont prédites par le logiciel de prédiction de structure secondaire MC-Fold. En comparant les prédictions de structures du logiciel MC-Fold, nous avons constaté un lien clair entre les structures presque optimales (en termes de stabilité prédites par ce logiciel) et les variations d’activités biochimiques conséquentes à des changements ponctuels dans la séquence. Nous avons comparé les séquences d’ARN du point de vue de leurs structures dynamiques afin d’investiguer la similarité de leurs fonctions biologiques. Ceci a nécessité une accélération notable du logiciel MC-Fold. L’approche algorithmique est décrite au chapitre 1. Au chapitre 2 nous classons les impacts de légères variations de séquences des microARN sur la fonction naturelle de ceux-ci. Au chapitre 3 nous identifions des fenêtres dans de longs ARN dont les structures dynamiques occupent possiblement des rôles dans les désordres du spectre autistique et dans la polarisation des œufs de certains batraciens (Xenopus spp.).

Relevância:

10.00% 10.00%

Publicador:

Resumo:

Le but de ce projet était de développer des méthodes d'assemblage de novo dans le but d'assembler de petits génomes, principalement bactériens, à partir de données de séquençage de nouvelle-génération. Éventuellement, ces méthodes pourraient être appliquées à l'assemblage du génome de StachEndo, une Alpha-Protéobactérie inconnue endosymbiote de l'amibe Stachyamoeba lipophora. Suite à plusieurs analyses préliminaires, il fut observé que l’utilisation de lectures Illumina avec des assembleurs par graphe DeBruijn produisait les meilleurs résultats. Ces expériences ont également montré que les contigs produits à partir de différentes tailles de k-mères étaient complémentaires pour la finition des génomes. L’ajout de longues paires de lectures chevauchantes se montra essentiel pour la finition complète des grandes répétitions génomiques. Ces méthodes permirent d'assembler le génome de StachEndo (1,7 Mb). L'annotation de ce génome permis de montrer que StachEndo possède plusieurs caractéristiques inhabituelles chez les endosymbiotes. StachEndo constitue une espèce d'intérêt pour l'étude du développement endosymbiotique.

Relevância:

10.00% 10.00%

Publicador:

Resumo:

Les positions des évènements de recombinaison s’agrègent ensemble, formant des hotspots déterminés en partie par la protéine à évolution rapide PRDM9. En particulier, ces positions de hotspots sont déterminées par le domaine de doigts de zinc (ZnF) de PRDM9 qui reconnait certains motifs d’ADN. Les allèles de PRDM9 contenant le ZnF de type k ont été préalablement associés avec une cohorte de patients affectés par la leucémie aigüe lymphoblastique. Les allèles de PRDM9 sont difficiles à identifier à partir de données de séquençage de nouvelle génération (NGS), en raison de leur nature répétitive. Dans ce projet, nous proposons une méthode permettant la caractérisation d’allèles de PRDM9 à partir de données de NGS, qui identifie le nombre d’allèles contenant un type spécifique de ZnF. Cette méthode est basée sur la corrélation entre les profils représentant le nombre de séquences nucléotidiques uniques à chaque ZnF retrouvés chez les lectures de NGS simulées sans erreur d’une paire d’allèles et chez les lectures d’un échantillon. La validité des prédictions obtenues par notre méthode est confirmée grâce à analyse basée sur les simulations. Nous confirmons également que la méthode peut correctement identifier le génotype d’allèles de PRDM9 qui n’ont pas encore été identifiés. Nous conduisons une analyse préliminaire identifiant le génotype des allèles de PRDM9 contenant un certain type de ZnF dans une cohorte de patients atteints de glioblastomes multiforme pédiatrique, un cancer du cerveau caractérisé par les mutations récurrentes dans le gène codant pour l’histone H3, la cible de l’activité épigénétique de PRDM9. Cette méthode ouvre la possibilité d’identifier des associations entre certains allèles de PRDM9 et d’autres types de cancers pédiatriques, via l’utilisation de bases de données de NGS de cellules tumorales.

Relevância:

10.00% 10.00%

Publicador:

Resumo:

Les introns sont des portions de gènes transcrites dans l’ARN messager, mais retirées pendant l’épissage avant la synthèse des produits du gène. Chez les eucaryotes, on rencontre les introns splicéosomaux, qui sont retirés de l’ARN messager par des splicéosomes. Les introns permettent plusieurs processus importants, tels que l'épissage alternatif, la dégradation des ARNs messagers non-sens, et l'encodage d'ARNs fonctionnels. Leurs rôles nous interrogent sur l'influence de la sélection naturelle sur leur évolution. Nous nous intéressons aux mutations qui peuvent modifier les produits d'un gène en changeant les sites d'épissage des introns. Ces mutations peuvent influencer le fonctionnement d'un organisme, et constituent donc un sujet d'étude intéressant, mais il n'existe actuellement pas de logiciels permettant de les étudier convenablement. Le but de notre projet était donc de concevoir une méthode pour détecter et analyser les changements des sites d'épissage des introns splicéosomaux. Nous avons finalement développé une méthode qui repère les évènements évolutifs qui affectent les introns splicéosomaux dans un jeu d'espèces données. La méthode a été exécutée sur un ensemble d'espèces d'oomycètes. Plusieurs évènements détectés ont changé les sites d’épissage et les protéines, mais de nombreux évènements trouvés ont modifié les introns sans affecter les produits des gènes. Il manque à notre méthode une étape finale d'analyse approfondie des données récoltées. Cependant, la méthode actuelle est facilement reproductible et automatise l'analyse des génomes pour la détection des évènements. Les fichiers produits peuvent ensuite être analysés dans chaque étude pour répondre à des questions spécifiques.

Relevância:

10.00% 10.00%

Publicador:

Resumo:

Au cours des dernières années, une sélection génétique importante a été faite pour améliorer la production de lait des bovins, ceci au détriment des performances reproductives. Cette diminution de performance n’a cependant pas été rapportée chez la génisse présentant un même potentiel génétique. Cette immense production de lait et les changements métaboliques qui l’accompagnent ont donc un impact négatif sur l’efficacité reproductive des vaches laitières qui subissent un stress métabolique supérieur à celui des génisses. Le but de l’étude était d’acquérir une meilleure connaissance des différences moléculaires et métaboliques entre ces deux groupes d’animaux pour amener à une meilleure compréhension de la pathogenèse de l’infertilité chez la vache laitière. Pour ce faire, les vagues folliculaires de vaches en lactation (30-50 jours en lait; N = 12) et de génisses (N = 10) ont été synchronisées par ablation écho guidée des follicules et par traitement hormonal avec injection de prostaglandine et insertion d’un implant de progestérone. L’aspiration du liquide folliculaire et des cellules de la granulosa du follicule dominant a été faite au jour 6. Les paramètres métaboliques mesurés chez les animaux à partir de prises de sang, faites au jour 6, confirment un plus grand stress métabolique chez la vache, les niveaux de BHBA, acides biliaires et cholestérol étant plus élevés et le niveau de glucose plus bas chez celles-ci. Un total de six échantillons a été utilisé pour le séquençage d’ARN et des analyses bio-informatiques ont été effectuées. Plusieurs gènes et voies de signalisation ont présenté des différences entre les deux groupes d’animaux incluant le cycle cellulaire et la production d’hormones. Une confirmation des résultats par PCR en temps réel a été faite, mais la grande variation intragroupe a nui à l’obtention de résultats significatifs. Conjointement, une culture primaire de cellules de la granulosa a été réalisée pour évaluer l’effet des acides biliaires sur la stéroïdogenèse suite à la détection d’une plus grande quantité de ceux-ci chez la vache laitière. La présence d’acide biliaire dans la culture cellulaire cause une diminution de l’accumulation d’estradiol ainsi que de l’expression des gènes CYP19A1 et CYP11A1. Les résultats présentés dans ce mémoire indiquent une différence potentielle au niveau métabolique et moléculaire des follicules dominants entre la vache laitière et la génisse pouvant avoir une responsabilité dans la diminution de l’efficacité reproductive observée chez la vache laitière.

Relevância:

10.00% 10.00%

Publicador:

Resumo:

Les ARN non codants (ARNnc) sont des transcrits d'ARN qui ne sont pas traduits en protéines et qui pourtant ont des fonctions clés et variées dans la cellule telles que la régulation des gènes, la transcription et la traduction. Parmi les nombreuses catégories d'ARNnc qui ont été découvertes, on trouve des ARN bien connus tels que les ARN ribosomiques (ARNr), les ARN de transfert (ARNt), les snoARN et les microARN (miARN). Les fonctions des ARNnc sont étroitement liées à leurs structures d’où l’importance de développer des outils de prédiction de structure et des méthodes de recherche de nouveaux ARNnc. Les progrès technologiques ont mis à la disposition des chercheurs des informations abondantes sur les séquences d'ARN. Ces informations sont accessibles dans des bases de données telles que Rfam, qui fournit des alignements et des informations structurelles sur de nombreuses familles d'ARNnc. Dans ce travail, nous avons récupéré toutes les séquences des structures secondaires annotées dans Rfam, telles que les boucles en épingle à cheveux, les boucles internes, les renflements « bulge », etc. dans toutes les familles d'ARNnc. Une base de données locale, RNAstem, a été créée pour faciliter la manipulation et la compilation des données sur les motifs de structure secondaire. Nous avons analysé toutes les boucles terminales et internes ainsi que les « bulges » et nous avons calculé un score d’abondance qui nous a permis d’étudier la fréquence de ces motifs. Tout en minimisant le biais de la surreprésentation de certaines classes d’ARN telles que l’ARN ribosomal, l’analyse des scores a permis de caractériser les motifs rares pour chacune des catégories d’ARN en plus de confirmer des motifs communs comme les boucles de type GNRA ou UNCG. Nous avons identifié des motifs abondants qui n’ont pas été étudiés auparavant tels que la « tetraloop » UUUU. En analysant le contenu de ces motifs en nucléotides, nous avons remarqué que ces régions simples brins contiennent beaucoup plus de nucléotides A et U. Enfin, nous avons exploré la possibilité d’utiliser ces scores pour la conception d’un filtre qui permettrait d’accélérer la recherche de nouveaux ARN non-codants. Nous avons développé un système de scores, RNAscore, qui permet d’évaluer un ARN en se basant sur son contenu en motifs et nous avons testé son applicabilité avec différents types de contrôles.

Relevância:

10.00% 10.00%

Publicador:

Resumo:

L’objectif de ce projet était de faire le lien entre gènes et métabolites afin d’éventuellement proposer des métabolites à mesurer en lien avec la fonction de gènes. Plus particulièrement, nous nous sommes intéressés aux gènes codant pour des protéines ayant un impact sur le métabolisme, soit les enzymes qui catalysent les réactions faisant partie intégrante des voies métaboliques. Afin de quantifier ce lien, nous avons développé une méthode bio-informatique permettant de calculer la distance qui est définie comme le nombre de réactions entre l’enzyme encodée par le gène et le métabolite dans la carte globale du métabolisme de la base de données Kyoto Encyclopedia of Genes and Genomes (KEGG). Notre hypothèse était que les métabolites d’intérêt sont des substrats/produits se trouvant à proximité des réactions catalysées par l’enzyme encodée par le gène. Afin de tester cette hypothèse et de valider la méthode, nous avons utilisé les études d’association pangénomique combinées à la métabolomique (mGWAS) car elles rapportent des associations entre variants génétiques, annotés en gènes, et métabolites mesurés. Plus précisément, la méthode a été appliquée à l’étude mGWAS par Shin et al. Bien que la couverture des associations de Shin et al. était limitée (24/299), nous avons pu valider de façon significative la proximité entre gènes et métabolites associés (P<0,01). En somme, cette méthode et ses développements futurs permettront d’interpréter de façon quantitative les associations mGWAS, de prédire quels métabolites mesurer en lien avec la fonction d’un gène et, plus généralement, de permettre une meilleure compréhension du contrôle génétique sur le métabolisme.

Relevância:

10.00% 10.00%

Publicador:

Resumo:

Les histones sont des protéines nucléaires hautement conservées chez les cellules des eucaryotes. Elles permettent d’organiser et de compacter l’ADN sous la forme de nucléosomes, ceux-ci representant les sous unités de base de la chromatine. Les histones peuvent être modifiées par de nombreuses modifications post-traductionnelles (PTMs) telles que l’acétylation, la méthylation et la phosphorylation. Ces modifications jouent un rôle essentiel dans la réplication de l’ADN, la transcription et l’assemblage de la chromatine. L’abondance de ces modifications peut varier de facon significative lors du developpement des maladies incluant plusieurs types de cancer. Par exemple, la perte totale de la triméthylation sur H4K20 ainsi que l’acétylation sur H4K16 sont des marqueurs tumoraux spécifiques a certains types de cancer chez l’humain. Par conséquent, l’étude de ces modifications et des événements determinant la dynamique des leurs changements d’abondance sont des atouts importants pour mieux comprendre les fonctions cellulaires et moléculaires lors du développement de la maladie. De manière générale, les modifications des histones sont étudiées par des approches biochimiques telles que les immuno-buvardage de type Western ou les méthodes d’immunoprécipitation de la chromatine (ChIP). Cependant, ces approches présentent plusieurs inconvénients telles que le manque de spécificité ou la disponibilité des anticorps, leur coût ou encore la difficulté de les produire et de les valider. Au cours des dernières décennies, la spectrométrie de masse (MS) s’est avérée être une méthode performante pour la caractérisation et la quantification des modifications d’histones. La MS offre de nombreux avantages par rapport aux techniques traditionnelles. Entre autre, elle permet d’effectuer des analyses reproductibles, spécifiques et facilite l’etude d’un large spectre de PTMs en une seule analyse. Dans cette thèse, nous présenterons le développement et l’application de nouveaux outils analytiques pour l’identification et à la quantification des PTMs modifiant les histones. Dans un premier temps, une méthode a été développée pour mesurer les changements d’acétylation spécifiques à certains sites des histones. Cette méthode combine l’analyse des histones intactes et les méthodes de séquençage peptidique afin de déterminer les changements d’acétylation suite à la réaction in vitro par l’histone acétyltransférase (HAT) de levure Rtt109 en présence de ses chaperonnes (Asf1 ou Vps75). Dans un second temps, nous avons développé une méthode d’analyse des peptides isomériques des histones. Cette méthode combine la LC-MS/MS à haute résolution et un nouvel outil informatique appelé Iso-PeptidAce qui permet de déconvoluer les spectres mixtes de peptides isomériques. Nous avons évalué Iso-PeptidAce avec un mélange de peptides synthétiques isomériques. Nous avons également validé les performances de cette approche avec des histones isolées de cellules humaines érythroleucémiques (K562) traitées avec des inhibiteurs d’histones désacétylases (HDACi) utilisés en clinique, et des histones de Saccharomyces cerevisiae liées au facteur d’assemblage de la chromatine (CAF-1) purifiées par chromatographie d’affinité. Enfin, en utilisant la méthode présentée précédemment, nous avons fait une analyse approfondie de la spécificité de plusieurs HATs et HDACs chez Schizosaccharomyces pombe. Nous avons donc déterminé les niveaux d’acétylation d’histones purifiées à partir de cellules contrôles ou de souches mutantes auxquelles il manque une HAT ou HDAC. Notre analyse nous a permis de valider plusieurs cibles connues des HATs et HDACs et d’en identifier de nouvelles. Nos données ont également permis de définir le rôle des différentes HATs et HDACs dans le maintien de l’équilibre d’acétylation des histones. Dans l’ensemble, nous anticipons que les méthodes décrites dans cette thèse permettront de résoudre certains défis rencontrés dans l’étude de la chromatine. De plus, ces données apportent de nouvelles connaissances pour l’élaboration d’études génétiques et biochimiques utilisant S. pombe.

Relevância:

10.00% 10.00%

Publicador:

Resumo:

Computational Biology is the research are that contributes to the analysis of biological data through the development of algorithms which will address significant research problems.The data from molecular biology includes DNA,RNA ,Protein and Gene expression data.Gene Expression Data provides the expression level of genes under different conditions.Gene expression is the process of transcribing the DNA sequence of a gene into mRNA sequences which in turn are later translated into proteins.The number of copies of mRNA produced is called the expression level of a gene.Gene expression data is organized in the form of a matrix. Rows in the matrix represent genes and columns in the matrix represent experimental conditions.Experimental conditions can be different tissue types or time points.Entries in the gene expression matrix are real values.Through the analysis of gene expression data it is possible to determine the behavioral patterns of genes such as similarity of their behavior,nature of their interaction,their respective contribution to the same pathways and so on. Similar expression patterns are exhibited by the genes participating in the same biological process.These patterns have immense relevance and application in bioinformatics and clinical research.Theses patterns are used in the medical domain for aid in more accurate diagnosis,prognosis,treatment planning.drug discovery and protein network analysis.To identify various patterns from gene expression data,data mining techniques are essential.Clustering is an important data mining technique for the analysis of gene expression data.To overcome the problems associated with clustering,biclustering is introduced.Biclustering refers to simultaneous clustering of both rows and columns of a data matrix. Clustering is a global whereas biclustering is a local model.Discovering local expression patterns is essential for identfying many genetic pathways that are not apparent otherwise.It is therefore necessary to move beyond the clustering paradigm towards developing approaches which are capable of discovering local patterns in gene expression data.A biclusters is a submatrix of the gene expression data matrix.The rows and columns in the submatrix need not be contiguous as in the gene expression data matrix.Biclusters are not disjoint.Computation of biclusters is costly because one will have to consider all the combinations of columans and rows in order to find out all the biclusters.The search space for the biclustering problem is 2 m+n where m and n are the number of genes and conditions respectively.Usually m+n is more than 3000.The biclustering problem is NP-hard.Biclustering is a powerful analytical tool for the biologist.The research reported in this thesis addresses the problem of biclustering.Ten algorithms are developed for the identification of coherent biclusters from gene expression data.All these algorithms are making use of a measure called mean squared residue to search for biclusters.The objective here is to identify the biclusters of maximum size with the mean squared residue lower than a given threshold. All these algorithms begin the search from tightly coregulated submatrices called the seeds.These seeds are generated by K-Means clustering algorithm.The algorithms developed can be classified as constraint based,greedy and metaheuristic.Constarint based algorithms uses one or more of the various constaints namely the MSR threshold and the MSR difference threshold.The greedy approach makes a locally optimal choice at each stage with the objective of finding the global optimum.In metaheuristic approaches particle Swarm Optimization(PSO) and variants of Greedy Randomized Adaptive Search Procedure(GRASP) are used for the identification of biclusters.These algorithms are implemented on the Yeast and Lymphoma datasets.Biologically relevant and statistically significant biclusters are identified by all these algorithms which are validated by Gene Ontology database.All these algorithms are compared with some other biclustering algorithms.Algorithms developed in this work overcome some of the problems associated with the already existing algorithms.With the help of some of the algorithms which are developed in this work biclusters with very high row variance,which is higher than the row variance of any other algorithm using mean squared residue, are identified from both Yeast and Lymphoma data sets.Such biclusters which make significant change in the expression level are highly relevant biologically.

Relevância:

10.00% 10.00%

Publicador:

Resumo:

This paper compares the most common digital signal processing methods of exon prediction in eukaryotes, and also proposes a technique for noise suppression in exon prediction. The specimen used here which has relevance in medical research, has been taken from the public genomic database - GenBank.Here exon prediction has been done using the digital signal processing methods viz. binary method, EIIP (electron-ion interaction psuedopotential) method and filter methods. Under filter method two filter designs, and two approaches using these two designs have been tried. The discrete wavelet transform has been used for de-noising of the exon plots.Results of exon prediction based on the methods mentioned above, which give values closest to the ones found in the NCBI database are given here. The exon plot de-noised using discrete wavelet transform is also given.Alterations to the proven methods as done by the authors, improves performance of exon prediction algorithms. Also it has been proven that the discrete wavelet transform is an effective tool for de-noising which can be used with exon prediction algorithms

Relevância:

10.00% 10.00%

Publicador:

Resumo:

There are a number of genes involved in the regulation of functional process in marine bivalves. In the case of pearl oyster, some of these genes have major role in the immune/defence function and biomineralization process involved in the pearl formation in them. As secondary filter feeders, pearl oysters are exposed to various kinds of stressors like bacteria, viruses, pesticides, industrial wastes, toxic metals and petroleum derivatives, making susceptible to diseases. Environmental changes and ambient stress also affect non-specific immunity, making the organisms vulnerable to infections. These stressors can trigger various cellular responses in the animals in their efforts to counteract the ill effects of the stress on them. These include the expression of defence related genes which encode factors such as antioxidant genes, pattern recognition receptor proteins etc. One of the strategies to combat these problems is to get insight into the disease resistance genes, and use them for disease control and health management. Similarly, although it is known that formation of pearl in molluscs is mediated by specialized proteins which are in turn regulated by specific genes encoding them, there is a paucity of sufficient information on these genes.In view of the above facts, studies on the defence related and pearl forming genes of the pearl oyster assumes importance from the point of view of both sustainable fishery management and aquaculture. At present, there is total lack of sufficient knowledge on the functional genes and their expressions in the Indian pearl oyster Pinctada fucata. Hence this work was taken up to identify and characterize the defence related and pearl forming genes, and study their expression through molecular means, in the Indian pearl oyster Pinctada fucata which are economically important for aquaculture at the southeast coast of India. The present study has successfully carried out the molecular identification, characterization and expression analysis of defence related antioxidant enzyme genes and pattern recognition proteins genes which play vital role in the defence against biotic and abiotic stressors. Antioxidant enzyme genes viz., Cu/Zn superoxide dismutase (Cu/Zn SOD), glutathione peroxidise (GPX) and glutathione-S-transferase (GST) were studied. Concerted approaches using the various molecular tools like polymerase chain reaction (PCR), random amplification of cDNA ends (RACE), molecular cloning and sequencing have resulted in the identification and characterization of full length sequences (924 bp) of the Cu/Zn SOD, most important antioxidant enzyme gene. BLAST search in NCBI confirmed the identity of the gene as Cu/Zn SOD. The presence of the characteristic amino acid sequences such as copper/zinc binding residues, family signature sequences and signal peptides were found out. Multiple sequence alignment comparison and phylogenetic analysis of the nucleotide and amino acid sequences using bioinformatics tools like BioEdit,MEGA etc revealed that the sequences were found to contain regions of diversity as well as homogeneity. Close evolutionary relationship between P. fucata and other aquatic invertebrates was revealed from the phylogenetic tree constructed using SOD amino acid sequence of P. fucata and other invertebrates as well as vertebrates

Relevância:

10.00% 10.00%

Publicador:

Resumo:

Post-transcriptional gene silencing by RNA interference is mediated by small interfering RNA called siRNA. This gene silencing mechanism can be exploited therapeutically to a wide variety of disease-associated targets, especially in AIDS, neurodegenerative diseases, cholesterol and cancer on mice with the hope of extending these approaches to treat humans. Over the recent past, a significant amount of work has been undertaken to understand the gene silencing mediated by exogenous siRNA. The design of efficient exogenous siRNA sequences is challenging because of many issues related to siRNA. While designing efficient siRNA, target mRNAs must be selected such that their corresponding siRNAs are likely to be efficient against that target and unlikely to accidentally silence other transcripts due to sequence similarity. So before doing gene silencing by siRNAs, it is essential to analyze their off-target effects in addition to their inhibition efficiency against a particular target. Hence designing exogenous siRNA with good knock-down efficiency and target specificity is an area of concern to be addressed. Some methods have been developed already by considering both inhibition efficiency and off-target possibility of siRNA against agene. Out of these methods, only a few have achieved good inhibition efficiency, specificity and sensitivity. The main focus of this thesis is to develop computational methods to optimize the efficiency of siRNA in terms of “inhibition capacity and off-target possibility” against target mRNAs with improved efficacy, which may be useful in the area of gene silencing and drug design for tumor development. This study aims to investigate the currently available siRNA prediction approaches and to devise a better computational approach to tackle the problem of siRNA efficacy by inhibition capacity and off-target possibility. The strength and limitations of the available approaches are investigated and taken into consideration for making improved solution. Thus the approaches proposed in this study extend some of the good scoring previous state of the art techniques by incorporating machine learning and statistical approaches and thermodynamic features like whole stacking energy to improve the prediction accuracy, inhibition efficiency, sensitivity and specificity. Here, we propose one Support Vector Machine (SVM) model, and two Artificial Neural Network (ANN) models for siRNA efficiency prediction. In SVM model, the classification property is used to classify whether the siRNA is efficient or inefficient in silencing a target gene. The first ANNmodel, named siRNA Designer, is used for optimizing the inhibition efficiency of siRNA against target genes. The second ANN model, named Optimized siRNA Designer, OpsiD, produces efficient siRNAs with high inhibition efficiency to degrade target genes with improved sensitivity-specificity, and identifies the off-target knockdown possibility of siRNA against non-target genes. The models are trained and tested against a large data set of siRNA sequences. The validations are conducted using Pearson Correlation Coefficient, Mathews Correlation Coefficient, Receiver Operating Characteristic analysis, Accuracy of prediction, Sensitivity and Specificity. It is found that the approach, OpsiD, is capable of predicting the inhibition capacity of siRNA against a target mRNA with improved results over the state of the art techniques. Also we are able to understand the influence of whole stacking energy on efficiency of siRNA. The model is further improved by including the ability to identify the “off-target possibility” of predicted siRNA on non-target genes. Thus the proposed model, OpsiD, can predict optimized siRNA by considering both “inhibition efficiency on target genes and off-target possibility on non-target genes”, with improved inhibition efficiency, specificity and sensitivity. Since we have taken efforts to optimize the siRNA efficacy in terms of “inhibition efficiency and offtarget possibility”, we hope that the risk of “off-target effect” while doing gene silencing in various bioinformatics fields can be overcome to a great extent. These findings may provide new insights into cancer diagnosis, prognosis and therapy by gene silencing. The approach may be found useful for designing exogenous siRNA for therapeutic applications and gene silencing techniques in different areas of bioinformatics.

Relevância:

10.00% 10.00%

Publicador:

Resumo:

With molecular biology methods and bioinformatics, the Argonaute proteins in Dictyostelium discoideum were characterized, and the function of the AgnA protein in RNAi and DNA methylation was investigated, as well as cellular features. Also interaction partners of the PAZ-Piwi domain of AgnA (PAZ-PiwiAgnA) were discovered. The Dictyostelium genome encodes five Argonaute proteins, termed AgnA/B/C/D/E. The expression level of Argonaute proteins was AgnB/D/E > AgnA > AgnC. All these proteins contain the characteristic conserved of PAZ and Piwi domains. Fluorescence microscopy revealed that the overexpressed C-terminal GFP-fusion of PAZ-PiwiAgnA (PPWa-GFP) localized to the cytoplasm. Overexpression of PPWa-GFP leaded to an increased gene silencing efficiency mediated by RNAi but not by antisense RNA. This indicated that PAZ-PiwiAgnA is involved in the RNAi pathway, but not in the antisense pathway. An analysis of protein-protein interactions by a yeast-two-hybrid screen on a cDNA library from vegetatively grown Dictyostelium revealed that several proteins, such as EF2, EF1-I, IfdA, SahA, SamS, RANBP1, UAE1, CapA, and GpdA could interact with PAZ-PiwiAgnA. There was no interaction between PAZ-PiwiAgnA and HP1, HelF and DnmA detected by direct yeast-two-hybrid analysis. The fluorescence microscopy images showed that the overexpressed GFP-SahA or IfdA fusion proteins localized to both cytoplasm and nuclei, while the overexpressed GFP-SamS localized to the cytoplasm. The expression of SamS in AgnA knock down mutants was strongly down regulated on cDNA and mRNA level in, while the expression of SahA was only slightly down regulated. AgnA knock down mutants displayed defects in growth and phagocytosis, which suggested that AgnA affects also cell biological features. The inhibition of DNA methylation on DIRS-1 and Skipper retroelements, as well as the endogenous mvpB and telA gene, observed for the same strains, revealed that AgnA is involved in the DNA methylation pathway. Northern blot analysis showed that Skipper and DIRS-1 were rarely expressed in Ax2, but the expression of Skipper was upregulated in AgnA knock down mutants, while the expression of DIRS-1 was not changed. A knock out of the agnA gene failed even though the homologous recombination of the disruption construct occurred at the correct site, which indicated that there was a duplication of the agnA gene in the genome. The same phenomenon was also observed in ifdA knock out experiments.

Relevância:

10.00% 10.00%

Publicador:

Resumo:

El conocimiento de las proteínas implicadas en el proceso de invasión de los merozoitos a los eritrocitos por Plasmodium es el punto de partida para el desarrollo de nuevas estrategias para controlar la malaria. Muchas de estas proteínas han sido estudiadas en Toxoplasma gondii, donde se han identificado las proteínas que pertenecen al Tight Junction (TJ), el cual permite una interacción fuerte entre las membranas de la célula huésped y el parásito, necesaria para la invasión parasitaria. En este género, cuatro proteínas del cuello de las roptrias (RON2, RON4, RON5 y RON8) y una proteína de micronemas (TgAMA-1) se han encontrado como parte del TJ. En Plasmodium falciparum, se han caracterizado las proteínas PfRON2 y PfRON4. En el presente estudio se realiza la identificación de la proteína PfRON5, una proteína de ~110 kDa que se expresa en las etapas de merozoitos y esquizontes de la cepa FCB-2 utilizando técnicas de biología molecular, bioinformática e inmuoquímica.