75 resultados para Seqüències de nucleòtids


Relevância:

60.00% 60.00%

Publicador:

Resumo:

One of the first useful products from the human genome will be a set of predicted genes. Besides its intrinsic scientific interest, the accuracy and completeness of this data set is of considerable importance for human health and medicine. Though progress has been made on computational gene identification in terms of both methods and accuracy evaluation measures, most of the sequence sets in which the programs are tested are short genomic sequences, and there is concern that these accuracy measures may not extrapolate well to larger, more challenging data sets. Given the absence of experimentally verified large genomic data sets, we constructed a semiartificial test set comprising a number of short single-gene genomic sequences with randomly generated intergenic regions. This test set, which should still present an easier problem than real human genomic sequence, mimics the approximately 200kb long BACs being sequenced. In our experiments with these longer genomic sequences, the accuracy of GENSCAN, one of the most accurate ab initio gene prediction programs, dropped significantly, although its sensitivity remained high. Conversely, the accuracy of similarity-based programs, such as GENEWISE, PROCRUSTES, and BLASTX was not affected significantly by the presence of random intergenic sequence, but depended on the strength of the similarity to the protein homolog. As expected, the accuracy dropped if the models were built using more distant homologs, and we were able to quantitatively estimate this decline. However, the specificities of these techniques are still rather good even when the similarity is weak, which is a desirable characteristic for driving expensive follow-up experiments. Our experiments suggest that though gene prediction will improve with every new protein that is discovered and through improvements in the current set of tools, we still have a long way to go before we can decipher the precise exonic structure of every gene in the human genome using purely computational methodology.

Relevância:

60.00% 60.00%

Publicador:

Resumo:

Annotation of protein-coding genes is a key goal of genome sequencing projects. In spite of tremendous recent advances in computational gene finding, comprehensive annotation remains a challenge. Peptide mass spectrometry is a powerful tool for researching the dynamic proteome and suggests an attractive approach to discover and validate protein-coding genes. We present algorithms to construct and efficiently search spectra against a genomic database, with no prior knowledge of encoded proteins. By searching a corpus of 18.5 million tandem mass spectra (MS/MS) from human proteomic samples, we validate 39,000 exons and 11,000 introns at the level of translation. We present translation-level evidence for novel or extended exons in 16 genes, confirm translation of 224 hypothetical proteins, and discover or confirm over 40 alternative splicing events. Polymorphisms are efficiently encoded in our database, allowing us to observe variant alleles for 308 coding SNPs. Finally, we demonstrate the use of mass spectrometry to improve automated gene prediction, adding 800 correct exons to our predictions using a simple rescoring strategy. Our results demonstrate that proteomic profiling should play a role in any genome sequencing project.

Relevância:

60.00% 60.00%

Publicador:

Resumo:

GeneID is a program to predict genes in anonymous genomic sequences designed with a hierarchical structure. In the first step, splice sites, and start and stop codons are predicted and scored along the sequence using position weight matrices (PWMs). In the second step, exons are built from the sites. Exons are scored as the sum of the scores of the defining sites, plus the log-likelihood ratio of a Markov model for coding DNA. In the last step, from the set of predicted exons, the gene structure is assembled, maximizing the sum of the scores of the assembled exons. In this paper we describe the obtention of PWMs for sites, and the Markov model of coding DNA in Drosophila melanogaster. We also compare other models of coding DNA with the Markov model. Finally, we present and discuss the results obtained when GeneID is used to predict genes in the Adh region. These results show that the accuracy of GeneID predictions compares currently with that of other existing tools but that GeneID is likely to be more efficient in terms of speed and memory usage.

Relevância:

60.00% 60.00%

Publicador:

Resumo:

In a number of programs for gene structure prediction in higher eukaryotic genomic sequences, exon prediction is decoupled from gene assembly: a large pool of candidate exons is predicted and scored from features located in the query DNA sequence, and candidate genes are assembled from such a pool as sequences of nonoverlapping frame-compatible exons. Genes are scored as a function of the scores of the assembled exons, and the highest scoring candidate gene is assumed to be the most likely gene encoded by the query DNA sequence. Considering additive gene scoring functions, currently available algorithms to determine such a highest scoring candidate gene run in time proportional to the square of the number of predicted exons. Here, we present an algorithm whose running time grows only linearly with the size of the set of predicted exons. Polynomial algorithms rely on the fact that, while scanning the set of predicted exons, the highest scoring gene ending in a given exon can be obtained by appending the exon to the highest scoring among the highest scoring genes ending at each compatible preceding exon. The algorithm here relies on the simple fact that such highest scoring gene can be stored and updated. This requires scanning the set of predicted exons simultaneously by increasing acceptor and donor position. On the other hand, the algorithm described here does not assume an underlying gene structure model. Indeed, the definition of valid gene structures is externally defined in the so-called Gene Model. The Gene Model specifies simply which gene features are allowed immediately upstream which other gene features in valid gene structures. This allows for great flexibility in formulating the gene identification problem. In particular it allows for multiple-gene two-strand predictions and for considering gene features other than coding exons (such as promoter elements) in valid gene structures.

Relevância:

60.00% 60.00%

Publicador:

Resumo:

The completion of the sequencing of the mouse genome promises to help predict human genes with greater accuracy. While current ab initio gene prediction programs are remarkably sensitive (i.e., they predict at least a fragment of most genes), their specificity is often low, predicting a large number of false-positive genes in the human genome. Sequence conservation at the protein level with the mouse genome can help eliminate some of those false positives. Here we describe SGP2, a gene prediction program that combines ab initio gene prediction with TBLASTX searches between two genome sequences to provide both sensitive and specific gene predictions. The accuracy of SGP2 when used to predict genes by comparing the human and mouse genomes is assessed on a number of data sets, including single-gene data sets, the highly curated human chromosome 22 predictions, and entire genome predictions from ENSEMBL. Results indicate that SGP2 outperforms purely ab initio gene prediction methods. Results also indicate that SGP2 works about as well with 3x shotgun data as it does with fully assembled genomes. SGP2 provides a high enough specificity that its predictions can be experimentally verified at a reasonable cost. SGP2 was used to generate a complete set of gene predictions on both the human and mouse by comparing the genomes of these two species. Our results suggest that another few thousand human and mouse genes currently not in ENSEMBL are worth verifying experimentally.

Relevância:

60.00% 60.00%

Publicador:

Resumo:

The “one-gene, one-protein” rule, coined by Beadle and Tatum, has been fundamental to molecular biology. The rule implies that the genetic complexity of an organism depends essentially on its gene number. The discovery, however, that alternative gene splicing and transcription are widespread phenomena dramatically altered our understanding of the genetic complexity of higher eukaryotic organisms; in these, a limited number of genes may potentially encode a much larger number of proteins. Here we investigate yet another phenomenon that may contribute to generate additional protein diversity. Indeed, by relying on both computational and experimental analysis, we estimate that at least 4%–5% of the tandem gene pairs in the human genome can be eventually transcribed into a single RNA sequence encoding a putative chimeric protein. While the functional significance of most of these chimeric transcripts remains to be determined, we provide strong evidence that this phenomenon does not correspond to mere technical artifacts and that it is a common mechanism with the potential of generating hundreds of additional proteins in the human genome.

Relevância:

60.00% 60.00%

Publicador:

Relevância:

60.00% 60.00%

Publicador:

Relevância:

20.00% 20.00%

Publicador:

Resumo:

L'objectiu del projecte consisteix en el desenvolupament d'un add-in d'anàlisi i manipulació de seqüències, senzill i de fàcil ús, integrable en l'entorn Microsoft Word per permetre la manipulació de seqüències genètiques directament des de Microsoft Word, estalviant temps, en evitar haver de canviar constantment de programa i format per treballar amb elles; i, també, complicacions a l'usuari final. L'add-in ha estat desenvolupat en Visual Basic + VSTO i ofereix diverses funcionalitats d'edició i anàlisi de seqüències, com ara el complement, la recerca de motius o l'alineament.

Relevância:

20.00% 20.00%

Publicador:

Resumo:

Las herramientas de análisis de secuencias genómicas permiten a los biólogos identificar y entender regiones fundamentales que tienen implicación en enfermedades genéticas. Actualmente existe una necesidad de dotar al ámbito científico de herramientas de análisis eficientes. Este proyecto lleva a cabo una caracterización y análisis del rendimiento de algoritmos utilizados en la comparación de secuencias genómicas completas, y ejecutadas en arquitecturas MultiCore y ManyCore. A partir del análisis se evalúa la idoneidad de este tipo de arquitecturas para resolver el problema de comparar secuencias genómicas. Finalmente se propone una serie de modificaciones en las implementaciones de estos algoritmos con el objetivo de mejorar el rendimiento.

Relevância:

20.00% 20.00%

Publicador:

Resumo:

Las aplicaciones de alineamiento de secuencias son una herramienta importante para la comunidad científica. Estas aplicaciones bioinformáticas son usadas en muchos campos distintos como pueden ser la medicina, la biología, la farmacología, la genética, etc. A día de hoy los algoritmos de alineamiento de secuencias tienen una complejidad elevada y cada día tienen que manejar un volumen de datos más grande. Por esta razón se deben buscar alternativas para que estas aplicaciones sean capaces de manejar el aumento de tamaño que los bancos de secuencias están sufriendo día a día. En este proyecto se estudian y se investigan mejoras en este tipo de aplicaciones como puede ser el uso de sistemas paralelos que pueden mejorar el rendimiento notablemente.

Relevância:

20.00% 20.00%

Publicador:

Resumo:

LAMS (Learning Activity Management System), com a projecte de programari lliure basat en tecnologies web, va ser alliberat a la comunitat d'usuaris i desenvolupadors el Febrer del 2005, des d'aquesta data fins avui s'han produït una sèrie d'avenços i innovacions que ha permès fer extensiu l'ús d'aquest entorn a persones amb pocs coneixements de programació i relacionades amb la pedagogia i el disseny instruccional. La investigació portada a terme ha permès a un grup d'investigadors de la Universitat Oberta de Catalunya (UOC) aprofundir en el disseny instruccional de seqüències didàctiques amb LAMS potenciant dos aspectes clau, el treball col·laboratiu virtual i també la personalització de l'aprenentatge per part de l'estudiant. Durant la recerca es va elaborar una guia de disseny instruccional per implementar activitats didàctiques amb LAMS que tinguin les dos característiques anteriorment descrites, i va servir com a referència per portar a terme una prova pilot amb estudiants de la universitat per tal de valorar el seu grau de satisfacció amb el procés d'aprenentatge mitjançant l'ús de l'entorn virtual LAMS. L'estudi revela un elevat grau de satisfacció en quant als dos factors examinats, d'una banda, els estudiants consideren que les activitats proporcionades afavoreixen la construcció de coneixement col·lectiu i, d'altra banda, també consideren que és molt positiu que es pugui personalitzar l'aprenentatge mitjançant l'elecció de les activitats a fer per adquirir una competència específica.

Relevância:

20.00% 20.00%

Publicador:

Resumo:

En aquest article es presenten els resultats d'una experiència d'avaluació inicial integrada en elprocés de programació de seqüències didàctiques de llengua que, amb l'ajuda del Moodle, s'ha dut aterme en l'assignatura Didàctica de la llengua II de la titulació de Mestre d'Educació Primària de laUniversitat de Barcelona. L'experiència se centra en l'avaluació inicial perquè es considera un factor clauper afavorir l'autoregulació de l'alumnat i perquè existeix un fort desfasament entre el tractament quemereix aquest tema en els models didàctics més consensuats i la realitat de la pràctica educativa. Elcontingut de l'article s'organitza en quatre apartats: En el primer, es presenta el context, elsantecedents i els destinataris de l'experiència. En el segon, es presenta la necessitat i justificaciód'incidir en l'avaluació inicial, el tractament i la fonamentació que aquesta avaluació mereix en elsmodels de referència i la integració i coherència d'aquesta avaluació en el disseny global de l'assignatura.En el tercer, es presenten els objectius concrets de l'experiència, la metodologia i recursos per dur¿la aterme i els resultats obtinguts. Finalment, en l'últim apartat es valoren aquests resultats, primer, enfunció de la millora en el procés d'autoregulació de l'alumnat i, després, de la validació del plantejamentde l'assignatura.

Relevância:

20.00% 20.00%

Publicador:

Resumo:

El Grup d’Innovació Docent en Toxicologia “Orfila”, amb el propòsit de millorar la comprensió de determinats conceptes, està assajant la integració de petites seqüències de cinema comercial en el desenvolupament de les classes presencials. La manifestació dramàtica d’un fet real permet als estudiants relacionar-se amb la situació clínica i assimilar més fàcilment els nous conceptes, així, el llenguatge audiovisual subministra estímuls afectius i permet reforçar el coneixement a través de les emocions. Per tant, les petites seqüències poden utilitzar-se en un moment determinat com un instrument de transmissió del coneixement per a la millora de la comprensió d’alguns conceptes. Cal doncs, detectar en quins punts dels temes del programa de Toxicologia és més adient i efectiva la utilització d’aquest recurs didàctic.