191 resultados para BIoinformàtica
Resumo:
A ocorrência de bolores micotoxigénicos pertencentes aos géneros Aspergillus, Penicillium e Fusarium em alimentos para consumo Humano e animal, tem um impacto importante sobre a saúde pública e constitui também um importante problema económico. Isto é devido à síntese por este tipo de fungos filamentosos de metabolitos altamente tóxicos conhecidos como micotoxinas. A maioria das micotoxinas são substâncias cancerígenas, mutagénicas, neurotóxicas e imunossupressoras, sendo a ocratoxina A (OTA) uma das mais importantes. A OTA é uma micotoxina, tóxica para os animais e Humanos principalmente devido às suas propriedades nefrotóxicas. Alguns grupos de bactérias gram positivas nomeadamente as bactérias do ácido láctico (BAL) são capazes de controlar o crescimento de fungos, melhorando e aumentando a vida útil de muitos produtos fermentados e, assim, reduzir os riscos para a saúde provocados pela exposição às micotoxinas. Algumas BAL são, também, capazes de destoxificar certas micotoxinas. Em trabalhos anteriores do nosso grupo foi observada a biodegradação da OTA por estirpes de Pediococcus parvulus isoladas de vinhos do Douro. Assim, com este trabalho, pretendeu-se compreender com maior detalhe o processo de biodegradação da OTA pelas referidas estirpes e identificar quais as enzimas que estão associadas à sua biodegradação. Para atingir este objetivo utilizaram-se algumas ferramentas ioinformáticas (BLAST, CLUSTALX2, CLC Sequence Viewer 7, Finch TV), desenharam-se primers específicos e realizaram-se PCR específicos para os genes envolvidos. Através da utilização de ferramentas de bioinformática, foi possível identificar várias proteínas que pertencem à família das carboxipeptidases e que podem eventualmente participar no processo da degradação da OTA, tais como D-Ala-D-Ala carboxipeptidase serínica e carboxipeptidase membranar. Estas BAL podem desempenhar um papel importante na destoxificação da OTA, sendo as carboxipeptidases uma das enzimas envolvidas na sua biodegradação.
Resumo:
Dissertação de mestrado em Bioengenharia
Resumo:
El campo de las Bio-Ciencias está en pleno desarrollo y expansión. La variedad de tecnologías disponibles y aplicaciones están generando una cantidad abrumadora de datos que necesitan de protocolos, conceptos y métodos que permitan un análisis uniforme y asequible. Otra característica distintiva de estos ámbitos es su condición multidisciplinaria, donde interactúan (y cada vez más) disciplinas como la biología, la matemática, la estadística, la informática, la inteligencia artificial, etc. por lo que cualquier esfuerzo tendiente a aumentar el nivel de comunicación y entendimiento entre las disciplinas redundará en beneficios. La Minería de Datos, concepto que aglutina una variedad de metodologías analíticas, proporciona un marco conceptual y metodológico para el abordaje del análisis de datos y señales de distintas disciplinas. Sin embargo, cada campo de aplicación presenta desafíos específicos que deben ser abordados particularmente desde la racionalización de conceptos específicos del ámbito. La multidisiplinaridad es particularmente importante en aplicaciones biomédicas y biotecnológicas, donde se modelan fenómenos biológicos y se desarrollan métodos analíticos para generar nuevas estrategias diagnósticas, predictivas a partir de los datos recogidos. En este proyecto se integrarán las experiencias y criterios de distintas disciplinas que están involucradas en el desarrollo experimental en bio-ciencias, desde la biología molecular y la bioingeniería hasta la bioinformática y la estadística. La finalidad es elaborar protocolos que permitan extraer conocimiento en problemas biotecnológicos (particularmente experimentos genómicos) que se basan en la investigación sólida de los procedimientos estadísticos / bioinformáticos relevante para el manejo de datos experimentales. EL objetivo general de este proyecto es contribuir a la instauración de un Proceso Unificado de Análisis en Biotecnología generando conocimiento que permita el desarrollo de nuevas metodologías de análisis, con especial énfasis en métodos lineales y no-lineales de clasificación / predicción. La comprensión y estandarización de los requerimientos y etapas de experimentos en bio-ciencias es imprescindible para el éxito de proyectos biotecnológicos / biomédicos.
Resumo:
El volumen de datos provenientes de experimentos basados en genómica y poteómica es grande y de estructura compleja. Solo a través de un análisis bioinformático/bioestadístico eficiente es posible identificar y caracterizar perfiles de expresión de genes y proteínas que se expresan en forma diferencial bajo distintas condiciones experimentales (CE). El objetivo principal es extender las capacidades computacionales y analíticos de los softwares disponibles de análisis de este tipo de datos, en especial para aquellos aplicables a datos de electroforésis bidimensional diferencial (2D-DIGE). En DIGE el método estadístico más usado es la prueba t de Student cuya aplicación presupone una única fuente de variación y el cumplimiento de ciertos supuestos distribucionales de los datos (como independencia y homogeneidad de varianzas), los cuales no siempre se cumplen en la práctica, pudiendo conllevar a errores en las estimaciones e inferencias de los efectos de interés. Los modelos Generalizados lineales mixtos (GLMM) permiten no solo incorporar los efectos que, se asume, afectan la variación de la respuesta sino que también modelan estructuras de covarianzas y de correlaciones más afines a las que se presentan en la realidad, liberando del supuesto de independencia y de normalidad. Estos modelos, más complejos en esencia, simplificará el análisis debido a la modelización directa de los datos crudos sin la aplicación de transformaciones para lograr distribuciones más simétricas. Produciendo también a una estimación estadísticamente más eficiente de los efectos presentes y por tanto a una detección más certera de los genes/ proteínas involucrados en procesos biológicos de interés. La característica relevante de esta tecnología es que no se conoce a priori cuáles son las proteínas presentes. Estas son identificadas mediante otras técnicas más costosas una vez que se detectó un conjunto de manchas diferenciales sobre los geles 2DE. Por ende disminuir los falsos positivos es fundamental en la identificación de tales manchas ya que inducen a resultados erróneas y asociaciones biológica ficticias. Esto no solo se logrará mediante el desarrollo de técnicas de normalización que incorporen explícitamente las CE, sino también con el desarrollo de métodos que permitan salirse del supuesto de gaussianidad y evaluar otros supuestos distribucionales más adecuados para este tipo de datos. También, se desarrollarán técnicas de aprendizaje automática que mediante optimización de funciones de costo específicas nos permitan identificar el subconjunto de proteínas con mayor potencialidad diagnóstica. Este proyecto tiene una alta componente estadístico/bioinformática, pero creemos que es el campo de aplicación, es decir la genómica y la proteómica, los que mas se beneficiarán con los resultados esperados. Para tal fin se utilizarán diversas bases de datos de distintos experimentos provistos por distintos centros de investigación nacionales e internacionales
Resumo:
El objetivo general de este proyecto es dilucidar los mecanismos de acción a nivel molecular de enzimas y proteínas involucradas en el metabolismo de colina en Pseudomonas aeruginosa, con énfasis en la identificación de residuos aminoacídicos críticos y regulación de la expresión de los genes en estudio. Los objetivos específicos que se palntean involucran abordajes bioquímicos y moleculares y serán llevados a cabo mediante técnicas de biología molecular y bioquímica (mutación sitio-dirigida, deleción génica, expresión y purificación de proteínas, fusión transcripcional a genes reporteros, etc). Planteo de hipótesis: las proteínas que se inducen por colina (fosforilcolina fosfatasa (PchP), fosfolipasa C (PlcH), acetilcolinestera (AchE), proteínas periplásmicas unidoras de colina (PUch) podrían compartir: a) una organización génica y responder a la regulación por proteínas regulatorias o a factores ambientales de manera similar; b) residuos aminoacídicos conservados que intervengan en la unión o interacción con diferentes ligandos, principalmente, colina. Para ello, se plantean los siguientes Objetivos Específicos: 1) identificar las zonas promotoras de los genes que codifican para PchP, PlcH, AchE y PUch, a fin de localizar posibles sitios de unión a proteínas reguladoras y los factores ambientales que afectan la actividad promotora. 2) determinar en las proteínas mencionadas los residuos aminoacídicos de importancia involucrados en la catálisis y en la interacción con ligandos, principalmente en la unión a compuestos de alquilamonio; 3) Se iniciarán estudios que demuestren la relación entre la inducción por colina de varios factores de patogenicidad la virulencia del microorganismo, empleando mutantes simples o múltiples en estos factores y como modelo de patogenicidad el nematodo C. elegans. A partir de los resultados obtenidos se pretende tener un conocimiento profundo sobre la regulación molecular y bioquímica de varias enzimas comprometidas en la patología que produce P. aeruginosa. Esto más el conocimiento de la fisiología de este microorganismo abre el camino para la búsqueda de posibles blancos de acción de drogas. Por otro lado, se espera tener un conocimiento integral sobre la regulación de la expresión de las actividades enzimáticas relacionadas con el metabolismo de colina y la respuesta de P. aeruginosa ante la presencia de compuestos de alquilamonio utilizados como nutrientes. Se espera conocer el papel que desempeña cada uno de los sitios de unión a los diferentes ligandos para el funcionamiento y control de las enzimas mencionadas y explicar el comportamiento diferencial de las enzimas frente a distintos sustratos y otros ligandos. El conocimiento de los sitios de unión a compuestos de alquilamonio permitirá encontrar esos dominios en diferentes proteínas del género Pseudomonas y otras bacterias Gram negativas. Desde el punto de vista evolutivo, se podrá comparar la similitud de los sitios de unión a colina entre proteínas de organismos eucariotas con procariotas (ej. PUch de bacterias Gram positivas, transportadores de colina, proteína C reactiva, AchE de eucariotas contra las encontradas en bacterias del género Pseudomonas, fosfolipasas A, C o D, etc.). Este proyecto permitirá concretar al menos dos tesis doctorales (Sanchez, Otero) más varios trabajos finales de grado (tesinas) que son y serán realizados por alumnos de la carrera de Microbiología en la UNRC. Les permitirá a los doctorandos y a los alumnos de grado adquirir una formación bastante integral ya que utilizarán herramientas de la fisiología general bacteriana, de la bioquímica clásica, de la biología molecular y de la bioinformática.
Resumo:
El volumen de datos provenientes de experimentos basados en genómica y poteómica es grande y de estructura compleja. Solo a través de un análisis bioinformático/bioestadístico eficiente es posible identificar y caracterizar perfiles de expresión de genes y proteínas que se expresan en forma diferencial bajo distintas condiciones experimentales (CE). El objetivo principal es extender las capacidades computacionales y analíticos de los softwares disponibles de análisis de este tipo de datos, en especial para aquellos aplicables a datos de electroforésis bidimensional diferencial (2D-DIGE). En DIGE el método estadístico más usado es la prueba t de Student cuya aplicación presupone una única fuente de variación y el cumplimiento de ciertos supuestos distribucionales de los datos (como independencia y homogeneidad de varianzas), los cuales no siempre se cumplen en la práctica, pudiendo conllevar a errores en las estimaciones e inferencias de los efectos de interés. Los modelos Generalizados lineales mixtos (GLMM) permiten no solo incorporar los efectos que, se asume, afectan la variación de la respuesta sino que también modelan estructuras de covarianzas y de correlaciones más afines a las que se presentan en la realidad, liberando del supuesto de independencia y de normalidad. Estos modelos, más complejos en esencia, simplificarán el análisis debido a la modelización directa de los datos crudos sin la aplicación de transformaciones para lograr distribuciones más simétricas,produciendo también a una estimación estadísticamente más eficiente de los efectos presentes y por tanto a una detección más certera de los genes/proteínas involucrados en procesos biológicos de interés. La característica relevante de esta tecnología es que no se conoce a priori cuáles son las proteínas presentes. Estas son identificadas mediante otras técnicas más costosas una vez que se detectó un conjunto de manchas diferenciales sobre los geles 2DE. Por ende disminuir los falsos positivos es fundamental en la identificación de tales manchas ya que inducen a resultados erróneas y asociaciones biológica ficticias. Esto no solo se logrará mediante el desarrollo de técnicas de normalización que incorporen explícitamente las CE, sino también con el desarrollo de métodos que permitan salirse del supuesto de gaussianidad y evaluar otros supuestos distribucionales más adecuados para este tipo de datos. También, se desarrollarán técnicas de aprendizaje automática que mediante optimización de funciones de costo específicas nos permitan identificar el subconjunto de proteínas con mayor potencialidad diagnóstica. Este proyecto tiene un alto componente estadístico/bioinformática, pero creemos que es el campo de aplicación, es decir la genómica y la proteómica, los que más se beneficiarán con los resultados esperados. Para tal fin se utilizarán diversas bases de datos de distintos experimentos provistos por distintos centros de investigación nacionales e internacionales.
Resumo:
L’anàlisi de l’efecte dels gens i els factors ambientals en el desenvolupament de malalties complexes és un gran repte estadístic i computacional. Entre les diverses metodologies de mineria de dades que s’han proposat per a l’anàlisi d’interaccions una de les més populars és el mètode Multifactor Dimensionality Reduction, MDR, (Ritchie i al. 2001). L’estratègia d’aquest mètode és reduir la dimensió multifactorial a u mitjançant l’agrupació dels diferents genotips en dos grups de risc: alt i baix. Tot i la seva utilitat demostrada, el mètode MDR té alguns inconvenients entre els quals l’agrupació excessiva de genotips pot fer que algunes interaccions importants no siguin detectades i que no permet ajustar per efectes principals ni per variables confusores. En aquest article il•lustrem les limitacions de l’estratègia MDR i d’altres aproximacions no paramètriques i demostrem la conveniència d’utilitzar metodologies parametriques per analitzar interaccions en estudis cas-control on es requereix l’ajust per variables confusores i per efectes principals. Proposem una nova metodologia, una versió paramètrica del mètode MDR, que anomenem Model-Based Multifactor Dimensionality Reduction (MB-MDR). La metodologia proposada té com a objectiu la identificació de genotips específics que estiguin associats a la malaltia i permet ajustar per efectes marginals i variables confusores. La nova metodologia s’il•lustra amb dades de l’Estudi Espanyol de Cancer de Bufeta.
Resumo:
Con la mayor capacidad de los nodos de procesamiento en relación a la potencia de cómputo, cada vez más aplicaciones intensivas de datos como las aplicaciones de la bioinformática, se llevarán a ejecutar en clusters no dedicados. Los clusters no dedicados se caracterizan por su capacidad de combinar la ejecución de aplicaciones de usuarios locales con aplicaciones, científicas o comerciales, ejecutadas en paralelo. Saber qué efecto las aplicaciones con acceso intensivo a dados producen respecto a la mezcla de otro tipo (batch, interativa, SRT, etc) en los entornos no-dedicados permite el desarrollo de políticas de planificación más eficientes. Algunas de las aplicaciones intensivas de E/S se basan en el paradigma MapReduce donde los entornos que las utilizan, como Hadoop, se ocupan de la localidad de los datos, balanceo de carga de forma automática y trabajan con sistemas de archivos distribuidos. El rendimiento de Hadoop se puede mejorar sin aumentar los costos de hardware, al sintonizar varios parámetros de configuración claves para las especificaciones del cluster, para el tamaño de los datos de entrada y para el procesamiento complejo. La sincronización de estos parámetros de sincronización puede ser demasiado compleja para el usuario y/o administrador pero procura garantizar prestaciones más adecuadas. Este trabajo propone la evaluación del impacto de las aplicaciones intensivas de E/S en la planificación de trabajos en clusters no-dedicados bajo los paradigmas MPI y Mapreduce.
Resumo:
Desde el inicio del proyecto del genoma humano y su éxito en el año 2001 se han secuenciado genomas de multitud de especies. La mejora en las tecnologías de secuenciación ha generado volúmenes de datos con un crecimiento exponencial. El proyecto Análisis bioinformáticos sobre la tecnología Hadoop abarca la computación paralela de datos biológicos como son las secuencias de ADN. El estudio ha sido encauzado por la naturaleza del problema a resolver. El alineamiento de secuencias genéticas con el paradigma MapReduce.
Resumo:
Cada vez es mayor el número de aplicaciones desarrolladas en el ámbito científico, como en la Bioinformática o en las Geociencias, escritas bajo el modelo MapReduce, empleando herramientas de código abierto como Apache Hadoop. De la necesidad de integrar Hadoop en entornos HPC, para posibilitar la ejecutar aplicaciones desarrolladas bajo el paradigma MapReduce, nace el presente proyecto. Se analizan dos frameworks diseñados para facilitar dicha integración a los desarrolladores: HoD y myHadoop. En este proyecto se analiza, tanto las posibilidades en cuanto a entornos que ofrecen dichos frameworks para la ejecución de aplicaciones MapReduce, como el rendimiento de los clúster Hadoop generados con HoD o myHadoop respecto a un clúster Hadoop físico.
Resumo:
Retinitis Pigmentosa (RP) is a heterogeneous group of inherited retinal dystrophies characterised ultimately by the loss of photoreceptor cells. RP is the leading cause of visual loss in individuals younger than 60 years, with a prevalence of about 1 in 4000. The molecular genetic diagnosis of autosomal recessive RP (arRP) is challenging due to the large genetic and clinical heterogeneity. Traditional methods for sequencing arRP genes are often laborious and not easily available and a screening technique that enables the rapid detection of the genetic cause would be very helpful in the clinical practice. The goal of this study was to develop and apply microarray-based resequencing technology capable of detecting both known and novel mutations on a single high-throughput platform. Hence, the coding regions and exon/intron boundaries of 16 arRP genes were resequenced using microarrays in 102 Spanish patients with clinical diagnosis of arRP. All the detected variations were confirmed by direct sequencing and potential pathogenicity was assessed by functional predictions and frequency in controls. For validation purposes 4 positive controls for variants consisting of previously identified changes were hybridized on the array. As a result of the screening, we detected 44 variants, of which 15 are very likely pathogenic detected in 14 arRP families (14%). Finally, the design of this array can easily be transformed in an equivalent diagnostic system based on targeted enrichment followed by next generation sequencing.
Resumo:
La recent revolució en les tècniques de generació de dades genòmiques ha portat a una situació de creixement exponencial de la quantitat de dades generades i fa més necessari que mai el treball en la optimització de la gestió i maneig d'aquesta informació. En aquest treball s'han atacat tres vessants del problema: la disseminació de la informació, la integració de dades de diverses fonts i finalment la seva visualització. Basant-nos en el Sistema d'Anotacions Distribuides, DAS, hem creat un aplicatiu per a la creació automatitzada de noves fonts de dades en format estandaritzat i accessible programàticament a partir de fitxers de dades simples. Aquest progrtamari, easyDAS, està en funcionament a l'Institut Europeu de Bioinformàtica. Aquest sistema facilita i encoratja la compartició i disseminació de dades genòmiques en formats usables. jsDAS és una llibreria client de DAS que permet incorporar dades DAS en qualsevol aplicatiu web de manera senzilla i ràpida. Aprofitant els avantatges que ofereix DAS és capaç d'integrar dades de múltiples fonts de manera coherent i robusta. GenExp és el prototip de navegador genòmic basat en web altament interactiu i que facilita l'exploració dels genomes en temps real. És capaç d'integrar dades de quansevol font DAS i crear-ne una representació en client usant els últims avenços en tecnologies web.