137 resultados para Bioinformática


Relevância:

10.00% 10.00%

Publicador:

Resumo:

As formigas do gênero Cephalotes, rapidamente identificadas por suas operárias polimórficas de cutícula resistente e cabeça achatada possuem seu sucesso ecológico creditado à sua dieta predominantemente generalista e nidificação em cavidades pré-existentes de troncos de árvores. Possuem hábitos exclusivamente arborícolas e ocorrem nos trópicos e subtrópicos do Novo Mundo possuindo ampla distribuição geográfica. O grupo apresenta uma interessante associação com microorganismos. No presente trabalho foi feita a caracterização molecular e estudo de relações filogenéticas do gênero através da amplificação e sequenciamento de fragmento do gene 28S do DNA Nuclear de três populações localizadas em Rio Claro-SP e São José do Rio Preto-SP de duas espécies de Cephalotes: C. pusillus e C. clypeatus. Também foi feito o levantamento da ocorrência e frequência do endossimbionte Wolbachia em sete populações de Cephalotes localizadas em São José do Rio Preto-SP, Guaraci-SP, São Carlos-SP, Araraquara-SP, Delfinópolis-MG e Rio Claro-SP; abrangendo três espécies: C. pusillus, C. clypeatus e C. atratus. Esse levantamento foi realizado com a utilização de ferramentas moleculares para a análise do gene codificador da proteína de superfície de membrana do endossimbionte, o wsp. Para analises de filogenia e também do endossimbionte, foi realizada a extração do DNA total de operárias, a amplificação do gene através da técnica de PCR utilizando os primers já estabelecidos e em seguida, as amostras foram sequenciadas pelo método de Sanger. Os resultados obtidos mostraram relações monofiléticas dentro da subfamília Myrmicinae, a qual pertence o gênero Cephalotes. As análises do gene 28S trouxeram resultados otimistas no estudo da caracterização molecular do grupo. Os resultados da analise do endossimbionte corroboraram com estudos anteriores com outras espécies do gênero Cephalotes, onde ocorreu alta...

Relevância:

10.00% 10.00%

Publicador:

Resumo:

Pós-graduação em Biofísica Molecular - IBILCE

Relevância:

10.00% 10.00%

Publicador:

Resumo:

Coordenação de Aperfeiçoamento de Pessoal de Nível Superior (CAPES)

Relevância:

10.00% 10.00%

Publicador:

Resumo:

La rápida evolución experimentada en los últimos años por las tecnologías de Internet ha estimulado la proliferación de recursos software en varias disciplinas científicas, especialmente en bioinformática. En la mayoría de los casos, la tendencia actual es publicar dichos recursos como servicios accesibles libremente a través de Internet, utilizando tecnologías y patrones de diseño definidos para la implementación de Arquitecturas Orientadas a Servicios (SOA). La combinación simultánea de múltiples servicios dentro de un mismo flujo de trabajo abre la posibilidad de crear aplicaciones potencialmente más útiles y complejas. La integración de dichos servicios plantea grandes desafíos, tanto desde un punto de vista teórico como práctico, como por ejemplo, la localización y acceso a los recursos disponibles o la coordinación entre ellos. En esta tesis doctoral se aborda el problema de la identificación, localización, clasificación y acceso a los recursos informáticos disponibles en Internet. Con este fin, se ha definido un modelo genérico para la construcción de índices de recursos software con información extraída automáticamente de artículos de la literatura científica especializada en un área. Este modelo consta de seis fases que abarcan desde la selección de las fuentes de datos hasta el acceso a los índices creados, pasando por la identificación, extracción, clasificación y “curación” de la información relativa a los recursos. Para verificar la viabilidad, idoneidad y eficiencia del modelo propuesto, éste ha sido evaluado en dos dominios científicos diferentes—la BioInformática y la Informática Médica—dando lugar a dos índices de recursos denominados BioInformatics Resource Inventory (BIRI) y electronic-Medical Informatics Repository of Resources(e-MIR2) respectivamente. Los resultados obtenidos de estas aplicaciones son presentados a lo largo de la presente tesis doctoral y han dado lugar a varias publicaciones científicas en diferentes revistas JCR y congresos internacionales. El impacto potencial y la utilidad de esta tesis doctoral podrían resultar muy importantes teniendo en cuenta que, gracias a la generalidad del modelo propuesto, éste podría ser aplicado en cualquier disciplina científica. Algunas de las líneas de investigación futuras más relevantes derivadas de este trabajo son esbozadas al final en el último capítulo de este libro. ABSTRACT The rapid evolution experimented in the last years by the Internet technologies has stimulated the proliferation of heterogeneous software resources in most scientific disciplines, especially in the bioinformatics area. In most cases, current trends aim to publish those resources as services freely available over the Internet, using technologies and design patterns defined for the implementation of Service-Oriented Architectures (SOA). Simultaneous combination of various services into the same workflow opens the opportunity of creating more complex and useful applications. Integration of services raises great challenges, both from a theoretical to a practical point of view such as, for instance, the location and access to the available resources or the orchestration among them. This PhD thesis deals with the problem of identification, location, classification and access to informatics resources available over the Internet. On this regard, a general model has been defined for building indexes of software resources, with information extracted automatically from scientific articles from the literature specialized in the area. Such model consists of six phases ranging from the selection of data sources to the access to the indexes created, covering the identification, extraction, classification and curation of the information related to the software resources. To verify the viability, feasibility and efficiency of the proposed model, it has been evaluated in two different scientific domains—Bioinformatics and Medical Informatics—producing two resources indexes named BioInformatics Resources Inventory (BIRI) and electronic-Medical Informatics Repository of Resources (e-MIR2) respectively. The results and evaluation of those systems are presented along this PhD thesis, and they have produced different scientific publications in several JCR journals and international conferences. The potential impact and utility of this PhD thesis could be of great relevance considering that, thanks to the generality of the proposed model, it could be successfully extended to any scientific discipline. Some of the most relevant future research lines derived from this work are outlined at the end of this book.

Relevância:

10.00% 10.00%

Publicador:

Resumo:

Os microRNAs (miRNAs) são pequenos RNAs não codificadores de proteínas presentes na maioria dos eucariotos. Esses RNAs regulam a expressão gênica em nível pós-transcricional através do silenciamento de mRNAs-alvo que possuem sítios complementares às suas sequências, atuando em praticamente todos os processos celulares. Embora a estrutura e função dos miRNAs estejam bem caracterizadas, aspectos relacionados à sua organização genômica, evolução e atuação em doenças são tópicos que apresentam enormes lacunas. Nesta tese, utilizamos abordagens computacionais para investigar estes temas em três trabalhos. No primeiro, processamos e integramos um vasto volume de dados publicamente disponíveis referentes aos miRNAs e genes codificadores de proteínas para cinco espécies de vertebrados. Com isso, construimos uma ferramenta web que permite a fácil inspeção da organização genômica dos miRNAs em regiões inter e intragênicas, o acesso a dados de expressão de miRNAs e de genes codificadores de proteínas (classificados em genes hospedeiros e não hospedeiros de miRNAs), além de outras informações pertinentes. Verificamos que a ferramenta tem sido amplamente utilizada pela comunidade científica e acreditamos que ela possa facilitar a geração de hipóteses associadas à regulação dos miRNAs, principalmente quando estão inseridos em genes hospedeiros. No segundo estudo, buscamos compreender como o contexto genômico e a origem evolutiva dos genes hospedeiros influenciam a expressão e evolução dos miRNAs humanos. Nossos achados mostraram que os miRNAs intragênicos surgem preferencialmente em genes antigos (origem anterior à divergência de vertebrados). Observamos que os miRNAs inseridos em genes antigos têm maior abrangência de expressão do que os inseridos em genes novos. Surpreendentemente, miRNAs jovens localizados em genes antigos são expressos em um maior número de tecidos do que os intergênicos de mesma idade, sugerindo uma vantagem adaptativa inicial que pode estar relacionada com o controle da expressão dos genes hospedeiros, e como consequência, expondo-os a contextos celulares e conjuntos de alvos diversos. Na evolução a longo prazo, vimos que genes antigos conferem maior restrição nos padrões de expressão (menor divergência de expressão) para miRNAs intragênicos, quando comparados aos intergênicos. Também mostramos possíveis associações funcionais relacionadas ao contexto genômico, tais como o enriquecimento da expressão de miRNAs intergênicos em testículo e dos intragênicos em tecidos neurais. Propomos que o contexto genômico e a idade dos genes hospedeiros são fatores-chave para a evolução e expressão dos miRNAs. Por fim, buscamos estabelecer associações entre a expressão diferencial de miRNAs e a quimioresistência em câncer colorretal utilizando linhagens celulares sensíveis e resistentes às drogas 5-Fluoruracil e Oxaliplatina. Dentre os miRNAs identificados, o miR-342 apresentou níveis elevados de expressão nas linhagens sensíveis à Oxaliplatina. Com base na análise dos alvos preditos, detectamos uma significativa associação de miR-342 com a apoptose. A superexpressão de miR-342 na linhagem resistente SW620 evidenciou alterações na expressão de genes da via apoptótica, notavelmente a diminuição da expressão do fator de crescimento PDGFB, um alvo predito possivelmente sujeito à regulação direta pelo miR-342.

Relevância:

10.00% 10.00%

Publicador:

Resumo:

A cardiomiopatia hipertrófica (CMH) é uma doença geneticamente determinada, caracterizada por hipertrofia ventricular primária, com prevalência estimada de 0.2% na população geral. Qualquer portador tem 50% de chance de transmitir esta doença para seus filhos, o que torna cada vez mais relevante a importância do estudo genético dos indivíduos acometidos e de seus familiares. Já foram descritas diversas mutações genéticas causadoras de CMH, a maioria em genes que codificam proteínas do sarcômero, e algumas mutações mais raras em genes não sarcoméricos. O objetivo desse estudo é sequenciar as regiões exônicas de genes candidatos, incluindo os principais envolvidos na hipertrofia miocárdica, utilizando o sequenciamento de nova geração (Generation Sequencing); testar a aplicabilidade e viabilidade deste sistema para identificar mutações já confirmadas e propor as prováveis novas mutações causadoras de CMH. Métodos e resultados: 66 pacientes não aparentados portadores de CMH foram estudados e submetidos à coleta de sangue para obtenção do DNA para analisar as regiões exômicas de 82 genes candidatos, utilizando a plataforma MiSeq (Illumina). Identificou-se 99 mutações provavelmente patogênicas em 54 pacientes incluídos no estudo (81,8%) relacionadas ou não a CMH, e distribuídas em 42 genes diferentes. Destas mutações 27 já haviam sido publicadas, sendo que 17 delas descritas como causadoras de CMH. Em 28 pacientes (42,4%) identificou-se mutação nos três principais genes sarcoméricos relacionados à CMH (MYH7, MYBPC3, TNNT2). Encontrou-se também um grande número de variantes não sonôminas de efeito clínico incerto e algumas mutações relacionadas a outras enfermidades. Conclusão: a análise da sequencia dos exônos de genes candidatos, demonstrou ser uma técnica promissora para o diagnóstico genético de CMH de forma mais rápida e sensível. A quantidade de dados gerados é o um fator limitante até o momento, principalmente em doenças geneticamente complexas com envolvimento de diversos genes e com sistema de bioinformática limitado.

Relevância:

10.00% 10.00%

Publicador:

Resumo:

O Brasil possui uma posição privilegiada quando se refere à produção de etanol. Por questões históricas e geográficas o país é responsável por mais de 30 % da produção mundial de etanol, com uma produção nacional de mais de 28 bilhões de litros em 2014. Para maximizar o rendimento desse processo, está em desenvolvimento a tecnologia associada ao etanol de segunda geração ou etanol lignocelulósico. Os principais desafios desta tecnologia são: melhorar a eficiência de conversão do substrato em produto e a produção em grande escala utilizando substratos de baixo custo. Com o objetivo de melhorar a eficiência do processo de conversão foram estudadas proteínas auxiliares (expansinas) que, em conjunto com celulases, melhoram a despolimerização de biomassa lignocelulósica em açúcares fermentescíveis. Além disso, realizou-se também a caracterização de enzimas ativas de carboidratos (CAZymes) de origem termofílica do organismo Thermogemmatispora sp. T81, devido a capacidade que estas proteínas apresentam de manter a atividade e conformação estrutural em altas temperaturas por um prolongado período de tempo. A partir de análises utilizando bioinformática, os genes que codificam para expansinas de Xanthomonas campestris, Bacillus licheniformis e Trichoderma reesei foram clonados e expressos em E. coli, e seus produtos gênicos (as expansinas) tiveram seus índices de sinergismo (devido atuação conjunta com coquetéis comerciais) e atividade catalítica determinados. Adicionalmente, dispondo de alinhamentos estruturais, foi proposto um mecanismo hidrolítico para elas. Em relação à bactéria Thermogemmatispora sp. T81, foram realizadas análises genômicas e proteômicas, a fim de selecionar enzimas superexpressas em meio celulósico. Seus genes foram clonados heterologamente em E. coli e o produto de expressão caracterizado bioquimicamente (cromatografia, ensaios de atividade e perfil de hidrólise) e estruturalmente (SAXS e dicroísmo circular). Os índices de sinergismo determinados foram de 2,47; 1,96 e 2,44 para as expansinas de Xanthomonas campestris, Bacillus licheniformis e Trichoderma reesei, respectivamente. A partir dos alinhamentos estruturais foi proposto a díade Asp/Glu como sitio catalítico em expansinas. As análises de proteômica possibilitaram a seleção de quatro alvos de clonagem, por apresentarem alto índice de expressão quando a bactéria foi cultivada em meio celulósico. Estas proteínas foram caracterizadas quanto a atividade e apresentaram um perfil comum: temperatura ótima de ação (de 70 a 75 °C), pH ótimo de 5, e hidrolisam preferencialmente substratos hemicelulósicos (xilano). A porcentagem de estruturais secundárias das proteínas em estudo foram confirmadas com predições teóricas ao se utilizar a técnica de dicroísmo circular. Desta maneira, os objetivos iniciais propostos neste projeto foram concluídos com a determinação do grau de sinergismo das proteínas expansinas em estudo e a proposição de um mecanismo de hidrólise para as mesmas, considerando que tais proteínas por mais de 20 anos tiveram sua atividade definida exclusivamente como acessória. Além disso, este estudo contribui com a identificação e seleção de genes para CAZymes termofilícas com aplicação biotecnológica devido às propriedades termoestáveis apresentadas.

Relevância:

10.00% 10.00%

Publicador:

Resumo:

A ciência tem feito uso frequente de recursos computacionais para execução de experimentos e processos científicos, que podem ser modelados como workflows que manipulam grandes volumes de dados e executam ações como seleção, análise e visualização desses dados segundo um procedimento determinado. Workflows científicos têm sido usados por cientistas de várias áreas, como astronomia e bioinformática, e tendem a ser computacionalmente intensivos e fortemente voltados à manipulação de grandes volumes de dados, o que requer o uso de plataformas de execução de alto desempenho como grades ou nuvens de computadores. Para execução dos workflows nesse tipo de plataforma é necessário o mapeamento dos recursos computacionais disponíveis para as atividades do workflow, processo conhecido como escalonamento. Plataformas de computação em nuvem têm se mostrado um alternativa viável para a execução de workflows científicos, mas o escalonamento nesse tipo de plataforma geralmente deve considerar restrições específicas como orçamento limitado ou o tipo de recurso computacional a ser utilizado na execução. Nesse contexto, informações como a duração estimada da execução ou limites de tempo e de custo (chamadas aqui de informações de suporte ao escalonamento) são importantes para garantir que o escalonamento seja eficiente e a execução ocorra de forma a atingir os resultados esperados. Este trabalho identifica as informações de suporte que podem ser adicionadas aos modelos de workflows científicos para amparar o escalonamento e a execução eficiente em plataformas de computação em nuvem. É proposta uma classificação dessas informações, e seu uso nos principais Sistemas Gerenciadores de Workflows Científicos (SGWC) é analisado. Para avaliar o impacto do uso das informações no escalonamento foram realizados experimentos utilizando modelos de workflows científicos com diferentes informações de suporte, escalonados com algoritmos que foram adaptados para considerar as informações inseridas. Nos experimentos realizados, observou-se uma redução no custo financeiro de execução do workflow em nuvem de até 59% e redução no makespan chegando a 8,6% se comparados à execução dos mesmos workflows sendo escalonados sem nenhuma informação de suporte disponível.

Relevância:

10.00% 10.00%

Publicador:

Resumo:

Predecir la función biológica de secuencias de Ácido Desoxirribonucleico (ADN) es unos de los mayores desafíos a los que se enfrenta la Bioinformática. Esta tarea se denomina anotación funcional y es un proceso complejo, laborioso y que requiere mucho tiempo. Dado su impacto en investigaciones y anotaciones futuras, la anotación debe ser lo más able y precisa posible. Idealmente, las secuencias deberían ser estudiadas y anotadas manualmente por un experto, garantizando así resultados precisos y de calidad. Sin embargo, la anotación manual solo es factible para pequeños conjuntos de datos o genomas de referencia. Con la llegada de las nuevas tecnologías de secuenciación, el volumen de datos ha crecido signi cativamente, haciendo aún más crítica la necesidad de implementaciones automáticas del proceso. Por su parte, la anotación automática es capaz de manejar grandes cantidades de datos y producir un análisis consistente. Otra ventaja de esta aproximación es su rapidez y bajo coste en relación a la manual. Sin embargo, sus resultados son menos precisos que los manuales y, en general, deben ser revisados ( curados ) por un experto. Aunque los procesos colaborativos de la anotación en comunidad pueden ser utilizados para reducir este cuello de botella, los esfuerzos en esta línea no han tenido hasta ahora el éxito esperado. Además, el problema de la anotación, como muchos otros en el dominio de la Bioinformática, abarca información heterogénea, distribuida y en constante evolución. Una posible aproximación para superar estos problemas consiste en cambiar el foco del proceso de los expertos individuales a su comunidad, y diseñar las herramientas de manera que faciliten la gestión del conocimiento y los recursos. Este trabajo adopta esta línea y propone MASSA (Multi-Agent System to Support functional Annotation), una arquitectura de Sistema Multi-Agente (SMA) para Soportar la Anotación funcional...

Relevância:

10.00% 10.00%

Publicador:

Resumo:

La cantidad de datos biológicos y médicos que se produce hoy en día es enorme, y se podría decir que el campo de las ciencias de la vida forma parte ya del club del Big Data. Estos datos contienen información crucial que pueden ayudar a comprender mejor los mecanismos moleculares en los sistemas biológicos. Este conocimiento es fundamental para el progreso en el diagnóstico y en el tratamiento de las enfermedades. La Bioinformática, junto con la Biología Computacional, son disciplinas que se encargan de organizar, analizar e interpretar los datos procedentes de la Biología Molecular. De hecho, la complejidad y la heterogeneidad de los problemas biológicos requieren de un continuo diseño, implementación y aplicación de nuevos métodos y algoritmos. La minería de datos biológicos es una tarea complicada debido a la naturaleza heterogénea y compleja de dichos datos, siendo éstos muy dependientes de detalles específicos experimentales. Esta tesis se basa en el estudio de un problema biomédico complejo: la menor probabilidad de desarrollar algunos tipos de cáncer en pacientes con ciertos trastornos del sistema nervioso central (SNC) u otros trastornos neurológicos, y viceversa. Denominamos a esta condición como comorbilidad inversa. Desde el punto de vista médico, entender mejor las conexiones e interacciones entre cáncer y trastornos neurológicos podría mejorar la calidad de vida y el efecto de la asistencia médica de millones de personas en todo el mundo. Aunque la comorbilidad inversa ha sido estudiada a nivel médico, a través de estudios epidemiológicos, no se ha investigado en profundidad a nivel molecular...

Relevância:

10.00% 10.00%

Publicador:

Resumo:

Em Bioinformática são frequentes problemas cujo tratamento necessita de considerável poder de processamento/cálculo e/ou grande capacidade de armazenamento de dados e elevada largura de banda no acesso aos mesmos (de forma não comprometer a eficiência do seu processamento). Um exemplo deste tipo de problemas é a busca de regiões de similaridade em sequências de amino-ácidos de proteínas, ou em sequências de nucleótidos de DNA, por comparação com uma dada sequência fornecida (query sequence). Neste âmbito, a ferramenta computacional porventura mais conhecida e usada é o BLAST (Basic Local Alignment Search Tool) [1]. Donde, qualquer incremento no desempenho desta ferramenta tem impacto considerável (desde logo positivo) na atividade de quem a utiliza regularmente (seja para investigação, seja para fins comerciais). Precisamente, desde que o BLAST foi inicialmente introduzido, foram surgindo diversas versões, com desempenho melhorado, nomeadamente através da aplicação de técnicas de paralelização às várias fases do algoritmo (e. g., partição e distribuição das bases de dados a pesquisar, segmentação das queries, etc. ), capazes de tirar partido de diferentes ambientes computacionais de execução paralela, como: máquinas multi-core (BLAST+ 2), clusters de nós multi-core (mpiBLAST3J e, mais recentemente, co-processadores aceleradores como GPUs" ou FPGAs. É também possível usar as ferramentas da família BLAST através de um interface/sítio WEB5, que permite, de forma expedita, a pesquisa de uma variedade de bases de dados conhecidas (e em permanente atualização), com tempos de resposta suficientemente pequenos para a maioria dos utilizadores, graças aos recursos computacionais de elevado desempenho que sustentam o seu backend. Ainda assim, esta forma de utilização do BLAST poderá não ser a melhor opção em algumas situações, como por exemplo quando as bases de dados a pesquisar ainda não são de domínio público, ou, sendo-o, não estão disponíveis no referido sitio WEB. Adicionalmente, a utilização do referido sitio como ferramenta de trabalho regular pressupõe a sua disponibilidade permanente (dependente de terceiros) e uma largura de banda de qualidade suficiente, do lado do cliente, para uma interacção eficiente com o mesmo. Por estas razões, poderá ter interesse (ou ser mesmo necessário) implantar uma infra-estrutura BLAST local, capaz de albergar as bases de dados pertinentes e de suportar a sua pesquisa da forma mais eficiente possível, tudo isto levando em conta eventuais constrangimentos financeiros que limitam o tipo de hardware usado na implementação dessa infra-estrutura. Neste contexto, foi realizado um estudo comparativo de diversas versões do BLAST, numa infra-estrutura de computação paralela do IPB, baseada em componentes commodity: um cluster de 8 nós (virtuais, sob VMWare ESXi) de computação (com CPU Í7-4790K 4GHz, 32GB RAM e 128GB SSD) e um nó dotado de uma GPU (CPU Í7-2600 3.8GHz, 32GB RAM, 128 GB SSD, 1 TB HD, NVIDIA GTX 580). Assim, o foco principal incidiu na avaliação do desempenho do BLAST original e do mpiBLAST, dado que são fornecidos de base na distribuição Linux em que assenta o cluster [6]. Complementarmente, avaliou-se também o BLAST+ e o gpuBLAST no nó dotado de GPU. A avaliação contemplou diversas configurações de recursos, incluindo diferentes números de nós utilizados e diferentes plataformas de armazenamento das bases de dados (HD, SSD, NFS). As bases de dados pesquisadas correspondem a um subconjunto representativo das disponíveis no sitio WEB do BLAST, cobrindo uma variedade de dimensões (desde algumas dezenas de MBytes, até à centena de GBytes) e contendo quer sequências de amino-ácidos (env_nr e nr), quer de nucleótidos (drosohp. nt, env_nt, mito. nt, nt e patnt). Para as pesquisas foram 'usadas sequências arbitrárias de 568 letras em formato FASTA, e adoptadas as opções por omissão dos vários aplicativos BLAST. Salvo menção em contrário, os tempos de execução considerados nas comparações e no cálculo de speedups são relativos à primeira execução de uma pesquisa, não sendo assim beneficiados por qualquer efeito de cache; esta opção assume um cenário real em que não é habitual que uma mesma query seja executada várias vezes seguidas (embora possa ser re-executada, mais tarde). As principais conclusões do estudo comparativo realizado foram as seguintes: - e necessário acautelar, à priori, recursos de armazenamento com capacidade suficiente para albergar as bases de dados nas suas várias versões (originais/compactadas, descompactadas e formatadas); no nosso cenário de teste a coexistência de todas estas versões consumiu 600GBytes; - o tempo de preparação (formataçâo) das bases de dados para posterior pesquisa pode ser considerável; no nosso cenário experimental, a formatação das bases de dados mais pesadas (nr, env_nt e nt) demorou entre 30m a 40m (para o BLAST), e entre 45m a 55m (para o mpiBLAST); - embora economicamente mais onerosos, a utilização de discos de estado sólido, em alternativa a discos rígidos tradicionais, permite melhorar o tempo da formatação das bases de dados; no entanto, os benefícios registados (à volta de 9%) ficam bastante aquém do inicialmente esperado; - o tempo de execução do BLAST é fortemente penalizado quando as bases de dados são acedidas através da rede, via NFS; neste caso, nem sequer compensa usar vários cores; quando as bases de dados são locais e estão em SSD, o tempo de execução melhora bastante, em especial com a utilização de vários cores; neste caso, com 4 cores, o speedup chega a atingir 3.5 (sendo o ideal 4) para a pesquisa de BDs de proteínas, mas não passa de 1.8 para a pesquisa de BDs de nucleótidos; - o tempo de execução do mpiBLAST é muito prejudicado quando os fragmentos das bases de dados ainda não se encontram nos nós do cluster, tendo que ser distribuídos previamente à pesquisa propriamente dita; após a distribuição, a repetição das mesmas queries beneficia de speedups de 14 a 70; porém, como a mesma base de dados poderá ser usada para responder a diferentes queries, então não é necessário repetir a mesma query para amortizar o esforço de distribuição; - no cenário de teste, a utilização do mpiBLAST com 32+2 cores, face ao BLAST com 4 cores, traduz-se em speedups que, conforme a base de dados pesquisada (e previamente distribuída), variam entre 2 a 5, valores aquém do máximo teórico de 6.5 (34/4), mas ainda assim demonstradores de que, havendo essa possibilidade, compensa realizar as pesquisas em cluster; explorar vários cores) e com o gpuBLAST, realizada no nó com GPU (representativo de uma workstation típica), permite aferir qual a melhor opção no caso de não serem possíveis pesquisas em cluster; as observações realizadas indicam que não há diferenças significativas entre o BLAST e o BLAST+; adicionalmente, o desempenho do gpuBLAST foi sempre pior (aproximadmente em 50%) que o do BLAST e BLAST+, o que pode encontrar explicação na longevidade do modelo da GPU usada; - finalmente, a comparação da melhor opção no nosso cenário de teste, representada pelo uso do mpiBLAST, com o recurso a pesquisa online, no site do BLAST5, revela que o mpiBLAST apresenta um desempenho bastante competitivo com o BLAST online, chegando a ser claramente superior se se considerarem os tempos do mpiBLAST tirando partido de efeitos de cache; esta assunção acaba por se justa, Já que BLAST online também rentabiliza o mesmo tipo de efeitos; no entanto, com tempos de pequisa tão reduzidos (< 30s), só é defensável a utilização do mpiBLAST numa infra-estrutura local se o objetivo for a pesquisa de Bds não pesquisáveis via BLAS+ online.

Relevância:

10.00% 10.00%

Publicador:

Resumo:

Tese de mestrado, Bioinformática e Biologia Computacional (Bioinformática), Universidade de Lisboa, Faculdade de Ciências, 2016

Relevância:

10.00% 10.00%

Publicador:

Resumo:

Many species have specialized to live in the most varied existing environments showing the remarkable adaptability of the microbial world the most diverse physicochemical conditions. Environments exposed to natural radiation and metals are scarce around the world, presenting a microbiota still unknown. With a total number estimated between 4 and 6 x 1030 microrganisms on earth, they constitute an enormous biological and genetic pool to be explored. Metagenomic approach independent of cultivation, provides a new form to access to the potential genomic environmental samples becoming a powerful tool for the elucidation of ecological functions, metabolic profiles, as well as to identify new biomolecules. In this context, the genetic material of environmental soil and water samples from Açude Boqueirao Parelhas-RN, under the influence of natural radiation and the presence of metals, was extracted, pirosequencing and the generated sequences were analyzed by bioinformatics programs (MG-RAST and STAMP). Taxonomic comparative profiles of both samples showed high abundance of Domain Bacteria, followed by a small portion attributable to Eucaryota Domains, Archaea and Viruses. Proteobacteria, Actinobacteria and Bacterioidetes phyla showed the greater dominance in both samples. Important genera and species associated with resistance to various stressors found in region were observed. Sequences related to oxidative and heat stress, DNA replication and repair, and resistance to toxic compounds were observed, suggesting a significant relationship between the microbiota and their metabolic profile, influenced by regional environmental variables. The results of this study add valuable and unpublished data on the composition of microbial communities in these regions

Relevância:

10.00% 10.00%

Publicador:

Resumo:

The sugarcane is a monocot plant grown in tropical and subtropical regions, with Brazil being the largest producer. Despite its economic importance, little is known about the molecular flowering process in sugarcane. This physiological process can promote a loss up to 60% in sugar or bioethanol. Thus, this work had as objective characterize a HINT1 homologous gene previously identified in subtractive libraries of flowering. Genomic analysis of gene and promoter region structure allowed the observation that there are at least two distinct genes homologous to HINT on sugarcane. Bioinformatics analyses showed the conservation of the characteristic protein domain of HIT superfamily and indicate a phylogenetic relationship associated to cell location. Moreover, a possible relation with the SBTILISIN-like protein family through the information available in interatomas was observed. This suggests that the HINT gene of sugarcane can be related to plant development, there are several possibilities of interactions in the regulation of floral induction process, because the sequences present in regulatory regions indicate that differential expression of HINT was related to with climatic factors in the Northeast region of Brazil as well as to biotic stress and phytohormones. Furthermore, the sugarcane phenotypes indicate that the influence of HINT may happen due to product accumulation of its enzymatic activity. For these characteristics this gene can be used as a marker in the selection of new varieties.

Relevância:

10.00% 10.00%

Publicador:

Resumo:

Research on temporal-order perception uses temporal-order judgment (TOJ) tasks or synchrony judgment (SJ) tasks in their binary SJ2 or ternary SJ3 variants. In all cases, two stimuli are presented with some temporal delay, and observers judge the order of presentation. Arbitrary psychometric functions are typically fitted to obtain performance measures such as sensitivity or the point of subjective simultaneity, but the parameters of these functions are uninterpretable. We describe routines in MATLAB and R that fit model-based functions whose parameters are interpretable in terms of the processes underlying temporal-order and simultaneity judgments and responses. These functions arise from an independent-channels model assuming arrival latencies with exponential distributions and a trichotomous decision space. Different routines fit data separately for SJ2, SJ3, and TOJ tasks, jointly for any two tasks, or also jointly for the three tasks (for common cases in which two or even the three tasks were used with the same stimuli and participants). Additional routines provide bootstrap p-values and confidence intervals for estimated parameters. A further routine is included that obtains performance measures from the fitted functions. An R package for Windows and source code of the MATLAB and R routines are available as Supplementary Files.