3 resultados para degenerate test set
em Universidade Federal do Pará
Resumo:
Um conjunto de dezoito compostos de neolignanas com atividade antiesquistossomose foi estudado com o método semi-empírico PM3 e outros métodos teóricos com o intuito de avaliar algumas propriedades (variáveis ou descritores) moleculares selecionadas e correlacioná-las com a atividade biológica. Análise exploratória dos dados (análise de componentes principais, PCA, e análise hierárquica de agrupamentos, HCA), análise discriminante (DA) e o método KNN foram utilizados na obtenção de possíveis correlações entre os descritores calculados e a atividade biológica em questão e na predição da atividade antiesquistossimose de algumas moléculas teste. Os descritores moleculares responsáveis pela separação entre os compostos ativos e inativos foram: energia de hidratação (HE), refratividade molecular (MR) e carga sobre o átomo C19 (Q19). Estes descritores fornecem informações a respeito do tipo de interação que pode ocorrer entre os compostos e seu respectivo receptor biológico. Após a construção do modelo para compostos ativos e inativos, os métodos PCA, HCA, DA e KNN foram empregados em um estudo de predição. Foram estudados 10 novos compostos e somente 5 deles foram classificados como ativos contra esquistossomose.
Resumo:
A etiquetagem morfossintática é uma tarefa básica requerida por muitas aplicações de processamento de linguagem natural, tais como análise gramatical e tradução automática, e por aplicações de processamento de fala, por exemplo, síntese de fala. Essa tarefa consiste em etiquetar palavras em uma sentença com as suas categorias gramaticais. Apesar dessas aplicações requererem etiquetadores que demandem maior precisão, os etiquetadores do estado da arte ainda alcançam acurácia de 96 a 97%. Nesta tese, são investigados recursos de corpus e de software para o desenvolvimento de um etiquetador com acurácia superior à do estado da arte para o português brasileiro. Centrada em uma solução híbrida que combina etiquetagem probabilística com etiquetagem baseada em regras, a proposta de tese se concentra em um estudo exploratório sobre o método de etiquetagem, o tamanho, a qualidade, o conjunto de etiquetas e o gênero dos corpora de treinamento e teste, além de avaliar a desambiguização de palavras novas ou desconhecidas presentes nos textos a serem etiquetados. Quatro corpora foram usados nos experimentos: CETENFolha, Bosque CF 7.4, Mac-Morpho e Selva Científica. O modelo de etiquetagem proposto partiu do uso do método de aprendizado baseado em transformação(TBL) ao qual foram adicionadas três estratégias, combinadas em uma arquitetura que integra as saídas (textos etiquetados) de duas ferramentas de uso livre, o TreeTagger e o -TBL, com os módulos adicionados ao modelo. No modelo de etiquetador treinado com o corpus Mac-Morpho, de gênero jornalístico, foram obtidas taxas de acurácia de 98,05% na etiquetagem de textos do Mac-Morpho e 98,27% em textos do Bosque CF 7.4, ambos de gênero jornalístico. Avaliou-se também o desempenho do modelo de etiquetador híbrido proposto na etiquetagem de textos do corpus Selva Científica, de gênero científico. Foram identificadas necessidades de ajustes no etiquetador e nos corpora e, como resultado, foram alcançadas taxas de acurácia de 98,07% no Selva Científica, 98,06% no conjunto de teste do Mac-Morpho e 98,30% em textos do Bosque CF 7.4. Esses resultados são significativos, pois as taxas de acurácia alcançadas são superiores às do estado da arte, validando o modelo proposto em busca de um etiquetador morfossintático mais confiável.
Resumo:
DNA barcoding is a recently proposed global standard in taxonomy based on DNA sequences. The two main goals of DNA barcoding methodology are assignment of specimens to a species and discovery of new species. There are two main underlying assumptions: i) reciprocal monophyly of species, and ii) intraspecific divergence is always less than interspecific divergence. Here we present a phylogenetic analysis of the family Potamotrygonidae based on mitochondrial cytochrome c oxidase I gene, sampling 10 out of the 18 to 20 valid species including two non-described species. Potamotrygonidae systematics is still not fully resolved with several still-to-be-described species while some other species are difficult to delimit due to overlap in morphological characters and because of sharing a complex color patterns. Our results suggest that the family passed through a process of rapid speciation and that the species Potamotrygon motoro, P. scobina, and P. orbignyi share haplotypes extensively. Our results suggest that systems of identification of specimens based on DNA sequences, together with morphological and/or ecological characters, can aid taxonomic studies, but delimitation of new species based on threshold values of genetic distances are overly simplistic and misleading.