Uma metodologia para seleção de parâmetros em modelos de classificação de proteínas.


Autoria(s): OLIVEIRA, S. R. de M.; YAMAGISHI, M. E. B.; BORRO, L. C.; FALCÃO, P. R. K.; SANTOS, E. H. dos; VIEIRA, F. D.; MAZONI, I.; JARDINE, J. G.; NESHICH, G.
Contribuinte(s)

Embrapa Informática Agropecuária.

Data(s)

09/04/2011

09/04/2011

2006

17/11/2006

Resumo

Os principais desafios relacionados ao problema de classificação de enzimas em banco de dados de estruturas de proteínas são: 1) o ruído presente nos dados; 2) o grande número de variáveis; 3) o número não-balanceado de membros por classe. Para abordar esses desafios, apresenta-se uma metodologia para seleção de parâmetros, que combina recursos de matemática (ex: Transformada Discreta do Cosseno) e da estatística (ex:.g., correlação de variáveis e amostragem com reposição). A metodologia foi validada considerando-se os três principais métodos de classificação da literatura, a saber; árvore de decisão, classificação Bayesiana e redes neurais. Os experimentos demonstram que essa metodologia é simples, eficiente e alcança resultados semelhantes àqueles obtidos pelas principais técnicas para seleção de parâmetros na literatura.Termos para indexação classificação de enzimas,predição de função de proteínas, estruturas de proteínas, banco de dados de proteínas, seleção de parâmetros, métodos para classsificação de dados.

2006

Acesso em: 28 maio 2008.

Formato

18 p.

Identificador

11314

http://www.infoteca.cnptia.embrapa.br/handle/doc/2836

Idioma(s)

pt_BR

Publicador

Campinas: Embrapa Informática Agropecuária, 2006.

Relação

Embrapa Informática Agropecuária - Boletim de Pesquisa e Desenvolvimento (INFOTECA-E)

(Embrapa Informática Agropecuária. Boletim de pesquisa e desenvolvimento, 14).

Palavras-Chave #Bioinformática #Classificação de proteínas #Mineração de dados
Tipo

Boletim de Pesquisa e Desenvolvimento (INFOTECA-E)