TM-tree : um método de acesso para consultas por similaridade


Autoria(s): Nadvorny, César Feijó
Contribuinte(s)

Heuser, Carlos Alberto

Data(s)

06/06/2007

2005

Resumo

O armazenamento de grandes quantidades de informações em bases de dados cria a necessidade de se usar Métodos de Acesso a esses dados de uma forma mais eficiente do que uma busca linear. Dessa forma, diversos Métodos de Acesso vêm sendo propostos há décadas. Desde os mais simples Métodos de Acesso como árvores B até os mais sofisticados Métodos de Acesso Métrico tem-se o mesmo objetivo: a eficiência na consulta. Para cada tipo de dados, para cada tipo de consulta, existe uma diferente forma de acesso mais adequada. Se os dados puderem ser ordenados, pode-se usar uma àrvore B. Na busca por pequenas cadeias de caracteres, pode-se utilizar uma árvore de sufixos. Com a evoluçãocomputacional, não se quer armazenar apenas números ou pequenas seqüências de texto. Já existem diversas bases de dados muito mais complexas, como seqüências de sons, imagens ou até mesmo vídeos armazenados. A complexidade desse tipo de dados e do tipo de consulta feita em cima deles gerou a necessidade de novos Métodos de Acesso. Os chamados Métodos de Acesso Métrico são estruturas capazes de acessar dados bastante complexos, como arquivos multimídia, com uma boa eficiência. Esse tipo de estrutura vem sendo estudada há muitos anos, mas a primeira delas realmente eficaz foi a árvore M. Depois dela, vários outros Métodos de Acesso Métricos surgiram, como a árvore Slim, M2, M+, DF, DBM aprimorando sua estrutura básica Esse trabalho propõe a árvore TM, que inova a forma como os dados são indexados, aprimorando a árvore M. Essa nova estrutura, usa o espaço métrico para a busca dos dados, o que é feito por todos Métodos de Acesso Métricos. Mas sua inovação está na forma como os dados são indexados, usando-se um espaço novo também proposto nesse trabalho, o espaço distorcido. Experimentos mostram uma melhora significativa na eficiência da consulta tanto em quantidade de acesso a disco quando em custo de processamento.

Formato

application/pdf

Identificador

http://hdl.handle.net/10183/5894

000477363

Idioma(s)

por

Direitos

Open Access

Palavras-Chave #Armazenamento de dados #Indexação #Métricas : Similaridade
Tipo

Dissertação