2 resultados para Parser

em Lume - Repositório Digital da Universidade Federal do Rio Grande do Sul


Relevância:

10.00% 10.00%

Publicador:

Resumo:

O Resource Description Framework (RDF) é uma infra-estrutura, que possibilita a codificação, troca e reuso de metadata estruturado. Metadata é dados sobre dados. O termo refere a qualquer dado usado para ajudar a identificação, descrição e localização de recursos eletrônicos na rede. O RDF permite adicionar declarações, sinônimos e palavras que não estão presentes nos recursos, mas que são pertinentes a eles. Uma declaração RDF pode ser desenhada usando diagramas de arcos e nodos, onde os nodos representam os recursos e os arcos representam as propriedades nomeadas. O modelo básico consiste em recursos, propriedades e objetos. Todas as coisas sendo descritas pelas declarações RDF são chamadas de recursos. Um recurso pode ser uma página da Web inteira ou um elemento específico HTML ou XML dentro de um documento fonte. Uma propriedade é um aspecto específico, característica, atributo, ou relação usada para descrever um recurso. O objeto pode ser um outro recurso ou um literal. Estas três partes, juntas, formam uma declaração RDF. O resultado do parser para recursos com metadata RDF, é um conjunto de declarações referentes aquele recurso. A declaração destas propriedades e a semântica correspondente delas estão definidas no contexto do RDF como um RDF schema. Um esquema não só define as propriedades do recurso (por exemplo, título, autor, assunto, tamanho, cor, etc.), mas também pode definir os tipos de recursos sendo descritos (livros, páginas Web, pessoas, companhias, etc.). O RDF schema, provê um sistema básico de tipos necessários para descrever tais elementos e definir as classes de recursos. Assim, os recursos constituindo este sistema de tipos se tornam parte do modelo RDF de qualquer descrição que os usa. A geração de modelos RDF pode ser conseguida através de algoritmos implementados com linguagens de programação tradicionais e podem ser embutidos em páginas HTML, documentos XML e até mesmo em imagens. Com relação a modelos em imagens, servidores Web específicos são usados para simular dois recursos sobre o mesmo URI, servindo ora a imagem ora a descrição RDF. Uma alternativa para armazenar e manipular grande quantidade de declarações RDF é usar a tecnologia de banco de dados relacional. Abordagens para armazenar declarações RDF em banco de dados relacional foram propostas, mas todas elas mantêm modelos diversos de diferentes fontes. Critérios de avaliação como tempo de carga, proliferação de tabelas, espaço, dados mantidos e custo de instruções SQL foram definidos. Duas abordagens apresentaram resultados satisfatórios. Com uma nova abordagem proposta por este trabalho se obteve melhores resultados principalmente no aspecto de consultas. A nova proposta provê mecanismos para que o usuário faça seu próprio modelo relacional e crie suas consultas. O conhecimento necessário pelo usuário se limita em parte aos modelos mantidos e ao esquema RDF.

Relevância:

10.00% 10.00%

Publicador:

Resumo:

Extração de dados é o processo utilizado para obter e estruturar informações disponibilizaadas em documentos semi-estruturados (ex.: páginas da Web). A importâmncia da extrtação de dados vem do fato que, uma vez extraídos, os dados podem ser armazenados e manipulados em uma forma estruturada. Dentre as abordagens existentes para extração de dados, existe a abordagem de extração baseada em ontologias. Nesta abordagem, ontologias são preciamente criadas para descrever um domínio de interesse, gerando um modelo conceitual enriquecido com informações necessárias para extração de dados das fontes semi-estruturadas. A ontologia é utilizada como guia ara um programa (¨parser¨) que executa a extração de dados dos documentos ou páginas fornecidos como enetrada. Oprocesso de criação da ontologia não é uma tarefa trtivial e requer um cuidado trabalho ee análise dos documentos ou páginas fontes dos dados. Este trabalho é feito manualmente por usuários especialistas no domínio de interesse da ontologia. Entretanto, em algumas situações os dados que se desejam extrair estão modelados em bancos de dados relacionais. Neste caso, o modelo realcional do banco de dados por ser utilizado para constrtução do modelo conceitual na ontologia. As instâncias dos dados armazenados neste mesmo banco podem ajudar a gerar as informações sobre conteúdo e formato dos dados a serem extraídos. Estas informações sobre conteúdo e formato de dados, na ontologia, são representadas por expressões regulares e estão inseridas nos chamados "data frames". O objetivo deste trabalho é apresentar um método para criação semi-automática de ontologias de extração a partir das informações em um banco de dados já existente. O processo é baseado na engenharia reversa do modelo relacional para o modelo conceitual da ontologia combinada com a análise das instâncias dos dados para geração das expressões regulares nos "data frames".