2 resultados para organização sintátivo-semântica
em Repositório Institucional da Universidade de Aveiro - Portugal
Resumo:
O trabalho apresentado nesta dissertação teve por objectivo principal a concepção, modelação e desenvolvimento de uma plataforma de middleware que permitisse a integração de sistemas de informação, em todos os seus níveis (dados, lógico e apresentação), perfazendo uma federação de bibliotecas digitais distribuídas e ecléticas. Para este fim, foram estudadas as várias abordagens de modelação e organização das bibliotecas digitais, assim como os diversos sistemas e tecnologias de suporte existentes no momento inicial do trabalho. Compreendendo a existência de muitas lacunas ainda neste domínio, nomeadamente ao nível da interoperabilidade de sistemas heterogéneos e integração da semântica de metadados, decidiu-se proceder a um trabalho de investigação e desenvolvimento que pudesse apresentar eventuais soluções para o preenchimento de tais lacunas. Desta forma, surgem neste trabalho duas tecnologias, o XML e o Dublin Core, que servem de base a todas as restantes tecnologias usadas para a interoperabilidade e para a integração. Ainda utilizando estas tecnologias base, foram estudados e desenvolvidos meios simples, mas eficientes, de salvaguarda, indexação e pesquisa de informação, tentando manter a independência face aos grandes produtores de bases de dados, que só por si não resolvem alguns dos problemas mais críticos da investigação no domínio das bibliotecas digitais. ABSTRACT: The main objective of the work presented in this dissertation is the design, modulation and development of a middleware framework to allow information systems interoperability, in all their scope (data, logic and presentation), to accomplish a distributed and eclectic digital libraries federation. Several modulations and organizations were approached, and several support systems and technologies were studied. Understanding the existence of many gaps in this domain, namely in heterogeneous information systems interoperation and metadata semantic integration, it was decided to conduct a research and development work, which, eventually, could present some solutions to fill in these gaps. In this way, two technologies, XML and Dublin Core, appear to serve as the basis of all remaining technologies, to interoperate and to achieve semantic integration. Using yet these technologies, it was also studied and developed simple means, but efficient ones, to save, index and query information, preserving the independence from major data base producers, which by their selves don’t solve critical problems in the digital libraries research domain.
Resumo:
Nos últimos anos temos vindo a assistir a uma mudança na forma como a informação é disponibilizada online. O surgimento da web para todos possibilitou a fácil edição, disponibilização e partilha da informação gerando um considerável aumento da mesma. Rapidamente surgiram sistemas que permitem a coleção e partilha dessa informação, que para além de possibilitarem a coleção dos recursos também permitem que os utilizadores a descrevam utilizando tags ou comentários. A organização automática dessa informação é um dos maiores desafios no contexto da web atual. Apesar de existirem vários algoritmos de clustering, o compromisso entre a eficácia (formação de grupos que fazem sentido) e a eficiência (execução em tempo aceitável) é difícil de encontrar. Neste sentido, esta investigação tem por problemática aferir se um sistema de agrupamento automático de documentos, melhora a sua eficácia quando se integra um sistema de classificação social. Analisámos e discutimos dois métodos baseados no algoritmo k-means para o clustering de documentos e que possibilitam a integração do tagging social nesse processo. O primeiro permite a integração das tags diretamente no Vector Space Model e o segundo propõe a integração das tags para a seleção das sementes iniciais. O primeiro método permite que as tags sejam pesadas em função da sua ocorrência no documento através do parâmetro Social Slider. Este método foi criado tendo por base um modelo de predição que sugere que, quando se utiliza a similaridade dos cossenos, documentos que partilham tags ficam mais próximos enquanto que, no caso de não partilharem, ficam mais distantes. O segundo método deu origem a um algoritmo que denominamos k-C. Este para além de permitir a seleção inicial das sementes através de uma rede de tags também altera a forma como os novos centróides em cada iteração são calculados. A alteração ao cálculo dos centróides teve em consideração uma reflexão sobre a utilização da distância euclidiana e similaridade dos cossenos no algoritmo de clustering k-means. No contexto da avaliação dos algoritmos foram propostos dois algoritmos, o algoritmo da “Ground truth automática” e o algoritmo MCI. O primeiro permite a deteção da estrutura dos dados, caso seja desconhecida, e o segundo é uma medida de avaliação interna baseada na similaridade dos cossenos entre o documento mais próximo de cada documento. A análise de resultados preliminares sugere que a utilização do primeiro método de integração das tags no VSM tem mais impacto no algoritmo k-means do que no algoritmo k-C. Além disso, os resultados obtidos evidenciam que não existe correlação entre a escolha do parâmetro SS e a qualidade dos clusters. Neste sentido, os restantes testes foram conduzidos utilizando apenas o algoritmo k-C (sem integração de tags no VSM), sendo que os resultados obtidos indicam que a utilização deste algoritmo tende a gerar clusters mais eficazes.