998 resultados para Dados não estruturados
Resumo:
Trabalho de Projecto apresentado como requisito parcial para obtenção do grau de Mestre em Estatística e Gestão de Informação
Resumo:
Existe uma necessidade latente de pesquisar, filtrar e manipular informações disponíveis em diversos formatos irregulares, entre elas as informações distribuídas na WWW (World Wide Web). Esses tipos de dados são semi-estruturados, pois não possuem uma estrutura explícita e regular, o que dificulta sua manipulação. Este trabalho apresenta como proposta o projeto de uma ferramenta para realizar a extração semântica e semi-automática de dados semi-estruturados. O usuário especifica, através de uma interface visual, um exemplo da estrutura hierárquica do documento e de seu relacionamento com os conceitos da ontologia, gerando uma gramática descritiva da estrutura implícita do mesmo. A partir dessa gramática, a ferramenta realiza a extração dos próximos documentos de forma automática, reestruturando o resultado em um formato regular de dados, neste caso, XML (eXtensible Markup Language). Além da conceituação do método de extração, são apresentados os experimentos realizados com o protótipo da ferramenta, bem como, os resultados obtidos nestes experimentos. Para a construção desta ferramenta, são analisadas características de outros métodos que constituem o estado da arte em extração de dados semi-estruturados.
Resumo:
Dados são disponibilizados através dos mais distintos meios e com os mais variados níveis de estruturação. Em um nível baixo de estruturação tem-se arquivos binários e no outro extremo tem-se bancos de dados com uma estrutura extremamente rígida. Entre estes dois extremos estão os dados semi-estruturados que possuem variados graus de estruturação com os quais não estão rigidamente comprometidos. Na categoria dos dados semiestruturados tem-se exemplos como o HTML, o XML e o SGML. O uso de informações contidas nas mais diversas fontes de dados que por sua vez possuem os mais diversos níveis de estruturação só será efetivo se esta informação puder ser manejada de uma forma integrada e através de algum tipo de esquema. O objetivo desta dissertação é fornecer um processo para construção de uma ontologia de domínio que haja como esquema representativo de diferentes conjuntos de informação. Estes conjuntos de informações podem variar de dados semi-estruturados a dados estruturados e devem referir-se a um mesmo domínio do conhecimento. Esta proposta permite que qualquer modelo que possa ser transformado no modelo comum de integração possa ser utilizado com entrada para o processo de integração. A ontologia de domínio resultante do processo de integração é um modelo semântico que representa o consenso obtido através da integração de diversas fontes de forma ascendente (bottom-up), binária, incremental, semi-automática e auto-documentável. Diz-se que o processo é ascendente porque integra o modelo que representa a fonte de interesse sobre a ontologia, é binário porque trabalha com dois esquemas a cada integração o que facilita o processo de documentação das integrações realizadas, é incremental porque cada novo esquema de interesse é integrado sobre a ontologia vigente naquele momento, é semiautomático porque considera a intervenção do usuário durante o processo e finalmente é autodocumentável porque durante o processo, toda integração de pares de conceitos semanticamente equivalentes é registrada. O fato de auto-documentar-se é a principal característica do processo proposto e seu principal diferencial com relação a outras propostas de integração. O processo de mapeamento utiliza, dos esquemas de entrada, toda a informação presente ou que possa ser inferida. Informações como se o conceito é léxico ou não, se é raiz e os símbolos que permitem deduzir cardinalidades são consideradas. No processo de integração são consideradas práticas consagradas de integração de esquemas de BDs, na identificação de relacionamentos entre objetos dos esquemas, para geração do esquema integrado e para resolução de conflitos. As principais contribuições desta dissertação são (i) a proposta de um metamodelo capaz de manter o resultado dos mapeamentos e das integrações realizadas e (ii) a especificação de um processo auto-documentável que de sustentação a auditoria do processo de integração.
Resumo:
Existem vários trabalhos na área de extração de dados semi-estruturados, usando diferentes técnicas. As soluções de extração disponibilizadas pelos trabalhos existentes são direcionadas para atenderem a dados de certos domínios, considerando-se domínio o conjunto de elementos pertencentes à mesma área de interesse. Dada a complexidade e a grande quantidade dos dados semi-estruturados, principalmente dos disponíveis na World Wide Web (WWW), é que existem ainda muitos domínios a serem explorados. A maior parte das informações disponíveis em sites da Web está em páginas HTML. Muitas dessas páginas contêm dados de certos domínios (por exemplo, remédios). Em alguns casos, sites de organizações diferentes apresentam dados referentes a um mesmo domínio (por exemplo, farmácias diferentes oferecem remédios). O conhecimento de um determinado domínio, expresso em um modelo conceitual, serve para definir a estrutura de um documento. Nesta pesquisa, são consideradas exclusivamente tabelas de páginas HTML. A razão de se trabalhar somente com tabelas está baseada no fato de que parte dos dados de páginas HTML encontra-se nelas, e, como conseqüência, elimina-se o processamento dos outros dados, concentrando-se os esforços para que sejam processadas automaticamente. A pesquisa aborda o tratamento exclusivo de tabelas de páginas HTML na geração das regras de extração, na utilização das regras e do modelo conceitual para o reconhecimento de dados em páginas semelhantes. Para essa técnica, foi implementado o protótipo de uma ferramenta visual denominado Gerador de Regras de Extração e Modelo Conceitual (GREMO). GREMO foi desenvolvido em linguagem de programação visual Delphi 6.0. O processo de extração ocorre em quatro etapas: identificação e análise das tabelas de informações úteis em páginas HTML; identificação de conceitos para os elementos dos modelos conceituais; geração dos modelos conceituais correspondentes à página, ou utilização de modelo conceitual existente no repositório que satisfaça a página em questão; construção das regras de extração, extração dos dados da página, geração de arquivo XML correspondente aos dados extraídos e, finalmente, realimentação do repositório. A pesquisa apresenta as técnicas para geração e extração de dados semi-estruturados, as representações de domínio exclusivo de tabelas de páginas HTML por meio de modelo conceitual, as formas de geração e uso das regras de extração e de modelo conceitual.
Resumo:
Nos últimos anos, um grande esforço tem sido despendido no estudo de formas de representar documentos textuais, chamados semi-estruturados, objetivando extrair informações destes documentos com a mesma eficiência com que essas são extraídas de bancos de dados relacionais e orientados a objetos. A pesquisa, em dados semi-estruturados, tornou-se fundamental com o crescimento da Web como fonte e repositório de dados, uma vez que os métodos de pesquisa existentes, baseados em navegação e busca por palavra-chave, mostraram-se insuficientes para satisfazer as necessidades de consulta em escala cada vez maior. Com o surgimento da XML, e a tendência de se tornar a linguagem padrão na Web, fez com que a representação de informações fosse dirigida para este novo padrão, porque disponibiliza um bom intercâmbio de informações e a produção de documentos eletrônicos. Existe a necessidade de se disponibilizar os documentos e as informações na rede em formato Web, HTML ou XML. Sendo assim, consultar documentos XML representa um desafio para a comunidade de pesquisa em banco de dados, pois implica em disponibilizar os grandes volumes de dados já existentes em formato XML, surgindo a necessidade de ferramentas de consulta que sejam ao mesmo tempo, flexíveis o suficiente para compreender a heterogeneidade dos documentos e, poderosas ao ponto de extraírem informações com rapidez e correção. Este trabalho apresenta uma abordagem sobre a linguagem XML, sua importância, vantagens, principais aplicações e as linguagens de consulta para dados XML. Após, é detalhada uma aplicação para Web utilizando a tecnologia XML, baseado em Ontologias, e a sua disponibilização na Web. A aplicação desenvolvida utilizou XML e linguagens de consulta para XML e com suporte a XML, baseando-se em Ontologias, com o objetivo de permitir consultas e o armazenamento de informações referentes aos alunos concluintes de determinados cursos da Universidade da Região da Campanha - Urcamp/Bagé, colocando à disposição da Universidade uma nova ferramenta, que disponibiliza informações referentes aos cursos em questão, utilizando uma nova tecnologia, que tende a tornar-se padrão na Web.
Resumo:
A grande quantidade de dados eletrônicos disponível atualmente nem sempre pode ser representada com modelos tradicionais, principalmente devido à ausência de esquema no momento da criação destes dados. Neste sentido, modelos semi-estruturados têm sido propostos; uma das abordagens utilizadas é XML, uma linguagem para troca e representação deste tipo de informação. Entretanto, consultar dados semi-estruturados pode demandar processos de extração com alto custo. Uma das alternativas para solucionar este problema é a definição de visões sobre estes dados, e a posterior materialização destas informações. O uso de visões materializadas para dados XML ainda é pouco explorado. Uma das abordagens que podem ser utilizadas é o uso de sistemas de gerenciamento de bancos de dados relacionais para o armazenamento das visões. Desse modo, informação semanticamente relacionada (informação acerca de um mesmo domínio, possivelmente representada em formatos diferentes) pode ser agrupada em uma única unidade lógica, facilitando o acesso a estes dados por parte do usuário, e introduzindo alguma estrutura nos dados semiestruturados. Dessa maneira, o usuário final submete consultas diretamente sobre a visão materializada, evitando extrações contínuas de dados nas fontes XML. A materialização de dados XML exige a definição de um repositório de dados para o armazenamento destas instâncias. Utilizando-se a abordagem relacional, é necessário definir um mecanismo para a geração do esquema lógico do banco de dados. Consultar os dados nas fontes XML exige a integração destas instâncias. Neste contexto, integrá-las significa identificar quais instâncias de dados representam o mesmo objeto do mundo real, bem como resolver ambigüidades de representação deste objeto. O problema de identificação de entidades em XML é mais complexo que em bases de dados estruturadas. Dados XML, como propostos originalmente, não carregam necessariamente a noção de chave primária ou identificador de objeto. Assim, é necessária a adoção de um mecanismo que faça a identificação das instâncias na integração destes dados. Além disso, à medida que as fontes de dados XML sofrem alterações, a visão materializada deve ser atualizada, a fim de manter-se consistente com as fontes de dados. A manutenção deve propagar as alterações feitas nos dados XML para a visão materializada. Reprocessar todo o conteúdo da visão materializada é, na maioria das vezes, muito caro. Assim, é desejável propagar as mudanças incrementalmente, ou seja, processar apenas as alterações necessárias. Neste sentido, o presente trabalho apresenta uma proposta de técnica para armazenamento de dados XML em um banco de dados relacional. A proposta utiliza ontologias para a geração do esquema lógico do banco de dados. O problema de integração de dados é mostrado. O foco principal do trabalho está na proposta de uma técnica de atribuição de identificadores a instâncias XML, baseada no uso de funções Skolem e no padrão XPath, proposto pelo W3C. Também é proposto um mecanismo para manutenção incremental deste banco, à medida que as fontes XML sofrem atualizações.
Resumo:
XML (eXtensibile Markup Language) é um padrão atual para representação e intercâmbio dos semi-estruturados na Web. Dados semi-estruturados são dados não convencionais cujas instâncias de uma mesma fonte de dados podem ter representações altamente heterogêneas. Em função isto, um esquema para estes dados tende a ser extenso para suportar todas as alternativas de representação que um dado pode assumir. Parte do grande volume de dados disponível hoje na Web é composto por fontes de dados heterogêneas XML sobre diversos domínios do conhecimento. Para realizar o acesso a estas fontes, aplicações na Web necessitam de um mecanismo de integração de dados. O objetivo principal deste mecanismo é disponibilizar um esquema de dados global representativo dos diversos esquemas XML das fontes de dados. Com base neste esquema global, consultas são formuladas, traduzidas para consultas sobre os esquemas XML, executadas nas fontes de dados e os resultados retornados à aplicação. Esta tese apresenta uma abordagem para a integração semântica de esquemas XML relativos a um domínio de aplicação chamada BInXS. BInXS adota um processo bottom-up de integração, no qual o esquema global é definido para um conjunto de esquemas XML representadas atrtavés de DTDs (Document Type Definitions). A vantagem do processo bottom-up é que todas as informações dos esquemas XML são consideradas no esquema global. Desta forma, toda a informação presente nas fontes de dados pode ser consultada. O processo de integração de BInXS é baseado em um conjunto de regras e algoritmos que realizam a cnversão de cada DTD para um esquema canônico conceitual e a posterior integração semântica propriamente dita destes esquemas canônicos. O processo é semi-automático pois considera uma eventual intervenção de um usuário especialista no domínio para validar ou confirmar alternativas de resultado produzidas automaticamente. Comparada com trabalhos relacionados, BInXS apresenta as seguintes contribuições: (i) uma representação canônica conceitual para esquemas XML que é o resultado de uma anállise detalhada do modelo XML; (ii) um étodo de unificação que lida com as particularidades da integração de dados semi-estruturados e; (iii) uma estratégia de mapeamento baseada em expressões de consulta XPath que possibilita uma tradução simples de consultas globais para consultas a serem executadas nas fontes de dados XML.
Resumo:
A World Wide Web em poucos anos de existência se tornou uma importante e essencial fonte de informação e a localização e recuperação de informações na Internet passou a ser um grande problema a ser resolvido. Isto porque a falta de padronização e estrutura adequada para representação dos dados, que é resultado da liberdade de criação e manipulação dos documentos, compromete a eficácia dos modelos de recuperação de informação tradicionais. Muitos modelos foram então desenvolvidos para melhorar o desempenho dos sistemas de recuperação de informação. Com o passar dos anos surge assim uma nova área de pesquisa a extração de dados da web que, ao contrário dos sistemas de recuperação, extrai informações dos documentos relevantes e não documentos relevantes de conjunto de documentos. Tais estudos viabilizaram a integração de informações de documentos distribuídos e heterogêneos, que foram baseados nos mesmos modelos aplicados a banco de dados distribuídos. Neste trabalho é apresentado um estudo que tem como objetivo materializar informações contidas em documentos HTML de modo que se possa melhorar o desempenho das consultas em relação ao tempo de execução quanto à qualidade dos resultados obtidos. Para isso são estudados o ambiente web e as características dos dados contidos neste ambiente, como por exemplo, a distribuição e a heterogeneidade, aspectos relacionados à maneira pela qual as informações estão disponibilizadas e como estas podem ser recuperadas e extraídas através de regras sintáticas. Finalizando o estudo são apresentados vários tipos de classificação para os modelos de integração de dados e é monstrado em detalhes um estudo de caso, que tem como objetivo demonstrar a aplicação das técnicas apresentadas ao longo desta pesquisa.
Resumo:
Governmental acquisitions, in Brazil, must be proceeded, as a rule, by means of licitation. Though this principle became constitutional rule only from 1988's Constitution, its existence in Brazilian legal system retraces century XV: by that time, the Filipinas Ordinations ruled it in one only law article. Since then, several rules of law had been incorporated to the Brazilian governmental acquirement system, especially during century XX, hardening the procedures and restricting public manager's discritionarity. Current governmental acquirement system was instituted by the Law nº 8,666/1993, which, however, did not disrupt previous system: with few innovations and more restrictions, it only copied the instruments in the system of the Decree nº 2,300/1986 and previous ones. In its original text, Law nº 8,666/1993 had three licitation procedures for acquisitions - concorrência, tomada de preços, convite - and the exceptional procedures - dispensa and inexigibilidade. Once revealed itself a rigid system, several measures were implemented in order to make it more flexible, having for objectives celerity and price reduction, from discrete alterations of articles of laws to the creation of pregão as a new licitation procedure - initially, there was only the pregão presencial, proceeded face to face - and no longer, the pregão eletrônico, proceeded through web. This research focuses the analysis of the impact of the rigidity / flexibility on Government acquirement system. Despite specialized literature, studies carried through for governmental agencies and state publicity praises the results reached with the use of the pregão eletrônico, the analyses that lead to such conclusion are based on questionable premises. The studies on the efficiency of the pregão eletrônico restrict this concept to its economic dimension, interpreting it as costs reduction. Beyond, the methodology of analysis of this cost reduction has for reference hypothetical values which are also defined by random standards. Here it is, therefore, the objective of this study: to analyze, from the perception of the public managers, the relation between flexibility or rigidity of a procedure and its efficiency, under a multidimensional perspective - taking into consideration, beyond the prices gotten for objects, the time of transaction, the quality of objects and the security of the procedure. From the answers to the questionnaires applied to licitation managers and to members of licitations permanent commissions it was raisen three kinds of information: descriptive data concerning to the ordinal or nominal variables, extracted from the analysis of the objective fields of the questionnaire; not-structuralized, extracted directly from the subjective fields of the questionnaire; e, finally, treated data, extracted from the hypotheses formulated in the research and statistically analyzed. The reflections on the information allowed concluding that the acquirement governmental procedures flexibility extends its efficiency. Restricted the analysis to the pregão eletrônico, it is concluded that it is more efficient under the economic and time perspectives, in relation to the classic procedures; however, under the perspective of the security it does not significantly differs from those; under the qualitative perspective, it is less efficient than the classic procedures, implying in the reduction of the quality of acquired or contracted objects.
Resumo:
Com o objetivo de realizar consultas em diferentes fontes XML,é necessário que se escreva uma consulta específica para cada fonte XML. Uma solução mais adequada é fazer uma única consulta sobre um esquema conceitual e então traduzi-la automaticamente para consultas XML para cada fonte XML específica. CXPath é uma linguagem de consulta que foi proposta para consultar dados em nıvel conceitual. Este trabalho tem como objetivos formalizar a linguagem existente, estendê-la para permitir consultas que utilizem o conceito de herança e estender o mecanismo de tradução de consultas. A formalização da linguagem é feita por meio de um conjunto de regras que definem formalmente um critério para validar uma consulta escrita nessa linguagem sobre um esquema conceitual. Essa formalização permite estender a linguagem para que ela passe a tratar os relacionamentos de herança e especialização. Outra contribuição dessa formalização é que ela apresenta o primeiro passo rumo à verificação formal de que a avaliação da consulta global traz os mesmos resultados obtidos pela avaliação da consulta resultante do processo de mapeamento de consultas proposto. A extensão do mecanismo de tradução de consultas é necessária para traduzir relacionamentos representados no modelo conceitual para junções nas fontes de dados XML. Tal aspecto é fundamental para permitir a construção de modelos conceituais com relacionamentos semânticos e que não dependam de relacionamentos físicos existentes nos documentos fontes, mas apenas de junções tal como é feito em bases de dados relacionais.
Resumo:
Pós-graduação em Engenharia de Produção - FEB
Resumo:
The objective of this thesis is proposes a method for a mobile robot to build a hybrid map of an indoor, semi-structured environment. The topological part of this map deals with spatial relationships among rooms and corridors. It is a topology-based map, where the edges of the graph are rooms or corridors, and each link between two distinct edges represents a door. The metric part of the map consists in a set of parameters. These parameters describe a geometric figure which adapts to the free space of the local environment. This figure is calculated by a set of points which sample the boundaries of the local free space. These points are obtained with range sensors and with knowledge about the robot s pose. A method based on generalized Hough transform is applied to this set of points in order to obtain the geomtric figure. The building of the hybrid map is an incremental procedure. It is accomplished while the robot explores the environment. Each room is associated with a metric local map and, consequently, with an edge of the topo-logical map. During the mapping procedure, the robot may use recent metric information of the environment to improve its global or relative pose
Resumo:
Dissertação apresentada para obtenção do grau de Mestre em Educação Matemática na Educação Pré-Escolar e no 1.º e 2.º Ciclos do Ensino Básico
Resumo:
A navegação de veículos autónomos em ambientes não estruturados continua a ser um problema em aberto. A complexidade do mundo real ainda é um desafio. A difícil caracterização do relevo irregular, dos objectos dinâmicos e pouco distintos(e a inexistência de referências de localização) tem sido alvo de estudo e do desenvolvimento de vários métodos que permitam de uma forma eficiente, e em tempo real, modelizar o espaço tridimensional. O trabalho realizado ao longo desta dissertação insere-se na estratégia do Laboratório de Sistemas Autónomos (LSA) na pesquisa e desenvolvimento de sistemas sensoriais que possibilitem o aumento da capacidade de percepção das plataformas robóticas. O desenvolvimento de um sistema de modelização tridimensional visa acrescentar aos projectos LINCE (Land INtelligent Cooperative Explorer) e TIGRE (Terrestrial Intelligent General proposed Robot Explorer) maior autonomia e capacidade de exploração e mapeamento. Apresentamos alguns sensores utilizados para a aquisição de modelos tridimensionais, bem como alguns dos métodos mais utilizados para o processo de mapeamento, e a sua aplicação em plataformas robóticas. Ao longo desta dissertação são apresentadas e validadas técnicas que permitem a obtenção de modelos tridimensionais. É abordado o problema de analisar a cor e geometria dos objectos, e da criação de modelos realistas que os representam. Desenvolvemos um sistema que nos permite a obtenção de dados volumétricos tridimensionais, a partir de múltiplas leituras de um Laser Range Finder bidimensional de médio alcance. Aos conjuntos de dados resultantes associamos numa nuvem de pontos coerente e referenciada. Foram desenvolvidas e implementadas técnicas de segmentação que permitem inspeccionar uma nuvem de pontos e classifica-la quanto às suas características geométricas, bem como ao tipo de estruturas que representem. São apresentadas algumas técnicas para a criação de Mapas de Elevação Digital, tendo sido desenvolvida um novo método que tira partido da segmentação efectuada
Resumo:
Dissertação de mestrado integrado em Engenharia e Gestão de Sistemas de Informação