87 resultados para Colapso de dados
Resumo:
A Descoberta de Conhecimento em Banco de Dados (DCBD) é uma nova área de pesquisa que envolve o processo de extração de conhecimento útil implícito em grandes bases de dados. Existem várias metodologias para a realização de um processo de DCBD cuja essência consiste basicamente nas fases de entendimento do domínio do problema, pré-processamento, mineração de dados e pós-processamento. Na literatura sobre o assunto existem muitos trabalhos a respeito de mineração de dados, porém pouco se encontra sobre o processo de pré-processamento. Assim, o objetivo deste trabalho consiste no estudo do pré-processamento, já que é a fase que consome a maior parte do tempo e esforço de todo o processo de DCBD pois envolve operações de entendimento, seleção, limpeza e transformação de dados. Muitas vezes, essas operações precisam ser repetidas de modo a aprimorar a qualidade dos dados e, conseqüentemente, melhorar também a acurácia e eficiência do processo de mineração. A estrutura do trabalho abrange cinco capítulos. Inicialmente, apresenta-se a introdução e motivação para trabalho, juntamente com os objetivos e a metodologia utilizada. No segundo capítulo são abordadas metodologias para o processo de DCBD destacando-se CRISP-DM e a proposta por Fayyad, Piatetsky-Shapiro e Smyth. No terceiro capítulo são apresentadas as sub-fases da fase de pré-processamento contemplando-se entendimento, seleção, limpeza e transformação de dados, bem como os principais métodos e técnicas relacionados às mesmas. Já no quarto capítulo são descritos os experimentos realizados sobre uma base de dados real. Finalmente, no quinto capítulo são apresentadas as considerações finais sobre pré-processamento no processo de DCBD, apontando as dificuldades encontradas na prática, contribuições do presente trabalho e pretensões da continuidade do mesmo. Considera-se como principais contribuições deste trabalho a apresentação de métodos e técnicas de pré-processamento existentes, a comprovação da importância da interatividade com o especialista do domínio ao longo de todo o processo de DCBD, mas principalmente nas tomadas de decisões da fase de pré-processamento, bem como as sugestões de como realizar um pré-processamento sobre uma base de dados real.
Resumo:
A mineração de dados constitui o processo de descoberta de conhecimento interessante, com a utilização de métodos e técnicas que permitem analisar grandes conjuntos de dados para a extração de informação previamente desconhecida, válida e que gera ações úteis, de grande ajuda para a tomada de decisões estratégicas. Dentre as tarefas de mineração de dados, existem aquelas que realizam aprendizado não-supervisionado, o qual é aplicado em bases de dados não-classificados, em que o algoritmo extrai as características dos dados fornecidos e os agrupa em classes. Geralmente, o aprendizado não-supervisionado é aplicado em tarefas de agrupamento, que consistem em agrupar os dados de bancos de dados volumosos, com diferentes tipos de dados em classes ou grupos de objetos que são similares dentro de um mesmo grupo e dissimilares em diferentes grupos desses bancos de dados, de acordo com alguma medida de similaridade. Os agrupamentos são usados como ponto de partida para futuras investigações. Este trabalho explora, mediante a realização de um estudo de caso, o uso de agrupamento como tarefa de mineração de dados que realiza aprendizado nãosupervisionado, para avaliar a adequação desta tecnologia em uma base de dados real da área de saúde. Agrupamento é um tema ativo em pesquisas da área pelo seu potencial de aplicação em problemas práticos. O cenário da aplicação é o Sistema de Informações Hospitalares do SUS, sob a gestão da Secretaria Estadual de Saúde do Rio Grande do Sul. Mensalmente, o pagamento de um certo número de internações é bloqueado, uma vez que a cobrança de internações hospitalares é submetida a normas do SUS e a critérios técnicos de bloqueio estabelecidos pela Auditoria Médica da SES para verificar a ocorrência de algum tipo de impropriedade na cobrança dos procedimentos realizados nessas internações hospitalares. A análise de agrupamento foi utilizada para identificar perfis de comportamentos ou tendências nas internações hospitalares e avaliar desvios ou outliers em relação a essas tendências e, com isso, descobrir padrões interessantes que auxiliassem na otimização do trabalho dos auditores médicos da SES. Buscou-se ainda compreender as diferentes configurações de parâmetros oferecidos pela ferramenta escolhida para a mineração de dados, o IBM Intelligent Miner, e o mapeamento de uma metodologia de mineração de dados, o CRISP-DM, para o contexto específico deste estudo de caso. Os resultados deste estudo demonstram possibilidades de criação e melhora dos critérios técnicos de bloqueio das internações hospitalares que permitem a otimização do trabalho de auditores médicos da SES. Houve ainda ganhos na compreensão da tecnologia de mineração de dados com a utilização de agrupamento no que se refere ao uso de uma ferramenta e de uma metodologia de mineração de dados, em que erros e acertos evidenciam os cuidados que devem ser tomados em aplicações dessa tecnologia, além de contribuírem para o seu aperfeiçoamento.
Resumo:
Nas aplicações do mundo real, os dados mudam com o passar do tempo. Devido à característica dinâmica das aplicações, o esquema conceitual também pode mudar para se adaptar às mudanças que freqüentemente ocorrem na realidade. Para representar esta evolução, uma nova versão do esquema é definida e os dados armazenados são adaptados à nova versão. Entretanto, existem aplicações que precisam acessar também o esquema sob os diversos aspectos de suas mudanças, requerendo o uso de versionamento de esquemas. Durante a evolução do esquema, o versionamento preserva todas as versões deste esquema e seus dados associados, possibilitando a recuperação dos dados através da versão com a qual foram definidos. Ultimamente muitas pesquisas têm sido realizadas envolvendo as áreas de versionamento de esquemas e bancos de dados temporais. Estes bancos de dados provêm suporte ao versionamento de esquemas, pois permitem armazenar e recuperar todos os estados dos dados, registrando sua evolução ao longo do tempo. Apesar de muitos esforços, ainda não existem SGBDs temporais comercialmente disponíveis. A utilização de um modelo de dados temporal para a especificação de uma aplicação não implica, necessariamente, na utilização de um SGBD específico para o modelo. Bancos de dados convencionais podem ser utilizados desde que exista um mapeamento adequado entre o modelo temporal e o SGBD utilizado. Este trabalho apresenta uma abordagem para a implementação de um banco de dados temporal permitindo o versionamento de esquemas, usando um banco de dados relacional, tendo como base o modelo temporal TRM (Temporal Relational Model). Como forma de ilustrar apresenta-se um exemplo de implementação utilizando o SGBD DB2. O principal objetivo é avaliar diferentes técnicas de implementar e gerenciar o versionamento de esquemas em bancos de dados temporais. Para atingir esse objetivo, um protótipo foi desenvolvido para automatizar os mapeamentos do TRM para o DB2 e gerenciar o versionamento de esquemas e dados. Duas experiências de implementação foram realizadas utilizando formas diferentes de armazenar os dados - um repositório e vários repositórios - com o objetivo de comparar os resultados obtidos, considerando um determinado volume de dados e alterações. Um estudo de caso também é apresentado para validar as implementações realizadas.
Resumo:
XML é um padrão da W3C largamente utilizado por vários tipos de aplicações para representação de informação semi-estruturada e troca de dados pela Internet. Com o crescimento do uso de XML e do intercâmbio de informações pela Internet é muito provável que determinadas aplicações necessitem buscar uma mesma informação sobre várias fontes XML relativas a um mesmo domínio de problema. No intuito de representar a informação dessas várias fontes XML, o programador é obrigado a escolher entre muitas estruturas hierárquicas possíveis na criação dos esquemas de seus documentos XML. Um mesmo domínio de informação, desta maneira, pode então ser representado de diferentes formas nas diversas fontes de dados XML existentes. Por outro lado, verifica-se que as linguagens de consulta existentes são fortemente baseadas no conhecimento da estrutura de navegação do documento. Assim, ao consultar uma determinada informação semanticamente equivalente em várias fontes é necessário conhecer todos os esquemas envolvidos e construir consultas individuais para cada uma dessas fontes. Em um ambiente de integração, entretanto, é possível gerar um modelo global que representa essas fontes. Ao construir consultas sobre um modelo global, temos consultas integradas sobre estas fontes. Para se atingir esse objetivo, contudo, devem ser resolvidos os problemas da heterogeneidade de representação dos esquemas XML. Dessa forma, com base em uma abordagem de integração de esquemas, o presente trabalho define a linguagem de consulta CXQuery (Conceptual XQuery) que possibilita a construção de consultas sobre um modelo conceitual. Para possibilitar o retorno dos dados das fontes nas consultas feitas em CXQuery, foi desenvolvido um mecanismo de tradução da linguagem CXQuery para a linguagem de consulta XQuery 1.0. A linguagem XQuery 1.0 é umas das linguagens mais utilizadas para o acesso as fontes XML e permite que os dados possam ser retornados ao usuário. Para possibilitar essa tradução, foi definida uma metodologia de representação da informação de mapeamento através de visões XPath. Essa metodologia é relativamente eficaz no mapeamento das diferentes representações das fontes XML.
Resumo:
A computação de tempo real é uma das áreas mais desafiadoras e de maior demanda tecnológica da atualidade. Está diretamente ligada a aplicações que envolvem índices críticos de confiabilidade e segurança. Estas características, inerentes a esta área da computação, vêm contribuindo para o aumento da complexidade dos sistemas tempo real e seu conseqüente desenvolvimento. Isto fez com que mecanismos para facilitar especificação, delimitação e solução de problemas passem a ser itens importantes para tais aplicações. Este trabalho propõe mecanismos para atuarem no desenvolvimento de sistemas de tempo real, com o objetivo de serem empregados como ferramenta de apoio no problema da verificação de presença de inconsistências, que podem vir a ocorrer nos vários modelos gerados partir da notação da linguagem de modelagem gráfica para sistemas de tempo real - UML-RT(Unified Modeling Language for Real Time). Estes mecanismos foram projetados através da construção de um metamodelo dos conceitos presentes nos diagramas de classe, de objetos, de seqüência, de colaboração e de estados. Para construir o metamodelo, utiliza-se a notação do diagrama de classes da UML (Unified Modeling Language). Contudo, por intermédio das representações gráficas do diagrama de classes não é possível descrever toda a semântica presente em tais diagramas. Assim, regras descritas em linguagem de modelagem OCL (Object Constraint Language) são utilizadas como um formalismo adicional ao metamodelo. Com estas descrições em OCL será possível a diminuição das possíveis ambigüidades e inconsistências, além de complementar as limitações impostas pelo caráter gráfico da UML. O metamodelo projetado é mapeado para um modelo Entidade&Relacionamento. A partir deste modelo, são gerados os scripts DDL (Data Definition Language) que serão usados na criação do dicionário de dados, no banco de dados Oracle. As descrições semânticas escritas através de regras em OCL são mapeadas para triggers, que disparam no momento em que o dicionário de dados é manipulado. O MET Editor do SiMOO-RT é a ferramenta diagramática que faz o povoamento dos dados no dicionário de dados. SiMOO-RT é uma ferramenta orientada a objetos para a modelagem, simulação e geração automática de código para sistemas de tempo real.
Resumo:
Bancos de Dados Temporais (BDTs) surgiram para tentar suprir a necessidade de se obter um melhor aproveitamento das informações que circulam atualmente. Porém, ao mesmo tempo em que é benéfico o seu uso, uma vez que armazenam o histórico das informações, existe um problema neste tipo de banco de dados, que é o desempenho. Além do grande volume de dados armazenados, este problema se agrava ainda mais devido à complexidade nas operações que governam os BDTs, como por exemplo, inclusão, remoção, alteração e consulta. Portanto, focalizando o problema, existe a necessidade de melhorar o desempenho dos BDTs frente às operações de manipulação de dados. Técnicas de indexação apropriadas para dados temporais podem amenizar este problema de desempenho. Técnicas consagradas de indexação são largamente usadas, amparadas no seu alto grau de desempenho e portabilidade. São exemplos B-Tree, B+-Tree e R-Tree, entre outras. Estas técnicas não suportam indexar os complexos BDTs, mas são fundamentais para que sirvam de base para novas estruturas que suportem esses tipos de dados. As técnicas de indexação para dados temporais existentes não conseguem suprir a semântica temporal na sua totalidade. Existem ainda algumas deficiências do tipo: poucas técnicas que abrangem ao mesmo tempo tempo de validade e tempo de transação; não existe uma técnica que oferece informações do seu desempenho; a maioria não distingue ponto no tempo de intervalo de tempo; entre outras. Entretanto, possuem características relevantes em cada uma delas. Assim, um estudo das características mais importantes se tornou um fator importante para que possa ser desenvolvido um modelo capaz de auxiliar na criação de novas técnicas de indexação para dados temporais, a fim de contemplar melhor estes tipos de dados. O objetivo deste trabalho é, com base nas características das técnicas estudadas, desenvolver um framework conceitual capaz de auxiliar na criação de novas técnicas de indexação para dados temporais. Esta estrutura apresenta as características mais relevantes das técnicas existentes, agregando novas idéias e conceitos para contemplar os dados temporais. O framework conceitual desenvolvido agrega características de diferentes técnicas de indexação, possibilitando de variar a arquitetura de um índice para dados temporais, ajustando-os para um melhor desempenho em diferentes sistemas. Para validar o framework proposto é apresentada uma especificação de índices para o modelo de dados TF-ORM (Temporal Functionality in Objects With Roles Model).
Resumo:
Esta dissertação apresenta uma metodologia de retroalimentação do ciclo de desenvolvimento de produtos, com ênfase na fase de projeto, a partir de dados obtidos em estudos de confiabilidade. A metodologia é proposta com base no escopo da norma QS-9000, norma esta que vem sendo utilizada por fornecedores e sub-fornecedores da indústria automobilística no mundo inteiro. Um estudo de caso permitiu que a metodologia fosse implementada em uma empresa certificada na norma. São aplicadas retroalimentações em ferramentas como Desdobramento da Função Qualidade (QFD), Análise dos Modos e Efeitos de Falha de Produto (DFMEA) e de Processo (PFMEA). Os resultados obtidos demonstraram que a metodologia de retroalimentação proposta é uma ferramenta útil na maturação de um produto, através da utilização dos dados de falhas em campo, bem como no momento do desenvolvimento de um produto novo, que irá suceder o atual, através da utilização da voz do cliente e dos dados de falha em campo de forma ordenada.
Resumo:
A integração de aplicações heterogêneas é uma tarefa constante entre empresas do mundo moderno. A grande quantidade de fornecedores de software, aliada à extensa variedade de técnicas e linguagens computacionais utilizadas, fazem desta integração uma tarefa trabalhosa e cara para as organizações. As alternativas existentes para a integração de sistemas de diferentes fornecedores podem variar, desde acesso compartilhado a uma base de dados comum, uso de replicadores de dados entre bases de dados distintas, troca de mensagens entre aplicações, ou o uso de programas exportadores/importadores, gerando arquivos em um formato previamente protocolado entre os desenvolvedores dos softwares envolvidos. Este trabalho visa propor uma alternativa para a integração de sistemas heterogêneos, fazendo uso da tecnologia XML para representar os dados que são trocados entre os aplicativos. Para tanto, sugere um framework a ser utilizado no planejamento da arquitetura dos softwares. O objetivo principal da adoção de um framework é a utilização de uma metodologia previamente desenvolvida e certificada, economizando tempo de análise para a solução de um problema. O framework proposto subtrai dos desenvolvedores a necessidade de alteração do código fonte dos seus programas cada vez que a integração com um novo fornecedor de software se faz necessária, ou que há alteração no formato dos dados trocados entre os aplicativos. Este efeito é conseguido através da utilização de XSLT para a conversão de formatos de documentos XML trocados pelos softwares. Tal conversão é realizada por um processador XSLT externo aos programas envolvidos. Para simplificar o processo, foi desenvolvido o protótipo de uma ferramenta para a geração de templates XSLT. Templates são elementos da especificação XSLT capazes de realizar a transformação entre estruturas representadas em XML. O gerador de templates XSLT é uma ferramenta gráfica capaz de converter mapeamentos realizados entre estruturas XML em templates XSLT, podendo aplicar as transformações geradas a documentos XML, com a finalidade de teste ou transformação.
Resumo:
o estado de Santa Catarina é responsável por 50% da produção nacional de carvão. A produção de carvão nas carboníferas da região de Criciúma - SC ocorre por meio de mineração subterrânea, utilizando o método de câmaras e pilares. Os sistemas de suportes de teto em mina subterrânea de carvão têm apresentado notáveis mudanças no seu desenvolvimento ao longo da história. Para tanto, atualmente existe uma ampla gama de tipos de suportes ou mecanismos de sustentação. O teto das minas de carvão é composto de rochas sedimentares as quais variam em espessura e em extensão lateral. Além disso, essas rochas apresentam resistência variada e características estruturais distintas. Contudo, o padrão de sustentação geralmente é o mesmo, independente da qualidade do maciço. Esse estudo buscou verificar se o padrão de suporte de teto atualmente empregado na Mina Barro Branco, apresenta-se adequado às distintas condições geológicas e geomecânicas do maciço rochoso que compõe o teto imediato da mina. Para este fim, o teto imediato foi avaliado ao longo de várias seções da mina e as informações foram usadas para classificar o maciço em zonas de acordo com o sistema Coal Mine Roof Rating (CMRR) proposto pelo U.S. Bureauof Minesem 1994. Diferentes índices de CMRRforam identificados e então considerados para definir a largura máxima nos cruzamentos, o comprimentoe a capacidadede carregamento dos parafusos de teto. Estatísticas da mina revelam que caimentos de teto acorreram quando as dimensões e o padrão de suporte empregado estão aquém do mínimo recomendado pelo CMRR. Esta metodologiaprovou ser adequada, minimizando os riscosde ruptura de teto e predizendoo tipo de suporte mais apropriadoa ser empregado às várias zonas dentro do depósito. Estes resultados preliminares devem ser validados em diferentes locais da mina e ajustes secundários devem ser implementados no método principalmente devido ao uso de explosivos no desmonte das rochas.
Resumo:
Extração de dados é o processo utilizado para obter e estruturar informações disponibilizaadas em documentos semi-estruturados (ex.: páginas da Web). A importâmncia da extrtação de dados vem do fato que, uma vez extraídos, os dados podem ser armazenados e manipulados em uma forma estruturada. Dentre as abordagens existentes para extração de dados, existe a abordagem de extração baseada em ontologias. Nesta abordagem, ontologias são preciamente criadas para descrever um domínio de interesse, gerando um modelo conceitual enriquecido com informações necessárias para extração de dados das fontes semi-estruturadas. A ontologia é utilizada como guia ara um programa (¨parser¨) que executa a extração de dados dos documentos ou páginas fornecidos como enetrada. Oprocesso de criação da ontologia não é uma tarefa trtivial e requer um cuidado trabalho ee análise dos documentos ou páginas fontes dos dados. Este trabalho é feito manualmente por usuários especialistas no domínio de interesse da ontologia. Entretanto, em algumas situações os dados que se desejam extrair estão modelados em bancos de dados relacionais. Neste caso, o modelo realcional do banco de dados por ser utilizado para constrtução do modelo conceitual na ontologia. As instâncias dos dados armazenados neste mesmo banco podem ajudar a gerar as informações sobre conteúdo e formato dos dados a serem extraídos. Estas informações sobre conteúdo e formato de dados, na ontologia, são representadas por expressões regulares e estão inseridas nos chamados "data frames". O objetivo deste trabalho é apresentar um método para criação semi-automática de ontologias de extração a partir das informações em um banco de dados já existente. O processo é baseado na engenharia reversa do modelo relacional para o modelo conceitual da ontologia combinada com a análise das instâncias dos dados para geração das expressões regulares nos "data frames".
Resumo:
A modelagem, a correlação e a análise de dados geofísicos e geoquímicos, aplicados para avaliar/definir a distribuição e o controle de teores de minério num espaço 3D, não são procedimentos adotados para o caso de depósitos de metais básicos e Au. Essa tese de doutorado tem o objetivo de avaliar e definir uma metodologia de modelagem, correlação e análise de dados geofísicos e geoquímicos para controle de teores de metais básicos e Au. Tal metodologia foi aplicada no Prospecto Volta Grande (Lavras do Sul, RS). A região de Lavras do Sul (RS) possui uma série de ocorrências minerais do tipo veios de quartzo com metais básicos e Au, as quais estão relacionadas com o processo de alojamento do Complexo Intrusivo Lavras do Sul. Esse complexo é uma intrusão predominantemente granítica, zonada e multifásica, cujas rochas têm filiação com as séries shoshonítica a alcalina. As ocorrências de veios estão relacionadas a zonas de alteração hidrotermal controladas por fraturas predominantemente WNW-ESE. O Prospecto Volta Grande é constituído por uma série de tais veios alojados tanto no granito intrusivo, quanto nas rochas vulcânicas e vulcanoclásticas da Formação Hilário. A metodologia desenvolvida consiste: 1) da construção de uma base de dados comum para o georreferenciamento 3D dos dados; 2) processamento estatístico e geoestatístico das variáveis de interesse (dados geofísicos e geoquímicos); 3) modelagem 3D das variáveis de interesse para definir a distribuição espacial; e 4) análise da correlação entre as variáveis para definir o controle 3D dos teores de minério por meio de métodos indiretos. Essa metodologia, na medida em que haja a possibilidade de várias fontes de informação e a possibilidade de aplicar algorítmos de lógica matemática, poderá incorporar a integração de dados num espaço 3D A aplicação de tal metodologia no Prospecto Volta Grande (Lavras do Sul, RS) permitiu verificar que os dados geofísicos e geoquímicos se adaptam mais adequadamente a uma distribuição do tipo lognormal. Além disso, a comparação múltipla das médias de resistividade aparente permitiu distinguir um controle litológico sobre os dados geofísicos. Desse modo, foram definidos os procedimentos de análise variográfica e, então, os parâmetros para a modelagem 3D dos corpos condutores em cada área de pesquisa. A adequação do suporte amostral dos dados geofísicos e geoquímicos permitiu a correlação entre essas variáveis. A análise dos diagramas de correlação revelou superposição de pulsos de mineralização com distintas cargas metálicas. A utilização de métodos indiretos para controle de teores em depósitos sulfetados do tipo veios de quartzo com Au + Cu é, portanto, uma possibilidade concreta, garantida a adequada resolução espacial dos levantamentos geofísicos.
Resumo:
O presente trabalho tem como objetivo determinar a pressão de colapso de tubos API 5L X56 de parede fina com trincas longitudinais internas e externas submetidas a pressão interna. Foi utilizado o método R6 conforme a norma BS7910:1999 e a Análise por Elementos Finitos. Foram feitos ensaios de tração e de caracterização da tenacidade do material utilizado por integral J, assim como o modelamento por Elementos Finitos do tubo e a aplicação dos “Failure Assessment Diagram” FAD para determinar a pressão de colapso. Verificou-se que para trincas internas a pressão de colapso é levemente maior que em trincas externas. Isto é mais acentuado para trincas com uma profundidade maior que a metade da parede do tubo. As predições da pressão de colapso em função do tamanho da trinca do método R6 em comparação com alguns resultados experimentais mostraram uma precisão satisfatória, porem em alguns casos não conservadora.
Resumo:
Este trabalho utilizou tecnologias tais como XML (eXtensible Markup Language) e esquemas XML, com objetivo de aprimorar a ovinocultura tornando o setor primário mais competitivo. Foram elaborados arquivos XML com a mesma estrutura (equivalentes) dos arquivos primitivos da Associação Brasileira de Criadores de Ovinos ( A.R.C.O. ), para que os mesmos possam ser disponibilizados na Internet. Para obter a integridade destes dados na Internet criou-se os esquemas XML, que são arquivos contendo as regras de formação dos dados. Os arquivos XML ficarão protegidos contra dados indesejáveis e disponíveis ao produtor rural via Internet.
Resumo:
Dados são disponibilizados através dos mais distintos meios e com os mais variados níveis de estruturação. Em um nível baixo de estruturação tem-se arquivos binários e no outro extremo tem-se bancos de dados com uma estrutura extremamente rígida. Entre estes dois extremos estão os dados semi-estruturados que possuem variados graus de estruturação com os quais não estão rigidamente comprometidos. Na categoria dos dados semiestruturados tem-se exemplos como o HTML, o XML e o SGML. O uso de informações contidas nas mais diversas fontes de dados que por sua vez possuem os mais diversos níveis de estruturação só será efetivo se esta informação puder ser manejada de uma forma integrada e através de algum tipo de esquema. O objetivo desta dissertação é fornecer um processo para construção de uma ontologia de domínio que haja como esquema representativo de diferentes conjuntos de informação. Estes conjuntos de informações podem variar de dados semi-estruturados a dados estruturados e devem referir-se a um mesmo domínio do conhecimento. Esta proposta permite que qualquer modelo que possa ser transformado no modelo comum de integração possa ser utilizado com entrada para o processo de integração. A ontologia de domínio resultante do processo de integração é um modelo semântico que representa o consenso obtido através da integração de diversas fontes de forma ascendente (bottom-up), binária, incremental, semi-automática e auto-documentável. Diz-se que o processo é ascendente porque integra o modelo que representa a fonte de interesse sobre a ontologia, é binário porque trabalha com dois esquemas a cada integração o que facilita o processo de documentação das integrações realizadas, é incremental porque cada novo esquema de interesse é integrado sobre a ontologia vigente naquele momento, é semiautomático porque considera a intervenção do usuário durante o processo e finalmente é autodocumentável porque durante o processo, toda integração de pares de conceitos semanticamente equivalentes é registrada. O fato de auto-documentar-se é a principal característica do processo proposto e seu principal diferencial com relação a outras propostas de integração. O processo de mapeamento utiliza, dos esquemas de entrada, toda a informação presente ou que possa ser inferida. Informações como se o conceito é léxico ou não, se é raiz e os símbolos que permitem deduzir cardinalidades são consideradas. No processo de integração são consideradas práticas consagradas de integração de esquemas de BDs, na identificação de relacionamentos entre objetos dos esquemas, para geração do esquema integrado e para resolução de conflitos. As principais contribuições desta dissertação são (i) a proposta de um metamodelo capaz de manter o resultado dos mapeamentos e das integrações realizadas e (ii) a especificação de um processo auto-documentável que de sustentação a auditoria do processo de integração.
Resumo:
O acesso integrado a informações provenientes de banco de dados autônomos e heterogêneos, localizadas em diferentes ambientes de hardware e software, vem sendo amplamente pesquisado pela comunidade de banco de dados, com diversas soluções propostas. A maioria delas baseia-se na comparação e na integração ou mapeamento dos esquemas conceituais dos bancos de dados participantes, implementados através de uma camada adicional de software, em um nível superior ao dos bancos de dados existentes. Inicialmente, as metodologias de acesso integrado eram limitadas às informações provenientes de banco de dados. Entretanto, com o crescimento das redes de computadores e, conseqüentemente, com a intensa utilização da Internet, novas fontes de informações passaram a ser utilizadas neste ambiente, tais como fontes de dados semi-estruturadas. Estender o acesso integrado também a esses tipos de informações tornou-se importante. Este trabalho tem como objetivo propor a utilização de um metamodelo XML como modelo de dados canônico, através do qual é possível obter a representação conceitual dos esquemas de exportação provenientes de bancos de dados relacionais, objeto-relacionais e documentos XML, permitindo, desta forma, o acesso integrado a fontes de dados estruturadas e semi-estruturadas, a partir de metodologias inicialmente voltadas à interoperabilidade de banco de dados heterogêneos. Além do metamodelo apresentado, este trabalho incluiu o desenvolvimento da ferramenta XML Integrator, cujo objetivo é fornecer ao usuário mecanismos de apoio ao processo conversão dos esquemas conceituais locais de fontes de dados heterogêneas para o Metamodelo XML, bem como de extração de um esquema conceitual correspondente a um documento XML ou a uma classe de documentos XML. Para isso, a ferramenta utiliza interfaces gráficas, que guiam o usuário através dos diversos passos, desde a seleção da fonte de dados a ser convertida, até a geração do esquema de exportação propriamente dito.