871 resultados para XML mining
Resumo:
XML (eXtensibile Markup Language) é um padrão atual para representação e intercâmbio dos semi-estruturados na Web. Dados semi-estruturados são dados não convencionais cujas instâncias de uma mesma fonte de dados podem ter representações altamente heterogêneas. Em função isto, um esquema para estes dados tende a ser extenso para suportar todas as alternativas de representação que um dado pode assumir. Parte do grande volume de dados disponível hoje na Web é composto por fontes de dados heterogêneas XML sobre diversos domínios do conhecimento. Para realizar o acesso a estas fontes, aplicações na Web necessitam de um mecanismo de integração de dados. O objetivo principal deste mecanismo é disponibilizar um esquema de dados global representativo dos diversos esquemas XML das fontes de dados. Com base neste esquema global, consultas são formuladas, traduzidas para consultas sobre os esquemas XML, executadas nas fontes de dados e os resultados retornados à aplicação. Esta tese apresenta uma abordagem para a integração semântica de esquemas XML relativos a um domínio de aplicação chamada BInXS. BInXS adota um processo bottom-up de integração, no qual o esquema global é definido para um conjunto de esquemas XML representadas atrtavés de DTDs (Document Type Definitions). A vantagem do processo bottom-up é que todas as informações dos esquemas XML são consideradas no esquema global. Desta forma, toda a informação presente nas fontes de dados pode ser consultada. O processo de integração de BInXS é baseado em um conjunto de regras e algoritmos que realizam a cnversão de cada DTD para um esquema canônico conceitual e a posterior integração semântica propriamente dita destes esquemas canônicos. O processo é semi-automático pois considera uma eventual intervenção de um usuário especialista no domínio para validar ou confirmar alternativas de resultado produzidas automaticamente. Comparada com trabalhos relacionados, BInXS apresenta as seguintes contribuições: (i) uma representação canônica conceitual para esquemas XML que é o resultado de uma anállise detalhada do modelo XML; (ii) um étodo de unificação que lida com as particularidades da integração de dados semi-estruturados e; (iii) uma estratégia de mapeamento baseada em expressões de consulta XPath que possibilita uma tradução simples de consultas globais para consultas a serem executadas nas fontes de dados XML.
Resumo:
Este trabalho utilizou tecnologias tais como XML (eXtensible Markup Language) e esquemas XML, com objetivo de aprimorar a ovinocultura tornando o setor primário mais competitivo. Foram elaborados arquivos XML com a mesma estrutura (equivalentes) dos arquivos primitivos da Associação Brasileira de Criadores de Ovinos ( A.R.C.O. ), para que os mesmos possam ser disponibilizados na Internet. Para obter a integridade destes dados na Internet criou-se os esquemas XML, que são arquivos contendo as regras de formação dos dados. Os arquivos XML ficarão protegidos contra dados indesejáveis e disponíveis ao produtor rural via Internet.
Resumo:
O acesso integrado a informações provenientes de banco de dados autônomos e heterogêneos, localizadas em diferentes ambientes de hardware e software, vem sendo amplamente pesquisado pela comunidade de banco de dados, com diversas soluções propostas. A maioria delas baseia-se na comparação e na integração ou mapeamento dos esquemas conceituais dos bancos de dados participantes, implementados através de uma camada adicional de software, em um nível superior ao dos bancos de dados existentes. Inicialmente, as metodologias de acesso integrado eram limitadas às informações provenientes de banco de dados. Entretanto, com o crescimento das redes de computadores e, conseqüentemente, com a intensa utilização da Internet, novas fontes de informações passaram a ser utilizadas neste ambiente, tais como fontes de dados semi-estruturadas. Estender o acesso integrado também a esses tipos de informações tornou-se importante. Este trabalho tem como objetivo propor a utilização de um metamodelo XML como modelo de dados canônico, através do qual é possível obter a representação conceitual dos esquemas de exportação provenientes de bancos de dados relacionais, objeto-relacionais e documentos XML, permitindo, desta forma, o acesso integrado a fontes de dados estruturadas e semi-estruturadas, a partir de metodologias inicialmente voltadas à interoperabilidade de banco de dados heterogêneos. Além do metamodelo apresentado, este trabalho incluiu o desenvolvimento da ferramenta XML Integrator, cujo objetivo é fornecer ao usuário mecanismos de apoio ao processo conversão dos esquemas conceituais locais de fontes de dados heterogêneas para o Metamodelo XML, bem como de extração de um esquema conceitual correspondente a um documento XML ou a uma classe de documentos XML. Para isso, a ferramenta utiliza interfaces gráficas, que guiam o usuário através dos diversos passos, desde a seleção da fonte de dados a ser convertida, até a geração do esquema de exportação propriamente dito.
Resumo:
Este trabalho apresenta um estudo de caso de mineração de dados no varejo. O negócio em questão é a comercialização de móveis e materiais de construção. A mineração foi realizada sobre informações geradas das transações de vendas por um período de 8 meses. Informações cadastrais de clientes também foram usadas e cruzadas com informações de venda, visando obter resultados que possam ser convertidos em ações que, por conseqüência, gerem lucro para a empresa. Toda a modelagem, preparação e transformação dos dados, foi feita visando facilitar a aplicação das técnicas de mineração que as ferramentas de mineração de dados proporcionam para a descoberta de conhecimento. O processo foi detalhado para uma melhor compreensão dos resultados obtidos. A metodologia CRISP usada no trabalho também é discutida, levando-se em conta as dificuldades e facilidades que se apresentaram durante as fases do processo de obtenção dos resultados. Também são analisados os pontos positivos e negativos das ferramentas de mineração utilizadas, o IBM Intelligent Miner e o WEKA - Waikato Environment for Knowledge Analysis, bem como de todos os outros softwares necessários para a realização do trabalho. Ao final, os resultados obtidos são apresentados e discutidos, sendo também apresentada a opinião dos proprietários da empresa sobre tais resultados e qual valor cada um deles poderá agregar ao negócio.
Resumo:
O uso da Internet como ferramenta de ensino tem se tornado cada vez mais freqüente. A recente popularização da Internet vem permitindo o desenvolvimento de ambientes de ensino-aprendizagem baseados na Web. Os principais recursos explorados para fins educacionais são hipertexto e hipermídia, que proporcionam uma grande gama de elementos para o instrutor que pretende utilizar a WWW. Este trabalho está inserido no desenvolvimento do ambiente AdaptWeb (Ambiente de Ensino e Aprendizagem Adaptativo para a Web), que visa o desenvolvimento de um ambiente de educação a distância. A arquitetura do ambiente é composta por quatro módulos entre eles o módulo de Armazenamento de dados que armazena todos os dados provenientes da fase de Autoria utilizando XML (Extensible Markup Language). Na etapa de Autoria é feita a inserção de todos os dados relativos a disciplina que deseja disponibilizar, estes dados serão armazenados temporariamente em uma representação matricial em memória. A entrada de dados do módulo de Armazenamento de Dados é esta representação matricial que serve então como base para a geração dos arquivos XML, que são utilizados nas demais etapas do ambiente. Para a validação dos arquivos XML foram desenvolvidas DTD (Document Type Definition) e também foi implementado um analisador de documentos XML, utilizando a API (Application Programming Interface) DOM (Document Object Model), para efetuar a validação sintática destes documentos. Para conversão da representação matricial em memória foi especificado e implementado um algoritmo que funciona em conformidade com as DTD especificadas e com a sintaxe da linguagem XML.
Resumo:
Os controladores programáveis tornaram-se fator decisivo para o controle de processos em ambientes industriais. Permitir o gerenciamento desses, eleva-os ao mesmo grupo de outros equipamentos da rede. Gerenciar esses dispositivos e o processo controlado tende a facilitar a identificação de falhas, as intervenções no processo e demais vantagens trazidas por um bom esquema de gerência. Uma maneira de realizar esse gerenciamento é por meio de programas conhecidos como supervisórios. Além das aplicações de supervisão, uma nova classe de ferramentas, que também possibilita o gerenciamento tanto do controlador quanto do processo a esse submetido, vem sendo disponibilizada. A presença de protocolos de gerenciamento, tal qual o SNMP, já é uma realidade em alguns dos modelos de equipamentos oferecidos por vários fabricantes, promovendo uma integração com plataformas de gerência já existentes no mercado. A proposta deste trabalho inclui a elaboração de um modelo de gerenciamento usando XML, atualmente em ampla ascensão e aceitação. Está, também, previsto a construção de um protótipo capaz de realizar as funções de um agente. A criação de um modelo de gerenciamento baseado em tecnologias e especificações abertas, tais como XML e Web, possibilita desde a utilização de um navegador, até o desenvolvimento de novas ferramentas para a requisição/aquisição de dados em controladores.
Resumo:
A linguagem XSLT transforma documentos XML não apenas em novos documentos XML, mas também em documentos HTML, PDF e outros formatos, tornando-se bastante útil. Entretanto, como um ambiente de programação, XSLT apresenta algumas deficiências. Não apresenta um ambiente gráfico de programação e exige conhecimento prévio sobre manipulação de estrutura de dados em árvores, o que compromete a produtividade do programador e limita o uso da linguagem a especialistas. Assim, várias propostas têm sido apresentadas na tentativa de suprir estas deficiências, utilizando recursos variados como geração automática de script XSLT e reuso de transformações. Este trabalho apresenta a ferramenta X2H que visa auxiliar a apresentação de documentos XML em HTML, aumentando a produtividade de programadores que utilizam a linguagem XSLT. Para facilitar a sua utilização, a X2H possui uma interface gráfica com abordagem baseada em exemplos, na qual o usuário compõe um documento exemplo HTML a partir de um documento fonte XML. Estes documentos são visualizados como árvores hierárquicas, nas quais é vinculado um conjunto de operações dependente do contexto, que permitem a composição do documento exemplo. Este documento serve de entrada para um gerador de regras, que gera um script na linguagem XSLT que, se executado, apresenta o documento HTML resultado desejado.
Resumo:
Tendo como motivação o desenvolvimento de uma representação gráfica de redes com grande número de vértices, útil para aplicações de filtro colaborativo, este trabalho propõe a utilização de superfícies de coesão sobre uma base temática multidimensionalmente escalonada. Para isso, utiliza uma combinação de escalonamento multidimensional clássico e análise de procrustes, em algoritmo iterativo que encaminha soluções parciais, depois combinadas numa solução global. Aplicado a um exemplo de transações de empréstimo de livros pela Biblioteca Karl A. Boedecker, o algoritmo proposto produz saídas interpretáveis e coerentes tematicamente, e apresenta um stress menor que a solução por escalonamento clássico.
Resumo:
Tendo como motivação o desenvolvimento de uma representação gráfica de redes com grande número de vértices, útil para aplicações de filtro colaborativo, este trabalho propõe a utilização de superfícies de coesão sobre uma base temática multidimensionalmente escalonada. Para isso, utiliza uma combinação de escalonamento multidimensional clássico e análise de procrustes, em algoritmo iterativo que encaminha soluções parciais, depois combinadas numa solução global. Aplicado a um exemplo de transações de empréstimo de livros pela Biblioteca Karl A. Boedecker, o algoritmo proposto produz saídas interpretáveis e coerentes tematicamente, e apresenta um stress menor que a solução por escalonamento clássico. O estudo da estabilidade da representação de redes frente à variação amostral dos dados, realizado com base em simulações envolvendo 500 réplicas em 6 níveis de probabilidade de inclusão das arestas nas réplicas, fornece evidência em favor da validade dos resultados obtidos.
Resumo:
XML has become an important medium for data exchange, and is frequently used as an interface to - i.e. a view of - a relational database. Although lots of work have been done on querying relational databases through XML views, the problem of updating relational databases through XML views has not received much attention. In this work, we give the rst steps towards solving this problem. Using query trees to capture the notions of selection, projection, nesting, grouping, and heterogeneous sets found throughout most XML query languages, we show how XML views expressed using query trees can be mapped to a set of corresponding relational views. Thus, we transform the problem of updating relational databases through XML views into a classical problem of updating relational databases through relational views. We then show how updates on the XML view are mapped to updates on the corresponding relational views. Existing work on updating relational views can then be leveraged to determine whether or not the relational views are updatable with respect to the relational updates, and if so, to translate the updates to the underlying relational database. Since query trees are a formal characterization of view de nition queries, they are not well suited for end-users. We then investigate how a subset of XQuery can be used as a top level language, and show how query trees can be used as an intermediate representation of view de nitions expressed in this subset.
Resumo:
O trabalho busca analisar e entender se a aplicação de técnicas de Data mining em processos de aquisição de clientes de cartão de crédito, especificamente os que não possuem uma conta corrente em banco, podem trazer resultados positivos para as empresas que contam com processos ativos de conquista de clientes. Serão exploradas três técnicas de amplo reconhecimento na comunidade acadêmica : Regressão logística, Árvores de decisão, e Redes neurais. Será utilizado como objeto de estudo uma empresa do setor financeiro, especificamente nos seus processos de aquisição de clientes não correntistas para o produto cartão de crédito. Serão mostrados resultados da aplicação dos modelos para algumas campanhas passadas de venda de cartão de crédito não correntistas, para que seja possível verificar se o emprego de modelos estatísticos que discriminem os clientes potenciais mais propensos dos menos propensos à contratação podem se traduzir na obtenção de ganhos financeiros. Esses ganhos podem vir mediante redução dos custos de marketing abordando-se somente os clientes com maiores probabilidades de responderem positivamente à campanha. A fundamentação teórica se dará a partir da introdução dos conceitos do mercado de cartões de crédito, do canal telemarketing, de CRM, e das técnicas de data mining. O trabalho apresentará exemplos práticos de aplicação das técnicas mencionadas verificando os potenciais ganhos financeiros. Os resultados indicam que há grandes oportunidades para o emprego das técnicas de data mining nos processos de aquisição de clientes, possibilitando a racionalização da operação do ponto de vista de custos de aquisição.
Resumo:
Trata da aplicação de ferramentas de Data Mining e do conceito de Data Warehouse à coleta e análise de dados obtidos a partir das ações da Secretaria de Estado da Educação de São Paulo. A variável dependente considerada na análise é o resultado do rendimento das escolas estaduais obtido através das notas de avaliação do SARESP (prova realizada no estado de São Paulo). O data warehouse possui ainda dados operacionais e de ações já realizadas, possibilitando análise de influência nos resultados
Resumo:
As aplicações que lidam com dados temporais e versionados podem ser modeladas através do Modelo Temporal de Versões. No entanto, para que se possa utilizar esse modelo,é necessário que bases de dados tradicionais sejam estendidas para bases temporais versionadas, habilitando dessa forma, a manipulação desses dados. O padrão XML tem sido amplamente utilizado para publicar e trocar dados pela internet. Porém, pode ser utilizado também para a formalização de conceitos, dados, esquemas, entre outros. Com a especificação do Modelo Temporal de Versões em XML,é possível gerar automaticamente um script SQL com as características do modelo, de forma a ser aplicado a um banco de dados, tornando-o apto a trabalhar com os conceitos de tempo e de versão. Para isso,é necessário criar regras de transformação (XSLT), que serão aplicadas às especificações definidas para o modelo. O resultado final (script SQL) será executado em uma base de dados que implemente os conceitos de orientação a objetos, transformando essa base em uma base temporal versionada. Cada banco de dados possui sua própria linguagem de definição de dados. Para gerar o script em SQL com as características do Modelo Temporal de Versões, regras de transformação deverão ser definidas para os bancos que utilizarão o modelo, observando sua sintaxe específica. Essas diversas regras serão aplicadas à mesma especificação do modelo em XML. O resultado será o script em SQL definido na sintaxe de cada base de dados.
Resumo:
Com o objetivo de realizar consultas em diferentes fontes XML,é necessário que se escreva uma consulta específica para cada fonte XML. Uma solução mais adequada é fazer uma única consulta sobre um esquema conceitual e então traduzi-la automaticamente para consultas XML para cada fonte XML específica. CXPath é uma linguagem de consulta que foi proposta para consultar dados em nıvel conceitual. Este trabalho tem como objetivos formalizar a linguagem existente, estendê-la para permitir consultas que utilizem o conceito de herança e estender o mecanismo de tradução de consultas. A formalização da linguagem é feita por meio de um conjunto de regras que definem formalmente um critério para validar uma consulta escrita nessa linguagem sobre um esquema conceitual. Essa formalização permite estender a linguagem para que ela passe a tratar os relacionamentos de herança e especialização. Outra contribuição dessa formalização é que ela apresenta o primeiro passo rumo à verificação formal de que a avaliação da consulta global traz os mesmos resultados obtidos pela avaliação da consulta resultante do processo de mapeamento de consultas proposto. A extensão do mecanismo de tradução de consultas é necessária para traduzir relacionamentos representados no modelo conceitual para junções nas fontes de dados XML. Tal aspecto é fundamental para permitir a construção de modelos conceituais com relacionamentos semânticos e que não dependam de relacionamentos físicos existentes nos documentos fontes, mas apenas de junções tal como é feito em bases de dados relacionais.
Resumo:
A utilização de conceitos de representação temporal tem sido essencial em diversas aplicações de banco de dados, por permitir o armazenamento e a manipulação dos diferentes estados assumidos pela base de dados ao longo do tempo. Durante a evolução da base de dados, através do conceito de bitemporalidade, obtém-se acesso a informações presentes, passadas e futuras. Já o conceito de versionamento permite a existência de diversas alternativas para a evolução da base de dados, possibilitando um processo de evolução ramificada, em oposição ao usual mecanismo de evolução linear do conteúdo da base. Com a migração de tais aplicações para um ambiente Web, estas passam cada vez mais a utilizar a linguagem XML como formato de representação e intercâmbio de seus dados. Tornam-se necessários, dessa forma, mecanismos para a representação e manipulação da história do conteúdo de um documento XML que sofre modificações com o passar do tempo. Apesar da existência de propostas de extensão temporal de modelos de dados convencionais e de estratégias para o armazenamento de documentos XML em modelos convencionais, a natureza semi-estruturada dos documentos XML faz com que seja necessário definir um novo modelo de dados temporal, capaz de lidar com os conceitos de bitemporalidade e versionamento em um documento semiestruturado. O objetivo deste trabalho é definir um modelo que, ao contrário das demais propostas existentes, combine os conceitos de bitemporalidade e de versionamento em uma única abordagem capaz de permitir o tratamento da evolução do conteúdo de documentos XML. O uso conjunto desses dois recursos visa combinar o poder de expressão de cada um, garantindo uma maior flexibilidade na representação do histórico dos documentos XML. O modelo resultante recebeu o nome de Tempo e Versões em XML, ou simplesmente TVX, composto por três partes: um modelo para a organização lógica dos dados, uma linguagem de consulta e uma linguagem para promover alterações ao conteúdo dos documentos XML.