32 resultados para Descoberta de conhecimento em bases de dados

em Lume - Repositório Digital da Universidade Federal do Rio Grande do Sul


Relevância:

100.00% 100.00%

Publicador:

Resumo:

A Descoberta de Conhecimento em Banco de Dados (DCBD) é uma nova área de pesquisa que envolve o processo de extração de conhecimento útil implícito em grandes bases de dados. Existem várias metodologias para a realização de um processo de DCBD cuja essência consiste basicamente nas fases de entendimento do domínio do problema, pré-processamento, mineração de dados e pós-processamento. Na literatura sobre o assunto existem muitos trabalhos a respeito de mineração de dados, porém pouco se encontra sobre o processo de pré-processamento. Assim, o objetivo deste trabalho consiste no estudo do pré-processamento, já que é a fase que consome a maior parte do tempo e esforço de todo o processo de DCBD pois envolve operações de entendimento, seleção, limpeza e transformação de dados. Muitas vezes, essas operações precisam ser repetidas de modo a aprimorar a qualidade dos dados e, conseqüentemente, melhorar também a acurácia e eficiência do processo de mineração. A estrutura do trabalho abrange cinco capítulos. Inicialmente, apresenta-se a introdução e motivação para trabalho, juntamente com os objetivos e a metodologia utilizada. No segundo capítulo são abordadas metodologias para o processo de DCBD destacando-se CRISP-DM e a proposta por Fayyad, Piatetsky-Shapiro e Smyth. No terceiro capítulo são apresentadas as sub-fases da fase de pré-processamento contemplando-se entendimento, seleção, limpeza e transformação de dados, bem como os principais métodos e técnicas relacionados às mesmas. Já no quarto capítulo são descritos os experimentos realizados sobre uma base de dados real. Finalmente, no quinto capítulo são apresentadas as considerações finais sobre pré-processamento no processo de DCBD, apontando as dificuldades encontradas na prática, contribuições do presente trabalho e pretensões da continuidade do mesmo. Considera-se como principais contribuições deste trabalho a apresentação de métodos e técnicas de pré-processamento existentes, a comprovação da importância da interatividade com o especialista do domínio ao longo de todo o processo de DCBD, mas principalmente nas tomadas de decisões da fase de pré-processamento, bem como as sugestões de como realizar um pré-processamento sobre uma base de dados real.

Relevância:

100.00% 100.00%

Publicador:

Resumo:

A comparação de dados de mercado é o método mais empregado em avaliação de imóveis. Este método fundamenta-se na coleta, análise e modelagem de dados do mercado imobiliário. Porém os dados freqüentemente contêm erros e imprecisões, além das dificuldades de seleção de casos e atributos relevantes, problemas que em geral são solucionados subjetivamente. Os modelos hedônicos de preços têm sido empregados, associados com a análise de regressão múltipla, mas existem alguns problemas que afetam a precisão das estimativas. Esta Tese investigou a utilização de técnicas alternativas para desenvolver as funções de preparação dos dados e desenvolvimento de modelos preditivos, explorando as áreas de descobrimento de conhecimento e inteligência artificial. Foi proposta uma nova abordagem para as avaliações, consistindo da formação de uma base de dados, ampla e previamente preparada, com a aplicação de um conjunto de técnicas para seleção de casos e para geração de modelos preditivos. Na fase de preparação dos dados foram utilizados as técnicas de regressão e redes neurais para a seleção de informação relevante, e o algoritmo de vizinhança próxima para estimação de valores para dados com erros ou omissões. O desenvolvimento de modelos preditivos incluiu as técnicas de regressão com superficies de resposta, modelos aditivos generalizados ajustados com algoritmos genéticos, regras extraídas de redes neurais usando lógica difusa e sistemas de regras difusas obtidos com algoritmos genéticos, os quais foram comparados com a abordagem tradicional de regressão múltipla Esta abordagem foi testada através do desenvolvimento de um estudo empírico, utilizando dados fornecidos pela Prefeitura Municipal de Porto Alegre. Foram desenvolvidos três formatos de avaliação, com modelos para análise de mercado, avaliação em massa e avaliação individual. Os resultados indicaram o aperfeiçoamento da base de dados na fase de preparação e o equilíbrio das técnicas preditivas, com um pequeno incremento de precisão, em relação à regressão múltipla.Os modelos foram similares, em termos de formato e precisão, com o melhor desempenho sendo atingido com os sistemas de regras difusas.

Relevância:

100.00% 100.00%

Publicador:

Resumo:

Sistemas de informações geográficas (SIG) permitem a manipulação de dados espaço-temporais, sendo bastante utilizados como ferramentas de apoio à tomada de decisão. Um SIG é formado por vários módulos, dentre os quais o banco de dados geográficos (BDG), o qual é responsável pelo armazenamento dos dados. Apesar de representar, comprovadamente, uma fase importante no projeto do SIG, a modelagem conceitual do BDG não tem recebido a devida atenção. Esse cenário deve-se principalmente ao fato de que os profissionais responsáveis pelo projeto e implementação do SIG, em geral, não possuem experiência no uso de metodologias de desenvolvimento de sistemas de informação. O alto custo de aquisição dos dados geográficos também contribui para que menor atenção seja dispensada à etapa de modelagem conceitual do BDG. A utilização de padrões de análise tem sido proposta tanto para auxiliar no projeto conceitual de BDG quanto para permitir que profissionais com pouca experiência nessa atividade construam seus próprios esquemas. Padrões de análise são utilizados para documentar as fases de análise de requisitos e modelagem conceitual do banco de dados, representando qualquer parte de uma especificação de requisitos que tem sua origem em um projeto e pode ser reutilizada em outro(s). Todavia, a popularização e o uso de padrões de análise para BDG têm sido prejudicados principalmente devido à dificuldade de disponibilizar tais construções aos projetistas em geral. O processo de identificação de padrões (mineração de padrões) não é uma tarefa simples e tem sido realizada exclusivamente com base na experiência de especialistas humanos, tornando o processo lento e subjetivo. A subjetividade prejudica a popularização e a aplicação de padrões, pois possibilita que tais construções sejam questionadas por especialistas com diferentes experiências de projeto. Dessa forma, a identificação ou o desenvolvimento de técnicas capazes de capturar a experiência de especialistas de forma menos subjetiva é um passo importante para o uso de padrões. Com esse objetivo, este trabalho propõe a aplicação do processo de descoberta de conhecimento em banco de dados (DCBD) para inferir candidatos a padrão de análise para o projeto de BDG. Para tanto, esquemas conceituais de BDG são usados como base de conhecimento. DCBD é o processo não trivial de descoberta de conhecimento útil a partir de uma grande quantidade de dados. Durante o desenvolvimento da pesquisa ficou claro que a aplicação do processo de DCBD pode melhorar o processo de mineração de padrões, pois possibilita a análise de um maior número de esquemas em relação ao que é realizado atualmente. Essa característica viabiliza que sejam considerados esquemas construídos por diferentes especialistas, diminuindo a subjetividade dos padrões identificados. O processo de DCBD é composto de várias fases. Tais fases, assim como atividades específicas do problema de identificar padrões de análise, são discutidas neste trabalho.

Relevância:

100.00% 100.00%

Publicador:

Resumo:

As técnicas que formam o campo da Descoberta de Conhecimento em Bases de Dados (DCBD) surgiram devido à necessidade de se tratar grandes volumes de dados. O processo completo de DCBD envolve um elevado grau de subjetividade e de trabalho não totalmente automatizado. Podemos dizer que a fase mais automatizada é a de Mineração de Dados (MD). Uma importante técnica para extração de conhecimentosa partir de dados é a Programação Lógica Indutiva (PLI), que se aplica a tarefas de classificação, induzindo conhecimento na forma da lógica de primeira ordem. A PLI tem demonstrado as vantagens de seu aparato de aprendizado em relação a outras abordagens, como por exemplo, aquelas baseadas em aprendizado proposicional Os seus algorítmos de aprendizado apresentam alta expressividade, porém sofrem com a grande complexidade de seus processos, principalmente o teste de corbertura das variáveis. Por outro lado, as Redes Neurais Artificiais (RNs) introduzem um ótimo desempenho devido à sua natureza paralela. às RNs é que geralmente são "caixas pretas", o que torna difícil a obtenção de um interpretação razoável da estrutura geral da rede na forma de construções lógicas de fácil compreensão Várias abordagens híbridas simbólico-conexionistas (por exemplo, o MNC MAC 890 , KBANN SHA 94 , TOW 94 e o sistema INSS OSO 98 têm sido apresentadas para lidar com este problema, permitindo o aprendizado de conhecimento simbólico através d euma RN. Entretanto, estas abordagens ainda lidam com representações atributo-valor. Neste trabalho é apresentado um modelo que combina a expressividade obtida pela PLI com o desempenho de uma rede neural: A FOLONET (First Order Neural Network).

Relevância:

100.00% 100.00%

Publicador:

Resumo:

Esta tese apresenta contribuições ao processo de Descoberta de Conhecimento em Bases de Dados (DCBD). DCBD pode ser entendido como um conjunto de técnicas automatizadas – ou semi-automatizadas – otimizadas para extrair conhecimento a partir de grandes bases de dados. Assim, o já, de longa data, praticado processo de descoberta de conhecimento passa a contar com aprimoramentos que o tornam mais fácil de ser realizado. A partir dessa visão, bem conhecidos algoritmos de Estatística e de Aprendizado de Máquina passam a funcionar com desempenho aceitável sobre bases de dados cada vez maiores. Da mesma forma, tarefas como coleta, limpeza e transformação de dados e seleção de atributos, parâmetros e modelos recebem um suporte que facilita cada vez mais a sua execução. A contribuição principal desta tese consiste na aplicação dessa visão para a otimização da descoberta de conhecimento a partir de dados não-classificados. Adicionalmente, são apresentadas algumas contribuições sobre o Modelo Neural Combinatório (MNC), um sistema híbrido neurossimbólico para classificação que elegemos como foco de trabalho. Quanto à principal contribuição, percebeu-se que a descoberta de conhecimento a partir de dados não-classificados, em geral, é dividida em dois subprocessos: identificação de agrupamentos (aprendizado não-supervisionado) seguida de classificação (aprendizado supervisionado). Esses subprocessos correspondem às tarefas de rotulagem dos itens de dados e obtenção das correlações entre os atributos da entrada e os rótulos. Não encontramos outra razão para que haja essa separação que as limitações inerentes aos algoritmos específicos. Uma dessas limitações, por exemplo, é a necessidade de iteração de muitos deles buscando a convergência para um determinado modelo. Isto obriga a que o algoritmo realize várias leituras da base de dados, o que, para Mineração de Dados, é proibitivo. A partir dos avanços em DCBD, particularmente com o desenvolvimento de algoritmos de aprendizado que realizam sua tarefa em apenas uma leitura dos dados, fica evidente a possibilidade de se reduzir o número de acessos na realização do processo completo. Nossa contribuição, nesse caso, se materializa na proposta de uma estrutura de trabalho para integração dos dois paradigmas e a implementação de um protótipo dessa estrutura utilizando-se os algoritmos de aprendizado ART1, para identificação de agrupamentos, e MNC, para a tarefa de classificação. É também apresentada uma aplicação no mapeamento de áreas homogêneas de plantio de trigo no Brasil, de 1975 a 1999. Com relação às contribuições sobre o MNC são apresentados: (a) uma variante do algoritmo de treinamento que permite uma redução significativa do tamanho do modelo após o aprendizado; (b) um estudo sobre a redução da complexidade do modelo com o uso de máquinas de comitê; (c) uma técnica, usando o método do envoltório, para poda controlada do modelo final e (d) uma abordagem para tratamento de inconsistências e perda de conhecimento que podem ocorrer na construção do modelo.

Relevância:

100.00% 100.00%

Publicador:

Resumo:

A classificação é uma das tarefas da Mineração de Dados. Esta consiste na aplicação de algoritmos específicos para produzir uma enumeração particular de padrões. Já a classificação é o processo de gerar uma descrição, ou um modelo, para cada classe a partir de um conjunto de exemplos dados. Os métodos adequados e mais utilizados para induzir estes modelos, ou classificadores, são as árvores de decisão e as regras de classificação. As regras e árvores de decisão são populares, principalmente, por sua simplicidade, flexibilidade e interpretabilidade. Entretanto, como a maioria dos algoritmos de indução particionam recursivamente os dados, o processamento pode tornar-se demorado, e a árvore construída pode ser muito grande e complexa, propensa ao overfitting dos dados, que ocorre quando o modelo aprende detalhadamente ao invés de generalizar. Os conjuntos de dados reais para aplicação em Mineração de Dados são, atualmente, muito grandes, e envolvem vários milhares de registros, sendo necessária, também, uma forma de generalizar estes dados. Este trabalho apresenta um novo modelo de indução de classificadores, em que o principal diferencial do algoritmo proposto é a única passada pelo conjunto de treinamento durante o processo de indução, bem como a sua inspiração proveniente de um Sistema Multiagente. Foi desenvolvido um protótipo, o Midas, que foi validado e avaliado com dados de repositórios. O protótipo também foi aplicado em bases de dados reais, com o objetivo de generalizar as mesmas. Inicialmente, foi estudado e revisado o tema de Descoberta de Conhecimento em Bases de Dados, com ênfase nas técnicas e métodos de Mineração de Dados. Neste trabalho, também são apresentadas, com detalhes, as árvores e regras de decisão, com suas técnicas e algoritmos mais conhecidos. Finalizando, o algoritmo proposto e o protótipo desenvolvido são apresentados, bem como os resultados provenientes da validação e aplicação do mesmo.

Relevância:

100.00% 100.00%

Publicador:

Resumo:

As árvores de decisão são um meio eficiente para produzir classificadores a partir de bases de dados, sendo largamente utilizadas devido à sua eficiência em relação ao tempo de processamento e por fornecer um meio intuitivo de analisar os resultados obtidos, apresentando uma forma de representação simbólica simples e normalmente compreensível, o que facilita a análise do problema em questão. Este trabalho tem, por finalidade, apresentar um estudo sobre o processo de descoberta de conhecimento em um banco de dados relacionado à área da saúde, contemplando todas as etapas do processo, com destaque à de mineração de dados, dentro da qual são aplicados classificadores baseados em árvores de decisão. Neste estudo, o conhecimento é obtido mediante a construção de árvores de decisão a partir de dados relacionados a um problema real: o controle e a análise das Autorizações de Internações Hospitalares (AIHs) emitidas pelos hospitais da cidade de Pelotas, conveniados ao Sistema Único de Saúde (SUS). Buscou-se encontrar conhecimentos que auxiliassem a Secretaria Municipal da Saúde de Pelotas (SMSP) na análise das AIHs, realizada manualmente, detectando situações que fogem aos padrões permitidos pelo SUS. Finalmente, os conhecimentos obtidos são avaliados e validados, possibilitando verificar a aplicabilidade das árvores no domínio em questão.

Relevância:

100.00% 100.00%

Publicador:

Resumo:

Com a crescente popularização dos microcomputadores e da rede mundial de informação, Internet, uma enorme variedade e quantidade de informações estão se tornando acessíveis a um número cada vez maior de pessoas. Desta forma, também cresce a importância de se extrair a informação útil que está no grande conjunto das informações disponibilizadas. Hoje há muito mais dados na forma de textos eletrônicos do que em tempos passados, mas muito disto é ignorado. Nenhuma pessoa pode ler, entender e sintetizar megabytes de texto no seu cotidiano. Informações perdidas, e conseqüentemente oportunidades perdidas, estimularam pesquisas na exploração de várias estratégias para a administração da informação, a fim de estabelecer uma ordem na imensidão de textos. As estratégias mais comuns são recuperação de informações, filtragem de informações e outra relativamente nova, chamada de extração de informações. A extração de informações tem muitas aplicações potenciais. Por exemplo, a informação disponível em textos não-estruturados pode ser armazenada em bancos de dados tradicionais e usuários podem examiná-las através de consultas padrão. Para isso, há um complexo trabalho de gerenciamento, que é conseqüência da natureza não estruturada e da difícil análise dos dados. Os dados de entrada, que são os textos semi ou não-estruturados, são manipulados por um processo de extração configurado através de bases de conhecimento criadas pelo usuário do sistema. Esta dissertação tem como objetivo a definição de uma linguagem, com base em uma arquitetura de múltiplos níveis, para extrair satisfatoriamente as informações desejadas pelo usuário, presentes em bases de dados textuais. Também faz parte deste trabalho a implementação de um protótipo que utiliza a linguagem proposta.

Relevância:

100.00% 100.00%

Publicador:

Resumo:

Esta tese apresenta uma abordagem baseada em conceitos para realizar descoberta de conhecimento em textos (KDT). A proposta é identificar características de alto nível em textos na forma de conceitos, para depois realizar a mineração de padrões sobre estes conceitos. Ao invés de aplicar técnicas de mineração sobre palavras ou dados estruturados extraídos de textos, a abordagem explora conceitos identificados nos textos. A idéia é analisar o conhecimento codificado em textos num nível acima das palavras, ou seja, não analisando somente os termos e expressões presentes nos textos, mas seu significado em relação aos fenômenos da realidade (pessoas, objetos, entidades, eventos e situações do mundo real). Conceitos identificam melhor o conteúdo dos textos e servem melhor que palavras para representar os fenômenos. Assim, os conceitos agem como recursos meta-lingüísticos para análise de textos e descoberta de conhecimento. Por exemplo, no caso de textos de psiquiatria, os conceitos permitiram investigar características importantes dos pacientes, tais como sintomas, sinais e comportamentos. Isto permite explorar o conhecimento disponível em textos num nível mais próximo da realidade, minimizando o problema do vocabulário e facilitando o processo de aquisição de conhecimento. O principal objetivo desta tese é demonstrar a adequação de uma abordagem baseada em conceitos para descobrir conhecimento em textos e confirmar a hipótese de que este tipo de abordagem tem vantagens sobre abordagens baseadas em palavras. Para tanto, foram definidas estratégias para identificação dos conceitos nos textos e para mineração de padrões sobre estes conceitos. Diferentes métodos foram avaliados para estes dois processos. Ferramentas automatizadas foram empregadas para aplicar a abordagem proposta em estudos de casos. Diferentes experimentos foram realizados para demonstrar que a abordagem é viável e apresenta vantagens sobre os métodos baseados em palavras. Avaliações objetivas e subjetivas foram conduzidas para confirmar que o conhecimento descoberto era de qualidade. Também foi investigada a possibilidade de se realizar descobertas proativas, quando não se tem hipóteses iniciais. Os casos estudados apontam as várias aplicações práticas desta abordagem. Pode-se concluir que a principal aplicação da abordagem é permitir análises qualitativa e quantitativa de coleções textuais. Conceitos podem ser identificados nos textos e suas distribuições e relações podem ser analisadas para um melhor entendimento do conteúdo presente nos textos e, conseqüentemente, um melhor entendimento do conhecimento do domínio.

Relevância:

100.00% 100.00%

Publicador:

Resumo:

A mineração de dados é o núcleo do processo de descoberta de conhecimento em base de dados. Durante a mineração podem ser aplicadas diversas técnicas para a extração de conhecimento. Cada técnica disponível visa à realização de um objetivo e é executada de uma forma em particular. O foco desta dissertação é uma destas técnicas conhecida como detecção de desvios. A detecção de desvios é baseada no reconhecimento do padrão existente nos dados avaliados e a capacidade de identificar valores que não suportem o padrão identificado. Este trabalho propõe uma sistemática de avaliação dos dados, com o objetivo de identificar os registros que destoam do padrão encontrado. Para este estudo são aplicadas algumas técnicas de avaliação estatística. Inicialmente é apresentada uma revisão bibliográfica sobre descoberta de conhecimento em base de dados (DCBD) e mineração de dados (MD). Na seqüência, são apresentados os principais conceitos que auxiliam na definição do que é um desvio, quais as técnicas utilizadas para a detecção e a forma de avaliação do mesmo. Dando continuidade ao trabalho, a sistemática CRISP_DM é descrita por ser aplicada aos estudos de casos realizados. A seguir, são descritos os estudos de casos realizados que utilizaram as bases da Secretaria da Saúde do Rio Grande do Sul (SES). Finalmente, são apresentados as conclusões do estudo e possíveis trabalhos futuros.

Relevância:

100.00% 100.00%

Publicador:

Resumo:

Extração de dados é o processo utilizado para obter e estruturar informações disponibilizaadas em documentos semi-estruturados (ex.: páginas da Web). A importâmncia da extrtação de dados vem do fato que, uma vez extraídos, os dados podem ser armazenados e manipulados em uma forma estruturada. Dentre as abordagens existentes para extração de dados, existe a abordagem de extração baseada em ontologias. Nesta abordagem, ontologias são preciamente criadas para descrever um domínio de interesse, gerando um modelo conceitual enriquecido com informações necessárias para extração de dados das fontes semi-estruturadas. A ontologia é utilizada como guia ara um programa (¨parser¨) que executa a extração de dados dos documentos ou páginas fornecidos como enetrada. Oprocesso de criação da ontologia não é uma tarefa trtivial e requer um cuidado trabalho ee análise dos documentos ou páginas fontes dos dados. Este trabalho é feito manualmente por usuários especialistas no domínio de interesse da ontologia. Entretanto, em algumas situações os dados que se desejam extrair estão modelados em bancos de dados relacionais. Neste caso, o modelo realcional do banco de dados por ser utilizado para constrtução do modelo conceitual na ontologia. As instâncias dos dados armazenados neste mesmo banco podem ajudar a gerar as informações sobre conteúdo e formato dos dados a serem extraídos. Estas informações sobre conteúdo e formato de dados, na ontologia, são representadas por expressões regulares e estão inseridas nos chamados "data frames". O objetivo deste trabalho é apresentar um método para criação semi-automática de ontologias de extração a partir das informações em um banco de dados já existente. O processo é baseado na engenharia reversa do modelo relacional para o modelo conceitual da ontologia combinada com a análise das instâncias dos dados para geração das expressões regulares nos "data frames".

Relevância:

100.00% 100.00%

Publicador:

Resumo:

Este trabalho faz avaliação de ferramentas que utilizam técnica de Descoberta de Conhecimento em Texto (agrupamento ou “clustering”). As duas ferramentas são: Eurekha e Umap. O Eurekha é baseado na hipótese de agrupamento, que afirma que documentos similares e relevantes ao mesmo assunto tendem a permanecer em um mesmo grupo. O Umap, por sua vez, é baseado na árvore do conhecimento. A mesma coleção de documentos submetida às ferramentas foi lida por um especialista humano, que agrupou textos similares, a fim de que seus resultados fossem comparados aos das ferramentas. Com isso, pretende-se responder a seguinte questão: a recuperação automática é equivalente à recuperação humana? A coleção de teste é composta por matérias do jornal Folha de São Paulo, cujo tema central é a Amazônia. Com os resultados, pretende-se verificar a validade das ferramentas, os conhecimentos obtidos sobre a região e o tratamento que o jornal dá em relação à mesma.

Relevância:

100.00% 100.00%

Publicador:

Resumo:

A modelagem conceitual de banco de dados geográficos (BDG) é um aspecto fundamental para o reuso, uma vez que a realidade geográfica é bastante complexa e, mais que isso, parte dela é utilizada recorrentemente na maioria dos projetos de BDG. A modelagem conceitual garante a independência da implementação do banco de dados e melhora a documentação do projeto, evitando que esta seja apenas um conjunto de documentos escritos no jargão da aplicação. Um modelo conceitual bem definido oferece uma representação canônica da realidade geográfica, possibilitando o reuso de subesquemas. Para a obtenção dos sub-esquemas a serem reutilizados, o processo de Descoberta de Conhecimento em Bancos de Dados (DCBD – KDD) pode ser aplicado. O resultado final do DCBD produz os chamados padrões de análise. No escopo deste trabalho os padrões de análise constituem os sub-esquemas reutilizáveis da modelagem conceitual de um banco de dados. O processo de DCBD possui várias etapas, desde a seleção e preparação de dados até a mineração e pós-processamento (análise dos resultados). Na preparação dos dados, um dos principais problemas a serem enfrentados é a possível heterogeneidade de dados. Neste trabalho, visto que os dados de entrada são os esquemas conceituais de BDG, e devido à inexistência de um padrão de modelagem de BDG largamente aceito, as heterogeneidades tendem a aumentar. A preparação dos dados deve integrar diferentes esquemas conceituais, baseados em diferentes modelos de dados e projetados por diferentes grupos, trabalhando autonomamente como uma comunidade distribuída. Para solucionar os conflitos entre esquemas conceituais foi desenvolvida uma metodologia, suportada por uma arquitetura de software, a qual divide a fase de préprocessamento em duas etapas, uma sintática e uma semântica. A fase sintática visa converter os esquemas em um formato canônico, a Geographic Markup Language (GML). Um número razoável de modelos de dados deve ser considerado, em conseqüência da inexistência de um modelo de dados largamente aceito como padrão para o projeto de BDG. Para cada um dos diferentes modelos de dados um conjunto de regras foi desenvolvido e um wrapper implementado. Para suportar a etapa semântica da integração uma ontologia é utilizada para integrar semanticamente os esquemas conceituais dos diferentes projetos. O algoritmo para consulta e atualização da base de conhecimento consiste em métodos matemáticos de medida de similaridade entre os conceitos. Uma vez os padrões de análise tendo sido identificados eles são armazenados em uma base de conhecimento que deve ser de fácil consulta e atualização. Novamente a ontologia pode ser utilizada como a base de conhecimento, armazenando os padrões de análise e possibilitando que projetistas a consultem durante a modelagem de suas aplicações. Os resultados da consulta ajudam a comparar o esquema conceitual em construção com soluções passadas, aceitas como corretas.

Relevância:

100.00% 100.00%

Publicador:

Resumo:

A maioria das empresas interage com seus clientes através de computadores. Com o passar do tempo está armazenado nos computadores um histórico da atividade da empresa que pode ser explorado para a melhoria do processo de tomada de decisões. Ferramentas de descoberta de conhecimento em bancos de dados exploram este histórico a fim de extrair vários tipos de informação. Um dos tipos de informação que pode ser extraída destes tipos de bancos de dados são as regras de associação que consistem em relacionamentos ou dependências importantes entre itens tal que a presença de alguns itens em uma transação irá implicar a presença de outros itens na mesma transação. Neste trabalho são aplicadas técnicas de descoberta de conhecimento na área do comércio varejista de confecção. Foram detectadas algumas peculiaridades dos bancos de dados desta área sendo proposto um novo algoritmo para melhorar o desempenho da tarefa de extração de regras de associação. Para a validação dos resultados apresentados pelo algoritmo foi desenvolvido o protótipo de uma ferramenta para extração de regras de associação. Foram realizados experimentos com bancos de dados reais de uma empresa da área de comércio varejista de confecção para análise de desempenho do algoritmo.

Relevância:

100.00% 100.00%

Publicador:

Resumo:

Esta pesquisa tem como tema a avaliação de ferramentas de mineração de dados disponíveis no mercado, de acordo com um site de descoberta do conhecimento, chamado Kdnuggets (http://www.kdnuggets.com). A escolha deste tema justifica-se pelo fato de tratar-se de uma nova tecnologia de informação que vem disponibilizando diversas ferramentas com grandes promessas e altos investimentos, mas que, por outro lado, ainda não é amplamente utilizada pelos tomadores de decisão das organizações. Uma das promessas desta tecnologia é vasculhar grandes bases de dados em busca de informações relevantes e desconhecidas e que não poderiam ser obtidas através de sistemas chamados convencionais. Neste contexto, realizar uma avaliação de algumas destas ferramentas pode auxiliar a estes decisores quanto à veracidade daquilo que é prometido sem ter de investir antes de estar seguro do cumprimento de tais promessas. O foco da pesquisa é avaliar sistemas que permitem a realização da análise de cesta de supermercado (market basket analysis) utilizando bases de dados reais de uma rede de supermercados. Os seus objetivos são: avaliar ferramentas de mineração de dados como fonte de informações relevantes para a tomada de decisão; identificar, através da revisão de literatura, as promessas da tecnologia e verificar se tais promessas são cumpridas pelas ferramentas; identificar e caracterizar ferramentas de mineração de dados disponíveis no mercado e comparar os tipos de resultados gerados pelas diferentes ferramentas e relatar problemas encontrados durante a aplicação destas ferramentas. O desenvolvimento do trabalho segue o método estudo de caso múltiplo: os dados foram coletados a partir da aplicação das ferramentas às bases de dados e da entrevista com tomadores de decisão da empresa. Foram seguidos procedimentos já utilizados de avaliação de sistemas para a realização desta pesquisa. A partir da análise dos dados coletados, pôde-se conhecer alguns problemas apresentados pelas ferramentas e concluiu-se que as ferramentas, que foram utilizadas neste trabalho, não estão prontas para serem disponibilizadas no mercado.