884 resultados para Extracção de Conhecimento de dados


Relevância:

100.00% 100.00%

Publicador:

Resumo:

O presente artigo insere-se num projecto de investigação mais vasto e actualmente em curso que visa analisar as relações, teoricamente estabelecidas, entre a gestão do conhecimento e a competitividade organizacional, bem como compreender o papel que a tecnologia desempenha nos processos que suportam a gestão do conhecimento organizacional. Neste contexto, desde cedo sentimos a necessidade de clarificar os conceitos-chave passíveis de conduzir à definição do conceito de gestão do conhecimento, nomeadamente no que concerne à distinção entre o conceito de conhecimento e outros que, habitualmente, lhe surgem associados, designadamente, o de dados e o de informação. Para concretizar este objectivo, efectuámos uma análise de conteúdo ao conjunto das definições presentes na literatura revista, que, para além de possibilitar a clarificação do pensamento dos autores que aludem à temática da gestão do conhecimento, possibilitou uma distinção mais clara dos três conceitos em análise. Este artigo visa introduzir alguma clarificação conceptual neste domínio, realçando diferenças e articulações entre orientações teóricas, ou seja, visa traçar um quadro em que a literatura que gira em torno da gestão do conhecimento adquira uma nova inteligibilidade, facilitando, assim, a discussão desta problemática e permitindo, igualmente, uma melhor compreensão das diversas contribuições.

Relevância:

100.00% 100.00%

Publicador:

Resumo:

Projecto para obtenção do grau de Mestre em Engenharia Informática e de computadores

Relevância:

100.00% 100.00%

Publicador:

Resumo:

A Descoberta de Conhecimento em Banco de Dados (DCBD) é uma nova área de pesquisa que envolve o processo de extração de conhecimento útil implícito em grandes bases de dados. Existem várias metodologias para a realização de um processo de DCBD cuja essência consiste basicamente nas fases de entendimento do domínio do problema, pré-processamento, mineração de dados e pós-processamento. Na literatura sobre o assunto existem muitos trabalhos a respeito de mineração de dados, porém pouco se encontra sobre o processo de pré-processamento. Assim, o objetivo deste trabalho consiste no estudo do pré-processamento, já que é a fase que consome a maior parte do tempo e esforço de todo o processo de DCBD pois envolve operações de entendimento, seleção, limpeza e transformação de dados. Muitas vezes, essas operações precisam ser repetidas de modo a aprimorar a qualidade dos dados e, conseqüentemente, melhorar também a acurácia e eficiência do processo de mineração. A estrutura do trabalho abrange cinco capítulos. Inicialmente, apresenta-se a introdução e motivação para trabalho, juntamente com os objetivos e a metodologia utilizada. No segundo capítulo são abordadas metodologias para o processo de DCBD destacando-se CRISP-DM e a proposta por Fayyad, Piatetsky-Shapiro e Smyth. No terceiro capítulo são apresentadas as sub-fases da fase de pré-processamento contemplando-se entendimento, seleção, limpeza e transformação de dados, bem como os principais métodos e técnicas relacionados às mesmas. Já no quarto capítulo são descritos os experimentos realizados sobre uma base de dados real. Finalmente, no quinto capítulo são apresentadas as considerações finais sobre pré-processamento no processo de DCBD, apontando as dificuldades encontradas na prática, contribuições do presente trabalho e pretensões da continuidade do mesmo. Considera-se como principais contribuições deste trabalho a apresentação de métodos e técnicas de pré-processamento existentes, a comprovação da importância da interatividade com o especialista do domínio ao longo de todo o processo de DCBD, mas principalmente nas tomadas de decisões da fase de pré-processamento, bem como as sugestões de como realizar um pré-processamento sobre uma base de dados real.

Relevância:

100.00% 100.00%

Publicador:

Resumo:

Pós-graduação em Ciências Cartográficas - FCT

Relevância:

90.00% 90.00%

Publicador:

Resumo:

Esta tese apresenta uma abordagem baseada em conceitos para realizar descoberta de conhecimento em textos (KDT). A proposta é identificar características de alto nível em textos na forma de conceitos, para depois realizar a mineração de padrões sobre estes conceitos. Ao invés de aplicar técnicas de mineração sobre palavras ou dados estruturados extraídos de textos, a abordagem explora conceitos identificados nos textos. A idéia é analisar o conhecimento codificado em textos num nível acima das palavras, ou seja, não analisando somente os termos e expressões presentes nos textos, mas seu significado em relação aos fenômenos da realidade (pessoas, objetos, entidades, eventos e situações do mundo real). Conceitos identificam melhor o conteúdo dos textos e servem melhor que palavras para representar os fenômenos. Assim, os conceitos agem como recursos meta-lingüísticos para análise de textos e descoberta de conhecimento. Por exemplo, no caso de textos de psiquiatria, os conceitos permitiram investigar características importantes dos pacientes, tais como sintomas, sinais e comportamentos. Isto permite explorar o conhecimento disponível em textos num nível mais próximo da realidade, minimizando o problema do vocabulário e facilitando o processo de aquisição de conhecimento. O principal objetivo desta tese é demonstrar a adequação de uma abordagem baseada em conceitos para descobrir conhecimento em textos e confirmar a hipótese de que este tipo de abordagem tem vantagens sobre abordagens baseadas em palavras. Para tanto, foram definidas estratégias para identificação dos conceitos nos textos e para mineração de padrões sobre estes conceitos. Diferentes métodos foram avaliados para estes dois processos. Ferramentas automatizadas foram empregadas para aplicar a abordagem proposta em estudos de casos. Diferentes experimentos foram realizados para demonstrar que a abordagem é viável e apresenta vantagens sobre os métodos baseados em palavras. Avaliações objetivas e subjetivas foram conduzidas para confirmar que o conhecimento descoberto era de qualidade. Também foi investigada a possibilidade de se realizar descobertas proativas, quando não se tem hipóteses iniciais. Os casos estudados apontam as várias aplicações práticas desta abordagem. Pode-se concluir que a principal aplicação da abordagem é permitir análises qualitativa e quantitativa de coleções textuais. Conceitos podem ser identificados nos textos e suas distribuições e relações podem ser analisadas para um melhor entendimento do conteúdo presente nos textos e, conseqüentemente, um melhor entendimento do conhecimento do domínio.

Relevância:

90.00% 90.00%

Publicador:

Resumo:

Atualmente, o enorme volume de informações armazenadas em bancos de dados de organizações ultrapassa a capacidade dos tradicionais métodos de análise dos dados baseados em consultas, pois eles se tornaram insuficientes para analisar o conteúdo quanto a algum conhecimento implícito e importante na grande massa de dados. A partir disto, a mineração de dados tem-se transformado em um tópico importante de pesquisa, porque provê um conjunto de técnicas e ferramentas capazes de inteligente e automaticamente assistir o ser humano na análise de uma enorme quantidade de dados à procura de conhecimento relevante e que está encoberto pelos demais dados. O presente trabalho se propõe a estudar e a utilizar a mineração de dados considerando os aspectos temporais. Através de um experimento realizado sobre os dados da Secretaria da Saúde do Estado do Rio Grande do Sul, com a aplicação de uma metodologia para a mineração de dados temporais, foi possível identificar padrões seqüenciais nos dados. Este experimento procurou descobrir padrões seqüenciais de comportamento em internações médicas, objetivando obter modelos de conhecimento dos dados temporais e representá-los na forma de regras temporais. A descoberta destes padrões seqüenciais permitiu comprovar tradicionais comportamentos dos tratamentos médicos efetuados, detectar situações anômalas, bem como, acompanhar a evolução das doenças existentes.

Relevância:

90.00% 90.00%

Publicador:

Resumo:

As árvores de decisão são um meio eficiente para produzir classificadores a partir de bases de dados, sendo largamente utilizadas devido à sua eficiência em relação ao tempo de processamento e por fornecer um meio intuitivo de analisar os resultados obtidos, apresentando uma forma de representação simbólica simples e normalmente compreensível, o que facilita a análise do problema em questão. Este trabalho tem, por finalidade, apresentar um estudo sobre o processo de descoberta de conhecimento em um banco de dados relacionado à área da saúde, contemplando todas as etapas do processo, com destaque à de mineração de dados, dentro da qual são aplicados classificadores baseados em árvores de decisão. Neste estudo, o conhecimento é obtido mediante a construção de árvores de decisão a partir de dados relacionados a um problema real: o controle e a análise das Autorizações de Internações Hospitalares (AIHs) emitidas pelos hospitais da cidade de Pelotas, conveniados ao Sistema Único de Saúde (SUS). Buscou-se encontrar conhecimentos que auxiliassem a Secretaria Municipal da Saúde de Pelotas (SMSP) na análise das AIHs, realizada manualmente, detectando situações que fogem aos padrões permitidos pelo SUS. Finalmente, os conhecimentos obtidos são avaliados e validados, possibilitando verificar a aplicabilidade das árvores no domínio em questão.

Relevância:

90.00% 90.00%

Publicador:

Resumo:

Coordenação de Aperfeiçoamento de Pessoal de Nível Superior (CAPES)

Relevância:

80.00% 80.00%

Publicador:

Resumo:

As hepatites crônicas por vírus são as mais frequentes, destacando-se os vírus das hepatites B (VHB) e C (VHC). O estudo anatomopatológico da biópsia hepática é considerado o padrão ouro para avaliar com precisão a distorção arquitetural e o grau de fibrose do parênquima do fígado, importantes fatores prognósticos para os pacientes portadores de hepatites crônicas virais. Na avaliação histopatológica atual, em adição aos relatos subjetivos das alterações histológicas, escores semiquantitativos que correlacionam achados morfológicos com graus numéricos são usados, tais como os reconhecidos escores de Ishak e METAVIR. Entretanto, em todos estes sistemas há a desvantagem da subjetividade do examinador e da incorporação de alterações categóricas, sem referências às mudanças quantitativas do colágeno hepático. Técnicas de análise de imagens digitais (AID) que fornecem quantificação objetiva dos graus de fibrose em amostras histológicas têm sido desenvolvidas. Todavia, o alto custo e dificuldade ao acesso das tecnologias descritas restringem seu uso a poucos centros especializados. Este estudo visa o desenvolvimento de uma técnica de custo acessível para a análise de imagens digitais da fibrose hepática em hepatites crônicas virais. Foram estudadas 304 biópsias de pacientes com hepatite crônica por vírus B e C, obtidas através de agulhas Menghini. Todas as amostras tinham pelo menos 15 mm de comprimento ou cinco espaços-porta completos e foram coradas pelo método Tricrômico de Masson. O estadiamento foi feito por um único hepatopatologista experiente, sem o conhecimento dos dados clínicos dos pacientes. Os escores de Ishak e METAVIR foram aplicados. As imagens microscópicas foram digitalizadas. Os índices de fibrose foram determinados de forma automatizada, em técnica desenvolvida no programa Adobe Photoshop. Para o escore de Ishak, observamos os seguintes índices de Fibrose (IF) médios: 0,8% 0,0 (estágio 0), 2.4% 0,6 (estágio 1), 4,7% 1,6 (estágio 2), 7,4% 1,4 (estágio 3), 14,9% 3,7 (estágio 4), 23,4% 2,9 (estágio 5) e 34,5% 1,5 (estágio 6). Para a classificação METAVIR: 0,8% 0,1 (estágio F0), 3,8% 1,8 (estágio F1), 7,4% 1,4 (estágio F2), 20,4% 5,2 (estágio F3) e 34,5% 1,5 (estágio F4). Observamos uma excelente correlação entre os índices de fibrose da AID e os escores de Ishak (r=0,94; p<0,001) e METAVIR (r=0,92; p<0,001). Em relação à indicação de tratamento antiviral, foi observado IF médio de 16,4%. Em relação ao diagnóstico de cirrose, foi observado IF médio de 26,9%, para o escore de Ishak, e 34,5% para a classificação METAVIR. A reprodutibilidade intra-observador foi excelente. Este novo método de análise de imagens digitais para a quantificação de fibrose hepática tem custo acessível e foi desenvolvido com tecnologia que está disponível em todo o mundo, permitindo identificar com precisão todos os estágios de fibrose, com excelente reprodutibilidade intra-observador.

Relevância:

80.00% 80.00%

Publicador:

Resumo:

Seguindo a ideia exposta por Caio Fernando Abreu em nota introdutória presente em todas as edições de Os dragões não conhecem o paraíso de que o livro pode ser lido não apenas como um exemplar de contos, mas também como um romance-móbile (ou espatifado) e considerando que, por meio do conhecimento de dados biográficos de um escritor, é possível construir a biografia de um escritor através de sua obra, a presente dissertação busca analisar Os dragões não conhecem o paraíso sob a ótica de uma nova perspectiva de leitura, entendendo o livro como um romance de ficção autobiográfica e formação

Relevância:

80.00% 80.00%

Publicador:

Resumo:

Este estudo trata do processo de inovação tecnológica e da expansão do ensino superior no Brasil. Sintetiza algumas questões que envolvem a aprendizagem humana e abordagens interdisciplinares que estão relacionadas com os processos de aquisição do conhecimento. Apresenta dados da expansão da educação superior e da criação da Universidade Aberta do Brasil, mostrando suas vinculações com o processo de convergência tecnológica. Busca, nos dados atuais sobre a educação superior brasileira, compreender como a educação mediada pelas tecnologias digitais (educação a distância) reestrutura formas de acesso de jovens e adultos ao mundo seletivo da cultura universitária.

Relevância:

80.00% 80.00%

Publicador:

Resumo:

Esta tese apresenta contribuições ao processo de Descoberta de Conhecimento em Bases de Dados (DCBD). DCBD pode ser entendido como um conjunto de técnicas automatizadas – ou semi-automatizadas – otimizadas para extrair conhecimento a partir de grandes bases de dados. Assim, o já, de longa data, praticado processo de descoberta de conhecimento passa a contar com aprimoramentos que o tornam mais fácil de ser realizado. A partir dessa visão, bem conhecidos algoritmos de Estatística e de Aprendizado de Máquina passam a funcionar com desempenho aceitável sobre bases de dados cada vez maiores. Da mesma forma, tarefas como coleta, limpeza e transformação de dados e seleção de atributos, parâmetros e modelos recebem um suporte que facilita cada vez mais a sua execução. A contribuição principal desta tese consiste na aplicação dessa visão para a otimização da descoberta de conhecimento a partir de dados não-classificados. Adicionalmente, são apresentadas algumas contribuições sobre o Modelo Neural Combinatório (MNC), um sistema híbrido neurossimbólico para classificação que elegemos como foco de trabalho. Quanto à principal contribuição, percebeu-se que a descoberta de conhecimento a partir de dados não-classificados, em geral, é dividida em dois subprocessos: identificação de agrupamentos (aprendizado não-supervisionado) seguida de classificação (aprendizado supervisionado). Esses subprocessos correspondem às tarefas de rotulagem dos itens de dados e obtenção das correlações entre os atributos da entrada e os rótulos. Não encontramos outra razão para que haja essa separação que as limitações inerentes aos algoritmos específicos. Uma dessas limitações, por exemplo, é a necessidade de iteração de muitos deles buscando a convergência para um determinado modelo. Isto obriga a que o algoritmo realize várias leituras da base de dados, o que, para Mineração de Dados, é proibitivo. A partir dos avanços em DCBD, particularmente com o desenvolvimento de algoritmos de aprendizado que realizam sua tarefa em apenas uma leitura dos dados, fica evidente a possibilidade de se reduzir o número de acessos na realização do processo completo. Nossa contribuição, nesse caso, se materializa na proposta de uma estrutura de trabalho para integração dos dois paradigmas e a implementação de um protótipo dessa estrutura utilizando-se os algoritmos de aprendizado ART1, para identificação de agrupamentos, e MNC, para a tarefa de classificação. É também apresentada uma aplicação no mapeamento de áreas homogêneas de plantio de trigo no Brasil, de 1975 a 1999. Com relação às contribuições sobre o MNC são apresentados: (a) uma variante do algoritmo de treinamento que permite uma redução significativa do tamanho do modelo após o aprendizado; (b) um estudo sobre a redução da complexidade do modelo com o uso de máquinas de comitê; (c) uma técnica, usando o método do envoltório, para poda controlada do modelo final e (d) uma abordagem para tratamento de inconsistências e perda de conhecimento que podem ocorrer na construção do modelo.

Relevância:

80.00% 80.00%

Publicador:

Resumo:

A Engenharia de Conhecimento (Knowledge Engineering - KE) atual considera o desenvolvimento de Sistemas Baseados em Conhecimento (Knowledge- Based Systems - KBSs) como um processo de modelagem baseado em modelos de conhecimento reusáveis. A noção de Métodos de Solução de Problemas (Problem- Solving Methods - PSMs) desempenha um importante papel neste cenário de pesquisa, pois representa o conhecimento inferencial de KBSs em um formalismo explícito. Não menos importante, PSMs também facilitam a compreensão do processo de raciocínio desenvolvido por humanos. PSMs são descritos em um formalismo abstrato e independente de implementação, facilitando a análise do conhecimento inferencial que muitas vezes é obscurecido em grandes bases de conhecimento. Desta forma, este trabalho discute a noção de PSMs, avaliando os problemas de pesquisa envolvidos no processo de desenvolvimento e especificação de um método, como também analisando as possibilidades de aplicação de PSMs. O trabalho apresenta a descrição e análise de um estudo de caso sobre o processo de desenvolvimento, especificação e aplicação de um PSM Interpretação de Rochas. As tarefas de interpretação de rochas são desenvolvidas por petrógrafos especialistas e correspondem a um importante passo na caracterização de rochasreservatório de petróleo e definição de técnicas de exploração, permitindo que companhias de petróleo reduzam custos de exploração normalmente muito elevados. Para suportar o desenvolvimento de KBSs neste domínio de aplicação, foram desenvolvidos dois PSMs novos: o PSM Interpretação de Rochas e o PSM Interpretação de Ambientes Diagenéticos. Tais métodos foram especificados a partir de uma análise da perícia em Petrografia Sedimentar, como também a partir de modelos de conhecimento e dados desenvolvidos durante o projeto PetroGrapher. O PSM Interpretação de Rochas e o PSM Interpretação de Ambientes Diagenéticos são especificados conceitualmente em termos de competência, especificação operacional e requisitos/suposições. Tais definições detalham os componentes centrais de um esquema de raciocínio para interpretação de rochas. Este esquema é empregado como um modelo de compreensão e análise do processo de raciocínio requerido para orientar o desenvolvimento de uma arquitetura de raciocínio para interpretação de rochas. Esta arquitetura é descrita em termos de requisitos de armazenamento e manipulação de dados e conhecimento, permitindo projetar e construir um algoritmo de inferência simbólico para uma aplicação de bancos de dados inteligentes denominada PetroGrapher.

Relevância:

80.00% 80.00%

Publicador:

Resumo:

A classificação é uma das tarefas da Mineração de Dados. Esta consiste na aplicação de algoritmos específicos para produzir uma enumeração particular de padrões. Já a classificação é o processo de gerar uma descrição, ou um modelo, para cada classe a partir de um conjunto de exemplos dados. Os métodos adequados e mais utilizados para induzir estes modelos, ou classificadores, são as árvores de decisão e as regras de classificação. As regras e árvores de decisão são populares, principalmente, por sua simplicidade, flexibilidade e interpretabilidade. Entretanto, como a maioria dos algoritmos de indução particionam recursivamente os dados, o processamento pode tornar-se demorado, e a árvore construída pode ser muito grande e complexa, propensa ao overfitting dos dados, que ocorre quando o modelo aprende detalhadamente ao invés de generalizar. Os conjuntos de dados reais para aplicação em Mineração de Dados são, atualmente, muito grandes, e envolvem vários milhares de registros, sendo necessária, também, uma forma de generalizar estes dados. Este trabalho apresenta um novo modelo de indução de classificadores, em que o principal diferencial do algoritmo proposto é a única passada pelo conjunto de treinamento durante o processo de indução, bem como a sua inspiração proveniente de um Sistema Multiagente. Foi desenvolvido um protótipo, o Midas, que foi validado e avaliado com dados de repositórios. O protótipo também foi aplicado em bases de dados reais, com o objetivo de generalizar as mesmas. Inicialmente, foi estudado e revisado o tema de Descoberta de Conhecimento em Bases de Dados, com ênfase nas técnicas e métodos de Mineração de Dados. Neste trabalho, também são apresentadas, com detalhes, as árvores e regras de decisão, com suas técnicas e algoritmos mais conhecidos. Finalizando, o algoritmo proposto e o protótipo desenvolvido são apresentados, bem como os resultados provenientes da validação e aplicação do mesmo.

Relevância:

80.00% 80.00%

Publicador:

Resumo:

A maioria das empresas interage com seus clientes através de computadores. Com o passar do tempo está armazenado nos computadores um histórico da atividade da empresa que pode ser explorado para a melhoria do processo de tomada de decisões. Ferramentas de descoberta de conhecimento em bancos de dados exploram este histórico a fim de extrair vários tipos de informação. Um dos tipos de informação que pode ser extraída destes tipos de bancos de dados são as regras de associação que consistem em relacionamentos ou dependências importantes entre itens tal que a presença de alguns itens em uma transação irá implicar a presença de outros itens na mesma transação. Neste trabalho são aplicadas técnicas de descoberta de conhecimento na área do comércio varejista de confecção. Foram detectadas algumas peculiaridades dos bancos de dados desta área sendo proposto um novo algoritmo para melhorar o desempenho da tarefa de extração de regras de associação. Para a validação dos resultados apresentados pelo algoritmo foi desenvolvido o protótipo de uma ferramenta para extração de regras de associação. Foram realizados experimentos com bancos de dados reais de uma empresa da área de comércio varejista de confecção para análise de desempenho do algoritmo.