873 resultados para Mineração de dados (Computação)


Relevância:

100.00% 100.00%

Publicador:

Resumo:

Dissertação (mestrado)—Universidade de Brasília, Instituto de Ciências Exatas, Departamento de Ciência da Computação, 2015.

Relevância:

90.00% 90.00%

Publicador:

Resumo:

Neste trabalho apresentamos um novo método de compressão, com perda controlada de dados, que tem a vantagem de ter uma taxa significativa de compressão sem introduzir nenhuma perda superior a um parâmetro escolhido pelo usuário. Esta abordagem é uma abordagem mista, pois usa técnicas de compactação de dados tanto com perda quanto sem perda. Isto quer dizer que conseguimos um método que alia as vantagens da alta compressão, sem introduzir distorções indesejáveis nos dados. Mostramos como a massa de dados utilizada nos nossos estudos é obtida e a sua importância na prospecção de depósitos de hidrocarbonetos. É apresentado um levantamento bibliográfico com técnicas de compressão aplicadas a dados sísmicos tipicamente utilizadas em aplicações comerciais. Por fim, apresentamos os resultados da compressão utilizando o método em conjuntos de dados sísmicos reais. Para 1% de erro, os arquivos de dados sísmicos compactados passaram a ter algo próximo a 25% de seus tamanhos originais, o que representa um fator de compressão de aproximadamente 4

Relevância:

90.00% 90.00%

Publicador:

Resumo:

A procura de padrões nos dados de modo a formar grupos é conhecida como aglomeração de dados ou clustering, sendo uma das tarefas mais realizadas em mineração de dados e reconhecimento de padrões. Nesta dissertação é abordado o conceito de entropia e são usados algoritmos com critérios entrópicos para fazer clustering em dados biomédicos. O uso da entropia para efetuar clustering é relativamente recente e surge numa tentativa da utilização da capacidade que a entropia possui de extrair da distribuição dos dados informação de ordem superior, para usá-la como o critério na formação de grupos (clusters) ou então para complementar/melhorar algoritmos existentes, numa busca de obtenção de melhores resultados. Alguns trabalhos envolvendo o uso de algoritmos baseados em critérios entrópicos demonstraram resultados positivos na análise de dados reais. Neste trabalho, exploraram-se alguns algoritmos baseados em critérios entrópicos e a sua aplicabilidade a dados biomédicos, numa tentativa de avaliar a adequação destes algoritmos a este tipo de dados. Os resultados dos algoritmos testados são comparados com os obtidos por outros algoritmos mais “convencionais" como o k-médias, os algoritmos de spectral clustering e um algoritmo baseado em densidade.

Relevância:

90.00% 90.00%

Publicador:

Resumo:

Atualmente, as Tecnologias de Informação (TI) são cada vez mais vitais dentro das organizações. As TI são o motor de suporte do negócio. Para grande parte das organizações, o funcionamento e desenvolvimento das TI têm como base infraestruturas dedicadas (internas ou externas) denominadas por Centro de Dados (CD). Nestas infraestruturas estão concentrados os equipamentos de processamento e armazenamento de dados de uma organização, por isso, são e serão cada vez mais desafiadas relativamente a diversos fatores tais como a escalabilidade, disponibilidade, tolerância à falha, desempenho, recursos disponíveis ou disponibilizados, segurança, eficiência energética e inevitavelmente os custos associados. Com o aparecimento das tecnologias baseadas em computação em nuvem e virtualização, abrese todo um leque de novas formas de endereçar os desafios anteriormente descritos. Perante este novo paradigma, surgem novas oportunidades de consolidação dos CD que podem representar novos desafios para os gestores de CD. Por isso, é no mínimo irrealista para as organizações simplesmente eliminarem os CD ou transforma-los segundo os mais altos padrões de qualidade. As organizações devem otimizar os seus CD, contudo um projeto eficiente desta natureza, com capacidade para suportar as necessidades impostas pelo mercado, necessidades dos negócios e a velocidade da evolução tecnológica, exigem soluções complexas e dispendiosas tanto para a sua implementação como a sua gestão. É neste âmbito que surge o presente trabalho. Com o objetivo de estudar os CD inicia-se um estudo sobre esta temática, onde é detalhado o seu conceito, evolução histórica, a sua topologia, arquitetura e normas existentes que regem os mesmos. Posteriormente o estudo detalha algumas das principais tendências condicionadoras do futuro dos CD. Explorando o conhecimento teórico resultante do estudo anterior, desenvolve-se uma metodologia de avaliação dos CD baseado em critérios de decisão. O estudo culmina com uma análise sobre uma nova solução tecnológica e a avaliação de três possíveis cenários de implementação: a primeira baseada na manutenção do atual CD; a segunda baseada na implementação da nova solução em outro CD em regime de hosting externo; e finalmente a terceira baseada numa implementação em regime de IaaS.

Relevância:

90.00% 90.00%

Publicador:

Resumo:

A visualização de informações congrega um conjunto de técnicas que têm por objetivo facilitar o entendimento de informações a partir de representações visuais. Nesta área, parte-se do pressuposto de que uma representação visual de dados ou informações proporciona uma forma mais simples e intuitiva de entendê-los e, com isso, inferir mais rapidamente e com maior precisão o seu significado. Normalmente, a tarefa de análise de dados é realizada com o auxílio de ferramentas de acordo com a natureza dos dados e do estudo sendo realizado. As técnicas de visualização de dados e informações não substituem ferramentas de análise específicas. Elas podem ser usadas como primeira aproximação do processo de análise, quando sintetizam de forma visual uma grande massa de dados, permitindo escolher partes do volume de dados para análise mais detalhada, ou como forma de apresentação de dados já reduzidos. Quando o subconjunto dos dados de interesse está disponível, a utilização de uma ferramenta de visualização proporciona maior agilidade nas análises e padrões na massa de dados podem ser descobertos visualmente. Uma das classes de técnicas de visualização utilizada nesta área é a icônica. Um ícone (ou glifo) é um objeto com geometria e aparência paramétricas, as quais podem ser arbitrariamente vinculadas a dados. A função de um ícone é agir como uma representação simbólica, que mostra as características essenciais de um domínio de dados ao qual o ícone se refere. Assim é possível obter uma visualização dos dados de uma forma mais clara e compacta. Em geral, ícones são utilizados para representar dados multidimensionais, ou seja, múltiplos atributos associados a uma posição num espaço qualquer, ou a entidades em estudo. O presente trabalho analisa o uso de ícones na visualização de informações. São discutidos os conceitos fundamentais de visualização de informações e sua relação com a área de mineração de dados. O uso de ícones em diversos trabalhos apontados na literatura é apresentado, sendo abordada a questão de geração automática de ícones, mais flexível do que os conjuntos fixos providos pelos sistemas de visualização estudados. Uma proposta para gerar ícones de forma automática baseada numa especificação paramétrica dos ícones é utilizada em um conjunto de dados característicos de espécimes animais estudados por biólogos do Departamento de Genética da UFRGS.

Relevância:

90.00% 90.00%

Publicador:

Resumo:

Este trabalho é dedicado ao estudo e à aplicação da mineração de regras de associação a fim de descobrir padrões de navegação no ambiente Web. As regras de associação são padrões descritivos que representam a probabilidade de um conjunto de itens aparecer em uma transação visto que outro conjunto está presente. Dentre as possibilidades de aplicação da mineração de dados na Web, a mineração do seu uso consiste na extração de regras e padrões que descrevam o perfil dos visitantes aos sites e o seu comportamento navegacional. Neste contexto, alguns trabalhos já foram propostos, contudo diversos pontos foram deixados em aberto por seus autores. O objetivo principal deste trabalho é a apresentação de um modelo para a extração de regras de associação aplicado ao uso da Web. Este modelo, denominado Access Miner, caracteriza-se por enfocar as etapas do processo de descoberta do conhecimento desde a obtenção dos dados até a apresentação das regras obtidas ao analista. Características específicas do domínio foram consideradas, como a estrutura do site, para o pósprocessamento das regras mineradas a fim de selecionar as potencialmente mais interessantes e reduzir a quantidade de regras a serem apreciadas. O projeto possibilitou a implementação de uma ferramenta para a automação das diversas etapas do processo, sendo consideradas, na sua construção, as características de interatividade e iteratividade, necessárias para a descoberta e consolidação do conhecimento. Finalmente, alguns resultados foram obtidos a partir da aplicação desta ferramenta em dois casos, de forma que o modelo proposto pôde ser validado.

Relevância:

90.00% 90.00%

Publicador:

Resumo:

A Descoberta de Conhecimento em Banco de Dados (DCBD) é uma nova área de pesquisa que envolve o processo de extração de conhecimento útil implícito em grandes bases de dados. Existem várias metodologias para a realização de um processo de DCBD cuja essência consiste basicamente nas fases de entendimento do domínio do problema, pré-processamento, mineração de dados e pós-processamento. Na literatura sobre o assunto existem muitos trabalhos a respeito de mineração de dados, porém pouco se encontra sobre o processo de pré-processamento. Assim, o objetivo deste trabalho consiste no estudo do pré-processamento, já que é a fase que consome a maior parte do tempo e esforço de todo o processo de DCBD pois envolve operações de entendimento, seleção, limpeza e transformação de dados. Muitas vezes, essas operações precisam ser repetidas de modo a aprimorar a qualidade dos dados e, conseqüentemente, melhorar também a acurácia e eficiência do processo de mineração. A estrutura do trabalho abrange cinco capítulos. Inicialmente, apresenta-se a introdução e motivação para trabalho, juntamente com os objetivos e a metodologia utilizada. No segundo capítulo são abordadas metodologias para o processo de DCBD destacando-se CRISP-DM e a proposta por Fayyad, Piatetsky-Shapiro e Smyth. No terceiro capítulo são apresentadas as sub-fases da fase de pré-processamento contemplando-se entendimento, seleção, limpeza e transformação de dados, bem como os principais métodos e técnicas relacionados às mesmas. Já no quarto capítulo são descritos os experimentos realizados sobre uma base de dados real. Finalmente, no quinto capítulo são apresentadas as considerações finais sobre pré-processamento no processo de DCBD, apontando as dificuldades encontradas na prática, contribuições do presente trabalho e pretensões da continuidade do mesmo. Considera-se como principais contribuições deste trabalho a apresentação de métodos e técnicas de pré-processamento existentes, a comprovação da importância da interatividade com o especialista do domínio ao longo de todo o processo de DCBD, mas principalmente nas tomadas de decisões da fase de pré-processamento, bem como as sugestões de como realizar um pré-processamento sobre uma base de dados real.

Relevância:

90.00% 90.00%

Publicador:

Resumo:

Trata-se de uma pesquisa de campo que abrange 21 empresas, onde se procurou identificar estruturas de dados comuns nos modelos de dados das mesmas. A base teórica para o trabalho são os conceitos de abstração existentes na literatura de Projeto de Banco de Dados, agregação (é-parte-de) e generalização (é-um). Foram identificadas aplicações destes conceitos, mas a pesquisa também mostra que ainda há poucas ferramentas disponíveis para implementação dos mesmos e pouca familiaridade dos técnicos com os conceitos

Relevância:

90.00% 90.00%

Publicador:

Resumo:

A mineração de dados é o núcleo do processo de descoberta de conhecimento em base de dados. Durante a mineração podem ser aplicadas diversas técnicas para a extração de conhecimento. Cada técnica disponível visa à realização de um objetivo e é executada de uma forma em particular. O foco desta dissertação é uma destas técnicas conhecida como detecção de desvios. A detecção de desvios é baseada no reconhecimento do padrão existente nos dados avaliados e a capacidade de identificar valores que não suportem o padrão identificado. Este trabalho propõe uma sistemática de avaliação dos dados, com o objetivo de identificar os registros que destoam do padrão encontrado. Para este estudo são aplicadas algumas técnicas de avaliação estatística. Inicialmente é apresentada uma revisão bibliográfica sobre descoberta de conhecimento em base de dados (DCBD) e mineração de dados (MD). Na seqüência, são apresentados os principais conceitos que auxiliam na definição do que é um desvio, quais as técnicas utilizadas para a detecção e a forma de avaliação do mesmo. Dando continuidade ao trabalho, a sistemática CRISP_DM é descrita por ser aplicada aos estudos de casos realizados. A seguir, são descritos os estudos de casos realizados que utilizaram as bases da Secretaria da Saúde do Rio Grande do Sul (SES). Finalmente, são apresentados as conclusões do estudo e possíveis trabalhos futuros.

Relevância:

90.00% 90.00%

Publicador:

Resumo:

Currently, one of the biggest challenges for the field of data mining is to perform cluster analysis on complex data. Several techniques have been proposed but, in general, they can only achieve good results within specific areas providing no consensus of what would be the best way to group this kind of data. In general, these techniques fail due to non-realistic assumptions about the true probability distribution of the data. Based on this, this thesis proposes a new measure based on Cross Information Potential that uses representative points of the dataset and statistics extracted directly from data to measure the interaction between groups. The proposed approach allows us to use all advantages of this information-theoretic descriptor and solves the limitations imposed on it by its own nature. From this, two cost functions and three algorithms have been proposed to perform cluster analysis. As the use of Information Theory captures the relationship between different patterns, regardless of assumptions about the nature of this relationship, the proposed approach was able to achieve a better performance than the main algorithms in literature. These results apply to the context of synthetic data designed to test the algorithms in specific situations and to real data extracted from problems of different fields

Relevância:

90.00% 90.00%

Publicador:

Resumo:

The opening of the Brazilian market of electricity and competitiveness between companies in the energy sector make the search for useful information and tools that will assist in decision making activities, increase by the concessionaires. An important source of knowledge for these utilities is the time series of energy demand. The identification of behavior patterns and description of events become important for the planning execution, seeking improvements in service quality and financial benefits. This dissertation presents a methodology based on mining and representation tools of time series, in order to extract knowledge that relate series of electricity demand in various substations connected of a electric utility. The method exploits the relationship of duration, coincidence and partial order of events in multi-dimensionals time series. To represent the knowledge is used the language proposed by Mörchen (2005) called Time Series Knowledge Representation (TSKR). We conducted a case study using time series of energy demand of 8 substations interconnected by a ring system, which feeds the metropolitan area of Goiânia-GO, provided by CELG (Companhia Energética de Goiás), responsible for the service of power distribution in the state of Goiás (Brazil). Using the proposed methodology were extracted three levels of knowledge that describe the behavior of the system studied, representing clearly the system dynamics, becoming a tool to assist planning activities

Relevância:

90.00% 90.00%

Publicador:

Resumo:

Traditional applications of feature selection in areas such as data mining, machine learning and pattern recognition aim to improve the accuracy and to reduce the computational cost of the model. It is done through the removal of redundant, irrelevant or noisy data, finding a representative subset of data that reduces its dimensionality without loss of performance. With the development of research in ensemble of classifiers and the verification that this type of model has better performance than the individual models, if the base classifiers are diverse, comes a new field of application to the research of feature selection. In this new field, it is desired to find diverse subsets of features for the construction of base classifiers for the ensemble systems. This work proposes an approach that maximizes the diversity of the ensembles by selecting subsets of features using a model independent of the learning algorithm and with low computational cost. This is done using bio-inspired metaheuristics with evaluation filter-based criteria

Relevância:

90.00% 90.00%

Publicador:

Resumo:

Clustering data is a very important task in data mining, image processing and pattern recognition problems. One of the most popular clustering algorithms is the Fuzzy C-Means (FCM). This thesis proposes to implement a new way of calculating the cluster centers in the procedure of FCM algorithm which are called ckMeans, and in some variants of FCM, in particular, here we apply it for those variants that use other distances. The goal of this change is to reduce the number of iterations and processing time of these algorithms without affecting the quality of the partition, or even to improve the number of correct classifications in some cases. Also, we developed an algorithm based on ckMeans to manipulate interval data considering interval membership degrees. This algorithm allows the representation of data without converting interval data into punctual ones, as it happens to other extensions of FCM that deal with interval data. In order to validate the proposed methodologies it was made a comparison between a clustering for ckMeans, K-Means and FCM algorithms (since the algorithm proposed in this paper to calculate the centers is similar to the K-Means) considering three different distances. We used several known databases. In this case, the results of Interval ckMeans were compared with the results of other clustering algorithms when applied to an interval database with minimum and maximum temperature of the month for a given year, referring to 37 cities distributed across continents

Relevância:

90.00% 90.00%

Publicador:

Resumo:

Data clustering is applied to various fields such as data mining, image processing and pattern recognition technique. Clustering algorithms splits a data set into clusters such that elements within the same cluster have a high degree of similarity, while elements belonging to different clusters have a high degree of dissimilarity. The Fuzzy C-Means Algorithm (FCM) is a fuzzy clustering algorithm most used and discussed in the literature. The performance of the FCM is strongly affected by the selection of the initial centers of the clusters. Therefore, the choice of a good set of initial cluster centers is very important for the performance of the algorithm. However, in FCM, the choice of initial centers is made randomly, making it difficult to find a good set. This paper proposes three new methods to obtain initial cluster centers, deterministically, the FCM algorithm, and can also be used in variants of the FCM. In this work these initialization methods were applied in variant ckMeans.With the proposed methods, we intend to obtain a set of initial centers which are close to the real cluster centers. With these new approaches startup if you want to reduce the number of iterations to converge these algorithms and processing time without affecting the quality of the cluster or even improve the quality in some cases. Accordingly, cluster validation indices were used to measure the quality of the clusters obtained by the modified FCM and ckMeans algorithms with the proposed initialization methods when applied to various data sets

Relevância:

90.00% 90.00%

Publicador:

Resumo:

Pós-graduação em Ciência da Computação - IBILCE