1000 resultados para Mineração de dados na educação


Relevância:

90.00% 90.00%

Publicador:

Resumo:

A procura de padrões nos dados de modo a formar grupos é conhecida como aglomeração de dados ou clustering, sendo uma das tarefas mais realizadas em mineração de dados e reconhecimento de padrões. Nesta dissertação é abordado o conceito de entropia e são usados algoritmos com critérios entrópicos para fazer clustering em dados biomédicos. O uso da entropia para efetuar clustering é relativamente recente e surge numa tentativa da utilização da capacidade que a entropia possui de extrair da distribuição dos dados informação de ordem superior, para usá-la como o critério na formação de grupos (clusters) ou então para complementar/melhorar algoritmos existentes, numa busca de obtenção de melhores resultados. Alguns trabalhos envolvendo o uso de algoritmos baseados em critérios entrópicos demonstraram resultados positivos na análise de dados reais. Neste trabalho, exploraram-se alguns algoritmos baseados em critérios entrópicos e a sua aplicabilidade a dados biomédicos, numa tentativa de avaliar a adequação destes algoritmos a este tipo de dados. Os resultados dos algoritmos testados são comparados com os obtidos por outros algoritmos mais “convencionais" como o k-médias, os algoritmos de spectral clustering e um algoritmo baseado em densidade.

Relevância:

90.00% 90.00%

Publicador:

Resumo:

Dissertação para obtenção do Grau de Mestre em Engenharia Informática

Relevância:

90.00% 90.00%

Publicador:

Resumo:

O mapeamento digital de solos permite prever padrões de ocorrência de solos com base em áreas de referência e no uso de técnicas de mineração de dados para modelar associações solo-paisagem. Os objetivos deste trabalho foram produzir um mapa pedológico digital por meio de técnicas de mineração de dados aplicadas a variáveis geomorfométricas e de geologia, com base em áreas de referência; e testar a confiabilidade desse mapa por meio de validação em campo com diferentes sistemas de amostragem. O mapeamento foi realizado na folha Botucatu (SF-22-Z-B-VI-3), utilizando-se as folhas 1:50.000, Dois Córregos e São Pedro, como áreas de referência. Variáveis descritoras do relevo e de geologia associadas às unidades de mapeamento pedológico das áreas de referência compuseram a matriz de dados de treinamento. A matriz foi analisada pelo algoritmo PART de árvore de decisão, do aplicativo Weka (Waikato Environment for Knowledge Analysis), que cria regras de classificação. Essas regras foram aplicadas aos dados geomorfométricos e geológicos da folha Botucatu, para predição de unidades de mapeamento pedológico. A validação de campo dos mapas digitais deu-se por meio de amostragem por transectos em uma unidade de mapeamento da folha São Pedro e de forma aleatório-estratificada na folha Botucatu. A avaliação da unidade de mapeamento na folha São Pedro verificou confiabilidade, respectivamente, de 83 e 66 %, para os mapas pedológicos digital e tradicional com legenda simplificada. Apesar de terem sido geradas regras para todas as unidades de mapeamento pedológico das áreas de treinamento, nem todas as unidades de mapeamento foram preditas na folha Botucatu, o que resultou das diferenças de relevo e geologia entre as áreas de treinamento e de mapeamento. A validação de campo do mapa digital da folha Botucatu verificou exatidão global de 52 %, compatível com levantamentos em nível de reconhecimento de baixa intensidade, e kappa de 0,41, indicando qualidade Boa. Unidades de mapeamento mais extensas geraram mais regras, resultando melhor reprodução dos padrões solo-relevo na área a ser mapeada. A validação por transectos na folha São Pedro indicou compatibilidade do mapa digital com o nível de reconhecimento de alta intensidade e compatibilidade do mapa tradicional, após simplificação de sua legenda, com o nível de reconhecimento de baixa intensidade. O treinamento do algoritmo em mapas e não em observações pontuais reduziu em 14 % a exatidão do mapa pedológico digital da folha Botucatu. A amostragem aleatório-estratificada pelo hipercubo latino é apropriada a mapeamentos com extensa base de dados, o que permite avaliar o mapa como um todo, tornando os trabalhos de campo mais eficientes. A amostragem em transectos é compatível com a avaliação da pureza de unidades de mapeamento individualmente, não necessitando de base de dados detalhada e permitindo estudos de associações solo-paisagem em pedossequências.

Relevância:

90.00% 90.00%

Publicador:

Resumo:

Este trabalho é dedicado ao estudo e à aplicação da mineração de regras de associação a fim de descobrir padrões de navegação no ambiente Web. As regras de associação são padrões descritivos que representam a probabilidade de um conjunto de itens aparecer em uma transação visto que outro conjunto está presente. Dentre as possibilidades de aplicação da mineração de dados na Web, a mineração do seu uso consiste na extração de regras e padrões que descrevam o perfil dos visitantes aos sites e o seu comportamento navegacional. Neste contexto, alguns trabalhos já foram propostos, contudo diversos pontos foram deixados em aberto por seus autores. O objetivo principal deste trabalho é a apresentação de um modelo para a extração de regras de associação aplicado ao uso da Web. Este modelo, denominado Access Miner, caracteriza-se por enfocar as etapas do processo de descoberta do conhecimento desde a obtenção dos dados até a apresentação das regras obtidas ao analista. Características específicas do domínio foram consideradas, como a estrutura do site, para o pósprocessamento das regras mineradas a fim de selecionar as potencialmente mais interessantes e reduzir a quantidade de regras a serem apreciadas. O projeto possibilitou a implementação de uma ferramenta para a automação das diversas etapas do processo, sendo consideradas, na sua construção, as características de interatividade e iteratividade, necessárias para a descoberta e consolidação do conhecimento. Finalmente, alguns resultados foram obtidos a partir da aplicação desta ferramenta em dois casos, de forma que o modelo proposto pôde ser validado.

Relevância:

90.00% 90.00%

Publicador:

Resumo:

A Descoberta de Conhecimento em Banco de Dados (DCBD) é uma nova área de pesquisa que envolve o processo de extração de conhecimento útil implícito em grandes bases de dados. Existem várias metodologias para a realização de um processo de DCBD cuja essência consiste basicamente nas fases de entendimento do domínio do problema, pré-processamento, mineração de dados e pós-processamento. Na literatura sobre o assunto existem muitos trabalhos a respeito de mineração de dados, porém pouco se encontra sobre o processo de pré-processamento. Assim, o objetivo deste trabalho consiste no estudo do pré-processamento, já que é a fase que consome a maior parte do tempo e esforço de todo o processo de DCBD pois envolve operações de entendimento, seleção, limpeza e transformação de dados. Muitas vezes, essas operações precisam ser repetidas de modo a aprimorar a qualidade dos dados e, conseqüentemente, melhorar também a acurácia e eficiência do processo de mineração. A estrutura do trabalho abrange cinco capítulos. Inicialmente, apresenta-se a introdução e motivação para trabalho, juntamente com os objetivos e a metodologia utilizada. No segundo capítulo são abordadas metodologias para o processo de DCBD destacando-se CRISP-DM e a proposta por Fayyad, Piatetsky-Shapiro e Smyth. No terceiro capítulo são apresentadas as sub-fases da fase de pré-processamento contemplando-se entendimento, seleção, limpeza e transformação de dados, bem como os principais métodos e técnicas relacionados às mesmas. Já no quarto capítulo são descritos os experimentos realizados sobre uma base de dados real. Finalmente, no quinto capítulo são apresentadas as considerações finais sobre pré-processamento no processo de DCBD, apontando as dificuldades encontradas na prática, contribuições do presente trabalho e pretensões da continuidade do mesmo. Considera-se como principais contribuições deste trabalho a apresentação de métodos e técnicas de pré-processamento existentes, a comprovação da importância da interatividade com o especialista do domínio ao longo de todo o processo de DCBD, mas principalmente nas tomadas de decisões da fase de pré-processamento, bem como as sugestões de como realizar um pré-processamento sobre uma base de dados real.

Relevância:

90.00% 90.00%

Publicador:

Resumo:

Este trabalho analisa a política educacional como geradora de um processo de exclusão, que dificulta para a parcela mais pobre da população o acesso ao ensino, e portanto a seus benefícios futuros, contribuindo para a concentração de renda. Argumenta-se que a política educacional brasileira apresenta tal característica, e mostram-se indícios neste sentido, por meio de dados sobre educação e distribuição de renda do Brasil e do mundo.

Relevância:

90.00% 90.00%

Publicador:

Resumo:

A mineração de dados é o núcleo do processo de descoberta de conhecimento em base de dados. Durante a mineração podem ser aplicadas diversas técnicas para a extração de conhecimento. Cada técnica disponível visa à realização de um objetivo e é executada de uma forma em particular. O foco desta dissertação é uma destas técnicas conhecida como detecção de desvios. A detecção de desvios é baseada no reconhecimento do padrão existente nos dados avaliados e a capacidade de identificar valores que não suportem o padrão identificado. Este trabalho propõe uma sistemática de avaliação dos dados, com o objetivo de identificar os registros que destoam do padrão encontrado. Para este estudo são aplicadas algumas técnicas de avaliação estatística. Inicialmente é apresentada uma revisão bibliográfica sobre descoberta de conhecimento em base de dados (DCBD) e mineração de dados (MD). Na seqüência, são apresentados os principais conceitos que auxiliam na definição do que é um desvio, quais as técnicas utilizadas para a detecção e a forma de avaliação do mesmo. Dando continuidade ao trabalho, a sistemática CRISP_DM é descrita por ser aplicada aos estudos de casos realizados. A seguir, são descritos os estudos de casos realizados que utilizaram as bases da Secretaria da Saúde do Rio Grande do Sul (SES). Finalmente, são apresentados as conclusões do estudo e possíveis trabalhos futuros.

Relevância:

90.00% 90.00%

Publicador:

Resumo:

A implantação dos sistemas de notas fiscais eletrônicas proporcionou uma grande quantidade de dados para as administrações tributárias. Analisar esses dados e extrair informações importantes é um desafio. Esse trabalho buscou, por meio de técnicas de análise de dados e mineração de textos, identificar, a partir da descrição dos serviços prestados, notas emitidas incorretamente a fim de respaldar um melhor planejamento de fiscalizações.

Relevância:

90.00% 90.00%

Publicador:

Resumo:

A atenção à saúde da população no Brasil gera um grande volume de dados sobre os serviços de saúde prestados. O tratamento adequado destes dados com técnicas de acesso à grande massa de dados pode permitir a extração de informações importantes para um melhor conhecimento do setor saúde. Avaliar o desempenho dos sistemas de saúde através da utilização da massa de dados produzida tem sido uma tendência mundial, uma vez que vários países já mantêm programas de avaliação baseados em dados e indicadores. Neste contexto, A OCDE – Organização para Cooperação e Desenvolvimento Econômico, que é uma organização internacional que avalia as políticas econômicas de seus 34 países membros, possui uma publicação bienal, chamada Health at a Glance, que tem por objetivo fazer a comparação dos sistemas de saúde dos países membros da OCDE. Embora o Brasil não seja um membro, a OCDE procura incluí-lo no cálculo de alguns indicadores, quando os dados estão disponíveis, pois considera o Brasil como uma das maiores economias que não é um país membro. O presente estudo tem por objetivo propor e implementar, com base na metodologia da publicação Health at a Glance de 2015, o cálculo para o Brasil de 22 indicadores em saúde que compõem o domínio “utilização de serviços em saúde” da publicação da OCDE. Para isto foi feito um levantamento das principais bases de dados nacionais em saúde disponíveis que posteriormente foram capturadas, conforme necessidade, através de técnicas para acessar e tratar o grande volume de dados em saúde no Brasil. As bases de dados utilizadas são provenientes de três principais fontes remuneração: SUS, planos privados de saúde e outras fontes de remuneração como, por exemplo, planos públicos de saúde, DPVAT e particular. A realização deste trabalho permitiu verificar que os dados em saúde disponíveis publicamente no Brasil podem ser usados na avaliação do desempenho do sistema de saúde, e além de incluir o Brasil no benchmark internacional dos países da OCDE nestes 22 indicadores, promoveu a comparação destes indicadores entre o setor público de saúde do Brasil, o SUS, e o setor de planos privados de saúde, a chamada saúde suplementar. Além disso, também foi possível comparar os indicadores calculados para o SUS para cada UF, demonstrando assim as diferenças na prestação de serviços de saúde nos estados do Brasil para o setor público. A análise dos resultados demonstrou que, em geral, o Brasil comparado com os países da OCDE apresenta um desempenho abaixo da média dos demais países, o que indica necessidade de esforços para atingir um nível mais alto na prestação de serviços em saúde que estão no âmbito de avaliação dos indicadores calculados. Quando segmentado entre SUS e saúde suplementar, a análise dos resultados dos indicadores do Brasil aponta para uma aproximação do desempenho do setor de saúde suplementar em relação à média dos demais países da OCDE, e por outro lado um distanciamento do SUS em relação a esta média. Isto evidencia a diferença no nível de prestação de serviços dentro do Brasil entre o SUS e a saúde suplementar. Por fim, como proposta de melhoria na qualidade dos resultados obtidos neste estudo sugere-se o uso da base de dados do TISS/ANS para as informações provenientes do setor de saúde suplementar, uma vez que o TISS reflete toda a troca de informações entre os prestadores de serviços de saúde e as operadoras de planos privados de saúde para fins de pagamento dos serviços prestados.

Relevância:

90.00% 90.00%

Publicador:

Resumo:

Self-organizing maps (SOM) are artificial neural networks widely used in the data mining field, mainly because they constitute a dimensionality reduction technique given the fixed grid of neurons associated with the network. In order to properly the partition and visualize the SOM network, the various methods available in the literature must be applied in a post-processing stage, that consists of inferring, through its neurons, relevant characteristics of the data set. In general, such processing applied to the network neurons, instead of the entire database, reduces the computational costs due to vector quantization. This work proposes a post-processing of the SOM neurons in the input and output spaces, combining visualization techniques with algorithms based on gravitational forces and the search for the shortest path with the greatest reward. Such methods take into account the connection strength between neighbouring neurons and characteristics of pattern density and distances among neurons, both associated with the position that the neurons occupy in the data space after training the network. Thus, the goal consists of defining more clearly the arrangement of the clusters present in the data. Experiments were carried out so as to evaluate the proposed methods using various artificially generated data sets, as well as real world data sets. The results obtained were compared with those from a number of well-known methods existent in the literature

Relevância:

90.00% 90.00%

Publicador:

Resumo:

Pós-graduação em Ciência da Computação - IBILCE

Relevância:

90.00% 90.00%

Publicador:

Resumo:

Pós-graduação em Desenvolvimento Humano e Tecnologias - IBRC

Relevância:

90.00% 90.00%

Publicador:

Resumo:

Várias das técnicas tradicionais de Mineração de Dados têm sido aplicadas com êxito e outras esbarram em limitações, tanto no desempenho como na qualidade do conhecimento gerado. Pesquisas recentes têm demonstrado que as técnicas na área de IA, tais como Algoritmo Genético (AG) e Lógica Difusa (LD), podem ser utilizadas com sucesso. Nesta pesquisa o interesse é revisar algumas abordagens que utilizam AG em combinação com LD de forma híbrida para realizar busca em espaços grandes e complexos. Este trabalho apresenta o Algoritmo Genético (AG), utilizando Lógica Difusa, para a codificação, avaliação e reprodução dos cromossomos, buscando classificar dados através de regras extraídas de maneira automática com a evolução dos cromossomos. A Lógica Difusa é utilizada para deixar as regras mais claras e próximas da linguagem humana, utilizando representações lingüísticas para identificar dados contínuos.

Relevância:

90.00% 90.00%

Publicador:

Resumo:

We are included in a society where the use of the Internet became very important to our everyday life. The relationships nowadays usually happen through technological devices instead of face to face contact, for instance, Internet forums where people can discuss online. However, the global analysis is a big challenge, due to the large amount of data. This work investigates the use of visual representations to support an exploratory analysis of contents in messages from discussions forums. This analysis considers the thematic and the chronology. The target forums refer to the educational area and the analysis happens manually, i.e. by direct reading message-by-message. The proprieties of perception and cognition of the human visual system allow a person the capacity to conduct high-level tasks in information extraction from a graphical or visual representation of data. Therefore, this work was based on Visual Analytics, an area that aims create techniques that amplify these human abilities. For that reason we used software that creates a visualization of data from a forum. This software allows a forum content analysis. But, during the work, we identified the necessity to create a new tool to clean the data, because the data had a lot of unnecessary information. After cleaning the data we created a new visualization and held an analysis seeking a new knowledge. In the end we compared the new visualization with the manual analysis that had been made. Analyzing the results, it was evident the potential of visualization use, it provides a better correlation between the information, enabling the acquisition of new knowledge that was not identified in the initial analysis, providing a better use of the forum content

Relevância:

90.00% 90.00%

Publicador:

Resumo:

Pós-graduação em Ciência da Computação - IBILCE