995 resultados para Mineração de dados (Computação)
Resumo:
Atualmente, o enorme volume de informações armazenadas em bancos de dados de organizações ultrapassa a capacidade dos tradicionais métodos de análise dos dados baseados em consultas, pois eles se tornaram insuficientes para analisar o conteúdo quanto a algum conhecimento implícito e importante na grande massa de dados. A partir disto, a mineração de dados tem-se transformado em um tópico importante de pesquisa, porque provê um conjunto de técnicas e ferramentas capazes de inteligente e automaticamente assistir o ser humano na análise de uma enorme quantidade de dados à procura de conhecimento relevante e que está encoberto pelos demais dados. O presente trabalho se propõe a estudar e a utilizar a mineração de dados considerando os aspectos temporais. Através de um experimento realizado sobre os dados da Secretaria da Saúde do Estado do Rio Grande do Sul, com a aplicação de uma metodologia para a mineração de dados temporais, foi possível identificar padrões seqüenciais nos dados. Este experimento procurou descobrir padrões seqüenciais de comportamento em internações médicas, objetivando obter modelos de conhecimento dos dados temporais e representá-los na forma de regras temporais. A descoberta destes padrões seqüenciais permitiu comprovar tradicionais comportamentos dos tratamentos médicos efetuados, detectar situações anômalas, bem como, acompanhar a evolução das doenças existentes.
Resumo:
A mineração de dados constitui o processo de descoberta de conhecimento interessante, com a utilização de métodos e técnicas que permitem analisar grandes conjuntos de dados para a extração de informação previamente desconhecida, válida e que gera ações úteis, de grande ajuda para a tomada de decisões estratégicas. Dentre as tarefas de mineração de dados, existem aquelas que realizam aprendizado não-supervisionado, o qual é aplicado em bases de dados não-classificados, em que o algoritmo extrai as características dos dados fornecidos e os agrupa em classes. Geralmente, o aprendizado não-supervisionado é aplicado em tarefas de agrupamento, que consistem em agrupar os dados de bancos de dados volumosos, com diferentes tipos de dados em classes ou grupos de objetos que são similares dentro de um mesmo grupo e dissimilares em diferentes grupos desses bancos de dados, de acordo com alguma medida de similaridade. Os agrupamentos são usados como ponto de partida para futuras investigações. Este trabalho explora, mediante a realização de um estudo de caso, o uso de agrupamento como tarefa de mineração de dados que realiza aprendizado nãosupervisionado, para avaliar a adequação desta tecnologia em uma base de dados real da área de saúde. Agrupamento é um tema ativo em pesquisas da área pelo seu potencial de aplicação em problemas práticos. O cenário da aplicação é o Sistema de Informações Hospitalares do SUS, sob a gestão da Secretaria Estadual de Saúde do Rio Grande do Sul. Mensalmente, o pagamento de um certo número de internações é bloqueado, uma vez que a cobrança de internações hospitalares é submetida a normas do SUS e a critérios técnicos de bloqueio estabelecidos pela Auditoria Médica da SES para verificar a ocorrência de algum tipo de impropriedade na cobrança dos procedimentos realizados nessas internações hospitalares. A análise de agrupamento foi utilizada para identificar perfis de comportamentos ou tendências nas internações hospitalares e avaliar desvios ou outliers em relação a essas tendências e, com isso, descobrir padrões interessantes que auxiliassem na otimização do trabalho dos auditores médicos da SES. Buscou-se ainda compreender as diferentes configurações de parâmetros oferecidos pela ferramenta escolhida para a mineração de dados, o IBM Intelligent Miner, e o mapeamento de uma metodologia de mineração de dados, o CRISP-DM, para o contexto específico deste estudo de caso. Os resultados deste estudo demonstram possibilidades de criação e melhora dos critérios técnicos de bloqueio das internações hospitalares que permitem a otimização do trabalho de auditores médicos da SES. Houve ainda ganhos na compreensão da tecnologia de mineração de dados com a utilização de agrupamento no que se refere ao uso de uma ferramenta e de uma metodologia de mineração de dados, em que erros e acertos evidenciam os cuidados que devem ser tomados em aplicações dessa tecnologia, além de contribuírem para o seu aperfeiçoamento.
Resumo:
A implantação dos sistemas de notas fiscais eletrônicas proporcionou uma grande quantidade de dados para as administrações tributárias. Analisar esses dados e extrair informações importantes é um desafio. Esse trabalho buscou, por meio de técnicas de análise de dados e mineração de textos, identificar, a partir da descrição dos serviços prestados, notas emitidas incorretamente a fim de respaldar um melhor planejamento de fiscalizações.
Resumo:
A atenção à saúde da população no Brasil gera um grande volume de dados sobre os serviços de saúde prestados. O tratamento adequado destes dados com técnicas de acesso à grande massa de dados pode permitir a extração de informações importantes para um melhor conhecimento do setor saúde. Avaliar o desempenho dos sistemas de saúde através da utilização da massa de dados produzida tem sido uma tendência mundial, uma vez que vários países já mantêm programas de avaliação baseados em dados e indicadores. Neste contexto, A OCDE – Organização para Cooperação e Desenvolvimento Econômico, que é uma organização internacional que avalia as políticas econômicas de seus 34 países membros, possui uma publicação bienal, chamada Health at a Glance, que tem por objetivo fazer a comparação dos sistemas de saúde dos países membros da OCDE. Embora o Brasil não seja um membro, a OCDE procura incluí-lo no cálculo de alguns indicadores, quando os dados estão disponíveis, pois considera o Brasil como uma das maiores economias que não é um país membro. O presente estudo tem por objetivo propor e implementar, com base na metodologia da publicação Health at a Glance de 2015, o cálculo para o Brasil de 22 indicadores em saúde que compõem o domínio “utilização de serviços em saúde” da publicação da OCDE. Para isto foi feito um levantamento das principais bases de dados nacionais em saúde disponíveis que posteriormente foram capturadas, conforme necessidade, através de técnicas para acessar e tratar o grande volume de dados em saúde no Brasil. As bases de dados utilizadas são provenientes de três principais fontes remuneração: SUS, planos privados de saúde e outras fontes de remuneração como, por exemplo, planos públicos de saúde, DPVAT e particular. A realização deste trabalho permitiu verificar que os dados em saúde disponíveis publicamente no Brasil podem ser usados na avaliação do desempenho do sistema de saúde, e além de incluir o Brasil no benchmark internacional dos países da OCDE nestes 22 indicadores, promoveu a comparação destes indicadores entre o setor público de saúde do Brasil, o SUS, e o setor de planos privados de saúde, a chamada saúde suplementar. Além disso, também foi possível comparar os indicadores calculados para o SUS para cada UF, demonstrando assim as diferenças na prestação de serviços de saúde nos estados do Brasil para o setor público. A análise dos resultados demonstrou que, em geral, o Brasil comparado com os países da OCDE apresenta um desempenho abaixo da média dos demais países, o que indica necessidade de esforços para atingir um nível mais alto na prestação de serviços em saúde que estão no âmbito de avaliação dos indicadores calculados. Quando segmentado entre SUS e saúde suplementar, a análise dos resultados dos indicadores do Brasil aponta para uma aproximação do desempenho do setor de saúde suplementar em relação à média dos demais países da OCDE, e por outro lado um distanciamento do SUS em relação a esta média. Isto evidencia a diferença no nível de prestação de serviços dentro do Brasil entre o SUS e a saúde suplementar. Por fim, como proposta de melhoria na qualidade dos resultados obtidos neste estudo sugere-se o uso da base de dados do TISS/ANS para as informações provenientes do setor de saúde suplementar, uma vez que o TISS reflete toda a troca de informações entre os prestadores de serviços de saúde e as operadoras de planos privados de saúde para fins de pagamento dos serviços prestados.
Resumo:
Nowadays, telecommunications is one of the most dynamic and strategic areas in the world. Organizations are always seeking to find new management practices within an ever increasing competitive environment where resources are getting scarce. In this scenario, data obtained from business and corporate processes have even greater importance, although this data is not yet adequately explored. Knowledge Discovery in Databases (KDD) appears then, as an option to allow the study of complex problems in different areas of management. This work proposes both a systematization of KDD activities using concepts from different methodologies, such as CRISP-DM, SEMMA and FAYYAD approaches and a study concerning the viability of multivariate regression analysis models to explain corporative telecommunications sales using performance indicators. Thus, statistical methods were outlined to analyze the effects of such indicators on the behavior of business productivity. According to business and standard statistical analysis, equations were defined and fit to their respective determination coefficients. Tests of hypotheses were also conducted on parameters with the purpose of validating the regression models. The results show that there is a relationship between these development indicators and the amount of sales
Resumo:
O atual modelo do setor elétrico brasileiro permite igualdade de condições a todos os agentes e reduz o papel do Estado no setor. Esse modelo obriga as empresas do setor a melhorarem cada vez mais a qualidade de seu produto e, como requisito para este objetivo, devem fazer uso mais efetivo da enorme quantidade de dados operacionais que são armazenados em bancos de dados, provenientes da operação dos seus sistemas elétricos e que tem nas Usinas Hidrelétricas (UHE) a sua principal fonte de geração de energia. Uma das principais ferramentas para gerenciamento dessas usinas são os sistemas de Supervisão, Controle e Aquisição de Dados (Supervisory Control And Data Acquisition - SCADA). Assim, a imensa quantidade de dados acumulados nos bancos de dados pelos sistemas SCADA, muito provavelmente contendo informações relevantes, deve ser tratada para descobrir relações e padrões e assim ajudar na compreensão de muitos aspectos operacionais importantes e avaliar o desempenho dos sistemas elétricos de potência. O processo de Descoberta de Conhecimento em Banco de Dados (Knowledge Discovery in Database - KDD) é o processo de identificar, em grandes conjuntos de dados, padrões que sejam válidos, novos, úteis e compreensíveis, para melhorar o entendimento de um problema ou um procedimento de tomada de decisão. A Mineração de Dados (ou Data Mining) é o passo dentro do KDD que permite extrair informações úteis em grandes bases de dados. Neste cenário, o presente trabalho se propõe a realizar experimentos de mineração de dados nos dados gerados por sistemas SCADA em UHE, a fim de produzir informações relevantes para auxiliar no planejamento, operação, manutenção e segurança das hidrelétricas e na implantação da cultura da mineração de dados aplicada a estas usinas.
Resumo:
We are included in a society where the use of the Internet became very important to our everyday life. The relationships nowadays usually happen through technological devices instead of face to face contact, for instance, Internet forums where people can discuss online. However, the global analysis is a big challenge, due to the large amount of data. This work investigates the use of visual representations to support an exploratory analysis of contents in messages from discussions forums. This analysis considers the thematic and the chronology. The target forums refer to the educational area and the analysis happens manually, i.e. by direct reading message-by-message. The proprieties of perception and cognition of the human visual system allow a person the capacity to conduct high-level tasks in information extraction from a graphical or visual representation of data. Therefore, this work was based on Visual Analytics, an area that aims create techniques that amplify these human abilities. For that reason we used software that creates a visualization of data from a forum. This software allows a forum content analysis. But, during the work, we identified the necessity to create a new tool to clean the data, because the data had a lot of unnecessary information. After cleaning the data we created a new visualization and held an analysis seeking a new knowledge. In the end we compared the new visualization with the manual analysis that had been made. Analyzing the results, it was evident the potential of visualization use, it provides a better correlation between the information, enabling the acquisition of new knowledge that was not identified in the initial analysis, providing a better use of the forum content
Resumo:
Pós-graduação em Ciência da Computação - IBILCE
Resumo:
Pós-graduação em Desenvolvimento Humano e Tecnologias - IBRC
Resumo:
2015
Resumo:
Tendo como motivação o desenvolvimento de uma representação gráfica de redes com grande número de vértices, útil para aplicações de filtro colaborativo, este trabalho propõe a utilização de superfícies de coesão sobre uma base temática multidimensionalmente escalonada. Para isso, utiliza uma combinação de escalonamento multidimensional clássico e análise de procrustes, em algoritmo iterativo que encaminha soluções parciais, depois combinadas numa solução global. Aplicado a um exemplo de transações de empréstimo de livros pela Biblioteca Karl A. Boedecker, o algoritmo proposto produz saídas interpretáveis e coerentes tematicamente, e apresenta um stress menor que a solução por escalonamento clássico.
Resumo:
O trabalho busca analisar e entender se a aplicação de técnicas de Data mining em processos de aquisição de clientes de cartão de crédito, especificamente os que não possuem uma conta corrente em banco, podem trazer resultados positivos para as empresas que contam com processos ativos de conquista de clientes. Serão exploradas três técnicas de amplo reconhecimento na comunidade acadêmica : Regressão logística, Árvores de decisão, e Redes neurais. Será utilizado como objeto de estudo uma empresa do setor financeiro, especificamente nos seus processos de aquisição de clientes não correntistas para o produto cartão de crédito. Serão mostrados resultados da aplicação dos modelos para algumas campanhas passadas de venda de cartão de crédito não correntistas, para que seja possível verificar se o emprego de modelos estatísticos que discriminem os clientes potenciais mais propensos dos menos propensos à contratação podem se traduzir na obtenção de ganhos financeiros. Esses ganhos podem vir mediante redução dos custos de marketing abordando-se somente os clientes com maiores probabilidades de responderem positivamente à campanha. A fundamentação teórica se dará a partir da introdução dos conceitos do mercado de cartões de crédito, do canal telemarketing, de CRM, e das técnicas de data mining. O trabalho apresentará exemplos práticos de aplicação das técnicas mencionadas verificando os potenciais ganhos financeiros. Os resultados indicam que há grandes oportunidades para o emprego das técnicas de data mining nos processos de aquisição de clientes, possibilitando a racionalização da operação do ponto de vista de custos de aquisição.
Resumo:
Trata da aplicação de ferramentas de Data Mining e do conceito de Data Warehouse à coleta e análise de dados obtidos a partir das ações da Secretaria de Estado da Educação de São Paulo. A variável dependente considerada na análise é o resultado do rendimento das escolas estaduais obtido através das notas de avaliação do SARESP (prova realizada no estado de São Paulo). O data warehouse possui ainda dados operacionais e de ações já realizadas, possibilitando análise de influência nos resultados
Resumo:
O objetivo deste trabalho é testar a aplicação de um modelo gráfico probabilístico, denominado genericamente de Redes Bayesianas, para desenvolver modelos computacionais que possam ser utilizados para auxiliar a compreensão de problemas e/ou na previsão de variáveis de natureza econômica. Com este propósito, escolheu-se um problema amplamente abordado na literatura e comparou-se os resultados teóricos e experimentais já consolidados com os obtidos utilizando a técnica proposta. Para tanto,foi construído um modelo para a classificação da tendência do "risco país" para o Brasil a partir de uma base de dados composta por variáveis macroeconômicas e financeiras. Como medida do risco adotou-se o EMBI+ (Emerging Markets Bond Index Plus), por ser um indicador amplamente utilizado pelo mercado.