997 resultados para Preservação de privacidade em mineração de dados
Resumo:
Este trabalho tem como objectivo a criação de modelos, resultantes da aplicação de algoritmos e técnicas de mineração de dados, que possam servir de suporte a um sistema de apoio à decisão útil a investidores do mercado de capitais. Os mercados de capitais, neste caso particular a Bolsa de Valores, são sistemas que gera diariamente grandes volumes de informação, cuja análise é complexa e não trivial para um investidor não profissional. Existem muitas variáveis que influenciam a decisão a tomar sobre a carteira de acções (vender, manter, comprar). Estas decisões têm como objectivo a maximização do lucro. Assim, um sistema que auxilie os investidores na tarefa de análise será considerado uma mais-valia. As decisões de um profissional são normalmente baseadas em dois tipos de análise: Fundamental e Técnica. A Análise Fundamental foca-se nos indicadores da “saúde financeira” da empresa, tendo como base a informação disponibilizada pela mesma. Por outro lado , a Análise Técnica, que será o foco deste trabalho, assenta na observação de indicadores estatísticos construídos com base no comportamento passado da acção. O recurso a estas análises permite aos investidores obterem alguma informação sobre a tendência da acção (subida ou descida). As análises apresentadas requerem um bom conhecimento do domínio do problema e tempo, o que as torna pouco acessíveis, sobretudo para os pequenos investidores. Com o intuito de democratizar o acesso a este tipo de investimentos, este trabalho, recorre a algoritmos de mineração de dados, tais como, árvores de classificação e redes neuronais que possam servir de base à construção de um modelo de suporte a obstáculos que podem impedir o investidor comum de entrar na Bolsa, designadamente o tempo gasto na análise e a complexidade da mesma, entre outros. Para a criação de modelos capazes de responder às expectativas, são realizados diversos ensaios recorrendo a vários algoritmos e conjuntos de dados, na busca do que melhor se adequa ao problema. Contudo é de ressalvar que a decisão de investimento estará sempre do lado do investidor, uma vez que o modelo deve permitir unicamente alimentar um sistema de apoio.
Resumo:
Dissertação de Mestrado em Engenharia Informática
Resumo:
Este trabalho foi realizado no âmbito do regulamento dos cursos de graduação da Universidade Jean Piaget de Cabo Verde, procura realçar a importância da recolha de dados na Web nos dias de hoje. Também apresenta um CMS (Sistema de Gestão de Conteúdo) utilizado no desenvolvimento de Websites, mostrando que é possível obter dados que podem ser considerados úteis acerca do acesso e utilização dos mesmos, dotando-os de componentes desenvolvidos para estes sistemas.
Resumo:
O objetivo deste trabalho foi desenvolver uma metodologia para mapeamento digital de solos na escala 1:100.000 com a aplicação de técnicas de mineração de dados a descritores de relevo e a dados de mapas geológico e pedológico preexistentes. Foi criada uma base de dados digitais a partir de cartas topográficas e temáticas, que permitiu elaboração do modelo digital de elevação (MDE) da folha Dois Córregos, SP (escala 1:50.000). A partir do MDE, foram calculados os parâmetros geomorfométricos declividade, curvaturas em planta e perfil, área de contribuição e distância diagonal de drenagem. A matriz que associou esses dados georreferenciados foi analisada por meio de árvores de decisão, no ambiente de aprendizado de máquina Weka, o que gerou um modelo de predição de unidades de mapeamento de solos. A acurácia geral do modelo aumentou de 54 para 61% com a eliminação das classes com probabilidade nula de ocorrência. A associação da mineração de dados com sistemas de informações geográficas permite a elaboração de mapas digitais passíveis de uso em estudos que requeiram menor detalhamento que aqueles realizados com o mapa original.
Resumo:
O objetivo deste trabalho foi analisar o comportamento espaçotemporal da precipitação pluvial no Estado do Rio Grande do Sul, entre os decênios de 1987-1996 e 1997-2006, por meio de técnicas de mineração de dados. As séries históricas foram adquiridas no sistema de informações hidrológicas Hidroweb. A metodologia utilizada teve como base o modelo CRISP-DM (Cross Industry Standard Process for Data Mining). Foram definidas áreas pluviometricamente homogêneas para os decênios de 1987-1996 e 1997-2006. Em seguida, pela sobreposição dos agrupamentos obtidos para os dois períodos, encontraram-se seis zonas comuns aos dois decênios (A a F). As alterações ocorridas foram avaliadas nas seguintes escalas temporais: anual, sazonal e mensalmente. Os resultados indicaram incrementos significativos (20 a 240 mm) na precipitação anual em todas as zonas, exceto na zona A. Na análise sazonal, as variações foram aleatórias, sendo que, na primavera, todas as zonas apresentaram incremento significativo (44 a 142 mm). Na análise mensal, destaca-se a redução ocorrida no mês de janeiro em todas as zonas, exceto na E. Nos demais meses, as variações foram aleatórias. Os resultados mostram que, entre os decênios, houve uma alteração no volume da precipitação pluvial em todas as escalas temporais analisadas.
Resumo:
Neste trabalho, verificou-se a aderência de técnicas de mineração de dados voltadas para problemas de classificação de dados na identificação automatizada de áreas cultivadas com cana-de-açúcar, em imagens do satélite Landsat 5/TM. Para essa verificação, foram estudadas imagens de áreas cultivadas com cana-de-açúcar em três fases fenológicas diferentes. Os pixels foram convertidos em valores de refletância de superfície, nas vizinhanças das cidades de Araras, São Carlos e Araraquara, no Estado de São Paulo. Foram gerados cinco modelos de árvores de decisão binária, induzidos pelo algoritmo C4.5, em que todos produziram taxas de acerto superiores a 90%. A introdução de atributos de textura trouxe ganhos significativos na acurácia do modelo de classificação e contribuiu para melhorar a distinção de áreas cultivadas com cana-de-açúcar em meio a tipos diversos de cobertura do solo, como solo exposto, área urbana, lagos e rios. Os índices de vegetação mostraram-se relevantes na distinção da fase e do estado fenológico das culturas. Os resultados reforçam o potencial forte das árvores de decisão no processo de classificação e identificação de áreas cultivadas com cana-de-açúcar, em diferentes cidades produtoras, no Estado de São Paulo.
Metodologia baseada em técnicas de mineração de dados para suporte à certificação de raças de ovinos
Resumo:
RESUMO O objetivo deste trabalho foi desenvolver uma metodologia baseada em técnicas de mineração de dados para selecionar os principais marcadores SNP (Single Nucleotide Polymorphism) para as raças de ovinos: Crioula, Morada Nova e Santa Inês. Os dados utilizados foram obtidos do Consórcio Internacional de Ovinos e são compostos por 72 animais das raças citadas, e cada animal possui 49.034 marcadores SNP. Considerando que o número de atributos (marcadores) é muito maior que o de observações (animais), foram aplicadas as técnicas de predição LASSO (Least Absolute Shrinkage and Selection Operator), Random Forest e Boosting para a geração de modelos preditivos que incorporam métodos de seleção de atributos. Os resultados revelaram que os modelos preditivos selecionaram os principais marcadores SNP para identificação das raças estudadas. O modelo LASSO selecionou um total de 29 marcadores relevantes. A partir dos modelos Random Forest e Boosting, foram obtidos 27 e 20 marcadores importantes, respectivamente. Por meio da intersecção dos modelos gerados, identificou-se um subconjunto de 18 marcadores com maior potencial de identificação das raças.
Resumo:
Esta pesquisa tem como tema a avaliação de ferramentas de mineração de dados disponíveis no mercado, de acordo com um site de descoberta do conhecimento, chamado Kdnuggets (http://www.kdnuggets.com). A escolha deste tema justifica-se pelo fato de tratar-se de uma nova tecnologia de informação que vem disponibilizando diversas ferramentas com grandes promessas e altos investimentos, mas que, por outro lado, ainda não é amplamente utilizada pelos tomadores de decisão das organizações. Uma das promessas desta tecnologia é vasculhar grandes bases de dados em busca de informações relevantes e desconhecidas e que não poderiam ser obtidas através de sistemas chamados convencionais. Neste contexto, realizar uma avaliação de algumas destas ferramentas pode auxiliar a estes decisores quanto à veracidade daquilo que é prometido sem ter de investir antes de estar seguro do cumprimento de tais promessas. O foco da pesquisa é avaliar sistemas que permitem a realização da análise de cesta de supermercado (market basket analysis) utilizando bases de dados reais de uma rede de supermercados. Os seus objetivos são: avaliar ferramentas de mineração de dados como fonte de informações relevantes para a tomada de decisão; identificar, através da revisão de literatura, as promessas da tecnologia e verificar se tais promessas são cumpridas pelas ferramentas; identificar e caracterizar ferramentas de mineração de dados disponíveis no mercado e comparar os tipos de resultados gerados pelas diferentes ferramentas e relatar problemas encontrados durante a aplicação destas ferramentas. O desenvolvimento do trabalho segue o método estudo de caso múltiplo: os dados foram coletados a partir da aplicação das ferramentas às bases de dados e da entrevista com tomadores de decisão da empresa. Foram seguidos procedimentos já utilizados de avaliação de sistemas para a realização desta pesquisa. A partir da análise dos dados coletados, pôde-se conhecer alguns problemas apresentados pelas ferramentas e concluiu-se que as ferramentas, que foram utilizadas neste trabalho, não estão prontas para serem disponibilizadas no mercado.
Resumo:
Atualmente, o enorme volume de informações armazenadas em bancos de dados de organizações ultrapassa a capacidade dos tradicionais métodos de análise dos dados baseados em consultas, pois eles se tornaram insuficientes para analisar o conteúdo quanto a algum conhecimento implícito e importante na grande massa de dados. A partir disto, a mineração de dados tem-se transformado em um tópico importante de pesquisa, porque provê um conjunto de técnicas e ferramentas capazes de inteligente e automaticamente assistir o ser humano na análise de uma enorme quantidade de dados à procura de conhecimento relevante e que está encoberto pelos demais dados. O presente trabalho se propõe a estudar e a utilizar a mineração de dados considerando os aspectos temporais. Através de um experimento realizado sobre os dados da Secretaria da Saúde do Estado do Rio Grande do Sul, com a aplicação de uma metodologia para a mineração de dados temporais, foi possível identificar padrões seqüenciais nos dados. Este experimento procurou descobrir padrões seqüenciais de comportamento em internações médicas, objetivando obter modelos de conhecimento dos dados temporais e representá-los na forma de regras temporais. A descoberta destes padrões seqüenciais permitiu comprovar tradicionais comportamentos dos tratamentos médicos efetuados, detectar situações anômalas, bem como, acompanhar a evolução das doenças existentes.
Resumo:
A mineração de dados constitui o processo de descoberta de conhecimento interessante, com a utilização de métodos e técnicas que permitem analisar grandes conjuntos de dados para a extração de informação previamente desconhecida, válida e que gera ações úteis, de grande ajuda para a tomada de decisões estratégicas. Dentre as tarefas de mineração de dados, existem aquelas que realizam aprendizado não-supervisionado, o qual é aplicado em bases de dados não-classificados, em que o algoritmo extrai as características dos dados fornecidos e os agrupa em classes. Geralmente, o aprendizado não-supervisionado é aplicado em tarefas de agrupamento, que consistem em agrupar os dados de bancos de dados volumosos, com diferentes tipos de dados em classes ou grupos de objetos que são similares dentro de um mesmo grupo e dissimilares em diferentes grupos desses bancos de dados, de acordo com alguma medida de similaridade. Os agrupamentos são usados como ponto de partida para futuras investigações. Este trabalho explora, mediante a realização de um estudo de caso, o uso de agrupamento como tarefa de mineração de dados que realiza aprendizado nãosupervisionado, para avaliar a adequação desta tecnologia em uma base de dados real da área de saúde. Agrupamento é um tema ativo em pesquisas da área pelo seu potencial de aplicação em problemas práticos. O cenário da aplicação é o Sistema de Informações Hospitalares do SUS, sob a gestão da Secretaria Estadual de Saúde do Rio Grande do Sul. Mensalmente, o pagamento de um certo número de internações é bloqueado, uma vez que a cobrança de internações hospitalares é submetida a normas do SUS e a critérios técnicos de bloqueio estabelecidos pela Auditoria Médica da SES para verificar a ocorrência de algum tipo de impropriedade na cobrança dos procedimentos realizados nessas internações hospitalares. A análise de agrupamento foi utilizada para identificar perfis de comportamentos ou tendências nas internações hospitalares e avaliar desvios ou outliers em relação a essas tendências e, com isso, descobrir padrões interessantes que auxiliassem na otimização do trabalho dos auditores médicos da SES. Buscou-se ainda compreender as diferentes configurações de parâmetros oferecidos pela ferramenta escolhida para a mineração de dados, o IBM Intelligent Miner, e o mapeamento de uma metodologia de mineração de dados, o CRISP-DM, para o contexto específico deste estudo de caso. Os resultados deste estudo demonstram possibilidades de criação e melhora dos critérios técnicos de bloqueio das internações hospitalares que permitem a otimização do trabalho de auditores médicos da SES. Houve ainda ganhos na compreensão da tecnologia de mineração de dados com a utilização de agrupamento no que se refere ao uso de uma ferramenta e de uma metodologia de mineração de dados, em que erros e acertos evidenciam os cuidados que devem ser tomados em aplicações dessa tecnologia, além de contribuírem para o seu aperfeiçoamento.
Resumo:
Este trabalho trata da questão da tutela dos dados genéticos e sua relação com o direito à privacidade. Em primeiro lugar, analisa-se a evolução da noção de privacidade e seus conflitos com o progresso tecnológico. Em seguida, realizou-se uma pesquisa que procurou apresentar como países estrangeiros lidam com a questão dos dados genéticos, tendo ficado evidente a utilização desses para fins de identificação criminal e como essas experiências influenciam o legislador brasileiro. Depois, são discutidas as controvérsias jurídicas decorrentes da formação de bancos de dados genéticos, o papel que o consentimento desempenha para a proteção da privacidade do indivíduo e a constituição de bancos de dados e os princípios que regem o tratamento desses dados. Por fim, conclui-se que se deve perseguir um equilíbrio entre a necessidade de proteção dos dados genéticos e a utilização desses para se atender interesses juridicamente relevantes de terceiros.
Resumo:
Nowadays, telecommunications is one of the most dynamic and strategic areas in the world. Organizations are always seeking to find new management practices within an ever increasing competitive environment where resources are getting scarce. In this scenario, data obtained from business and corporate processes have even greater importance, although this data is not yet adequately explored. Knowledge Discovery in Databases (KDD) appears then, as an option to allow the study of complex problems in different areas of management. This work proposes both a systematization of KDD activities using concepts from different methodologies, such as CRISP-DM, SEMMA and FAYYAD approaches and a study concerning the viability of multivariate regression analysis models to explain corporative telecommunications sales using performance indicators. Thus, statistical methods were outlined to analyze the effects of such indicators on the behavior of business productivity. According to business and standard statistical analysis, equations were defined and fit to their respective determination coefficients. Tests of hypotheses were also conducted on parameters with the purpose of validating the regression models. The results show that there is a relationship between these development indicators and the amount of sales
Resumo:
Coordenação de Aperfeiçoamento de Pessoal de Nível Superior (CAPES)
Resumo:
Pós-graduação em Agronomia (Energia na Agricultura) - FCA
Resumo:
As concessionárias de energia, para garantir que sua rede seja confiável, necessitam realizar um procedimento para estudo e análise baseado em funções de entrega de energia nos pontos de consumo. Este estudo, geralmente chamado de planejamento de sistemas de distribuição de energia elétrica, é essencial para garantir que variações na demanda de energia não afetem o desempenho do sistema, que deverá se manter operando de maneira técnica e economicamente viável. Nestes estudos, geralmente são analisados, demanda, tipologia de curva de carga, fator de carga e outros aspectos das cargas existentes. Considerando então a importância da determinação das tipologias de curvas de cargas para as concessionárias de energia em seu processo de planejamento, a Companhia de Eletricidade do Amapá (CEA) realizou uma campanha de medidas de curvas de carga de transformadores de distribuição para obtenção das tipologias de curvas de carga que caracterizam seus consumidores. Neste trabalho apresentam-se os resultados satisfatórios obtidos a partir da utilização de Mineração de Dados baseada em Inteligência Computacional (Mapas Auto-Organizáveis de Kohonen) para seleção das curvas típicas e determinação das tipologias de curvas de carga de consumidores residenciais e industriais da cidade de Macapá, localizada no estado do Amapá. O mapa auto-organizável de Kohonen é um tipo de Rede Neural Artificial que combina operações de projeção e agrupamento, permitindo a realização de análise exploratória de dados, com o objetivo de produzir descrições sumarizadas de grandes conjuntos de dados.