998 resultados para imputação de dados
Resumo:
Durante o processo de extração do conhecimento em bases de dados, alguns problemas podem ser encontrados como por exemplo, a ausência de determinada instância de um atributo. A ocorrência de tal problemática pode causar efeitos danosos nos resultados finais do processo, pois afeta diretamente a qualidade dos dados a ser submetido a um algoritmo de aprendizado de máquina. Na literatura, diversas propostas são apresentadas a fim de contornar tal dano, dentre eles está a de imputação de dados, a qual estima um valor plausível para substituir o ausente. Seguindo essa área de solução para o problema de valores ausentes, diversos trabalhos foram analisados e algumas observações foram realizadas como, a pouca utilização de bases sintéticas que simulem os principais mecanismos de ausência de dados e uma recente tendência a utilização de algoritmos bio-inspirados como tratamento do problema. Com base nesse cenário, esta dissertação apresenta um método de imputação de dados baseado em otimização por enxame de partículas, pouco explorado na área, e o aplica para o tratamento de bases sinteticamente geradas, as quais consideram os principais mecanismos de ausência de dados, MAR, MCAR e NMAR. Os resultados obtidos ao comprar diferentes configurações do método à outros dois conhecidos na área (KNNImpute e SVMImpute) são promissores para sua utilização na área de tratamento de valores ausentes uma vez que alcançou os melhores valores na maioria dos experimentos realizados.
Resumo:
As análises biplot que utilizam os modelos de efeitos principais aditivos com inter- ação multiplicativa (AMMI) requerem matrizes de dados completas, mas, frequentemente os ensaios multiambientais apresentam dados faltantes. Nesta tese são propostas novas metodologias de imputação simples e múltipla que podem ser usadas para analisar da- dos desbalanceados em experimentos com interação genótipo por ambiente (G×E). A primeira, é uma nova extensão do método de validação cruzada por autovetor (Bro et al, 2008). A segunda, corresponde a um novo algoritmo não-paramétrico obtido por meio de modificações no método de imputação simples desenvolvido por Yan (2013). Também é incluído um estudo que considera sistemas de imputação recentemente relatados na literatura e os compara com o procedimento clássico recomendado para imputação em ensaios (G×E), ou seja, a combinação do algoritmo de Esperança-Maximização com os modelos AMMI ou EM-AMMI. Por último, são fornecidas generalizações da imputação simples descrita por Arciniegas-Alarcón et al. (2010) que mistura regressão com aproximação de posto inferior de uma matriz. Todas as metodologias têm como base a decomposição por valores singulares (DVS), portanto, são livres de pressuposições distribucionais ou estruturais. Para determinar o desempenho dos novos esquemas de imputação foram realizadas simulações baseadas em conjuntos de dados reais de diferentes espécies, com valores re- tirados aleatoriamente em diferentes porcentagens e a qualidade das imputações avaliada com distintas estatísticas. Concluiu-se que a DVS constitui uma ferramenta útil e flexível na construção de técnicas eficientes que contornem o problema de perda de informação em matrizes experimentais.
Resumo:
O objetivo deste trabalho foi avaliar a conveniência de definir o número de componentes multiplicativos dos modelos de efeitos principais aditivos com interação multiplicativa (AMMI) em experimentos de interações genótipo x ambiente de algodão com dados imputados ou desbalanceados. Um estudo de simulação foi realizado com base em uma matriz de dados reais de produtividade de algodão em caroço, obtidos em ensaios de interação genótipo x ambiente, conduzidos com 15 cultivares em 27 locais no Brasil. A simulação foi feita com retiradas aleatórias de 10, 20 e 30% dos dados. O número ótimo de componentes multiplicativos para o modelo AMMI foi determinado usando o teste de Cornelius e o teste de razão de verossimilhança sobre as matrizes completadas por imputação. Para testar as hipóteses, quando a análise é feita a partir de médias e não são disponibilizadas as repetições, foi proposta uma correção com base nas observações ausentes no teste de Cornelius. Para a imputação de dados, foram considerados métodos usando submodelos robustos, mínimos quadrados alternados e imputação múltipla. Na análise de experimentos desbalanceados, é recomendável escolher o número de componentes multiplicativos do modelo AMMI somente a partir da informação observada e fazer a estimação clássica dos parâmetros com base nas matrizes completadas por imputação.
Resumo:
We present residual analysis techniques to assess the fit of correlated survival data by Accelerated Failure Time Models (AFTM) with random effects. We propose an imputation procedure for censored observations and consider three types of residuals to evaluate different model characteristics. We illustrate the proposal with the analysis of AFTM with random effects to a real data set involving times between failures of oil well equipment
Resumo:
Coordenação de Aperfeiçoamento de Pessoal de Nível Superior (CAPES)
Resumo:
Geralmente, nos experimentos genótipo por ambiente (G × E) é comum observar o comportamento dos genótipos em relação a distintos atributos nos ambientes considerados. A análise deste tipo de experimentos tem sido abordada amplamente para o caso de um único atributo. Nesta tese são apresentadas algumas alternativas de análise considerando genótipos, ambientes e atributos simultaneamente. A primeira, é baseada no método de mistura de máxima verossimilhança de agrupamento - Mixclus e a análise de componentes principais de 3 modos - 3MPCA, que permitem a análise de tabelas de tripla entrada, estes dois métodos têm sido muito usados na área da psicologia e da química, mas pouco na agricultura. A segunda, é uma metodologia que combina, o modelo de efeitos aditivos com interação multiplicativa - AMMI, modelo eficiente para a análise de experimentos (G × E) com um atributo e a análise de procrustes generalizada, que permite comparar configurações de pontos e proporcionar uma medida numérica de quanto elas diferem. Finalmente, é apresentada uma alternativa para realizar imputação de dados nos experimentos (G × E), pois, uma situação muito frequente nestes experimentos, é a presença de dados faltantes. Conclui-se que as metodologias propostas constituem ferramentas úteis para a análise de experimentos (G × E) multiatributo.
Resumo:
O objetivo deste trabalho foi propor um novo algoritmo de imputação múltipla livre de distribuição, por meio de modificações no método de imputação simples recentemente desenvolvido por Yan para contornar o problema de desbalanceamento de experimentos. O método utiliza a decomposição por valores singulares de uma matriz e foi testado por meio de simulações baseadas em duas matrizes de dados reais completos, provenientes de ensaios com eucalipto e cana-de-açúcar, com retiradas aleatórias de valores em diferentes percentagens. A qualidade das imputações foi avaliada por uma medida de acurácia geral que combina a variância entre imputações e o viés quadrático médio delas em relação aos valores retirados. A melhor alternativa para imputação múltipla é um modelo multiplicativo que inclui pesos próximos a 1 para os autovalores calculados com a decomposição. A metodologia proposta não depende de pressuposições distribucionais ou estruturais e não tem restrições quanto ao padrão ou ao mecanismo de ausência dos dados.
Resumo:
Pós-graduação em Genética e Melhoramento Animal - FCAV
Resumo:
As reformas propostas pelo modelo da Nova Gestão Pública tiveram repercussões importantes ao nível do setor da saúde, levando a que atualmente os prestadores de cuidados de saúde procurem aplicar a melhor prática clínica a um custo socialmente aceitável. A despesa do Estado com a Saúde é cerca de um quinto do total da despesa pública e, mais particularmente, a despesa com hospitais representa pouco menos de metade da despesa com saúde (pública e privada). O elevado peso dos gastos em saúde conduziu a alterações na gestão das unidades de saúde e a uma preocupação crescente com a gestão e tratamento contabilístico dos custos hospitalares. Nasce, assim, a necessidade de uma contabilidade virada para o interior da organização, que forneça informação adequada e atempada, destacando-se neste âmbito a Contabilidade de Custos. Torna-se pois importante que as organizações hospitalares ajustem a sua contabilidade às necessidades atuais, proporcionando uma sofisticada compreensão dos custos, e façam uso de modernas técnicas de imputação e controlo desses mesmos custos. Face ao exposto, o principal objetivo do trabalho é analisar a forma como são imputados os custos nos hospitais pertencentes ao Serviço Nacional de Saúde (SNS) e se existe uniformização nos critérios de imputação. Para tal, efetuamos uma investigação qualitativa através da realização de um estudo exploratório com recurso à Base de Dados de Elementos Analíticos (BDEA) do Ministério da Saúde e dos relatórios divulgados pelo sítio oficial do Ministério da Saúde Português. Observamos que, regra geral, os hospitais portugueses pertencentes ao SNS estão a seguir os requisitos normativos previstos no Plano de Contabilidade Analítica dos Hospitais (PCAH).
Resumo:
Since the last decade, the combined use of chemometrics and molecular spectroscopic techniques has become a new alternative for direct drug determination, without the need of physical separation. Among the new methodologies developed, the application of PARAFAC in the decomposition of spectrofluorimetric data should be highlighted. The first objective of this article is to describe the theoretical basis of PARAFAC. For this purpose, a discussion about the order of chemometric methods used in multivariate calibration and the development of multi-dimensional methods is presented first. The other objective of this article is to divulge for the Brazilian chemical community the potential of the combination PARAFAC/spectrofluorimetry for the determination of drugs in complex biological matrices. For this purpose, two applications aiming at determining, respectively, doxorrubicine and salicylate in human plasma are presented.
Resumo:
The objective of this work was to compare the soybean crop mapping in the western of Parana State by MODIS/Terra and TM/Landsat 5 images. Firstly, it was generated a soybean crop mask using six TM images covering the crop season, which was used as a reference. The images were submitted to Parallelepiped and Maximum Likelihood digital classification algorithms, followed by visual inspection. Four MODIS images, covering the vegetative peak, were classified using the Parallelepiped method. The quality assessment of MODIS and TM classification was carried out through an Error Matrix, considering 100 sample points between soybean or not soybean, randomly allocated in each of the eight municipalities within the study area. The results showed that both the Overall Classification (OC) and the Kappa Index (KI) have produced values ranging from 0.55 to 0.80, considered good to very good performances, either in TM or MODIS images. When OC and KI, from both sensors were compared, it wasn't found no statistical difference between them. The soybean mapping, using MODIS, has produced 70% of reliance in terms of users. The main conclusion is that the mapping of soybean by MODIS is feasible, with the advantage to have better temporal resolution than Landsat, and to be available on the internet, free of charge.
Resumo:
The main objective of this work was to evaluate the linear regression between spectral response and soybean yield in regional scale. In this study were monitored 36 municipalities from the west region of the states of Parana using five images of Landsat 5/TM during 2004/05 season. The spectral response was converted in physical values, apparent and surface reflectances, by radiometric transformation and atmospheric corrections and both used to calculate NDVI and GVI vegetation indices. Those ones were compared by multiple and simple regression with government official yield values (IBGE). Diagnostic processing method to identify influents values or collinearity was applied to the data too. The results showed that the mean surface reflectance value from all images was more correlated with yield than individual dates. Further, the multiple regressions using all dates and both vegetation indices gave better results than simple regression.
Resumo:
The main objective of this work is to discuss the notion of metalanguage concerning the use of thesaurus (symbols systems, functions indicators, descriptors) utilized by indexers for article representation in computerized bibliographical databases. Our corpus comprises article abstracts and bibliographical database descriptors LILACS (Literatura Latino-Americana em Ciências da Saúde) and SOCIOFILE Sociological Abstracts. We aim at clarifying the effects of subjectivity in the functioning of indexing taking account the grounds for interpretation that allow different meanings.
Resumo:
Universidade Estadual de Campinas. Faculdade de Educação Física
Resumo:
Universidade Estadual de Campinas . Faculdade de Educação Física