910 resultados para Missing data
Resumo:
Uncertainty plays an important role in water quality management problems. The major sources of uncertainty in a water quality management problem are the random nature of hydrologic variables and imprecision (fuzziness) associated with goals of the dischargers and pollution control agencies (PCA). Many Waste Load Allocation (WLA)problems are solved by considering these two sources of uncertainty. Apart from randomness and fuzziness, missing data in the time series of a hydrologic variable may result in additional uncertainty due to partial ignorance. These uncertainties render the input parameters as imprecise parameters in water quality decision making. In this paper an Imprecise Fuzzy Waste Load Allocation Model (IFWLAM) is developed for water quality management of a river system subject to uncertainty arising from partial ignorance. In a WLA problem, both randomness and imprecision can be addressed simultaneously by fuzzy risk of low water quality. A methodology is developed for the computation of imprecise fuzzy risk of low water quality, when the parameters are characterized by uncertainty due to partial ignorance. A Monte-Carlo simulation is performed to evaluate the imprecise fuzzy risk of low water quality by considering the input variables as imprecise. Fuzzy multiobjective optimization is used to formulate the multiobjective model. The model developed is based on a fuzzy multiobjective optimization problem with max-min as the operator. This usually does not result in a unique solution but gives multiple solutions. Two optimization models are developed to capture all the decision alternatives or multiple solutions. The objective of the two optimization models is to obtain a range of fractional removal levels for the dischargers, such that the resultant fuzzy risk will be within acceptable limits. Specification of a range for fractional removal levels enhances flexibility in decision making. The methodology is demonstrated with a case study of the Tunga-Bhadra river system in India.
Resumo:
The combination of remotely sensed gappy Sea surface temperature (SST) images with the missing data filling DINEOF (data interpolating empirical orthogonal functions) technique, followed by a principal component analysis of the reconstructed data, has been used to identify the time evolution and the daily scale variability of the wintertime surface signal of the Iberian Poleward Current (IPC), or Navidad, during the 1981-2010 period. An exhaustive comparison with the existing bibliography, and the vertical temperature and salinity profiles related to its extremes over the Bay of Biscay area, show that the obtained time series accurately reflect the IPC-Navidad variability. Once a time series for the evolution of the SST signal of the current over the last decades is well established, this time series is used to propose a physical mechanism in relation to the variability of the IPC-Navidad, involving both atmospheric and oceanic variables. According to the proposed mechanism, an atmospheric circulation anomaly observed in both the 500 hPa and the surface levels generates atmospheric surface level pressure, wind-stress and heat-flux anomalies. In turn, those surface level atmospheric anomalies induce mutually coherent SST and sea level anomalies over the North Atlantic area, and locally, in the Bay of Biscay area. These anomalies, both locally over the Bay of Biscay area and over the North Atlantic, are in agreement with several mechanisms that have separately been related to the variability of the IPC-Navidad, i.e. the south-westerly winds, the joint effect of baroclinicity and relief (JEBAR) effect, the topographic beta effect and a weakened North Atlantic gyre.
Resumo:
Background: Patients with chronic obstructive pulmonary disease (COPD) often experience exacerbations of the disease that require hospitalization. Current guidelines offer little guidance for identifying patients whose clinical situation is appropriate for admission to the hospital, and properly developed and validated severity scores for COPD exacerbations are lacking. To address these important gaps in clinical care, we created the IRYSS-COPD Appropriateness Study. Methods/Design: The RAND/UCLA Appropriateness Methodology was used to identify appropriate and inappropriate scenarios for hospital admission for patients experiencing COPD exacerbations. These scenarios were then applied to a prospective cohort of patients attending the emergency departments (ED) of 16 participating hospitals. Information was recorded during the time the patient was evaluated in the ED, at the time a decision was made to admit the patient to the hospital or discharge home, and during follow-up after admission or discharge home. While complete data were generally available at the time of ED admission, data were often missing at the time of decision making. Predefined assumptions were used to impute much of the missing data. Discussion: The IRYSS-COPD Appropriateness Study will validate the appropriateness criteria developed by the RAND/UCLA Appropriateness Methodology and thus better delineate the requirements for admission or discharge of patients experiencing exacerbations of COPD. The study will also provide a better understanding of the determinants of outcomes of COPD exacerbations, and evaluate the equity and variability in access and outcomes in these patients.
Resumo:
This study addresses the problem of obtaining reliable velocities and displacements from accelerograms, a concern which often arises in earthquake engineering. A closed-form acceleration expression with random parameters is developed to test any strong-motion accelerogram processing method. Integration of this analytical time history yields the exact velocities, displacements and Fourier spectra. Noise and truncation can also be added. A two-step testing procedure is proposed and the original Volume II routine is used as an illustration. The main sources of error are identified and discussed. Although these errors may be reduced, it is impossible to extract the true time histories from an analog or digital accelerogram because of the uncertain noise level and missing data. Based on these uncertainties, a probabilistic approach is proposed as a new accelerogram processing method. A most probable record is presented as well as a reliability interval which reflects the level of error-uncertainty introduced by the recording and digitization process. The data is processed in the frequency domain, under assumptions governing either the initial value or the temporal mean of the time histories. This new processing approach is tested on synthetic records. It induces little error and the digitization noise is adequately bounded. Filtering is intended to be kept to a minimum and two optimal error-reduction methods are proposed. The "noise filters" reduce the noise level at each harmonic of the spectrum as a function of the signal-to-noise ratio. However, the correction at low frequencies is not sufficient to significantly reduce the drifts in the integrated time histories. The "spectral substitution method" uses optimization techniques to fit spectral models of near-field, far-field or structural motions to the amplitude spectrum of the measured data. The extremes of the spectrum of the recorded data where noise and error prevail are then partly altered, but not removed, and statistical criteria provide the choice of the appropriate cutoff frequencies. This correction method has been applied to existing strong-motion far-field, near-field and structural data with promising results. Since this correction method maintains the whole frequency range of the record, it should prove to be very useful in studying the long-period dynamics of local geology and structures.
Resumo:
O presente estudo teve, por objetivo, corrigir a magnitude dos óbitos registrados por câncer do colo do útero no Brasil, e analisar a magnitude da mortalidade por este câncer e sua associação com indicadores sociais, nos estados da região Nordeste, Brasil, no período compreendido entre 1996 a 2005. Para a correção do sub-registro, foram utilizados os fatores criados pelo Projeto Carga Global de Doença no Brasil-1998. Metodologia de redistribuição proporcional foi utilizada para redistribuir as categorias de diagnósticos desconhecidas, incompletas ou mal definidas de óbitos identificadas no sistema de informação sobre mortalidade, exceto os dados ausentes de idade, corrigidos através de imputação. As correções foram aplicadas para cada Unidade Federativa do pais, segundo sexo e grupo etário, e os resultados apresentados para o Brasil e cada grande região e suas respectivas áreas geográficas (capital, demais municípios das regiões metropolitanas e interior). Tendências temporais de mortalidade foram analisadas através de regressão linear simples para cada estado da região Nordeste. Índice de variação percentual foi utilizado para determinar a variabilidade da magnitude das taxas, antes e após a correção dos óbitos. Através de regressão linear, foram analisados o comportamento da correção, e as correlações entre os indicadores socioeconômicos e as taxas de mortalidade por câncer do colo de útero sem e com correção. Após as correções, as taxas de mortalidade por câncer do colo do útero no Brasil mostraram um acréscimo percentual 103,4%, com variação de 35%, para as capitais da região Sul, a 339%, para o interior da região Nordeste. Foram encontradas correlações positivas entre alguns indicadores socioeconômicos e taxas sem correção, e correlações negativa entre esses mesmos indicadores e taxas corrigidas. Com outros indicadores socioeconômicos, observou-se o inverso dessa situação. Os resultados da correção apresentaram consistência em termos geográficos e em relação aos achados da literatura, permitindo concluir que a metodologia proposta foi adequada para corrigir a magnitude das taxas de mortalidade por câncer do colo do útero no país. Se analises comparativas sobre as condições socioeconômicas e o comportamento deste câncer forem estimadas sem quaisquer conhecimentos acerca da cobertura e qualidade de registro dos óbitos, pode-se incorrer a conclusões equivocadas. Considerando a magnitude corrigida da mortalidade por câncer do colo do útero, podemos afirmar que o problema desta doença na região Nordeste e no país, e mais grave do que o observado nos informes oficiais. Contudo, os resultados apontam que os programas de controle e detecção precoce desenvolvidos no país já mostram resultados positivos.
Resumo:
efeitos são frequentemente observados na morbidade e mortalidade por doenças respiratórias e cardiovasculares, câncer de pulmão, diminuição da função respiratória, absenteísmo escolar e problemas relacionados com a gravidez. Estudos também sugerem que os grupos mais suscetíveis são as crianças e os idosos. Esta tese apresenta estudos sobre o efeito da poluição do ar na saúde na saúde na cidade do Rio de Janeiro e aborda aspectos metodológicos sobre a análise de dados e imputação de dados faltantes em séries temporais epidemiológicas. A análise de séries temporais foi usada para estimar o efeito da poluição do ar na mortalidade de pessoas idosas por câncer de pulmão com dados dos anos 2000 e 2001. Este estudo teve como objetivo avaliar se a poluição do ar está associada com antecipação de óbitos de pessoas que já fazem parte de uma população de risco. Outro estudo foi realizado para avaliar o efeito da poluição do ar no baixo peso ao nascer de nascimentos a termo. O desenho deste estudo foi o de corte transversal usando os dados disponíveis no ano de 2002. Em ambos os estudos foram estimados efeitos moderados da poluição do ar. Aspectos metodológicos dos estudos epidemiológicos da poluição do ar na saúde também são abordados na tese. Um método para imputação de dados faltantes é proposto e implementado numa biblioteca para o aplicativo R. A metodologia de imputação é avaliada e comparada com outros métodos frequentemente usados para imputação de séries temporais de concentrações de poluentes atmosféricos por meio de técnicas de simulação. O método proposto apresentou desempenho superior aos tradicionalmente utilizados. Também é realizada uma breve revisão da metodologia usada nos estudos de séries temporais sobre os efeitos da poluição do ar na saúde. Os tópicos abordados na revisão estão implementados numa biblioteca para a análise de dados de séries temporais epidemiológicas no aplicativo estatístico R. O uso da biblioteca é exemplificado com dados de internações hospitalares de crianças por doenças respiratórias no Rio de Janeiro. Os estudos de cunho metodológico foram desenvolvidos no âmbito do estudo multicêntrico para avaliação dos efeitos da poluição do ar na América Latina o Projeto ESCALA.
Resumo:
Esta tese é composta por três artigos que veiculam os resultados da realização e análise de uma intervenção de base escolar com o objetivo de reduzir o ganho de peso excessivo em adolescentes. O ensaio, denominado PAPPAS (Pais, Alunos e Professores Pela Alimentação Saudável), foi conduzido com alunos do 5 ano de vinte escolas públicas do município de Duque de Caxias, Rio de Janeiro. As atividades desenvolvidas durante o ano letivo de 2010 desencorajaram o consumo de bebidas adoçadas e biscoitos e estimularam o consumo de feijão e frutas. Pais/ responsáveis e professores receberam informação e material de divulgação sobre os mesmos temas abordados em sala de aula. O consumo de alimentos foi avaliado por meio de um questionário de frequência alimentar aplicado ao início e ao final do estudo. A aferição do peso e da estatura se deu em três momentos: na linha de base, na metade do ano letivo e ao fim do estudo. Para as análises longitudinais, empregou-se modelos generalizados lineares mistos, que levam em conta tanto os dados faltantes quanto o efeito de conglomerado. No primeiro artigo é apresentado o efeito da intervenção no Índice de Massa Corporal (IMC) dos estudantes. Análise por intenção de tratamento revelou que a alteração no IMC dos adolescentes ao longo do tempo não foi estatisticamente diferente entre os grupos intervenção e controle. Observou-se redução estatisticamente significativa no consumo de bebidas adoçadas e biscoitos e aumento no consumo de frutas nos participantes do grupo intervenção quando comparados aos do grupo controle. Pôde-se concluir que estratégias baseadas exclusivamente na qualidade da dieta podem não levar à alterações no peso corporal de adolescentes. No segundo artigo verificou-se a influência do estágio de prontidão para modificação dos hábitos alimentares dos adolescentes na alteração do consumo de refrigerantes, biscoitos e frutas. Observou-se maior alteração no consumo dentre os participantes do grupo intervenção que se encontravam nos estágios de ação na linha de base (relataram já ter alterado seus hábitos alimentares), sugerindo que essa estratégia pode auxiliar em estudos de intervenção visando à alteração do comportamento. O terceiro artigo revisou evidências do ajuste inadequado para características da linha de base, em análises de ensaios randomizados de base escolar que objetivaram alteração no estado nutricional de adolescentes. Foram avaliados 37 estudos e 35% apresentaram desbalanceamento estatisticamente significativo para o IMC na linha de base. Concluiu-se que o ajuste para o IMC na linha de base é frequente em ensaios comunitários randomizados, porém, esta prática força um balanço, que pode levar à resultados espúrios sobre o efeito do tratamento. Os resultados dos artigos 2 e 3 permitem explicar, ao menos em parte, as inconsistências nos resultados de estudos de intervenções voltadas para alteração de hábitos alimentares em escolares.
Resumo:
Dados faltantes são um problema comum em estudos epidemiológicos e, dependendo da forma como ocorrem, as estimativas dos parâmetros de interesse podem estar enviesadas. A literatura aponta algumas técnicas para se lidar com a questão, e, a imputação múltipla vem recebendo destaque nos últimos anos. Esta dissertação apresenta os resultados da utilização da imputação múltipla de dados no contexto do Estudo Pró-Saúde, um estudo longitudinal entre funcionários técnico-administrativos de uma universidade no Rio de Janeiro. No primeiro estudo, após simulação da ocorrência de dados faltantes, imputou-se a variável cor/raça das participantes, e aplicou-se um modelo de análise de sobrevivência previamente estabelecido, tendo como desfecho a história auto-relatada de miomas uterinos. Houve replicação do procedimento (100 vezes) para se determinar a distribuição dos coeficientes e erros-padrão das estimativas da variável de interesse. Apesar da natureza transversal dos dados aqui utilizados (informações da linha de base do Estudo Pró-Saúde, coletadas em 1999 e 2001), buscou-se resgatar a história do seguimento das participantes por meio de seus relatos, criando uma situação na qual a utilização do modelo de riscos proporcionais de Cox era possível. Nos cenários avaliados, a imputação demonstrou resultados satisfatórios, inclusive quando da avaliação de performance realizada. A técnica demonstrou um bom desempenho quando o mecanismo de ocorrência dos dados faltantes era do tipo MAR (Missing At Random) e o percentual de não-resposta era de 10%. Ao se imputar os dados e combinar as estimativas obtidas nos 10 bancos (m=10) gerados, o viés das estimativas era de 0,0011 para a categoria preta e 0,0015 para pardas, corroborando a eficiência da imputação neste cenário. Demais configurações também apresentaram resultados semelhantes. No segundo artigo, desenvolve-se um tutorial para aplicação da imputação múltipla em estudos epidemiológicos, que deverá facilitar a utilização da técnica por pesquisadores brasileiros ainda não familiarizados com o procedimento. São apresentados os passos básicos e decisões necessárias para se imputar um banco de dados, e um dos cenários utilizados no primeiro estudo é apresentado como exemplo de aplicação da técnica. Todas as análises foram conduzidas no programa estatístico R, versão 2.15 e os scripts utilizados são apresentados ao final do texto.
Resumo:
Esta tese é composta por dois artigos que buscaram avaliar a relação entre pressão arterial e consumo alimentar em adolescentes, no ensaio comunitário randomizado denominado PAPPAS (Pais, Alunos e Professores Pela Alimentação Saudável), conduzido com alunos do 5 ano de vinte escolas públicas do município de Duque de Caxias, Rio de Janeiro. Este ensaio teve como objetivo principal reduzir o ganho de peso excessivo dos adolescentes, por meio de intervenções que estimularam o consumo de frutas e feijão e desencorajaram o consumo de bebidas adoçadas e biscoitos. A pesquisa foi conduzida durante o ano letivo de 2010. A coleta de dados de consumo alimentar e medidas antropométricas ocorreu em três fases: (1) início do ano letivo, (2) metade do ano letivo e (3) fim do ano letivo. A pressão arterial foi mensurada nas fases 2 e 3. Nove sessões de educação nutricional foram realizadas. Pais/responsáveis e professores receberam informação e material de divulgação sobre os mesmos temas abordados em sala de aula. As análises estatísticas consideraram os dados faltantes e o efeito de conglomerado. No primeiro artigo é apresentado o efeito da intervenção na pressão arterial dos adolescentes. Os hábitos alimentares dos adolescentes são inadequados e redução do consumo de biscoitos e refrigerantes, bem como aumento do consumo de frutas, podem contribuir para redução da pressão arterial. Os achados nessa população de adolescentes com baixa prevalência de pressão arterial elevada sugerem que a qualidade da dieta pode contribuir para redução da pressão arterial, independente de possíveis modificações no IMC. Os resultados reforçam a importância da promoção de hábitos alimentares saudáveis para prevenir doenças cardiovasculares na vida adulta. No segundo artigo, em análise transversal, verificou-se a associação entre pressão arterial e consumo de refrigerante. O consumo de refrigerantes é comum entre adolescentes. Consumidores de refrigerante diet/light, seguido por consumidores de refrigerantes adoçados com açúcar, apresentaram pressão arterial mais alta indicando que a redução do consumo de refrigerantes é importante, bem como a prevenção da substituição de bebidas adoçadas com açúcar por bebidas diet/light. Os resultados sugerem que escolhas alimentares inadequadas podem estar associadas ao aumento da pressão arterial.
Resumo:
We define a copula process which describes the dependencies between arbitrarily many random variables independently of their marginal distributions. As an example, we develop a stochastic volatility model, Gaussian Copula Process Volatility (GCPV), to predict the latent standard deviations of a sequence of random variables. To make predictions we use Bayesian inference, with the Laplace approximation, and with Markov chain Monte Carlo as an alternative. We find both methods comparable. We also find our model can outperform GARCH on simulated and financial data. And unlike GARCH, GCPV can easily handle missing data, incorporate covariates other than time, and model a rich class of covariance structures.
Resumo:
We introduce a stochastic process with Wishart marginals: the generalised Wishart process (GWP). It is a collection of positive semi-definite random matrices indexed by any arbitrary dependent variable. We use it to model dynamic (e.g. time varying) covariance matrices. Unlike existing models, it can capture a diverse class of covariance structures, it can easily handle missing data, the dependent variable can readily include covariates other than time, and it scales well with dimension; there is no need for free parameters, and optional parameters are easy to interpret. We describe how to construct the GWP, introduce general procedures for inference and predictions, and show that it outperforms its main competitor, multivariate GARCH, even on financial data that especially suits GARCH. We also show how to predict the mean of a multivariate process while accounting for dynamic correlations.
Resumo:
Demodulation is an ill-posed problem whenever both carrier and envelope signals are broadband and unknown. Here, we approach this problem using the methods of probabilistic inference. The new approach, called Probabilistic Amplitude Demodulation (PAD), is computationally challenging but improves on existing methods in a number of ways. By contrast to previous approaches to demodulation, it satisfies five key desiderata: PAD has soft constraints because it is probabilistic; PAD is able to automatically adjust to the signal because it learns parameters; PAD is user-steerable because the solution can be shaped by user-specific prior information; PAD is robust to broad-band noise because this is modeled explicitly; and PAD's solution is self-consistent, empirically satisfying a Carrier Identity property. Furthermore, the probabilistic view naturally encompasses noise and uncertainty, allowing PAD to cope with missing data and return error bars on carrier and envelope estimates. Finally, we show that when PAD is applied to a bandpass-filtered signal, the stop-band energy of the inferred carrier is minimal, making PAD well-suited to sub-band demodulation. © 2006 IEEE.
Phylogeny and zoogeography of the cyprinid genus Epalzeorhynchos Bleeker (Cyprinidae : Ostariophysi)
Resumo:
A total of 62 variable osteological and external characters was found among the five currently recognized species of Epalzeorhynchos. When the genera Crossocheilus and Paracrossocheilus are combined as the outgroup, only 30 of these characters can be polarized. This includes six autapomorphies. The remaining 24 polarized characters form a data matrix which yields a single, 26-step tree with a Consistency Index (CI) of 1 and a Retention Index (RI) of 1, The analysis was also performed on a combined dataset in which the 32 unpolarized characters (characters for which the combined outgroup was dimorphic) were added and coded as missing data (i.e., "?"), Analyzing this data matrix with all multistate characters ordered generates the same single most-parsimonious tree with a length of 63 steps, a CI of 0.98 and a RI of 0.97, When either Crossocheilus or Paracrossocheilus is used as the sole outgroup, the same single most-parsimonious tree is produced although the numbers of informative characters and some of the polarities differ. Evidence is presented to support the following hypotheses: (1) E, kalopterus + E, frenatus + E. bicolor + E. munensis form a monophyletic group; (2) E. frenatus + E, bicolor + E, munensis form a monophyletic group with E, kalopterus as its sister group; this speciation event is congruent with the predictions of vicariant speciation mode I; and (3) E. bicolor and E. munensis are sister groups, again congruent with vicariant speciation mode I, Evidence presented here also supports the zoogeographical hypothesis that the faunas of the Indochinese region and the Greater Sundas are more closely related to each other than either of them is to the lower Salween basin fauna and that the lower Mekong, Chao Phraya, and Mac Khlong basin faunas are more closely related to each other than any of them is to the Greater Sundas, In addition, the monophyly of Epalzeorhynchos is also preliminarily discussed by including either Paracrossocheilus or Crossocheilus in the ingroup. It is demonstrated that E. bicornis clusters with Paracrossocheilus when Paracrossocheilus is included in the ingroup. It seems likely that the taxonomic position of E. bicornis will be resolved as more fishes of the Crossocheilus group are included in future studies.
Resumo:
A number of recent scientific and engineering problems require signals to be decomposed into a product of a slowly varying positive envelope and a quickly varying carrier whose instantaneous frequency also varies slowly over time. Although signal processing provides algorithms for so-called amplitude-and frequency-demodulation (AFD), there are well known problems with all of the existing methods. Motivated by the fact that AFD is ill-posed, we approach the problem using probabilistic inference. The new approach, called probabilistic amplitude and frequency demodulation (PAFD), models instantaneous frequency using an auto-regressive generalization of the von Mises distribution, and the envelopes using Gaussian auto-regressive dynamics with a positivity constraint. A novel form of expectation propagation is used for inference. We demonstrate that although PAFD is computationally demanding, it outperforms previous approaches on synthetic and real signals in clean, noisy and missing data settings.
Resumo:
Optical motion capture systems suffer from marker occlusions resulting in loss of useful information. This paper addresses the problem of real-time joint localisation of legged skeletons in the presence of such missing data. The data is assumed to be labelled 3d marker positions from a motion capture system. An integrated framework is presented which predicts the occluded marker positions using a Variable Turn Model within an Unscented Kalman filter. Inferred information from neighbouring markers is used as observation states; these constraints are efficient, simple, and real-time implementable. This work also takes advantage of the common case that missing markers are still visible to a single camera, by combining predictions with under-determined positions, resulting in more accurate predictions. An Inverse Kinematics technique is then applied ensuring that the bone lengths remain constant over time; the system can thereby maintain a continuous data-flow. The marker and Centre of Rotation (CoR) positions can be calculated with high accuracy even in cases where markers are occluded for a long period of time. Our methodology is tested against some of the most popular methods for marker prediction and the results confirm that our approach outperforms these methods in estimating both marker and CoR positions. © 2012 Springer-Verlag.