203 resultados para Análise exploratória de dados
em Scielo Saúde Pública - SP
Resumo:
The modern technological ability to handle large amounts of information confronts the chemist with the necessity to re-evaluate the statistical tools he routinely uses. Multivariate statistics furnishes theoretical bases for analyzing systems involving large numbers of variables. The mathematical calculations required for these systems are no longer an obstacle due to the existence of statistical packages that furnish multivariate analysis options. Here basic concepts of two multivariate statistical techniques, principal component and hierarchical cluster analysis that have received broad acceptance for treating chemical data are discussed.
Resumo:
The objective of this work was to develop a free access exploratory data analysis software application for academic use that is easy to install and can be handled without user-level programming due to extensive use of chemometrics and its association with applications that require purchased licenses or routines. The developed software, called Chemostat, employs Hierarchical Cluster Analysis (HCA), Principal Component Analysis (PCA), intervals Principal Component Analysis (iPCA), as well as correction methods, data transformation and outlier detection. The data can be imported from the clipboard, text files, ASCII or FT-IR Perkin-Elmer “.sp” files. It generates a variety of charts and tables that allow the analysis of results that can be exported in several formats. The main features of the software were tested using midinfrared and near-infrared spectra in vegetable oils and digital images obtained from different types of commercial diesel. In order to validate the software results, the same sets of data were analyzed using Matlab© and the results in both applications matched in various combinations. In addition to the desktop version, the reuse of algorithms allowed an online version to be provided that offers a unique experience on the web. Both applications are available in English.
Resumo:
O objetivo deste trabalho foi empregar a análise exploratória de dados, no caso, a técnica de análise de componentes principais (PCA) como ferramenta na avaliação de modificadores químicos na determinação direta e simultânea de Al, As, Cu, Fe, Mn e Ni em álcool etílico combustível por espectrometria de absorção atômica em forno de grafite (GFAAS). Os modificadores químicos avaliados foram: Pd(NO3)2 + Mg(NO3)2; W/Rh; W+ co-injeção de Pd(NO3)2 + Mg(NO3)2 e para cada modificador foram utilizadas trintas amostras de álcool etílico combustível. Como dados experimentais foram utilizados os resultados dos testes de adição e recuperação dos analitos frente aos diferentes modificadores químicos estudados. O emprego da técnica de PCA possibilitou a separação dos tipos de modificadores em função do intervalo de recuperação do analito. Dentre os modificadores avaliados, W+ co-injeção de Pd(NO3)2 + Mg(NO3)2 apresentou-se como a espécie de maior correlação positiva, pois apresenta os maiores teores de recuperação, e sendo assim, foi o escolhido para o desenvolvimento de metodologia para determinação direta e simultânea de Al, As, Cu, Fe, Mn e Ni em álcool etílico combustível por GFAAS.
Resumo:
Foram analisadas amostras de quiabo dos municípios de Caruaru e Vitória de Santo Antão, em Pernambuco, assim como nos municípios de Ceará-Mirim, Macaíba e Extremoz no estado do Rio Grande do Norte. A aplicação de dois métodos de análise exploratória de dados: Análise de Componentes principais - PCA e Análise de Agrupamentos Hierárquicos - HCA permitiu a discriminação geográfica do quiabo proveniente dos dois estados.
Resumo:
Esta pesquisa originou-se de uma base de dados de dois inventários a 100%, realizados em 1984 e 2000 sobre uma mesma área de 576 ha de floresta tropical primária, localizada na Floresta Nacional do Tapajós, Belterra, Pará. O objetivo da pesquisa foi utilizar a análise exploratória de dados e a regressão robusta para modelar o crescimento em diâmetro e área basal. Nos dois inventários as circunferências à altura do peito (CAP) foram medidas com fitamétrica, enquanto as alturas comerciais em 1984 foram medidas com o hipsômetro de Weiss e em 2000, estimadas com o uso de varas; o DAP mínimo em 1984 foi de 55 cm para todas as espécies e em 2000 foi adotado o DAP mínimo de 35 cm. As análises estatísticas foram precedidas de análise exploratória de dados (AED), em que foram utilizados o box plot (caixa-de-bigodes) na detecção de outliers (observações discrepantes) e o gráfico stem-and-leaf (tronco-e-folhas) para filtrar as observações extremas. Utilizou-se a regressão robusta para ajustar os modelos na presença de outliers. A pesquisa mostrou que, apesar das variações intra e interespecíficas, as seis espécies, em conjunto, apresentaram taxas de crescimento medianas observadas e esperadas em diâmetro e área basal de 4,56 e 4,28 mm/ano e 13,00 e 13,09 cm²/ha/ano, respectivamente. A pesquisa também mostrou que o uso da análise exploratória de dados e da regressão robusta viabilizou a análise e a determinação dos incrementos periódicos em diâmetro e área basal em bases consistentes. A metodologia empregada no caso específico dos dados disponíveis e tipos de variáveis mostrou ser mais eficiente com o uso de regressão robusta pelo método Least Trimmed Square do que pelo método dos mínimos quadrados ordinários.
Resumo:
O objetivo deste trabalho foi o de indicar, ou não, distribuições alternativas e assimétricas para a análise de dados que foram obtidos com os testes de germinação, frio e envelhecimento, peso de matéria seca e porcentagem de umidade medidos durante a maturação de sementes de milho. Para isto foi realizada uma análise exploratória dos dados obtidos de um experimento em que foram semeados três híbridos em três épocas distintas e cujas plantas tiveram as espigas amostradas dentro de cada parcela. O intervalo de coleta variou em quatro dias começando após o 23º e terminando no 59º dia após o florescimento. As distribuições estudadas foram a Normal, a Lognormal, a de Gumbel e a de Weibull. O valor numérico do logaritmo da função verossimilhança foi usado como indicativo do grau de ajustamento. Os resultados indicaram que distribuições diferentes da Normal podem ser uma alternativa para dados em porcentagem obtidos durante a maturação. O maior valor do logaritmo da função de verossimilhança foi obtido com o ajuste da distribuição de Gumbel para os dados germinativos em percentagem e a de Weibull para o peso da matéria seca acumulada e porcentagem de umidade.
Resumo:
Os teores de Ca, Cu, K, Mg, Na, P e S foram determinados simultaneamente em sucos e refrigerantes de uva utilizando espectrometria de emissão ótica com plasma de argônio induzido (ICP-OES) como técnica analítica. Os dados obtidos foram submetidos a dois métodos de análise exploratória: análise de componentes principais (PCA) e análise hierárquica de agrupamentos (HCA). Os resultados mostraram que o Na foi o principal elemento para discriminação entre as amostras, diferenciando principalmente sucos e refrigerantes. A adição de conservantes e o teor de sais minerais também foram aspectos relevantes para a discriminação dos grupos. A análise exploratória mostrou-se útil para o tratamento dos dados em questão, produzindo informações que dificilmente seriam visualizadas diretamente na matriz de dados.
Resumo:
Nos últimos vinte anos, o consumo de alimentos diet e light tem aumentado sistematicamente, o que tem propiciado o constante desenvolvimento de produtos desse gênero. Grande ênfase tem sido dada àqueles produtos que substituem sacarose por edulcorantes de baixos conteúdos calóricos ou não calóricos. Seguindo esta tendência, adoçantes de mesa têm sido desenvolvidos variando-se amplamente o veículo e o tipo de edulcorante empregado. Neste trabalho, a análise de componentes principais associada à espectroscopia na região do infravermelho médio foi utilizada com sucesso para diferenciar os veículos empregados na produção destes adoçantes, sendo que esta metodologia quimiométrica reduziu o espaço dimensional para dois fatores, explicando cerca de 82-% da variância total dos dados. As variáveis responsáveis por esta discriminação estão localizadas na região da impressão digital do espectro de infravermelho (752,2 a 1284,5 cm-1). A análise exploratória mostrou-se útil para a visualização destes dados, gerando informações semiquantitativas para os adoçantes constituídos por lactose/aspartame, observações que seriam dificilmente visualizadas sem o recurso quimiométrico aplicado.
Resumo:
O objetivo deste trabalho é comparar a eficiência relativa dos Tribunais de Justiça estadual do Brasil. Trata-se de um estudo de caráter exploratório com um enfoque quantitativo e qualitativo, com pesquisa documental e bibliográfica. Foram utilizados os dados do relatório Justiça em números, edições 2007 e 2008, publicadas pelo Conselho Nacional de Justiça. Os dados foram analisados sob enfoque de um modelo orientado para outputs usando a técnica de Análise Envoltória de Dados (DEA) para análise da eficiência dos Tribunais. Verificou-se um aumento no número de tribunais que alcançaram o nível máximo da eficiência relativa entre 2007 e 2008. Alguns tribunais foram indicados como referências para os demais. É apresentada, também, a situação do Tribunal de Justiça do Estado do Ceará junto a uma análise dos fatores que precisariam ser ajustados para o alcance de sua eficiência máxima.
Resumo:
Tem havido no país, nos últimos anos, crescente interesse por questões vinculadas à área tradicionalmente denominada vigilância epidemiológica (que se denominou vigilância em saúde pública). Tem-se defendido, em muitas publicações, o ponto de vista que o fácil acesso a computadores e programas estatísticos deve facilitar a utilização de procedimentos mais sofisticados na análise de dados provenientes de sistemas de vigilância. Considerando que esta colocação, de forma ampla e indiscriminada, pode levar a análises que não tem sustentação teórica formal, apresenta-se posicionamento a respeito. Esclarece-se sobre o que se entende por vigilância em saúde pública e descreve-se, de modo resumido e não-tecnicista, as exigências dos procedimentos estatísticos de estimação por intervalo e de testes de hipóteses estatísticas. Comenta-se sobre a origem dos dados de vigilância e o seu caráter não-amostral e a ausência de aleatoriedade. Discute-se alguns procedimentos descritivos que são e devem ser usados sem prejuízo da qualidade da análise. Com base na literatura, são apresentados alguns procedimentos que têm sido propostos mas que, para sua inclusão rotineira na análise de dados, ainda carecem de mais investigação.
Resumo:
Realizou-se análise exploratória das taxas brutas de mortalidade por causas externas, nos municípios da Baixada Fluminense e no Município do Rio de Janeiro, Brasil, no período de 1979 a 1987. Objetivou-se verificar a tendência da mortalidade na área e período especificados para investigar a premissa de que a violência vem crescendo. Os resultados obtidos mostraram que as taxas de mortalidade apresentaram tendência de crescimento não linear ao longo de todo o período. Observou-se decréscimo de 1979 a 1983, seguido de crescimento a partir de 1984 quando as taxas atingem patamares mais elevados.
Resumo:
OBJETIVO: Aplicar a metodologia de Análise Envoltória de Dados na avaliação do desempenho de hospitais públicos em termos das internações em suas clínicas médicas. MÉTODOS: A eficiência dos hospitais foi medida a partir do desempenho de unidades de decisão nas variáveis estudadas para cada hospital, no ano 2000. Foram analisados dados referentes às internações em clínica médica dos hospitais SUS das capitais estaduais do Brasil e Distrito Federal (taxas de mortalidade e tempo médio de internação, valor médio da internação e perfil de doenças). A técnica de análise de correlação canônica foi introduzida na restrição do intervalo de variação das variáveis. O modelo Constant Returns to Scale foi utilizado para gerar escores que permitissem avaliar a eficiência das unidades. A partir dos escores obtidos, os municípios foram classificados de acordo com seu desempenho relativo nas variáveis analisadas. Procurou-se correlação entre os escores de classificação com variáveis exógenas: despesas com programas de saúde básica por habitante e índice de desenvolvimento humano das capitais. RESULTADOS: Nos hospitais estudados se destacaram as doenças do aparelho circulatório (23,6% das internações); e a taxa de mortalidade foi de 10,3% das internações. Das 27 capitais, quatro alcançaram 100% de eficiência (Palmas, Macapá, Teresina e Goiânia), sete ficaram entre 85% e 100%, dez entre 70% e 85% e dez com menos de 70%. CONCLUSÕES: A ferramenta utilizada mostrou ser aplicável para a avaliação de desempenho de hospitais públicos, revelando a grande variabilidade entre as capitais brasileiras, no que se refere às internações em clínica médica.
Resumo:
A técnica de análise derivativa de dados espectrais foi usada para estudar a variação dos constituintes opticamente ativos (COAs) na água, por meio de dados de campo e de imagens do sensor orbital Hyperion/EO-1. A imagem Hyperion usada neste estudo foi adquirida no dia 23 de junho de 2005, no final do período de cheia. Uma campanha de campo foi realizada entre 23 e 29 de junho de 2005, para coletar dados espectrais e limnológicos in situ. A imagem foi pré-processada visando eliminar faixas de pixels anômalos e convertida de valores de radiância para reflectância de superfície, portanto, corrigidos dos efeitos de absorção e espalhamento atmosféricos. Uma análise da correlação foi realizada para examinar a associação da reflectância e de sua primeira derivada espectral com as concentrações dos COAs. Melhores resultados foram obtidos após a diferenciação dos espectros, o que ajudou a reduzir a influência de efeitos indesejáveis, provindos de diferentes fontes de radiância, sobre as medidas de reflectância da superfície da água realizadas em ambos os níveis de aquisição de dados. Por meio de ajustes de regressões empíricas, considerando o conjunto de dados Hyperion, a primeira derivada espectral em 711 nm explicou 86% da variação da concentração de sedimentos inorgânicos em suspensão (µg.l-1) e a primeira derivada espectral em 691 nm explicou 73% da variação na concentração da clorofila-alfa (µg.l-1). As relações de regressão foram não-lineares, pois, em geral, as águas que se misturam na planície de inundação Amazônica se tornam opticamente complexas. A técnica de análise derivativa hiperespectral demonstrou potenciais para mapear a composição dessas águas.
Resumo:
No contexto das Ciências Agronômicas e Ambientais, a função condutividade hidráulica K(teta), isto é, a condutividade hidráulica (K) em função da umidade (teta), tem especial importância para os estudos e solução de problemas práticos relacionados, dentre outros, com a irrigação, drenagem e lixiviação de nutrientes e poluentes. Quantificar e caracterizar a variabilidade deste parâmetro hídrico é fundamental para a obtenção de valores médios representativos que possam ser utilizados com segurança nas suas diversas aplicações. Objetivando caracterizar o comportamento estatístico e quantificar a variabilidade dos parâmetros da equação representativa da função K(teta), realizou-se um experimento de campo para determinação desta função pelo método do perfil instantâneo em um Latossolo Vermelho-Amarelo (Typic Hapludox), numa transeção de 50 pontos distanciados entre si de 1 m. As equações obtidas foram do tipo K = Kteta = 0 exp(bq) e os resultados indicaram que os padrões de variabilidade dos parâmetros beta e lnKteta=0, bem como de teta, aumentaram em profundidade e não apresentaram relação entre si. Verificou-se também que a presença de valores extremos alterava as medidas estatísticas relativas aos parâmetros da função K(teta), com reflexos significativos quanto ao número de amostras necessárias para estimar o valor médio destes parâmetros, sendo importante sua identificação antes de aplicar determinado método para avaliação da condutividade hidráulica do solo.
Resumo:
O objetivo deste trabalho foi avaliar a conveniência de definir o número de componentes multiplicativos dos modelos de efeitos principais aditivos com interação multiplicativa (AMMI) em experimentos de interações genótipo x ambiente de algodão com dados imputados ou desbalanceados. Um estudo de simulação foi realizado com base em uma matriz de dados reais de produtividade de algodão em caroço, obtidos em ensaios de interação genótipo x ambiente, conduzidos com 15 cultivares em 27 locais no Brasil. A simulação foi feita com retiradas aleatórias de 10, 20 e 30% dos dados. O número ótimo de componentes multiplicativos para o modelo AMMI foi determinado usando o teste de Cornelius e o teste de razão de verossimilhança sobre as matrizes completadas por imputação. Para testar as hipóteses, quando a análise é feita a partir de médias e não são disponibilizadas as repetições, foi proposta uma correção com base nas observações ausentes no teste de Cornelius. Para a imputação de dados, foram considerados métodos usando submodelos robustos, mínimos quadrados alternados e imputação múltipla. Na análise de experimentos desbalanceados, é recomendável escolher o número de componentes multiplicativos do modelo AMMI somente a partir da informação observada e fazer a estimação clássica dos parâmetros com base nas matrizes completadas por imputação.