8 resultados para partial least-squares regression

em Repositório Institucional da Universidade de Aveiro - Portugal


Relevância:

100.00% 100.00%

Publicador:

Resumo:

The work reported in this thesis aimed at applying the methodology known as metabonomics to the detailed study of a particular type of beer and its quality control, with basis on the use of multivariate analysis (MVA) to extract meaningful information from given analytical data sets. In Chapter 1, a detailed description of beer is given considering the brewing process, main characteristics and typical composition of beer, beer stability and the commonly used analytical techniques for beer analysis. The fundamentals of the analytical methods employed here, namely nuclear magnetic resonance (NMR) spectroscopy, gas-chromatography-mass spectrometry (GC-MS) and mid-infrared (MIR) spectroscopy, together with the description of the metabonomics methodology are described shortly in Chapter 2. In Chapter 3, the application of high resolution NMR to characterize the chemical composition of a lager beer is described. The 1H NMR spectrum obtained by direct analysis of beer show a high degree of complexity, confirming the great potential of NMR spectroscopy for the detection of a wide variety of families of compounds, in a single run. Spectral assignment was carried out by 2D NMR, resulting in the identification of about 40 compounds, including alcohols, amino acids, organic acids, nucleosides and sugars. In a second part of Chapter 3, the compositional variability of beer was assessed. For that purpose, metabonomics was applied to 1H NMR data (NMR/MVA) to evaluate beer variability between beers from the same brand (lager), produced nationally but differing in brewing site and date of production. Differences between brewing sites and/or dates were observed, reflecting compositional differences related to particular processing steps, including mashing, fermentation and maturation. Chapter 4 describes the quantification of organic acids in beer by NMR, using different quantitative methods: direct integration of NMR signals (vs. internal reference or vs. an external electronic reference, ERETIC method) and by quantitative statistical methods (using the partial least squares (PLS) regression) were developed and compared. PLS1 regression models were built using different quantitative methods as reference: capillary electrophoresis with direct and indirect detection and enzymatic essays. It was found that NMR integration results generally agree with those obtained by the best performance PLS models, although some overestimation for malic and pyruvic acids and an apparent underestimation for citric acid were observed. Finally, Chapter 5 describes metabonomic studies performed to better understand the forced aging (18 days, at 45 ºC) beer process. The aging process of lager beer was followed by i) NMR, ii) GC-MS, and iii) MIR spectroscopy. MVA methods of each analytical data set revealed clear separation between different aging days for both NMR and GC-MS data, enabling the identification of compounds closely related with the aging process: 5-hydroxymethylfurfural (5-HMF), organic acids, γ-amino butyric acid (GABA), proline and the ratio linear/branched dextrins (NMR domain) and 5-HMF, furfural, diethyl succinate and phenylacetaldehyde (known aging markers) and, for the first time, 2,3-dihydro-3,5-dihydroxy-6-methyl-4(H)-pyran-4-one xii (DDMP) and maltoxazine (by GC-MS domain). For MIR/MVA, no aging trend could be measured, the results reflecting the need of further experimental optimizations. Data correlation between NMR and GC-MS data was performed by outer product analysis (OPA) and statistical heterospectroscopy (SHY) methodologies, enabling the identification of further compounds (11 compounds, 5 of each are still unassigned) highly related with the aging process. Data correlation between sensory characteristics and NMR and GC-MS was also assessed through PLS1 regression models using the sensory response as reference. The results obtained showed good relationships between analytical data response and sensory response, particularly for the aromatic region of the NMR spectra and for GC-MS data (r > 0.89). However, the prediction power of all built PLS1 regression models was relatively low, possibly reflecting the low number of samples/tasters employed, an aspect to improve in future studies.

Relevância:

100.00% 100.00%

Publicador:

Resumo:

The main objective of this work was to monitor a set of physical-chemical properties of heavy oil procedural streams through nuclear magnetic resonance spectroscopy, in order to propose an analysis procedure and online data processing for process control. Different statistical methods which allow to relate the results obtained by nuclear magnetic resonance spectroscopy with the results obtained by the conventional standard methods during the characterization of the different streams, have been implemented in order to develop models for predicting these same properties. The real-time knowledge of these physical-chemical properties of petroleum fractions is very important for enhancing refinery operations, ensuring technically, economically and environmentally proper refinery operations. The first part of this work involved the determination of many physical-chemical properties, at Matosinhos refinery, by following some standard methods important to evaluate and characterize light vacuum gas oil, heavy vacuum gas oil and fuel oil fractions. Kinematic viscosity, density, sulfur content, flash point, carbon residue, P-value and atmospheric and vacuum distillations were the properties analysed. Besides the analysis by using the standard methods, the same samples were analysed by nuclear magnetic resonance spectroscopy. The second part of this work was related to the application of multivariate statistical methods, which correlate the physical-chemical properties with the quantitative information acquired by nuclear magnetic resonance spectroscopy. Several methods were applied, including principal component analysis, principal component regression, partial least squares and artificial neural networks. Principal component analysis was used to reduce the number of predictive variables and to transform them into new variables, the principal components. These principal components were used as inputs of the principal component regression and artificial neural networks models. For the partial least squares model, the original data was used as input. Taking into account the performance of the develop models, by analysing selected statistical performance indexes, it was possible to conclude that principal component regression lead to worse performances. When applying the partial least squares and artificial neural networks models better results were achieved. However, it was with the artificial neural networks model that better predictions were obtained for almost of the properties analysed. With reference to the results obtained, it was possible to conclude that nuclear magnetic resonance spectroscopy combined with multivariate statistical methods can be used to predict physical-chemical properties of petroleum fractions. It has been shown that this technique can be considered a potential alternative to the conventional standard methods having obtained very promising results.

Relevância:

100.00% 100.00%

Publicador:

Resumo:

Clustering and Disjoint Principal Component Analysis (CDP CA) is a constrained principal component analysis recently proposed for clustering of objects and partitioning of variables, simultaneously, which we have implemented in R language. In this paper, we deal in detail with the alternating least-squares algorithm for CDPCA and highlight its algebraic features for constructing both interpretable principal components and clusters of objects. Two applications are given to illustrate the capabilities of this new methodology.

Relevância:

100.00% 100.00%

Publicador:

Resumo:

O trabalho apresentado nesta tese teve como principais objectivos contribuir para o conhecimento da composição do líquido amniótico humano (LA), colhido no 2º trimestre de gravidez, assim como investigar possíveis alterações na sua composição devido à ocorrência de patologias pré-natais, recorrendo à metabonómica e procurando, assim, definir novos biomarcadores de doenças da grávida e do feto. Após uma introdução descrevendo o estado da arte relacionado com este trabalho (Capítulo 1) e os princípios das metodologias analíticas usadas (Capítulo 2), seguida de uma descrição dos aspectos experimentais associados a esta tese (Capítulo 3), apresentam-se os resultados da caracterização da composição química do LA (gravidez saudável) por espectroscopia de ressonância magnética nuclear (RMN), assim como da monitorização da sua estabilidade durante o armazenamento e após ciclos de congelamento-descongelamento (Capítulo 4). Amostras de LA armazenadas a -20°C registaram alterações significativas, tornando-se estas menos pronunciadas (mas ainda mensuráveis) a -70°C, temperatura recomendada para o armazenamento de LA. Foram também observadas alterações de composição após 1-2 ciclos de congelamento-descongelamento (a ter em conta aquando da reutilização de amostras), assim como à temperatura ambiente (indicando um período máximo de 4h para a manipulação e análise de LA). A aquisição de espectros de RMN de 1H de alta resolução e RMN acoplado (LC-NMR/MS) permitiu a detecção de 75 compostos no LA do 2º trimestre, 6 dos quais detectados pela primeira vez no LA. Experiências de difusão (DOSY) permitiram ainda a caracterização das velocidades de difusão e massas moleculares médias das proteínas mais abundantes. O Capítulo 5 descreve o estudo dos efeitos de malformações fetais (FM) e de cromossomopatias (CD) na composição do LA do 2º trimestre de gravidez. A extensão deste trabalho ao estudo dos efeitos de patologias no LA que ocorrem no 3º trimestre de gravidez é descrita no Capítulo 6, nomeadamente no que se refere ao parto pré-termo (PTD), pré-eclampsia (PE), restrição do crescimento intra-uterino (IUGR), ruptura prematura de membranas (PROM) e diabetes mellitus gestacional (GDM). Como complemento a estes estudos, realizou-se uma análise preliminar da urina materna do 2º trimestre para o estudo de FM e GDM, descrita no Capítulo 7. Para interpretação dos dados analíticos, obtidos por espectroscopia RMN de 1H, cromatografia líquida de ultra eficiência acoplada a espectrometria de massa (UPLC-MS) e espectroscopia do infravermelho médio (MIR), recorreu-se à análise discriminante pelos métodos dos mínimos quadrados parciais e o método dos mínimos quadrados parciais ortogonal (PLS-DA e OPLS-DA) e à correlação espectral. Após análise por validação cruzada de Monte-Carlo (MCCV), os modelos PLS-DA de LA permitiram distinguir as FM dos controlos (sensibilidades 69-85%, especificidades 80-95%, taxas de classificação 80-90%), revelando variações metabólicas ao nível do metabolismo energético, dos metabolismos dos aminoácidos e glícidos assim como possíveis alterações ao nível do funcionamento renal. Observou-se também um grande impacto das FM no perfil metabólico da urina materna (medido por UPLC-MS), tendo no entanto sido registados modelos PLS-DA com menor sensibilidade (40-60%), provavelmente devido ao baixo número de amostras e maior variabilidade da composição da urina (relativamente ao LA). Foram sugeridos possíveis marcadores relacionados com a ocorrência de FM, incluindo lactato, glucose, leucina, valina, glutamina, glutamato, glicoproteínas e conjugados de ácido glucurónico e/ou sulfato e compostos endógenos e/ou exógenos (<1 M) (os últimos visíveis apenas na urina). No LA foram também observadas variações metabólicas devido à ocorrência de vários tipos de cromossomopatias (CD), mas de menor magnitude. Os perfis metabólicos de LA associado a pré- PTD produziram modelos que, apesar do baixo poder de previsão, sugeriram alterações precoces no funcionamento da unidade fetoplacentária, hiperglicémia e stress oxidativo. Os modelos obtidos para os grupos pré- IUGR pré- PE, pré- PROM e pré-diagnóstico GDM (LA e urina materna) registaram baixo poder de previsão, indicando o pouco impacto destas condições na composição do LA e/ou urina do 2º trimestre. Os resultados obtidos demonstram as potencialidades da análise dos perfis metabólicos do LA (e, embora com base em menos estudos, da urina materna) do 2º trimestre para o desenvolvimento de novos e complementares métodos de diagnóstico, nomeadamente para FM e PTD.

Relevância:

100.00% 100.00%

Publicador:

Resumo:

Online travel shopping has attracted researchers due to its significant growth and there is a growing body of literature in this field. However, research on what drives consumers to purchase travel online has typically been fragmented. In fact, existing studies have largely concentrated on examining consumers’ online travel purchases either grounded on Davis’s Technology Acceptance Model, on the Theory of Reasoned Action and its extension, the Theory of Planned Behaviour or on Roger’s model of perceived innovation attributes, the Innovation Diffusion Theory. A thorough literature review has revealed that there is a lack of studies that integrate all theories to better understand online travel shopping. Therefore, based on relevant literature in tourism and consumer behaviour, this study proposes and tests an integrated model to explore which factors affect intentions to purchase travel online. Furthermore, it proposes a new construct, termed social media involvement, defined as a person’s level of interest or emotional attachment with social media, and examines its relationship with intentions to purchase travel online. To test the 18 hypotheses, a quantitative approach was followed by first collecting data through an online survey. With a sample of 1,532 Worldwide Internet users, Partial Least Squares analysis was than conducted to assess the validity and reliability of the data and empirically test the hypothesized relationships between the constructs. The results indicate that intentions to purchase travel online is mostly determined by attitude towards online shopping, which is influenced by perceived relative advantages of online travel shopping and trust in online travel shopping. In addition, the findings indicate that the second most important predictor of intentions to purchase travel online is compatibility, an attribute from the Innovation Diffusion Theory. Furthermore, even though online shopping is nowadays a common practice, perceived risk continues to negatively affect intentions to purchase travel online. The most surprising finding of this study was that Internet users more involved with social media for travel purposes did not have higher intentions to purchase travel online. The theoretical contributions of this study and the practical implications are discussed and future research directions are detailed.

Relevância:

100.00% 100.00%

Publicador:

Resumo:

Esta investigação teve como objetivo central averiguar se o comportamento espaciotemporal do turista urbano influencia a sua satisfação com a experiência de visita multiatração. Apesar de a mobilidade ser uma condição sine qua non do turismo, e, por outro lado, a visita a múltiplas atrações o contexto habitual em que se desenvolve a experiência turística em contexto urbano, a investigação neste domínio tende a ignorar a dimensão espaciotemporal e multiatração dessa experiência. O modelo conceptual proposto visa a sistematização da análise do comportamento espaciotemporal do turista bem como o estudo da sua relação com a satisfação, enquanto satisfação global e satisfação com dimensões da experiência. A partir deste, foi definido o modelo da pesquisa que, modelizando a questão central em estudo, teve por base dois instrumentos principais: estudo de rastreamento através de equipamento GPS e inquérito por questionário, realizados junto de hóspedes de dez hotéis de Lisboa (n= 413). A análise dos dados assume, por sua vez, dupla natureza: espacial e estatística. Em termos de análise espacial, a metodologia SIG em que se baseou a concretização dos mapas foi executada tendo como suporte a solução ArcGIS for Desktop 10.1, permitindo gerar visualizações úteis do ponto de vista da questão em estudo. A análise estatística dos dados compreendeu métodos descritivos, exploratórios e inferenciais, tendo como principal instrumento de teste das hipóteses formuladas a modelação PLS-PM, complementada pela análise PLS-MGA, com recurso ao programa SmartPLS 2.0. Entre as várias relações significativas encontradas, a conclusão mais importante que se pode retirar da investigação empírica é que, de facto, o comportamento espaciotemporal do turista urbano influencia a sua satisfação com a experiência de visita multiatração, afigurando-se particularmente importante neste contexto, em termos científicos e empíricos, investigar a heterogeneidade subjacente à população em estudo.

Relevância:

100.00% 100.00%

Publicador:

Resumo:

Nas últimas décadas as instituições de ensino superior têm sido alvo de uma pressão crescente para aumentar a sua eficiência e a sua eficácia. Fatores como a diversificação da oferta formativa, a massificação, o aumento da internacionalização, entre outros, conduziram a uma maior monitorização das instituições e, por sua vez, geraram o desenvolvimento de novos sistemas de informação. A constante solicitação de informação, quer pelo Estado, quer pelo mercado constitui a base para a definição do objetivo desta investigação: construir um modelo integrado de medição e gestão de desempenho para as universidades públicas e testá-lo no universo português. Para a construção conceptual deste modelo foi realizada uma revisão da literatura baseada em diferentes contextos: organizacional, europeu e nacional. Este modelo foi depois aplicado às universidades públicas portuguesas recorrendo a dados disponibilizados por entidades públicas, tendo em conta a área de educação e formação (CNAEF). Uma análise descritiva aos dados constituiu uma contribuição desta investigação para a prática, no sentido de que permitiu fornecer um conjunto de recomendações às universidades e às entidades oficiais responsáveis pela recolha de dados a nível nacional, relativamente aos sistemas de informação e processos de recolha de dados. O modelo proposto constitui a contribuição teórica desta investigação, no sentido de que integra, no mesmo modelo, as diferentes dimensões de desempenho, a visão dos diferentes stakeholders, quer no contexto do ensino, quer no da investigação, quer no da própria gestão da universidade. A vertente analítica deste modelo, representada pelas diferentes relações entre os grupos de indicadores, foi testada recorrendo à técnica de análise de equações estruturais baseada na variância (nomeadamente Partial Least Squares) em quatro áreas CNAEF. Os resultados demonstraram que o comportamento em termos de medição e gestão de desempenho difere consoante a CNAEF, identificando um maior ajustamento às áreas hard e evidenciando que as áreas soft necessitam de indicadores mais ajustados às suas especificidades.

Relevância:

100.00% 100.00%

Publicador:

Resumo:

As técnicas estatísticas são fundamentais em ciência e a análise de regressão linear é, quiçá, uma das metodologias mais usadas. É bem conhecido da literatura que, sob determinadas condições, a regressão linear é uma ferramenta estatística poderosíssima. Infelizmente, na prática, algumas dessas condições raramente são satisfeitas e os modelos de regressão tornam-se mal-postos, inviabilizando, assim, a aplicação dos tradicionais métodos de estimação. Este trabalho apresenta algumas contribuições para a teoria de máxima entropia na estimação de modelos mal-postos, em particular na estimação de modelos de regressão linear com pequenas amostras, afetados por colinearidade e outliers. A investigação é desenvolvida em três vertentes, nomeadamente na estimação de eficiência técnica com fronteiras de produção condicionadas a estados contingentes, na estimação do parâmetro ridge em regressão ridge e, por último, em novos desenvolvimentos na estimação com máxima entropia. Na estimação de eficiência técnica com fronteiras de produção condicionadas a estados contingentes, o trabalho desenvolvido evidencia um melhor desempenho dos estimadores de máxima entropia em relação ao estimador de máxima verosimilhança. Este bom desempenho é notório em modelos com poucas observações por estado e em modelos com um grande número de estados, os quais são comummente afetados por colinearidade. Espera-se que a utilização de estimadores de máxima entropia contribua para o tão desejado aumento de trabalho empírico com estas fronteiras de produção. Em regressão ridge o maior desafio é a estimação do parâmetro ridge. Embora existam inúmeros procedimentos disponíveis na literatura, a verdade é que não existe nenhum que supere todos os outros. Neste trabalho é proposto um novo estimador do parâmetro ridge, que combina a análise do traço ridge e a estimação com máxima entropia. Os resultados obtidos nos estudos de simulação sugerem que este novo estimador é um dos melhores procedimentos existentes na literatura para a estimação do parâmetro ridge. O estimador de máxima entropia de Leuven é baseado no método dos mínimos quadrados, na entropia de Shannon e em conceitos da eletrodinâmica quântica. Este estimador suplanta a principal crítica apontada ao estimador de máxima entropia generalizada, uma vez que prescinde dos suportes para os parâmetros e erros do modelo de regressão. Neste trabalho são apresentadas novas contribuições para a teoria de máxima entropia na estimação de modelos mal-postos, tendo por base o estimador de máxima entropia de Leuven, a teoria da informação e a regressão robusta. Os estimadores desenvolvidos revelam um bom desempenho em modelos de regressão linear com pequenas amostras, afetados por colinearidade e outliers. Por último, são apresentados alguns códigos computacionais para estimação com máxima entropia, contribuindo, deste modo, para um aumento dos escassos recursos computacionais atualmente disponíveis.