20 resultados para Least-Squares Analysis

em Universidad Politécnica de Madrid


Relevância:

100.00% 100.00%

Publicador:

Resumo:

Fission product yields are fundamental parameters for several nuclear engineering calculations and in particular for burn-up/activation problems. The impact of their uncertainties was widely studied in the past and valuations were released, although still incomplete. Recently, the nuclear community expressed the need for full fission yield covariance matrices to produce inventory calculation results that take into account the complete uncertainty data. In this work, we studied and applied a Bayesian/generalised least-squares method for covariance generation, and compared the generated uncertainties to the original data stored in the JEFF-3.1.2 library. Then, we focused on the effect of fission yield covariance information on fission pulse decay heat results for thermal fission of 235U. Calculations were carried out using different codes (ACAB and ALEPH-2) after introducing the new covariance values. Results were compared with those obtained with the uncertainty data currently provided by the library. The uncertainty quantification was performed with the Monte Carlo sampling technique. Indeed, correlations between fission yields strongly affect the statistics of decay heat. Introduction Nowadays, any engineering calculation performed in the nuclear field should be accompanied by an uncertainty analysis. In such an analysis, different sources of uncertainties are taken into account. Works such as those performed under the UAM project (Ivanov, et al., 2013) treat nuclear data as a source of uncertainty, in particular cross-section data for which uncertainties given in the form of covariance matrices are already provided in the major nuclear data libraries. Meanwhile, fission yield uncertainties were often neglected or treated shallowly, because their effects were considered of second order compared to cross-sections (Garcia-Herranz, et al., 2010). However, the Working Party on International Nuclear Data Evaluation Co-operation (WPEC)

Relevância:

100.00% 100.00%

Publicador:

Resumo:

There is now an emerging need for an efficient modeling strategy to develop a new generation of monitoring systems. One method of approaching the modeling of complex processes is to obtain a global model. It should be able to capture the basic or general behavior of the system, by means of a linear or quadratic regression, and then superimpose a local model on it that can capture the localized nonlinearities of the system. In this paper, a novel method based on a hybrid incremental modeling approach is designed and applied for tool wear detection in turning processes. It involves a two-step iterative process that combines a global model with a local model to take advantage of their underlying, complementary capacities. Thus, the first step constructs a global model using a least squares regression. A local model using the fuzzy k-nearest-neighbors smoothing algorithm is obtained in the second step. A comparative study then demonstrates that the hybrid incremental model provides better error-based performance indices for detecting tool wear than a transductive neurofuzzy model and an inductive neurofuzzy model.

Relevância:

100.00% 100.00%

Publicador:

Resumo:

We analyse a class of estimators of the generalized diffusion coefficient for fractional Brownian motion Bt of known Hurst index H, based on weighted functionals of the single time square displacement. We show that for a certain choice of the weight function these functionals possess an ergodic property and thus provide the true, ensemble-averaged, generalized diffusion coefficient to any necessary precision from a single trajectory data, but at expense of a progressively higher experimental resolution. Convergence is fastest around H ? 0.30, a value in the subdiffusive regime.

Relevância:

100.00% 100.00%

Publicador:

Resumo:

Transportation infrastructure is known to affect the value of real estate property by virtue of changes in accessibility. The impact of transportation facilities is highly localized as well, and it is possible that spillover effects result from the capitalization of accessibility. The objective of this study was to review the theoretical background related to spatial hedonic models and the opportunities that they provided to evaluate the effect of new transportation infrastructure. An empirical case study is presented: the Madrid Metro Line 12, known as Metrosur, in the region of Madrid, Spain. The effect of proximity to metro stations on housing prices was evaluated. The analysis took into account a host of variables, including structure, location, and neighborhood and made use of three modeling approaches: linear regression estimation with ordinary least squares, spatial error, and spatial lag. The results indicated that better accessibility to Metrosur stations had a positive impact on real estate values and that the effect was marked in cases in which a house was for sale. The results also showed the presence of submarkets, which were well defined by geographic boundaries, and transport fares, which implied that the economic benefits differed across municipalities.

Relevância:

100.00% 100.00%

Publicador:

Resumo:

Fractal and multifractal are concepts that have grown increasingly popular in recent years in the soil analysis, along with the development of fractal models. One of the common steps is to calculate the slope of a linear fit commonly using least squares method. This shouldn?t be a special problem, however, in many situations using experimental data the researcher has to select the range of scales at which is going to work neglecting the rest of points to achieve the best linearity that in this type of analysis is necessary. Robust regression is a form of regression analysis designed to circumvent some limitations of traditional parametric and non-parametric methods. In this method we don?t have to assume that the outlier point is simply an extreme observation drawn from the tail of a normal distribution not compromising the validity of the regression results. In this work we have evaluated the capacity of robust regression to select the points in the experimental data used trying to avoid subjective choices. Based on this analysis we have developed a new work methodology that implies two basic steps: ? Evaluation of the improvement of linear fitting when consecutive points are eliminated based on R pvalue. In this way we consider the implications of reducing the number of points. ? Evaluation of the significance of slope difference between fitting with the two extremes points and fitted with the available points. We compare the results applying this methodology and the common used least squares one. The data selected for these comparisons are coming from experimental soil roughness transect and simulated based on middle point displacement method adding tendencies and noise. The results are discussed indicating the advantages and disadvantages of each methodology.

Relevância:

90.00% 90.00%

Publicador:

Resumo:

La presente Tesis Doctoral aborda la aplicación de métodos meshless, o métodos sin malla, a problemas de autovalores, fundamentalmente vibraciones libres y pandeo. En particular, el estudio se centra en aspectos tales como los procedimientos para la resolución numérica del problema de autovalores con estos métodos, el coste computacional y la viabilidad de la utilización de matrices de masa o matrices de rigidez geométrica no consistentes. Además, se acomete en detalle el análisis del error, con el objetivo de determinar sus principales fuentes y obtener claves que permitan la aceleración de la convergencia. Aunque en la actualidad existe una amplia variedad de métodos meshless en apariencia independientes entre sí, se han analizado las diferentes relaciones entre ellos, deduciéndose que el método Element-Free Galerkin Method [Método Galerkin Sin Elementos] (EFGM) es representativo de un amplio grupo de los mismos. Por ello se ha empleado como referencia en este análisis. Muchas de las fuentes de error de un método sin malla provienen de su algoritmo de interpolación o aproximación. En el caso del EFGM ese algoritmo es conocido como Moving Least Squares [Mínimos Cuadrados Móviles] (MLS), caso particular del Generalized Moving Least Squares [Mínimos Cuadrados Móviles Generalizados] (GMLS). La formulación de estos algoritmos indica que la precisión de los mismos se basa en los siguientes factores: orden de la base polinómica p(x), características de la función de peso w(x) y forma y tamaño del soporte de definición de esa función. Se ha analizado la contribución individual de cada factor mediante su reducción a un único parámetro cuantificable, así como las interacciones entre ellos tanto en distribuciones regulares de nodos como en irregulares. El estudio se extiende a una serie de problemas estructurales uni y bidimensionales de referencia, y tiene en cuenta el error no sólo en el cálculo de autovalores (frecuencias propias o carga de pandeo, según el caso), sino también en términos de autovectores. This Doctoral Thesis deals with the application of meshless methods to eigenvalue problems, particularly free vibrations and buckling. The analysis is focused on aspects such as the numerical solving of the problem, computational cost and the feasibility of the use of non-consistent mass or geometric stiffness matrices. Furthermore, the analysis of the error is also considered, with the aim of identifying its main sources and obtaining the key factors that enable a faster convergence of a given problem. Although currently a wide variety of apparently independent meshless methods can be found in the literature, the relationships among them have been analyzed. The outcome of this assessment is that all those methods can be grouped in only a limited amount of categories, and that the Element-Free Galerkin Method (EFGM) is representative of the most important one. Therefore, the EFGM has been selected as a reference for the numerical analyses. Many of the error sources of a meshless method are contributed by its interpolation/approximation algorithm. In the EFGM, such algorithm is known as Moving Least Squares (MLS), a particular case of the Generalized Moving Least Squares (GMLS). The accuracy of the MLS is based on the following factors: order of the polynomial basis p(x), features of the weight function w(x), and shape and size of the support domain of this weight function. The individual contribution of each of these factors, along with the interactions among them, has been studied in both regular and irregular arrangement of nodes, by means of a reduction of each contribution to a one single quantifiable parameter. This assessment is applied to a range of both one- and two-dimensional benchmarking cases, and includes not only the error in terms of eigenvalues (natural frequencies or buckling load), but also of eigenvectors

Relevância:

90.00% 90.00%

Publicador:

Resumo:

In a series of attempts to research and document relevant sloshing type phenomena, a series of experiments have been conducted. The aim of this paper is to describe the setup and data processing of such experiments. A sloshing tank is subjected to angular motion. As a result pressure registers are obtained at several locations, together with the motion data, torque and a collection of image and video information. The experimental rig and the data acquisition systems are described. Useful information for experimental sloshing research practitioners is provided. This information is related to the liquids used in the experiments, the dying techniques, tank building processes, synchronization of acquisition systems, etc. A new procedure for reconstructing experimental data, that takes into account experimental uncertainties, is presented. This procedure is based on a least squares spline approximation of the data. Based on a deterministic approach to the first sloshing wave impact event in a sloshing experiment, an uncertainty analysis procedure of the associated first pressure peak value is described.

Relevância:

90.00% 90.00%

Publicador:

Resumo:

Los estudios realizados hasta el momento para la determinación de la calidad de medida del instrumental geodésico han estado dirigidos, fundamentalmente, a las medidas angulares y de distancias. Sin embargo, en los últimos años se ha impuesto la tendencia generalizada de utilizar equipos GNSS (Global Navigation Satellite System) en el campo de las aplicaciones geomáticas sin que se haya establecido una metodología que permita obtener la corrección de calibración y su incertidumbre para estos equipos. La finalidad de esta Tesis es establecer los requisitos que debe satisfacer una red para ser considerada Red Patrón con trazabilidad metrológica, así como la metodología para la verificación y calibración de instrumental GNSS en redes patrón. Para ello, se ha diseñado y elaborado un procedimiento técnico de calibración de equipos GNSS en el que se han definido las contribuciones a la incertidumbre de medida. El procedimiento, que se ha aplicado en diferentes redes para distintos equipos, ha permitido obtener la incertidumbre expandida de dichos equipos siguiendo las recomendaciones de la Guide to the Expression of Uncertainty in Measurement del Joint Committee for Guides in Metrology. Asimismo, se han determinado mediante técnicas de observación por satélite las coordenadas tridimensionales de las bases que conforman las redes consideradas en la investigación, y se han desarrollado simulaciones en función de diversos valores de las desviaciones típicas experimentales de los puntos fijos que se han utilizado en el ajuste mínimo cuadrático de los vectores o líneas base. Los resultados obtenidos han puesto de manifiesto la importancia que tiene el conocimiento de las desviaciones típicas experimentales en el cálculo de incertidumbres de las coordenadas tridimensionales de las bases. Basándose en estudios y observaciones de gran calidad técnica, llevados a cabo en estas redes con anterioridad, se ha realizado un exhaustivo análisis que ha permitido determinar las condiciones que debe satisfacer una red patrón. Además, se han diseñado procedimientos técnicos de calibración que permiten calcular la incertidumbre expandida de medida de los instrumentos geodésicos que proporcionan ángulos y distancias obtenidas por métodos electromagnéticos, ya que dichos instrumentos son los que van a permitir la diseminación de la trazabilidad metrológica a las redes patrón para la verificación y calibración de los equipos GNSS. De este modo, ha sido posible la determinación de las correcciones de calibración local de equipos GNSS de alta exactitud en las redes patrón. En esta Tesis se ha obtenido la incertidumbre de la corrección de calibración mediante dos metodologías diferentes; en la primera se ha aplicado la propagación de incertidumbres, mientras que en la segunda se ha aplicado el método de Monte Carlo de simulación de variables aleatorias. El análisis de los resultados obtenidos confirma la validez de ambas metodologías para la determinación de la incertidumbre de calibración de instrumental GNSS. ABSTRACT The studies carried out so far for the determination of the quality of measurement of geodetic instruments have been aimed, primarily, to measure angles and distances. However, in recent years it has been accepted to use GNSS (Global Navigation Satellite System) equipment in the field of Geomatic applications, for data capture, without establishing a methodology that allows obtaining the calibration correction and its uncertainty. The purpose of this Thesis is to establish the requirements that a network must meet to be considered a StandardNetwork with metrological traceability, as well as the methodology for the verification and calibration of GNSS instrumental in those standard networks. To do this, a technical calibration procedure has been designed, developed and defined for GNSS equipment determining the contributions to the uncertainty of measurement. The procedure, which has been applied in different networks for different equipment, has alloweddetermining the expanded uncertainty of such equipment following the recommendations of the Guide to the Expression of Uncertainty in Measurement of the Joint Committee for Guides in Metrology. In addition, the three-dimensional coordinates of the bases which constitute the networks considered in the investigationhave been determined by satellite-based techniques. There have been several developed simulations based on different values of experimental standard deviations of the fixed points that have been used in the least squares vectors or base lines calculations. The results have shown the importance that the knowledge of experimental standard deviations has in the calculation of uncertainties of the three-dimensional coordinates of the bases. Based on high technical quality studies and observations carried out in these networks previously, it has been possible to make an exhaustive analysis that has allowed determining the requirements that a standard network must meet. In addition, technical calibration procedures have been developed to allow the uncertainty estimation of measurement carried outby geodetic instruments that provide angles and distances obtained by electromagnetic methods. These instruments provide the metrological traceability to standard networks used for verification and calibration of GNSS equipment. As a result, it has been possible the estimation of local calibration corrections for high accuracy GNSS equipment in standardnetworks. In this Thesis, the uncertainty of calibration correction has been calculated using two different methodologies: the first one by applying the law of propagation of uncertainty, while the second has applied the propagation of distributions using the Monte Carlo method. The analysis of the obtained results confirms the validity of both methodologies for estimating the calibration uncertainty of GNSS equipment.

Relevância:

90.00% 90.00%

Publicador:

Resumo:

The present research is focused on the application of hyperspectral images for the supervision of quality deterioration in ready to use leafy spinach during storage (Spinacia oleracea). Two sets of samples of packed leafy spinach were considered: (a) a first set of samples was stored at 20 °C (E-20) in order to accelerate the degradation process, and these samples were measured the day of reception in the laboratory and after 2 days of storage; (b) a second set of samples was kept at 10 °C (E-10), and the measurements were taken throughout storage, beginning the day of reception and repeating the acquisition of Images 3, 6 and 9 days later. Twenty leaves per test were analyzed. Hyperspectral images were acquired with a push-broom CCD camera equipped with a spectrograph VNIR (400–1000 nm). Calibration set of spectra was extracted from E-20 samples, containing three classes of degradation: class A (optimal quality), class B and class C (maximum deterioration). Reference average spectra were defined for each class. Three models, computed on the calibration set, with a decreasing degree of complexity were compared, according to their ability for segregating leaves at different quality stages (fresh, with incipient and non-visible symptoms of degradation, and degraded): spectral angle mapper distance (SAM), partial least squares discriminant analysis models (PLS-DA), and a non linear index (Leafy Vegetable Evolution, LEVE) combining five wavelengths were included among the previously selected by CovSel procedure. In sets E-10 and E-20, artificial images of the membership degree according to the distance of each pixel to the reference classes, were computed assigning each pixel to the closest reference class. The three methods were able to show the degradation of the leaves with storage time.

Relevância:

90.00% 90.00%

Publicador:

Resumo:

In the present work we report theoretical Stark widths and shifts calculated using the Griem semi-empirical approach, corresponding to 237 spectral lines of MgIII. Data are presented for an electron density of 1017 cm?3 and temperatures T = 0.5?10.0 (104 K). The matrix elements used in these calculations have been determined from 23 configurations of MgIII: 2s22p6, 2s22p53p, 2s22p54p, 2s22p54f and 2s22p55f for even parity and 2s22p5ns (n = 3?6), 2s22p5nd (n = 3?9), 2s22p55g and 2s2p6np (n = 3?8) for odd parity. For the intermediate coupling (IC) calculations, we use the standard method of least-squares fitting from experimental energy levels by means of the Cowan computer code. Also, in order to test the matrix elements used in our calculations, we present calculated values of 70 transition probabilities of MgIII spectral lines and 14 calculated values of radiative lifetimes of MgIII levels. There is good agreement between our calculations and experimental radiative lifetimes. Spectral lines of MgIII are relevant in astrophysics and also play an important role in the spectral analysis of laboratory plasma. Theoretical trends of the Stark broadening parameter versus the temperature for relevant lines are presented. No values of Stark parameters can be found in the bibliography.

Relevância:

90.00% 90.00%

Publicador:

Resumo:

So far, the majority of reports on on-line measurement considered soil properties with direct spectral responses in near infrared spectroscopy (NIRS). This work reports on the results of on-line measurement of soil properties with indirect spectral responses, e.g. pH, cation exchange capacity (CEC), exchangeable calcium (Caex) and exchangeable magnesium (Mgex) in one field in Bedfordshire in the UK. The on-line sensor consisted of a subsoiler coupled with an AgroSpec mobile, fibre type, visible and near infrared (vis–NIR) spectrophotometer (tec5 Technology for Spectroscopy, Germany), with a measurement range 305–2200 nm to acquire soil spectra in diffuse reflectance mode. General calibration models for the studied soil properties were developed with a partial least squares regression (PLSR) with one-leave-out cross validation, using spectra measured under non-mobile laboratory conditions of 160 soil samples collected from different fields in four farms in Europe, namely, Czech Republic, Denmark, Netherland and UK. A group of 25 samples independent from the calibration set was used as independent validation set. Higher accuracy was obtained for laboratory scanning as compared to on-line scanning of the 25 independent samples. The prediction accuracy for the laboratory and on-line measurements was classified as excellent/very good for pH (RPD = 2.69 and 2.14 and r2 = 0.86 and 0.78, respectively), and moderately good for CEC (RPD = 1.77 and 1.61 and r2 = 0.68 and 0.62, respectively) and Mgex (RPD = 1.72 and 1.49 and r2 = 0.66 and 0.67, respectively). For Caex, very good accuracy was calculated for laboratory method (RPD = 2.19 and r2 = 0.86), as compared to the poor accuracy reported for the on-line method (RPD = 1.30 and r2 = 0.61). The ability of collecting large number of data points per field area (about 12,800 point per 21 ha) and the simultaneous analysis of several soil properties without direct spectral response in the NIR range at relatively high operational speed and appreciable accuracy, encourage the recommendation of the on-line measurement system for site specific fertilisation.

Relevância:

90.00% 90.00%

Publicador:

Resumo:

El presente proyecto de fin de carrera describe y analiza el estudio integral del efecto de las vibraciones producidas por voladuras superficiales realizadas en el proyecto del “Tercer Juego de Esclusas” ejecutado para la Expansión del Canal de Panamá. Se recopilan un total de 53 registros, data generada por el monitoreo de 7 sismógrafos en 10 voladuras de producción realizadas en el año 2010. El fenómeno vibratorio tiene dos parámetros fundamentales, la velocidad pico-partícula (PPV) y la frecuencia dominante, los cuales caracterizan cuan dañino puede ser éste frente a su influencia sobre las estructuras civiles; por ello, se pretende caracterizarlas y fundamentalmente predecirlas, lo que permitirá su debido control. En función a lo expuesto, el estudio realizado consta de dos partes, la primera describe el comportamiento del terreno mediante la estimación de la ley de atenuación de la velocidad pico-partícula a través del uso de la regresión lineal por mínimos cuadrados; la segunda detalla un procedimiento validable para la predicción de la frecuencia dominante y del pseudo-espectro de respuesta de velocidad (PVRS) basada en la teoría de Newmark & Hall. Se ha obtenido: (i) la ley de atenuación del terreno para distintos grados de fiabilidad, (ii) herramientas de diseño de voladuras basadas en la relación de carga – distancia, (iii) la demostración que los valores de PPV se ajustan a una distribución log-normal, (iv) el mapa de isolíneas de PPV para el área de estudio, (v) una técnica detallada y válida para la predicción de la frecuencia dominante y del espectro de respuesta, (vi) formulaciones matemáticas de los factores de amplificación para el desplazamiento, velocidad y aceleración, (vii) mapa de isolíneas de amplificación para el área de estudio. A partir de los resultados obtenidos se proporciona información útil para su uso en el diseño y control de las voladuras posteriores del proyecto. ABSTRACT This project work describes and analyzes the comprehensive study of the effect of the vibrations produced by surface blasting carried out in the "Third Set of Locks" project executed for the expansion of the Panama Canal. A total of 53 records were collected, with the data generated by the monitoring of 7 seismographs in 10 production blasts carried out in 2010. The vibratory phenomenon has two fundamental parameters, the peak-particle velocity (PPV) and the dominant frequency, which characterize how damaging this can be compared to their influence on structures, which is why this is intended to characterize and predict fundamentally, that which allows proper control. Based on the above, the study consists of two parts; the first describes the behavior of the terrain by estimating the attenuation law for peak-particle velocity by using the ordinary least squares regression analysis, the second details a validable procedure for the prediction of the dominant frequency and pseudo-velocity response spectrum (PVRS) based on the theory of Newmark & Hall. The following have been obtained: (i) the attenuation law of the terrain for different degrees of reliability, (ii) blast design tools based on charge-distance ratio, (iii) the demonstration that the values of PPV conform to a log-normal distribution, (iv) the map of isolines of PPV for the area of study (v) detailed and valid technique for predicting the dominant frequency response spectrum, (vi) mathematical formulations of the amplification factors for displacement, velocity and acceleration, (vii) amplification of isolines map for the study area. From the results obtained, the study provides useful information for use in the design and control of blasting for subsequent projects.

Relevância:

90.00% 90.00%

Publicador:

Resumo:

Hoy en día, con la evolución continua y rápida de las tecnologías de la información y los dispositivos de computación, se recogen y almacenan continuamente grandes volúmenes de datos en distintos dominios y a través de diversas aplicaciones del mundo real. La extracción de conocimiento útil de una cantidad tan enorme de datos no se puede realizar habitualmente de forma manual, y requiere el uso de técnicas adecuadas de aprendizaje automático y de minería de datos. La clasificación es una de las técnicas más importantes que ha sido aplicada con éxito a varias áreas. En general, la clasificación se compone de dos pasos principales: en primer lugar, aprender un modelo de clasificación o clasificador a partir de un conjunto de datos de entrenamiento, y en segundo lugar, clasificar las nuevas instancias de datos utilizando el clasificador aprendido. La clasificación es supervisada cuando todas las etiquetas están presentes en los datos de entrenamiento (es decir, datos completamente etiquetados), semi-supervisada cuando sólo algunas etiquetas son conocidas (es decir, datos parcialmente etiquetados), y no supervisada cuando todas las etiquetas están ausentes en los datos de entrenamiento (es decir, datos no etiquetados). Además, aparte de esta taxonomía, el problema de clasificación se puede categorizar en unidimensional o multidimensional en función del número de variables clase, una o más, respectivamente; o también puede ser categorizado en estacionario o cambiante con el tiempo en función de las características de los datos y de la tasa de cambio subyacente. A lo largo de esta tesis, tratamos el problema de clasificación desde tres perspectivas diferentes, a saber, clasificación supervisada multidimensional estacionaria, clasificación semisupervisada unidimensional cambiante con el tiempo, y clasificación supervisada multidimensional cambiante con el tiempo. Para llevar a cabo esta tarea, hemos usado básicamente los clasificadores Bayesianos como modelos. La primera contribución, dirigiéndose al problema de clasificación supervisada multidimensional estacionaria, se compone de dos nuevos métodos de aprendizaje de clasificadores Bayesianos multidimensionales a partir de datos estacionarios. Los métodos se proponen desde dos puntos de vista diferentes. El primer método, denominado CB-MBC, se basa en una estrategia de envoltura de selección de variables que es voraz y hacia delante, mientras que el segundo, denominado MB-MBC, es una estrategia de filtrado de variables con una aproximación basada en restricciones y en el manto de Markov. Ambos métodos han sido aplicados a dos problemas reales importantes, a saber, la predicción de los inhibidores de la transcriptasa inversa y de la proteasa para el problema de infección por el virus de la inmunodeficiencia humana tipo 1 (HIV-1), y la predicción del European Quality of Life-5 Dimensions (EQ-5D) a partir de los cuestionarios de la enfermedad de Parkinson con 39 ítems (PDQ-39). El estudio experimental incluye comparaciones de CB-MBC y MB-MBC con los métodos del estado del arte de la clasificación multidimensional, así como con métodos comúnmente utilizados para resolver el problema de predicción de la enfermedad de Parkinson, a saber, la regresión logística multinomial, mínimos cuadrados ordinarios, y mínimas desviaciones absolutas censuradas. En ambas aplicaciones, los resultados han sido prometedores con respecto a la precisión de la clasificación, así como en relación al análisis de las estructuras gráficas que identifican interacciones conocidas y novedosas entre las variables. La segunda contribución, referida al problema de clasificación semi-supervisada unidimensional cambiante con el tiempo, consiste en un método nuevo (CPL-DS) para clasificar flujos de datos parcialmente etiquetados. Los flujos de datos difieren de los conjuntos de datos estacionarios en su proceso de generación muy rápido y en su aspecto de cambio de concepto. Es decir, los conceptos aprendidos y/o la distribución subyacente están probablemente cambiando y evolucionando en el tiempo, lo que hace que el modelo de clasificación actual sea obsoleto y deba ser actualizado. CPL-DS utiliza la divergencia de Kullback-Leibler y el método de bootstrapping para cuantificar y detectar tres tipos posibles de cambio: en las predictoras, en la a posteriori de la clase o en ambas. Después, si se detecta cualquier cambio, un nuevo modelo de clasificación se aprende usando el algoritmo EM; si no, el modelo de clasificación actual se mantiene sin modificaciones. CPL-DS es general, ya que puede ser aplicado a varios modelos de clasificación. Usando dos modelos diferentes, el clasificador naive Bayes y la regresión logística, CPL-DS se ha probado con flujos de datos sintéticos y también se ha aplicado al problema real de la detección de código malware, en el cual los nuevos ficheros recibidos deben ser continuamente clasificados en malware o goodware. Los resultados experimentales muestran que nuestro método es efectivo para la detección de diferentes tipos de cambio a partir de los flujos de datos parcialmente etiquetados y también tiene una buena precisión de la clasificación. Finalmente, la tercera contribución, sobre el problema de clasificación supervisada multidimensional cambiante con el tiempo, consiste en dos métodos adaptativos, a saber, Locally Adpative-MB-MBC (LA-MB-MBC) y Globally Adpative-MB-MBC (GA-MB-MBC). Ambos métodos monitorizan el cambio de concepto a lo largo del tiempo utilizando la log-verosimilitud media como métrica y el test de Page-Hinkley. Luego, si se detecta un cambio de concepto, LA-MB-MBC adapta el actual clasificador Bayesiano multidimensional localmente alrededor de cada nodo cambiado, mientras que GA-MB-MBC aprende un nuevo clasificador Bayesiano multidimensional. El estudio experimental realizado usando flujos de datos sintéticos multidimensionales indica los méritos de los métodos adaptativos propuestos. ABSTRACT Nowadays, with the ongoing and rapid evolution of information technology and computing devices, large volumes of data are continuously collected and stored in different domains and through various real-world applications. Extracting useful knowledge from such a huge amount of data usually cannot be performed manually, and requires the use of adequate machine learning and data mining techniques. Classification is one of the most important techniques that has been successfully applied to several areas. Roughly speaking, classification consists of two main steps: first, learn a classification model or classifier from an available training data, and secondly, classify the new incoming unseen data instances using the learned classifier. Classification is supervised when the whole class values are present in the training data (i.e., fully labeled data), semi-supervised when only some class values are known (i.e., partially labeled data), and unsupervised when the whole class values are missing in the training data (i.e., unlabeled data). In addition, besides this taxonomy, the classification problem can be categorized into uni-dimensional or multi-dimensional depending on the number of class variables, one or more, respectively; or can be also categorized into stationary or streaming depending on the characteristics of the data and the rate of change underlying it. Through this thesis, we deal with the classification problem under three different settings, namely, supervised multi-dimensional stationary classification, semi-supervised unidimensional streaming classification, and supervised multi-dimensional streaming classification. To accomplish this task, we basically used Bayesian network classifiers as models. The first contribution, addressing the supervised multi-dimensional stationary classification problem, consists of two new methods for learning multi-dimensional Bayesian network classifiers from stationary data. They are proposed from two different points of view. The first method, named CB-MBC, is based on a wrapper greedy forward selection approach, while the second one, named MB-MBC, is a filter constraint-based approach based on Markov blankets. Both methods are applied to two important real-world problems, namely, the prediction of the human immunodeficiency virus type 1 (HIV-1) reverse transcriptase and protease inhibitors, and the prediction of the European Quality of Life-5 Dimensions (EQ-5D) from 39-item Parkinson’s Disease Questionnaire (PDQ-39). The experimental study includes comparisons of CB-MBC and MB-MBC against state-of-the-art multi-dimensional classification methods, as well as against commonly used methods for solving the Parkinson’s disease prediction problem, namely, multinomial logistic regression, ordinary least squares, and censored least absolute deviations. For both considered case studies, results are promising in terms of classification accuracy as well as regarding the analysis of the learned MBC graphical structures identifying known and novel interactions among variables. The second contribution, addressing the semi-supervised uni-dimensional streaming classification problem, consists of a novel method (CPL-DS) for classifying partially labeled data streams. Data streams differ from the stationary data sets by their highly rapid generation process and their concept-drifting aspect. That is, the learned concepts and/or the underlying distribution are likely changing and evolving over time, which makes the current classification model out-of-date requiring to be updated. CPL-DS uses the Kullback-Leibler divergence and bootstrapping method to quantify and detect three possible kinds of drift: feature, conditional or dual. Then, if any occurs, a new classification model is learned using the expectation-maximization algorithm; otherwise, the current classification model is kept unchanged. CPL-DS is general as it can be applied to several classification models. Using two different models, namely, naive Bayes classifier and logistic regression, CPL-DS is tested with synthetic data streams and applied to the real-world problem of malware detection, where the new received files should be continuously classified into malware or goodware. Experimental results show that our approach is effective for detecting different kinds of drift from partially labeled data streams, as well as having a good classification performance. Finally, the third contribution, addressing the supervised multi-dimensional streaming classification problem, consists of two adaptive methods, namely, Locally Adaptive-MB-MBC (LA-MB-MBC) and Globally Adaptive-MB-MBC (GA-MB-MBC). Both methods monitor the concept drift over time using the average log-likelihood score and the Page-Hinkley test. Then, if a drift is detected, LA-MB-MBC adapts the current multi-dimensional Bayesian network classifier locally around each changed node, whereas GA-MB-MBC learns a new multi-dimensional Bayesian network classifier from scratch. Experimental study carried out using synthetic multi-dimensional data streams shows the merits of both proposed adaptive methods.

Relevância:

90.00% 90.00%

Publicador:

Resumo:

El geoide, definido como la superficie equipotencial que mejor se ajusta (en el sentido de los mínimos cuadrados) al nivel medio del mar en una determinada época, es la superficie que utilizamos como referencia para determinar las altitudes ortométricas. Si disponemos de una superficie equipotencial de referencia como dátum altimétrico preciso o geoide local, podemos entonces determinar las altitudes ortométricas de forma eficiente a partir de las altitudes elipsoidales proporcionadas por el Sistema Global de Navegación por Satélite (Global Navigation Satellite System, GNSS ). Como es sabido uno de los problemas no resueltos de la geodesia (quizás el más importante de los mismos en la actualidad) es la carencia de un dátum altimétrico global (Sjoberg, 2011) con las precisiones adecuadas. Al no existir un dátum altimétrico global que nos permita obtener los valores absolutos de la ondulación del geoide con la precisión requerida, es necesario emplear modelos geopotenciales como alternativa. Recientemente fue publicado el modelo EGM2008 en el que ha habido una notable mejoría de sus tres fuentes de datos, por lo que este modelo contiene coeficientes adicionales hasta el grado 2190 y orden 2159 y supone una sustancial mejora en la precisión (Pavlis et al., 2008). Cuando en una región determinada se dispone de valores de gravedad y Modelos Digitales del Terreno (MDT) de calidad, es posible obtener modelos de superficies geopotenciales más precisos y de mayor resolución que los modelos globales. Si bien es cierto que el Servicio Nacional Geodésico de los Estados Unidos de América (National Geodetic Survey, NGS) ha estado desarrollando modelos del geoide para la región de los Estados Unidos de América continentales y todos sus territorios desde la década de los noventa, también es cierto que las zonas de Puerto Rico y las Islas Vírgenes Estadounidenses han quedado un poco rezagadas al momento de poder aplicar y obtener resultados de mayor precisión con estos modelos regionales del geoide. En la actualidad, el modelo geopotencial regional vigente para la zona de Puerto Rico y las Islas Vírgenes Estadounidenses es el GEOID12A (Roman y Weston, 2012). Dada la necesidad y ante la incertidumbre de saber cuál sería el comportamiento de un modelo del geoide desarrollado única y exclusivamente con datos de gravedad locales, nos hemos dado a la tarea de desarrollar un modelo de geoide gravimétrico como sistema de referencia para las altitudes ortométricas. Para desarrollar un modelo del geoide gravimétrico en la isla de Puerto Rico, fue necesario implementar una metodología que nos permitiera analizar y validar los datos de gravedad terrestre existentes. Utilizando validación por altimetría con sistemas de información geográfica y validación matemática por colocación con el programa Gravsoft (Tscherning et al., 1994) en su modalidad en Python (Nielsen et al., 2012), fue posible validar 1673 datos de anomalías aire libre de un total de 1894 observaciones obtenidas de la base de datos del Bureau Gravimétrico Internacional (BGI). El aplicar estas metodologías nos permitió obtener una base de datos anomalías de la gravedad fiable la cual puede ser utilizada para una gran cantidad de aplicaciones en ciencia e ingeniería. Ante la poca densidad de datos de gravedad existentes, fue necesario emplear un método alternativo para densificar los valores de anomalías aire libre existentes. Empleando una metodología propuesta por Jekeli et al. (2009b) se procedió a determinar anomalías aire libre a partir de los datos de un MDT. Estas anomalías fueron ajustadas utilizando las anomalías aire libre validadas y tras aplicar un ajuste de mínimos cuadrados por zonas geográficas, fue posible obtener una malla de datos de anomalías aire libre uniforme a partir de un MDT. Tras realizar las correcciones topográficas, determinar el efecto indirecto de la topografía del terreno y la contribución del modelo geopotencial EGM2008, se obtuvo una malla de anomalías residuales. Estas anomalías residuales fueron utilizadas para determinar el geoide gravimétrico utilizando varias técnicas entre las que se encuentran la aproximación plana de la función de Stokes y las modificaciones al núcleo de Stokes, propuestas por Wong y Gore (1969), Vanicek y Kleusberg (1987) y Featherstone et al. (1998). Ya determinados los distintos modelos del geoide gravimétrico, fue necesario validar los mismos y para eso se utilizaron una serie de estaciones permanentes de la red de nivelación del Datum Vertical de Puerto Rico de 2002 (Puerto Rico Vertical Datum 2002, PRVD02 ), las cuales tenían publicados sus valores de altitud elipsoidal y elevación. Ante la ausencia de altitudes ortométricas en las estaciones permanentes de la red de nivelación, se utilizaron las elevaciones obtenidas a partir de nivelación de primer orden para determinar los valores de la ondulación del geoide geométrico (Roman et al., 2013). Tras establecer un total de 990 líneas base, se realizaron dos análisis para determinar la 'precisión' de los modelos del geoide. En el primer análisis, que consistió en analizar las diferencias entre los incrementos de la ondulación del geoide geométrico y los incrementos de la ondulación del geoide de los distintos modelos (modelos gravimétricos, EGM2008 y GEOID12A) en función de las distancias entre las estaciones de validación, se encontró que el modelo con la modificación del núcleo de Stokes propuesta por Wong y Gore presentó la mejor 'precisión' en un 91,1% de los tramos analizados. En un segundo análisis, en el que se consideraron las 990 líneas base, se determinaron las diferencias entre los incrementos de la ondulación del geoide geométrico y los incrementos de la ondulación del geoide de los distintos modelos (modelos gravimétricos, EGM2008 y GEOID12A), encontrando que el modelo que presenta la mayor 'precisión' también era el geoide con la modificación del núcleo de Stokes propuesta por Wong y Gore. En este análisis, el modelo del geoide gravimétrico de Wong y Gore presento una 'precisión' de 0,027 metros en comparación con la 'precisión' del modelo EGM2008 que fue de 0,031 metros mientras que la 'precisión' del modelo regional GEOID12A fue de 0,057 metros. Finalmente podemos decir que la metodología aquí presentada es una adecuada ya que fue posible obtener un modelo del geoide gravimétrico que presenta una mayor 'precisión' que los modelos geopotenciales disponibles, incluso superando la precisión del modelo geopotencial global EGM2008. ABSTRACT The geoid, defined as the equipotential surface that best fits (in the least squares sense) to the mean sea level at a particular time, is the surface used as a reference to determine the orthometric heights. If we have an equipotential reference surface or a precise local geoid, we can then determine the orthometric heights efficiently from the ellipsoidal heights, provided by the Global Navigation Satellite System (GNSS). One of the most common and important an unsolved problem in geodesy is the lack of a global altimetric datum (Sjoberg, 2011)) with the appropriate precision. In the absence of one which allows us to obtain the absolute values of the geoid undulation with the required precision, it is necessary to use alternative geopotential models. The EGM2008 was recently published, in which there has been a marked improvement of its three data sources, so this model contains additional coefficients of degree up to 2190 and order 2159, and there is a substantial improvement in accuracy (Pavlis et al., 2008). When a given region has gravity values and high quality digital terrain models (DTM), it is possible to obtain more accurate regional geopotential models, with a higher resolution and precision, than global geopotential models. It is true that the National Geodetic Survey of the United States of America (NGS) has been developing geoid models for the region of the continental United States of America and its territories from the nineties, but which is also true is that areas such as Puerto Rico and the U.S. Virgin Islands have lagged behind when to apply and get more accurate results with these regional geopotential models. Right now, the available geopotential model for Puerto Rico and the U.S. Virgin Islands is the GEOID12A (Roman y Weston, 2012). Given this need and given the uncertainty of knowing the behavior of a regional geoid model developed exclusively with data from local gravity, we have taken on the task of developing a gravimetric geoid model to use as a reference system for orthometric heights. To develop a gravimetric geoid model in the island of Puerto Rico, implementing a methodology that allows us to analyze and validate the existing terrestrial gravity data is a must. Using altimetry validation with GIS and mathematical validation by collocation with the Gravsoft suite programs (Tscherning et al., 1994) in its Python version (Nielsen et al., 2012), it was possible to validate 1673 observations with gravity anomalies values out of a total of 1894 observations obtained from the International Bureau Gravimetric (BGI ) database. Applying these methodologies allowed us to obtain a database of reliable gravity anomalies, which can be used for many applications in science and engineering. Given the low density of existing gravity data, it was necessary to employ an alternative method for densifying the existing gravity anomalies set. Employing the methodology proposed by Jekeli et al. (2009b) we proceeded to determine gravity anomaly data from a DTM. These anomalies were adjusted by using the validated free-air gravity anomalies and, after that, applying the best fit in the least-square sense by geographical area, it was possible to obtain a uniform grid of free-air anomalies obtained from a DTM. After applying the topographic corrections, determining the indirect effect of topography and the contribution of the global geopotential model EGM2008, a grid of residual anomalies was obtained. These residual anomalies were used to determine the gravimetric geoid by using various techniques, among which are the planar approximation of the Stokes function and the modifications of the Stokes kernel, proposed by Wong y Gore (1969), Vanicek y Kleusberg (1987) and Featherstone et al. (1998). After determining the different gravimetric geoid models, it was necessary to validate them by using a series of stations of the Puerto Rico Vertical Datum of 2002 (PRVD02) leveling network. These stations had published its values of ellipsoidal height and elevation, and in the absence of orthometric heights, we use the elevations obtained from first - order leveling to determine the geometric geoid undulation (Roman et al., 2013). After determine a total of 990 baselines, two analyzes were performed to determine the ' accuracy ' of the geoid models. The first analysis was to analyze the differences between the increments of the geometric geoid undulation with the increments of the geoid undulation of the different geoid models (gravimetric models, EGM2008 and GEOID12A) in function of the distance between the validation stations. Through this analysis, it was determined that the model with the modified Stokes kernel given by Wong and Gore had the best 'accuracy' in 91,1% for the analyzed baselines. In the second analysis, in which we considered the 990 baselines, we analyze the differences between the increments of the geometric geoid undulation with the increments of the geoid undulation of the different geoid models (gravimetric models, EGM2008 and GEOID12A) finding that the model with the highest 'accuracy' was also the model with modifying Stokes kernel given by Wong and Gore. In this analysis, the Wong and Gore gravimetric geoid model presented an 'accuracy' of 0,027 meters in comparison with the 'accuracy' of global geopotential model EGM2008, which gave us an 'accuracy' of 0,031 meters, while the 'accuracy ' of the GEOID12A regional model was 0,057 meters. Finally we can say that the methodology presented here is adequate as it was possible to obtain a gravimetric geoid model that has a greater 'accuracy' than the geopotential models available, even surpassing the accuracy of global geopotential model EGM2008.

Relevância:

90.00% 90.00%

Publicador:

Resumo:

El comercio electrónico ha experimentado un fuerte crecimiento en los últimos años, favorecido especialmente por el aumento de las tasas de penetración de Internet en todo el mundo. Sin embargo, no todos los países están evolucionando de la misma manera, con un espectro que va desde las naciones pioneras en desarrollo de tecnologías de la información y comunicaciones, que cuentan con una elevado porcentaje de internautas y de compradores online, hasta las rezagadas de rápida adopción en las que, pese a contar con una menor penetración de acceso, presentan una alta tasa de internautas compradores. Entre ambos extremos se encuentran países como España que, aunque alcanzó hace años una tasa considerable de penetración de usuarios de Internet, no ha conseguido una buena tasa de transformación de internautas en compradores. Pese a que el comercio electrónico ha experimentado importantes aumentos en los últimos años, sus tasas de crecimiento siguen estando por debajo de países con características socio-económicas similares. Para intentar conocer las razones que afectan a la adopción del comercio por parte de los compradores, la investigación científica del fenómeno ha empleado diferentes enfoques teóricos. De entre todos ellos ha destacado el uso de los modelos de adopción, proveniente de la literatura de adopción de sistemas de información en entornos organizativos. Estos modelos se basan en las percepciones de los compradores para determinar qué factores pueden predecir mejor la intención de compra y, en consecuencia, la conducta real de compra de los usuarios. Pese a que en los últimos años han proliferado los trabajos de investigación que aplican los modelos de adopción al comercio electrónico, casi todos tratan de validar sus hipótesis mediante el análisis de muestras de consumidores tratadas como un único conjunto, y del que se obtienen conclusiones generales. Sin embargo, desde el origen del marketing, y en especial a partir de la segunda mitad del siglo XIX, se considera que existen diferencias en el comportamiento de los consumidores, que pueden ser debidas a características demográficas, sociológicas o psicológicas. Estas diferencias se traducen en necesidades distintas, que sólo podrán ser satisfechas con una oferta adaptada por parte de los vendedores. Además, por contar el comercio electrónico con unas características particulares que lo diferencian del comercio tradicional –especialmente por la falta de contacto físico entre el comprador y el producto– a las diferencias en la adopción para cada consumidor se le añaden las diferencias derivadas del tipo de producto adquirido, que si bien habían sido consideradas en el canal físico, en el comercio electrónico cobran especial relevancia. A la vista de todo ello, el presente trabajo pretende abordar el estudio de los factores determinantes de la intención de compra y la conducta real de compra en comercio electrónico por parte del consumidor final español, teniendo en cuenta el tipo de segmento al que pertenezca dicho comprador y el tipo de producto considerado. Para ello, el trabajo contiene ocho apartados entre los que se encuentran cuatro bloques teóricos y tres bloques empíricos, además de las conclusiones. Estos bloques dan lugar a los siguientes ocho capítulos por orden de aparición en el trabajo: introducción, situación del comercio electrónico, modelos de adopción de tecnología, segmentación en comercio electrónico, diseño previo del trabajo empírico, diseño de la investigación, análisis de los resultados y conclusiones. El capítulo introductorio justifica la relevancia de la investigación, además de fijar los objetivos, la metodología y las fases seguidas para el desarrollo del trabajo. La justificación se complementa con el segundo capítulo, que cuenta con dos elementos principales: en primer lugar se define el concepto de comercio electrónico y se hace una breve retrospectiva desde sus orígenes hasta la situación actual en un contexto global; en segundo lugar, el análisis estudia la evolución del comercio electrónico en España, mostrando su desarrollo y situación presente a partir de sus principales indicadores. Este apartado no sólo permite conocer el contexto de la investigación, sino que además permite contrastar la relevancia de la muestra utilizada en el presente estudio con el perfil español respecto al comercio electrónico. Los capítulos tercero –modelos de adopción de tecnologías– y cuarto –segmentación en comercio electrónico– sientan las bases teóricas necesarias para abordar el estudio. En el capítulo tres se hace una revisión general de la literatura de modelos de adopción de tecnología y, en particular, de los modelos de adopción empleados en el ámbito del comercio electrónico. El resultado de dicha revisión deriva en la construcción de un modelo adaptado basado en los modelos UTAUT (Unified Theory of Acceptance and Use of Technology, Teoría unificada de la aceptación y el uso de la tecnología) y UTAUT2, combinado con dos factores específicos de adopción del comercio electrónico: el riesgo percibido y la confianza percibida. Por su parte, en el capítulo cuatro se revisan las metodologías de segmentación de clientes y productos empleadas en la literatura. De dicha revisión se obtienen un amplio conjunto de variables de las que finalmente se escogen nueve variables de clasificación que se consideran adecuadas tanto por su adaptación al contexto del comercio electrónico como por su adecuación a las características de la muestra empleada para validar el modelo. Las nueve variables se agrupan en tres conjuntos: variables de tipo socio-demográfico –género, edad, nivel de estudios, nivel de ingresos, tamaño de la unidad familiar y estado civil–, de comportamiento de compra – experiencia de compra por Internet y frecuencia de compra por Internet– y de tipo psicográfico –motivaciones de compra por Internet. La segunda parte del capítulo cuatro se dedica a la revisión de los criterios empleados en la literatura para la clasificación de los productos en el contexto del comercio electrónico. De dicha revisión se obtienen quince grupos de variables que pueden tomar un total de treinta y cuatro valores, lo que deriva en un elevado número de combinaciones posibles. Sin embargo, pese a haber sido utilizados en el contexto del comercio electrónico, no en todos los casos se ha comprobado la influencia de dichas variables respecto a la intención de compra o la conducta real de compra por Internet; por este motivo, y con el objetivo de definir una clasificación robusta y abordable de tipos de productos, en el capitulo cinco se lleva a cabo una validación de las variables de clasificación de productos mediante un experimento previo con 207 muestras. Seleccionando sólo aquellas variables objetivas que no dependan de la interpretación personal del consumidores y que determinen grupos significativamente distintos respecto a la intención y conducta de compra de los consumidores, se obtiene un modelo de dos variables que combinadas dan lugar a cuatro tipos de productos: bien digital, bien no digital, servicio digital y servicio no digital. Definidos el modelo de adopción y los criterios de segmentación de consumidores y productos, en el sexto capítulo se desarrolla el modelo completo de investigación formado por un conjunto de hipótesis obtenidas de la revisión de la literatura de los capítulos anteriores, en las que se definen las hipótesis de investigación con respecto a las influencias esperadas de las variables de segmentación sobre las relaciones del modelo de adopción. Este modelo confiere a la investigación un carácter social y de tipo fundamentalmente exploratorio, en el que en muchos casos ni siquiera se han encontrado evidencias empíricas previas que permitan el enunciado de hipótesis sobre la influencia de determinadas variables de segmentación. El capítulo seis contiene además la descripción del instrumento de medida empleado en la investigación, conformado por un total de 125 preguntas y sus correspondientes escalas de medida, así como la descripción de la muestra representativa empleada en la validación del modelo, compuesta por un grupo de 817 personas españolas o residentes en España. El capítulo siete constituye el núcleo del análisis empírico del trabajo de investigación, que se compone de dos elementos fundamentales. Primeramente se describen las técnicas estadísticas aplicadas para el estudio de los datos que, dada la complejidad del análisis, se dividen en tres grupos fundamentales: Método de mínimos cuadrados parciales (PLS, Partial Least Squares): herramienta estadística de análisis multivariante con capacidad de análisis predictivo que se emplea en la determinación de las relaciones estructurales de los modelos propuestos. Análisis multigrupo: conjunto de técnicas que permiten comparar los resultados obtenidos con el método PLS entre dos o más grupos derivados del uso de una o más variables de segmentación. En este caso se emplean cinco métodos de comparación, lo que permite asimismo comparar los rendimientos de cada uno de los métodos. Determinación de segmentos no identificados a priori: en el caso de algunas de las variables de segmentación no existe un criterio de clasificación definido a priori, sino que se obtiene a partir de la aplicación de técnicas estadísticas de clasificación. En este caso se emplean dos técnicas fundamentales: análisis de componentes principales –dado el elevado número de variables empleadas para la clasificación– y análisis clúster –del que se combina una técnica jerárquica que calcula el número óptimo de segmentos, con una técnica por etapas que es más eficiente en la clasificación, pero exige conocer el número de clústeres a priori. La aplicación de dichas técnicas estadísticas sobre los modelos resultantes de considerar los distintos criterios de segmentación, tanto de clientes como de productos, da lugar al análisis de un total de 128 modelos de adopción de comercio electrónico y 65 comparaciones multigrupo, cuyos resultados y principales consideraciones son elaboradas a lo largo del capítulo. Para concluir, el capítulo ocho recoge las conclusiones del trabajo divididas en cuatro partes diferenciadas. En primer lugar se examina el grado de alcance de los objetivos planteados al inicio de la investigación; después se desarrollan las principales contribuciones que este trabajo aporta tanto desde el punto de vista metodológico, como desde los punto de vista teórico y práctico; en tercer lugar, se profundiza en las conclusiones derivadas del estudio empírico, que se clasifican según los criterios de segmentación empleados, y que combinan resultados confirmatorios y exploratorios; por último, el trabajo recopila las principales limitaciones de la investigación, tanto de carácter teórico como empírico, así como aquellos aspectos que no habiendo podido plantearse dentro del contexto de este estudio, o como consecuencia de los resultados alcanzados, se presentan como líneas futuras de investigación. ABSTRACT Favoured by an increase of Internet penetration rates across the globe, electronic commerce has experienced a rapid growth over the last few years. Nevertheless, adoption of electronic commerce has differed from one country to another. On one hand, it has been observed that countries leading e-commerce adoption have a large percentage of Internet users as well as of online purchasers; on the other hand, other markets, despite having a low percentage of Internet users, show a high percentage of online buyers. Halfway between those two ends of the spectrum, we find countries such as Spain which, despite having moderately high Internet penetration rates and similar socio-economic characteristics as some of the leading countries, have failed to turn Internet users into active online buyers. Several theoretical approaches have been taken in an attempt to define the factors that influence the use of electronic commerce systems by customers. One of the betterknown frameworks to characterize adoption factors is the acceptance modelling theory, which is derived from the information systems adoption in organizational environments. These models are based on individual perceptions on which factors determine purchase intention, as a mean to explain users’ actual purchasing behaviour. Even though research on electronic commerce adoption models has increased in terms of volume and scope over the last years, the majority of studies validate their hypothesis by using a single sample of consumers from which they obtain general conclusions. Nevertheless, since the birth of marketing, and more specifically from the second half of the 19th century, differences in consumer behaviour owing to demographic, sociologic and psychological characteristics have also been taken into account. And such differences are generally translated into different needs that can only be satisfied when sellers adapt their offer to their target market. Electronic commerce has a number of features that makes it different when compared to traditional commerce; the best example of this is the lack of physical contact between customers and products, and between customers and vendors. Other than that, some differences that depend on the type of product may also play an important role in electronic commerce. From all the above, the present research aims to address the study of the main factors influencing purchase intention and actual purchase behaviour in electronic commerce by Spanish end-consumers, taking into consideration both the customer group to which they belong and the type of product being purchased. In order to achieve this goal, this Thesis is structured in eight chapters: four theoretical sections, three empirical blocks and a final section summarizing the conclusions derived from the research. The chapters are arranged in sequence as follows: introduction, current state of electronic commerce, technology adoption models, electronic commerce segmentation, preliminary design of the empirical work, research design, data analysis and results, and conclusions. The introductory chapter offers a detailed justification of the relevance of this study in the context of e-commerce adoption research; it also sets out the objectives, methodology and research stages. The second chapter further expands and complements the introductory chapter, focusing on two elements: the concept of electronic commerce and its evolution from a general point of view, and the evolution of electronic commerce in Spain and main indicators of adoption. This section is intended to allow the reader to understand the research context, and also to serve as a basis to justify the relevance and representativeness of the sample used in this study. Chapters three (technology acceptance models) and four (segmentation in electronic commerce) set the theoretical foundations for the study. Chapter 3 presents a thorough literature review of technology adoption modelling, focusing on previous studies on electronic commerce acceptance. As a result of the literature review, the research framework is built upon a model based on UTAUT (Unified Theory of Acceptance and Use of Technology) and its evolution, UTAUT2, including two specific electronic commerce adoption factors: perceived risk and perceived trust. Chapter 4 deals with client and product segmentation methodologies used by experts. From the literature review, a wide range of classification variables is studied, and a shortlist of nine classification variables has been selected for inclusion in the research. The criteria for variable selection were their adequacy to electronic commerce characteristics, as well as adequacy to the sample characteristics. The nine variables have been classified in three groups: socio-demographic (gender, age, education level, income, family size and relationship status), behavioural (experience in electronic commerce and frequency of purchase) and psychographic (online purchase motivations) variables. The second half of chapter 4 is devoted to a review of the product classification criteria in electronic commerce. The review has led to the identification of a final set of fifteen groups of variables, whose combination offered a total of thirty-four possible outputs. However, due to the lack of empirical evidence in the context of electronic commerce, further investigation on the validity of this set of product classifications was deemed necessary. For this reason, chapter 5 proposes an empirical study to test the different product classification variables with 207 samples. A selection of product classifications including only those variables that are objective, able to identify distinct groups and not dependent on consumers’ point of view, led to a final classification of products which consisted on two groups of variables for the final empirical study. The combination of these two groups gave rise to four types of products: digital and non-digital goods, and digital and non-digital services. Chapter six characterizes the research –social, exploratory research– and presents the final research model and research hypotheses. The exploratory nature of the research becomes patent in instances where no prior empirical evidence on the influence of certain segmentation variables was found. Chapter six also includes the description of the measurement instrument used in the research, consisting of a total of 125 questions –and the measurement scales associated to each of them– as well as the description of the sample used for model validation (consisting of 817 Spanish residents). Chapter 7 is the core of the empirical analysis performed to validate the research model, and it is divided into two separate parts: description of the statistical techniques used for data analysis, and actual data analysis and results. The first part is structured in three different blocks: Partial Least Squares Method (PLS): the multi-variable analysis is a statistical method used to determine structural relationships of models and their predictive validity; Multi-group analysis: a set of techniques that allow comparing the outcomes of PLS analysis between two or more groups, by using one or more segmentation variables. More specifically, five comparison methods were used, which additionally gives the opportunity to assess the efficiency of each method. Determination of a priori undefined segments: in some cases, classification criteria did not necessarily exist for some segmentation variables, such as customer motivations. In these cases, the application of statistical classification techniques is required. For this study, two main classification techniques were used sequentially: principal component factor analysis –in order to reduce the number of variables– and cluster analysis. The application of the statistical methods to the models derived from the inclusion of the various segmentation criteria –for both clients and products–, led to the analysis of 128 different electronic commerce adoption models and 65 multi group comparisons. Finally, chapter 8 summarizes the conclusions from the research, divided into four parts: first, an assessment of the degree of achievement of the different research objectives is offered; then, methodological, theoretical and practical implications of the research are drawn; this is followed by a discussion on the results from the empirical study –based on the segmentation criteria for the research–; fourth, and last, the main limitations of the research –both empirical and theoretical– as well as future avenues of research are detailed.