9 resultados para Logistic regression mixture models
em Universidad Politécnica de Madrid
Resumo:
Predicting failures in a distributed system based on previous events through logistic regression is a standard approach in literature. This technique is not reliable, though, in two situations: in the prediction of rare events, which do not appear in enough proportion for the algorithm to capture, and in environments where there are too many variables, as logistic regression tends to overfit on this situations; while manually selecting a subset of variables to create the model is error- prone. On this paper, we solve an industrial research case that presented this situation with a combination of elastic net logistic regression, a method that allows us to automatically select useful variables, a process of cross-validation on top of it and the application of a rare events prediction technique to reduce computation time. This process provides two layers of cross- validation that automatically obtain the optimal model complexity and the optimal mode l parameters values, while ensuring even rare events will be correctly predicted with a low amount of training instances. We tested this method against real industrial data, obtaining a total of 60 out of 80 possible models with a 90% average model accuracy.
Resumo:
This paper addresses the question of maximizing classifier accuracy for classifying task-related mental activity from Magnetoencelophalography (MEG) data. We propose the use of different sources of information and introduce an automatic channel selection procedure. To determine an informative set of channels, our approach combines a variety of machine learning algorithms: feature subset selection methods, classifiers based on regularized logistic regression, information fusion, and multiobjective optimization based on probabilistic modeling of the search space. The experimental results show that our proposal is able to improve classification accuracy compared to approaches whose classifiers use only one type of MEG information or for which the set of channels is fixed a priori.
Resumo:
Species selection for forest restoration is often supported by expert knowledge on local distribution patterns of native tree species. This approach is not applicable to largely deforested regions unless enough data on pre-human tree species distribution is available. In such regions, ecological niche models may provide essential information to support species selection in the framework of forest restoration planning. In this study we used ecological niche models to predict habitat suitability for native tree species in "Tierra de Campos" region, an almost totally deforested area of the Duero Basin (Spain). Previously available models provide habitat suitability predictions for dominant native tree species, but including non-dominant tree species in the forest restoration planning may be desirable to promote biodiversity, specially in largely deforested areas were near seed sources are not expected. We used the Forest Map of Spain as species occurrence data source to maximize the number of modeled tree species. Penalized logistic regression was used to train models using climate and lithological predictors. Using model predictions a set of tools were developed to support species selection in forest restoration planning. Model predictions were used to build ordered lists of suitable species for each cell of the study area. The suitable species lists were summarized drawing maps that showed the two most suitable species for each cell. Additionally, potential distribution maps of the suitable species for the study area were drawn. For a scenario with two dominant species, the models predicted a mixed forest (Quercus ilex and a coniferous tree species) for almost one half of the study area. According to the models, 22 non-dominant native tree species are suitable for the study area, with up to six suitable species per cell. The model predictions pointed to Crataegus monogyna, Juniperus communis, J.oxycedrus and J.phoenicea as the most suitable non-dominant native tree species in the study area. Our results encourage further use of ecological niche models for forest restoration planning in largely deforested regions.
Resumo:
Multi-dimensional Bayesian network classifiers (MBCs) are probabilistic graphical models recently proposed to deal with multi-dimensional classification problems, where each instance in the data set has to be assigned to more than one class variable. In this paper, we propose a Markov blanket-based approach for learning MBCs from data. Basically, it consists of determining the Markov blanket around each class variable using the HITON algorithm, then specifying the directionality over the MBC subgraphs. Our approach is applied to the prediction problem of the European Quality of Life-5 Dimensions (EQ-5D) from the 39-item Parkinson’s Disease Questionnaire (PDQ-39) in order to estimate the health-related quality of life of Parkinson’s patients. Fivefold cross-validation experiments were carried out on randomly generated synthetic data sets, Yeast data set, as well as on a real-world Parkinson’s disease data set containing 488 patients. The experimental study, including comparison with additional Bayesian network-based approaches, back propagation for multi-label learning, multi-label k-nearest neighbor, multinomial logistic regression, ordinary least squares, and censored least absolute deviations, shows encouraging results in terms of predictive accuracy as well as the identification of dependence relationships among class and feature variables.
Resumo:
Hoy en día, con la evolución continua y rápida de las tecnologías de la información y los dispositivos de computación, se recogen y almacenan continuamente grandes volúmenes de datos en distintos dominios y a través de diversas aplicaciones del mundo real. La extracción de conocimiento útil de una cantidad tan enorme de datos no se puede realizar habitualmente de forma manual, y requiere el uso de técnicas adecuadas de aprendizaje automático y de minería de datos. La clasificación es una de las técnicas más importantes que ha sido aplicada con éxito a varias áreas. En general, la clasificación se compone de dos pasos principales: en primer lugar, aprender un modelo de clasificación o clasificador a partir de un conjunto de datos de entrenamiento, y en segundo lugar, clasificar las nuevas instancias de datos utilizando el clasificador aprendido. La clasificación es supervisada cuando todas las etiquetas están presentes en los datos de entrenamiento (es decir, datos completamente etiquetados), semi-supervisada cuando sólo algunas etiquetas son conocidas (es decir, datos parcialmente etiquetados), y no supervisada cuando todas las etiquetas están ausentes en los datos de entrenamiento (es decir, datos no etiquetados). Además, aparte de esta taxonomía, el problema de clasificación se puede categorizar en unidimensional o multidimensional en función del número de variables clase, una o más, respectivamente; o también puede ser categorizado en estacionario o cambiante con el tiempo en función de las características de los datos y de la tasa de cambio subyacente. A lo largo de esta tesis, tratamos el problema de clasificación desde tres perspectivas diferentes, a saber, clasificación supervisada multidimensional estacionaria, clasificación semisupervisada unidimensional cambiante con el tiempo, y clasificación supervisada multidimensional cambiante con el tiempo. Para llevar a cabo esta tarea, hemos usado básicamente los clasificadores Bayesianos como modelos. La primera contribución, dirigiéndose al problema de clasificación supervisada multidimensional estacionaria, se compone de dos nuevos métodos de aprendizaje de clasificadores Bayesianos multidimensionales a partir de datos estacionarios. Los métodos se proponen desde dos puntos de vista diferentes. El primer método, denominado CB-MBC, se basa en una estrategia de envoltura de selección de variables que es voraz y hacia delante, mientras que el segundo, denominado MB-MBC, es una estrategia de filtrado de variables con una aproximación basada en restricciones y en el manto de Markov. Ambos métodos han sido aplicados a dos problemas reales importantes, a saber, la predicción de los inhibidores de la transcriptasa inversa y de la proteasa para el problema de infección por el virus de la inmunodeficiencia humana tipo 1 (HIV-1), y la predicción del European Quality of Life-5 Dimensions (EQ-5D) a partir de los cuestionarios de la enfermedad de Parkinson con 39 ítems (PDQ-39). El estudio experimental incluye comparaciones de CB-MBC y MB-MBC con los métodos del estado del arte de la clasificación multidimensional, así como con métodos comúnmente utilizados para resolver el problema de predicción de la enfermedad de Parkinson, a saber, la regresión logística multinomial, mínimos cuadrados ordinarios, y mínimas desviaciones absolutas censuradas. En ambas aplicaciones, los resultados han sido prometedores con respecto a la precisión de la clasificación, así como en relación al análisis de las estructuras gráficas que identifican interacciones conocidas y novedosas entre las variables. La segunda contribución, referida al problema de clasificación semi-supervisada unidimensional cambiante con el tiempo, consiste en un método nuevo (CPL-DS) para clasificar flujos de datos parcialmente etiquetados. Los flujos de datos difieren de los conjuntos de datos estacionarios en su proceso de generación muy rápido y en su aspecto de cambio de concepto. Es decir, los conceptos aprendidos y/o la distribución subyacente están probablemente cambiando y evolucionando en el tiempo, lo que hace que el modelo de clasificación actual sea obsoleto y deba ser actualizado. CPL-DS utiliza la divergencia de Kullback-Leibler y el método de bootstrapping para cuantificar y detectar tres tipos posibles de cambio: en las predictoras, en la a posteriori de la clase o en ambas. Después, si se detecta cualquier cambio, un nuevo modelo de clasificación se aprende usando el algoritmo EM; si no, el modelo de clasificación actual se mantiene sin modificaciones. CPL-DS es general, ya que puede ser aplicado a varios modelos de clasificación. Usando dos modelos diferentes, el clasificador naive Bayes y la regresión logística, CPL-DS se ha probado con flujos de datos sintéticos y también se ha aplicado al problema real de la detección de código malware, en el cual los nuevos ficheros recibidos deben ser continuamente clasificados en malware o goodware. Los resultados experimentales muestran que nuestro método es efectivo para la detección de diferentes tipos de cambio a partir de los flujos de datos parcialmente etiquetados y también tiene una buena precisión de la clasificación. Finalmente, la tercera contribución, sobre el problema de clasificación supervisada multidimensional cambiante con el tiempo, consiste en dos métodos adaptativos, a saber, Locally Adpative-MB-MBC (LA-MB-MBC) y Globally Adpative-MB-MBC (GA-MB-MBC). Ambos métodos monitorizan el cambio de concepto a lo largo del tiempo utilizando la log-verosimilitud media como métrica y el test de Page-Hinkley. Luego, si se detecta un cambio de concepto, LA-MB-MBC adapta el actual clasificador Bayesiano multidimensional localmente alrededor de cada nodo cambiado, mientras que GA-MB-MBC aprende un nuevo clasificador Bayesiano multidimensional. El estudio experimental realizado usando flujos de datos sintéticos multidimensionales indica los méritos de los métodos adaptativos propuestos. ABSTRACT Nowadays, with the ongoing and rapid evolution of information technology and computing devices, large volumes of data are continuously collected and stored in different domains and through various real-world applications. Extracting useful knowledge from such a huge amount of data usually cannot be performed manually, and requires the use of adequate machine learning and data mining techniques. Classification is one of the most important techniques that has been successfully applied to several areas. Roughly speaking, classification consists of two main steps: first, learn a classification model or classifier from an available training data, and secondly, classify the new incoming unseen data instances using the learned classifier. Classification is supervised when the whole class values are present in the training data (i.e., fully labeled data), semi-supervised when only some class values are known (i.e., partially labeled data), and unsupervised when the whole class values are missing in the training data (i.e., unlabeled data). In addition, besides this taxonomy, the classification problem can be categorized into uni-dimensional or multi-dimensional depending on the number of class variables, one or more, respectively; or can be also categorized into stationary or streaming depending on the characteristics of the data and the rate of change underlying it. Through this thesis, we deal with the classification problem under three different settings, namely, supervised multi-dimensional stationary classification, semi-supervised unidimensional streaming classification, and supervised multi-dimensional streaming classification. To accomplish this task, we basically used Bayesian network classifiers as models. The first contribution, addressing the supervised multi-dimensional stationary classification problem, consists of two new methods for learning multi-dimensional Bayesian network classifiers from stationary data. They are proposed from two different points of view. The first method, named CB-MBC, is based on a wrapper greedy forward selection approach, while the second one, named MB-MBC, is a filter constraint-based approach based on Markov blankets. Both methods are applied to two important real-world problems, namely, the prediction of the human immunodeficiency virus type 1 (HIV-1) reverse transcriptase and protease inhibitors, and the prediction of the European Quality of Life-5 Dimensions (EQ-5D) from 39-item Parkinson’s Disease Questionnaire (PDQ-39). The experimental study includes comparisons of CB-MBC and MB-MBC against state-of-the-art multi-dimensional classification methods, as well as against commonly used methods for solving the Parkinson’s disease prediction problem, namely, multinomial logistic regression, ordinary least squares, and censored least absolute deviations. For both considered case studies, results are promising in terms of classification accuracy as well as regarding the analysis of the learned MBC graphical structures identifying known and novel interactions among variables. The second contribution, addressing the semi-supervised uni-dimensional streaming classification problem, consists of a novel method (CPL-DS) for classifying partially labeled data streams. Data streams differ from the stationary data sets by their highly rapid generation process and their concept-drifting aspect. That is, the learned concepts and/or the underlying distribution are likely changing and evolving over time, which makes the current classification model out-of-date requiring to be updated. CPL-DS uses the Kullback-Leibler divergence and bootstrapping method to quantify and detect three possible kinds of drift: feature, conditional or dual. Then, if any occurs, a new classification model is learned using the expectation-maximization algorithm; otherwise, the current classification model is kept unchanged. CPL-DS is general as it can be applied to several classification models. Using two different models, namely, naive Bayes classifier and logistic regression, CPL-DS is tested with synthetic data streams and applied to the real-world problem of malware detection, where the new received files should be continuously classified into malware or goodware. Experimental results show that our approach is effective for detecting different kinds of drift from partially labeled data streams, as well as having a good classification performance. Finally, the third contribution, addressing the supervised multi-dimensional streaming classification problem, consists of two adaptive methods, namely, Locally Adaptive-MB-MBC (LA-MB-MBC) and Globally Adaptive-MB-MBC (GA-MB-MBC). Both methods monitor the concept drift over time using the average log-likelihood score and the Page-Hinkley test. Then, if a drift is detected, LA-MB-MBC adapts the current multi-dimensional Bayesian network classifier locally around each changed node, whereas GA-MB-MBC learns a new multi-dimensional Bayesian network classifier from scratch. Experimental study carried out using synthetic multi-dimensional data streams shows the merits of both proposed adaptive methods.
Resumo:
RESUMEN El apoyo a la selección de especies a la restauración de la vegetación en España en los últimos 40 años se ha basado fundamentalmente en modelos de distribución de especies, también llamados modelos de nicho ecológico, que estiman la probabilidad de presencia de las especies en función de las condiciones del medio físico (clima, suelo, etc.). Con esta tesis se ha intentado contribuir a la mejora de la capacidad predictiva de los modelos introduciendo algunas propuestas metodológicas adaptadas a los datos disponibles actualmente en España y enfocadas al uso de los modelos en la selección de especies. No siempre se dispone de datos a una resolución espacial adecuada para la escala de los proyectos de restauración de la vegetación. Sin embrago es habitual contar con datos de baja resolución espacial para casi todas las especies vegetales presentes en España. Se propone un método de recalibración que actualiza un modelo de regresión logística de baja resolución espacial con una nueva muestra de alta resolución espacial. El método permite obtener predicciones de calidad aceptable con muestras relativamente pequeñas (25 presencias de la especie) frente a las muestras mucho mayores (más de 100 presencias) que requería una estrategia de modelización convencional que no usara el modelo previo. La selección del método estadístico puede influir decisivamente en la capacidad predictiva de los modelos y por esa razón la comparación de métodos ha recibido mucha atención en la última década. Los estudios previos consideraban a la regresión logística como un método inferior a técnicas más modernas como las de máxima entropía. Los resultados de la tesis demuestran que esa diferencia observada se debe a que los modelos de máxima entropía incluyen técnicas de regularización y la versión de la regresión logística usada en las comparaciones no. Una vez incorporada la regularización a la regresión logística usando penalización, las diferencias en cuanto a capacidad predictiva desaparecen. La regresión logística penalizada es, por tanto, una alternativa más para el ajuste de modelos de distribución de especies y está a la altura de los métodos modernos con mejor capacidad predictiva como los de máxima entropía. A menudo, los modelos de distribución de especies no incluyen variables relativas al suelo debido a que no es habitual que se disponga de mediciones directas de sus propiedades físicas o químicas. La incorporación de datos de baja resolución espacial proveniente de mapas de suelo nacionales o continentales podría ser una alternativa. Los resultados de esta tesis sugieren que los modelos de distribución de especies de alta resolución espacial mejoran de forma ligera pero estadísticamente significativa su capacidad predictiva cuando se incorporan variables relativas al suelo procedente de mapas de baja resolución espacial. La validación es una de las etapas fundamentales del desarrollo de cualquier modelo empírico como los modelos de distribución de especies. Lo habitual es validar los modelos evaluando su capacidad predictiva especie a especie, es decir, comparando en un conjunto de localidades la presencia o ausencia observada de la especie con las predicciones del modelo. Este tipo de evaluación no responde a una cuestión clave en la restauración de la vegetación ¿cuales son las n especies más idóneas para el lugar a restaurar? Se ha propuesto un método de evaluación de modelos adaptado a esta cuestión que consiste en estimar la capacidad de un conjunto de modelos para discriminar entre las especies presentes y ausentes de un lugar concreto. El método se ha aplicado con éxito a la validación de 188 modelos de distribución de especies leñosas orientados a la selección de especies para la restauración de la vegetación en España. Las mejoras metodológicas propuestas permiten mejorar la capacidad predictiva de los modelos de distribución de especies aplicados a la selección de especies en la restauración de la vegetación y también permiten ampliar el número de especies para las que se puede contar con un modelo que apoye la toma de decisiones. SUMMARY During the last 40 years, decision support tools for plant species selection in ecological restoration in Spain have been based on species distribution models (also called ecological niche models), that estimate the probability of occurrence of the species as a function of environmental predictors (e.g., climate, soil). In this Thesis some methodological improvements are proposed to contribute to a better predictive performance of such models, given the current data available in Spain and focusing in the application of the models to selection of species for ecological restoration. Fine grained species distribution data are required to train models to be used at the scale of the ecological restoration projects, but this kind of data are not always available for every species. On the other hand, coarse grained data are available for almost every species in Spain. A recalibration method is proposed that updates a coarse grained logistic regression model using a new fine grained updating sample. The method allows obtaining acceptable predictive performance with reasonably small updating sample (25 occurrences of the species), in contrast with the much larger samples (more than 100 occurrences) required for a conventional modeling approach that discards the coarse grained data. The choice of the statistical method may have a dramatic effect on model performance, therefore comparisons of methods have received much interest in the last decade. Previous studies have shown a poorer performance of the logistic regression compared to novel methods like maximum entropy models. The results of this Thesis show that the observed difference is caused by the fact that maximum entropy models include regularization techniques and the versions of logistic regression compared do not. Once regularization has been added to the logistic regression using a penalization procedure, the differences in model performance disappear. Therefore, penalized logistic regression may be considered one of the best performing methods to model species distributions. Usually, species distribution models do not consider soil related predictors because direct measurements of the chemical or physical properties are often lacking. The inclusion of coarse grained soil data from national or continental soil maps could be a reasonable alternative. The results of this Thesis suggest that the performance of the models slightly increase after including soil predictors form coarse grained soil maps. Model validation is a key stage of the development of empirical models, such as species distribution models. The usual way of validating is based on the evaluation of model performance for each species separately, i.e., comparing observed species presences or absence to predicted probabilities in a set of sites. This kind of evaluation is not informative for a common question in ecological restoration projects: which n species are the most suitable for the environment of the site to be restored? A method has been proposed to address this question that estimates the ability of a set of models to discriminate among present and absent species in a evaluation site. The method has been successfully applied to the validation of 188 species distribution models used to support decisions on species selection for ecological restoration in Spain. The proposed methodological approaches improve the predictive performance of the predictive models applied to species selection in ecological restoration and increase the number of species for which a model that supports decisions can be fitted.
Resumo:
La heterogeneidad del medio geológico introduce en el proyecto de obra subterránea un alto grado de incertidumbre que debe ser debidamente gestionado a fin de reducir los riesgos asociados, que son fundamentalmente de tipo geotécnico. Entre los principales problemas a los que se enfrenta la Mecánica de Rocas moderna en el ámbito de la construcción subterránea, se encuentran la fluencia de roca en túneles (squeezing) y la rotura de pilares de carbón. Es ampliamente conocido que su aparición causa importantes perjuicios en el coste y la seguridad de los proyectos por lo que su estudio, ha estado tradicionalmente vinculado a la predicción de su ocurrencia. Entre las soluciones existentes para la determinación de estos problemas se encuentran las que se basan en métodos analíticos y numéricos. Estas metodologías son capaces de proporcionar un alto nivel de representatividad respecto del comportamiento geotécnico real, sin embargo, su utilización solo es posible cuando se dispone de una suficiente caracterización geotécnica y por tanto de una detallada definición de los parámetros que alimentan los complejos modelos constitutivos y criterios de rotura que los fenómenos estudiados requieren. Como es lógico, este nivel de definición solo es posible cuando se alcanzan etapas avanzadas de proyecto, incluso durante la propia construcción, a fin de calibrar adecuadamente los parámetros introducidos en los modelos, lo que supone una limitación de uso en etapas iniciales, cuando su predicción tiene verdadero sentido. Por su parte, los métodos empíricos permiten proporcionar soluciones a estos complejos problemas de un modo sencillo, con una baja parametrización y, dado su eminente enfoque observacional, de gran fiabilidad cuando se implementan sobre condiciones de contorno similares a las originales. La sencillez y escasez de los parámetros utilizados permiten a estas metodologías ser utilizadas desde las fases preliminares del proyecto, ya que estos constituyen en general, información habitual de fácil y económica adquisición. Este aspecto permite por tanto incorporar la predicción desde el principio del proceso de diseño, anticipando el riesgo en origen. En esta tesis doctoral, se presenta una nueva metodología empírica que sirve para proporcionar predicciones para la ocurrencia de squeezing y el fallo de pilares de carbón basada en una extensa recopilación de información de casos reales de túneles y minas en las que ambos fenómenos fueron evaluados. Esta información, recogida de referencias bibliográficas de prestigio, ha permitido recopilar una de las más extensas bases de datos existentes hasta la fecha relativa a estos fenómenos, lo que supone en sí mismo una importante contribución sobre el estado del arte. Con toda esta información, y con la ayuda de la teoría de clasificadores estadísticos, se ha implementado sobre las bases de datos un clasificador lineal de tipo regresión logística que permite hacer predicciones sobre la ocurrencia de ambos fenómenos en términos de probabilidad, y por tanto ponderar la incertidumbre asociada a la heterogeneidad incorporada por el medio geológico. Este aspecto del desarrollo es el verdadero valor añadido proporcionado por la tesis y la principal ventaja de la solución propuesta respecto de otras metodologías empíricas. Esta capacidad de ponderación probabilística permite al clasificador constituir una solución muy interesante como metodología para la evaluación de riesgo geotécnico y la toma de decisiones. De hecho, y como ejercicio de validación práctica, se ha implementado la solución desarrollada en un modelo coste-beneficio asociado a la optimización del diseño de pilares involucrados en una de mina “virtual” explotada por tajos largos. La capacidad del clasificador para cuantificar la probabilidad de fallo del diseño, junto con una adecuada cuantificación de las consecuencias de ese fallo, ha permitido definir una ley de riesgo que se ha incorporado al balance de costes y beneficios, que es capaz, a partir del redimensionamiento iterativo del sistema de pilares y de la propia configuración de la mina, maximizar el resultado económico del proyecto minero bajo unas condiciones de seguridad aceptables, fijadas de antemano. Geological media variability introduces to the subterranean project a high grade of uncertainty that should be properly managed with the aim to reduce the associated risks, which are mainly geotechnical. Among the major problems facing the modern Rock Mechanics in the field of underground construction are both, the rock squeezing while tunneling and the failure of coal pillars. Given their harmfulness to the cost and safety of the projects, their study has been traditionally linked to the determination of its occurrence. Among the existing solutions for the determination of these problems are those that are based on analytical and numerical methods. Those methodologies allow providing a high level of reliability of the geotechnical behavior, and therefore a detailed definition of the parameters that feed the complex constitutive models and failure criteria that require the studied phenomena. Obviously, this level of definition is only possible when advanced stages of the project are achieved and even during construction in order to properly calibrate the parameters entered in the models, which suppose a limited use in early stages, when the prediction has true sense. Meanwhile, empirical methods provide solutions to these complex problems in a simple way, with low parameterization and, given his observational scope, with highly reliability when implemented on similar conditions to the original context. The simplicity and scarcity of the parameters used allow these methodologies be applied in the early stages of the project, since that information should be commonly easy and cheaply to get. This aspect can therefore incorporate the prediction from the beginning of the design process, anticipating the risk beforehand. This thesis, based on the extensive data collection of case histories of tunnels and underground mines, presents a novel empirical approach used to provide predictions for the occurrence of both, squeezing and coal pillars failures. The information has been collected from prestigious references, providing one of the largest databases to date concerning phenomena, a fact which provides an important contribution to the state of the art. With all this information, and with the aid of the theory of statistical classifiers, it has been implemented on both databases, a type linear logistic regression classifier that allows predictions about the occurrence of these phenomena in terms of probability, and therefore weighting the uncertainty associated with geological variability. This aspect of the development is the real added value provided by the thesis and the main advantage of the proposed solution over other empirical methodologies. This probabilistic weighting capacity, allows being the classifier a very interesting methodology for the evaluation of geotechnical risk and decision making. In fact, in order to provide a practical validation, we have implemented the developed solution within a cost-benefit analysis associated with the optimization of the design of coal pillar systems involved in a "virtual" longwall mine. The ability of the classifier to quantify the probability of failure of the design along with proper quantification of the consequences of that failure, has allowed defining a risk law which is introduced into the cost-benefits model, which is able, from iterative resizing of the pillar system and the configuration of the mine, maximize the economic performance of the mining project under acceptable safety conditions established beforehand.
Resumo:
El consumo mundial, impulsor del desarrollo y crecimiento económico de los pueblos, no ha sido igual para todas las naciones, ya que sus efectos han sido diferentes para los ciudadanos de los países del Norte y los del Sur, principalmente por dos razones: una, porque han originado complejos y diferentes estilos de vida y aspiraciones, lo que ha originado grandes diferencias entre los individuos de unos y otros países, y, dos, por su falta de valores sociales y éticos. Ante esta situación, la sociedad en su conjunto debe tomar conciencia de este hecho, y a través de un consumo responsable y de un mayor conocimiento de las relaciones comerciales entre los pueblos, debe optar por consumir productos elaborados bajo criterios de justicia y equidad. Para ayudar a alcanzar estos objetivos de equidad, solidaridad, justicia y ética, nació el Comercio Justo, que, en el caso de España, llegó con veinte años de retraso en la década de los ochenta. Aunque a día de hoy sus ventas crecen a un buen ritmo, siguen siendo inferiores al resto de los países europeos, por cuatro razones: (1) el desconocimiento que la mayoría de los potenciales consumidores tienen de este movimiento social; (2) la dificultad de acceder a los productos que comercializan; (3) el poco impulso que se ofrece desde las Administraciones Públicas; y, (4) porque hay pocas investigaciones en las que se haya analizado el Comercio Justo desde la perspectiva de la demanda, lo que ha implicado que no haya un conocimiento profundo sobre los consumidores de este tipo de productos y sobre sus motivaciones de compra. En base a todo lo expuesto, el presente trabajo se concibe como un estudio exploratorio, que tiene como objetivo principal analizar el perfil de los consumidores y no consumidores de productos de Comercio Justo, sus motivaciones de compra y no compra, así como las variables que influyen en la intención de compra futura, tanto en el segmento de consumidores actuales, como en el segmento de no consumidores de este tipo de productos. Para la realización de este trabajo, se ha utilizado, por una parte, una metodología cualitativa, que ha permitido acceder a la información sobre las opiniones y actitudes que intervienen en los procesos de decisión de compra; y, por otra, una metodología cuantitativa, a través de una encuesta online dirigida a 6.500 individuos, que ha permitido tener información, a través de sendos análisis descriptivos univariante y bivariante, de los individuos encuestados sobre el objeto del estudio. Para validar los modelos y contrastar las hipótesis planteadas, se ha utilizado el análisis de fiabilidad y validación de las escalas de medición seleccionadas (Alpha de Cronbach); el análisis factorial exploratorio, para comprobar la dimensionalidad y validez convergente de las escalas de medida; el análisis factorial confirmatorio, para validar la idoneidad de los modelos de medida propuestos; la regresión logística, para comprobar la validez del modelo general de la probabilidad de la compra o no compra de productos de Comercio Justo; y la regresión lineal múltiple, para comprobar la validez de los modelos específicos de intención de compra futura en los segmentos de compradores y de no compradores. Para realizar todos estos análisis, se han utilizado las herramientas informáticas SPSS v21 y AMOS. Las principales conclusiones del trabajo son: (1) que se deben establecer unos criterios claros que definan quién es quién en el movimiento de Comercio Justo, sus fines, sus objetivos, los productos que comercializan, así como su funcionamiento y desarrollo en España; (2) que, a pesar de las grandes ventajas y posibilidades del Comercio Justo, hay una falta de demanda de estos productos por parte de los consumidores responsables, debido principalmente a la falta de información-comunicación sobre el propio movimiento, y, muy especialmente, a la falta de información sobre los productos, los canales de comercialización, las políticas de precios, las políticas de comunicación, etc., y a la necesidad de que estos productos estén accesibles en los lugares donde los consumidores hacen su compra habitual; y (3) que el Comercio Justo español debe afrontar una serie de desafíos, como son la coordinación entre las diferentes organizaciones que participan en su desarrollo; la sensibilización de los consumidores; la creación de una imagen de marca que defina de una manera clara y sencilla qué es el Comercio Justo; la orientación al cliente y no al producto; y extender la red de comercialización de productos de Comercio Justo a los canales donde los consumidores hacen su compra habitualmente. ABSTRACT Global consumption, the driver of economic growth and development of nations, is not the same for all countries, since its effects have been different on people coming from the North or the South. This is due mainly to two reasons: firstly, because they have developed complex and different lifestyles and aspirations, which have led to significant differences between individuals of one country and another and secondly, because they lack social and ethical values. Given this situation, society as a whole should be aware of this fact, and through responsible consumption and a greater knowledge of trade relations between countries, should opt for consuming products produced with criteria of justice and equity. Fair Trade began as a way to help reach these goals of equity, solidarity, justice and ethics. In the case of Spain it did not start until 20 years later, in the eighties. Although today sales of Fair Trade products are growing at a good rate, they are still below that of other European countries, for four reasons: (1) unawareness of this social movement; (2) the difficult access to these products; (3) insufficient government support; (4) the limited research carried out to analyse Fair Trade from the perspective of demand, resulting in a lack of knowledge about this type of consumer and their purchasing motivations. Based on the above, the present study is designed as an exploratory investigation, aimed at analyzing the profile of consumers and non-consumers of Fair Trade, their motivations for buying and not buying, as well as the variables which influence future purchase intention in both the current consumer segment, and the non-user segment of such products. To carry out this study we have used, on the one hand, a qualitative methodology, to obtain information about the views and attitudes involved in the purchase decision process; and on the other, a quantitative methodology, through an online survey of 6,500 individuals, which provided information through two separate univariate and bivariate descriptive analysis, of the individuals interviewed about the object of this study. To validate the models and contrast hypotheses, we have used the reliability analysis and validation of the selected measurement scales (Cronbach's Alpha); exploratory factor analysis to verify the dimensionality and convergent validity of the measurement scales; confirmatory factor analysis to validate the adequacy of the models of measurement proposed; logistic regression, to verify the validity of the general model of the probability of buying or not buying Fair Trade products; and multiple linear regression to test the validity of specific models in future purchase intention in the segments of buyers and non-buyers. To carry out these analyses, we used SPSS v21 software tools and AMOS. The principal conclusions of the investigation are: (1) the need to establish clear criteria which define who is who in the Fair Trade movement, its goals, objectives, the products they sell, as well as its operation and development in Spain; (2) that despite the great advantages and possibilities of Fair Trade, there is a lack of demand for these products by responsible consumers, mainly due to the lack of information-communication about the movement itself, and especially on the range of products, sales channels, pricing policies, communication policies, etc., and the need for these products to be available in places where consumers make their usual purchase; and (3) that Spanish Fair Trade must address a number of challenges such as: coordination between the different organizations involved in trade development; consumer awareness; creation of a brand image that defines in a clear and simple way what Fair Trade is; focus on the customer rather than the product; and expansion of the network of Fair Trade sales outlets to include the channels where consumers usually make their purchases.
Resumo:
El minuto final de un partido ajustado de baloncesto es un momento crítico que está sujeto a multitud de factores que influyen en su desarrollo. Así, el porcentaje de acierto en los tiros libres durante ese periodo de tiempo va a determinar, en muchas ocasiones, el resultado final del partido. La disminución de rendimiento (drop) en esta faceta de juego en condiciones de presión, puede estar relacionada con múltiples variables propias del contexto deportivo estudiado, como por ejemplo: los segundos restantes de posesión, la situación en el marcador (ir ganando, empatando o perdiendo), la localización del partido (jugar en casa o fuera), la fase de competición (fase regular o eliminatorias) o el nivel del equipo (mejores/peores equipos). Además, las características del jugador que realiza los lanzamientos tienen una gran importancia respecto a su edad y años de experiencia para afrontar los momentos críticos, así como el puesto de juego que ocupa en el equipo. En este sentido, la combinación de factores del contexto y del jugador, permiten interactuar en el rendimiento del lanzador en los momentos finales de partido durante sus lanzamientos de tiro libre. El presente trabajo de tesis doctoral tiene como objetivo encontrar aquellas variables más relacionadas con la disminución de rendimiento del jugador en los tiros libres durante el último minuto de juego, y la última serie de tiros libres en los partidos ajustados de baloncesto. Para alcanzar el objetivo del estudio se analizaron 124 partidos ajustados (diferencias iguales o inferiores a 2 puntos) de todas las competiciones (fase regular, playoff y copa del Rey) de la liga ACB durante las temporadas 2011-2012 a 2014-2015. Para el registro de variables se analizó el porcentaje de acierto en los tiros libres del lanzador en la liga regular, partido completo, último minuto y última serie. De este modo se trató de analizar qué variables del contexto y del jugador permitían explicar el rendimiento en los tiros libres durante el último minuto, y la última serie de tiros libres del partido. Por otro lado, se trató de conocer el grado de asociación entre el descenso del rendimiento (drop) en los momentos finales de partido, y las variables estudiadas del jugador: puesto de juego, edad, y años de experiencia profesional; mientras que las variables situacionales consideradas fueron: fase de competición, localización, clasificación, tiempo restante, y diferencia parcial en el marcador. Para el análisis de los datos se realizaron dos modelos estadísticos: 1º) un modelo de regresión lineal múltiple para conocer el efecto de las variables independientes en el porcentaje de aciertos del lanzador en el último minuto, y en la última serie de tiros libres del partido; y 2º) un análisis de regresión logística binomial para analizar la relación existente entre la probabilidad de tener un drop (disminución del rendimiento) y las características del lanzador, y las variables situacionales. Los resultados del modelo de regresión lineal múltiple mostraron efectos negativos significativos en el porcentaje de acierto en los tiros libres durante el último minuto, cuando los lanzadores son los pívots (-19,45%). Por otro lado, los resultados durante la última serie mostraron el efecto negativo significativo sobre la posición de pívot (- 19,30%) y la diferencia parcial en el marcador (-3,33%, para cada punto de diferencia en el marcador) en el porcentaje de acierto en los tiros libres. Las variables independientes edad, experiencia profesional, clasificación en la liga regular, fase de competición, localización, y tiempo restante, no revelaron efectos significativos en los modelos de regresión lineal. Los resultados de la regresión logística binomial revelaron que las variables experiencia profesional entre 13 y 18 años (OR = 4,63), jugar de alero (OR = 23,01), y jugar de base (OR = 10,68) están relacionadas con una baja probabilidad de disminuir el rendimiento durante el último minuto del partido; mientras que ir ganando, aumenta esta probabilidad (OR = 0,06). Además, los resultados de la última serie mostraron una menor disminución del rendimiento del jugador cuando tiene entre 13 y 18 años de experiencia (OR = 4,28), y juega de alero (OR = 8,06) o base (OR = 6,34). Por el contrario, las variables situacionales relacionadas con esa disminución del rendimiento del jugador son las fases eliminatorias (OR = 0,22) e ir ganando (OR = 0,04). Los resultados principales del estudio mostraron que existe una disminución del rendimiento del jugador en su porcentaje de acierto en los tiros libres durante el último minuto y en la última serie de lanzamientos del partido, y que está relacionada significativamente con la edad, experiencia profesional, puesto de juego del jugador, y diferencia parcial en el marcador. Encontrando relación también con la fase de competición, durante la última serie de tiros libres del partido. Esta información supone una valiosa información para el entrenador, y su aplicación en el ámbito competitivo real. En este sentido, la creación de simulaciones en el apartado de aplicaciones prácticas, permite predecir el porcentaje de acierto en los tiros libres de un jugador durante los momentos de mayor presión del partido, en base a su perfil de rendimiento. Lo que puede servir para realizar una toma de decisiones más idónea, con el objetivo de lograr el mejor resultado. Del mismo modo, orienta el tipo de proceso de entrenamiento que se ha de seguir, en relación a los jugadores más tendentes al drop, con el objetivo de minimizar el efecto de la presión sobre su capacidad para rendir adecuadamente en la ejecución de los tiros libres, y lograr de esta manera un rendimiento más homogéneo en todos los jugadores del equipo en esta faceta del juego, durante el momento crítico del final de partido. ABSTRACT. The final minute of a close game in basketball is a critical moment which is subject to many factors that influence its development. Thus, the success rate in free-throws during that period will determine, in many cases, the outcome of the game. Decrease of performance (drop) in this facet of play under pressure conditions, may be related to studied own multiple sports context variables, such as the remaining seconds of possession, the situation in the score (to be winning, drawing, or losing) the location of the match (playing at home or away), the competition phase (regular season or playoffs) or team level (best/worst teams). In addition, the characteristics of the player are very important related to his age and years of experience to face the critical moments, as well as his playing position into team. In this sense, the combination of factors in context and player, allows interact about performance of shooter in the final moments of the game during his free-throw shooting. The aim of this present doctoral thesis was find the most related variables to player´s drop in free throws in the last minute of the game and the last row of free-throws in closed games of basketball. To achieve the objective of the study, 124 closed games (less or equal than 2 points difference) were analyzed in every copetition in ACB league (regular season, playoff and cup) from 2011-2012 to 2014-2015 seasons. To record the variables, the percentage of success of the shooter in regular season, full game, last minute, and last row were analyzed. This way, it is tried to analyze which player and context variables explain the free-throw performance in last minute and last row of the game. On the other hand, it is tried to determine the degree of association between decrease of performance (drop) of the player in the final moments, and studied player variables: playing position, age, and years of professional experience; while considered situational variables considered were: competition phase, location, classification, remaining time, and score-line. For data analysis were performed two statistical models: 1) A multiple linear regression model to determine the effect of the independent variables in the succsess percentage of shooter at the last minute, and in the last row of free-throws in the game; and 2) A binomial logistic regression analysis to analyze the relationship between the probability of a drop (lower performance) and the characteristics of the shooter and situational variables. The results of multiple linear regression model showed significant negative effects on the free-throw percentage during last minute, when shooters are centers (-19.45%). On the other hand, results in the last series showed the significant negative effect on the center position (-19.30%) and score-line (-3.33% for each point difference in the score) in the free-throw percentage. The independent variables age, professional experience, ranking in the regular season, competition phase, location, and remaining time, revealed no significant effects on linear regression models. The results of the binomial logistic regression showed that the variables professional experience between 13 and 18 years (OR = 4.63), playing forward (OR = 23.01) and playing guard (OR = 10.68) are related to reduce the probability to decrease the performance during the last minute of the game. While wining, increases it (OR = 0.06). Furthermore, the results of the last row showed a reduction in performance degradation when player is between 13 and 18 years of experience (OR = 4.28), and playing forward (OR = 8.06) or guard (OR = 6.34). By contrast, the variables related to the decrease in performance of the player are the knockout phases (OR = 0.22) and wining (OR = 0.04). The main results of the study showed that there is a decrease in performance of the player in the percentage of success in free-throws in the last minute and last row of the game, and it is significantly associated with age, professional experience, and player position. Finding relationship with the competition phase, during last row of free-throws of the game too. This information is a valuable information for the coach, for applying in real competitive environment. In this sense, create simulations in the section of practical applications allows to predict the success rate of free-throw of a player during the most pressing moments of the game, based on their performance profile. What can be used to take more appropriate decisions in order to achieve the best result. Similarly, guides the type of training process must be followed in relation to the most favorable players to drop, in order to minimize the effect of pressure on their ability to perform properly in the execution of the free-throws. And to achieve, in this way, a more consistent performance in all team players in this facet of the game, during the critical moment in the final of the game.