19 resultados para LINEAR-REGRESSION MODELS
em Universidad Politécnica de Madrid
Resumo:
This work proposes an automatic methodology for modeling complex systems. Our methodology is based on the combination of Grammatical Evolution and classical regression to obtain an optimal set of features that take part of a linear and convex model. This technique provides both Feature Engineering and Symbolic Regression in order to infer accurate models with no effort or designer's expertise requirements. As advanced Cloud services are becoming mainstream, the contribution of data centers in the overall power consumption of modern cities is growing dramatically. These facilities consume from 10 to 100 times more power per square foot than typical office buildings. Modeling the power consumption for these infrastructures is crucial to anticipate the effects of aggressive optimization policies, but accurate and fast power modeling is a complex challenge for high-end servers not yet satisfied by analytical approaches. For this case study, our methodology minimizes error in power prediction. This work has been tested using real Cloud applications resulting on an average error in power estimation of 3.98%. Our work improves the possibilities of deriving Cloud energy efficient policies in Cloud data centers being applicable to other computing environments with similar characteristics.
Resumo:
Linear regression is a technique widely used in digital signal processing. It consists on finding the linear function that better fits a given set of samples. This paper proposes different hardware architectures for the implementation of the linear regression method on FPGAs, specially targeting area restrictive systems. It saves area at the cost of constraining the lengths of the input signal to some fixed values. We have implemented the proposed scheme in an Automatic Modulation Classifier, meeting the hard real-time constraints this kind of systems have.
Resumo:
Algorithms for distributed agreement are a powerful means for formulating distributed versions of existing centralized algorithms. We present a toolkit for this task and show how it can be used systematically to design fully distributed algorithms for static linear Gaussian models, including principal component analysis, factor analysis, and probabilistic principal component analysis. These algorithms do not rely on a fusion center, require only low-volume local (1-hop neighborhood) communications, and are thus efficient, scalable, and robust. We show how they are also guaranteed to asymptotically converge to the same solution as the corresponding existing centralized algorithms. Finally, we illustrate the functioning of our algorithms on two examples, and examine the inherent cost-performance tradeoff.
Resumo:
Aplicación de simulación de Monte Carlo y técnicas de Análisis de la Varianza (ANOVA) a la comparación de modelos estocásticos dinámicos para accidentes de tráfico.
Resumo:
We present a model of Bayesian network for continuous variables, where densities and conditional densities are estimated with B-spline MoPs. We use a novel approach to directly obtain conditional densities estimation using B-spline properties. In particular we implement naive Bayes and wrapper variables selection. Finally we apply our techniques to the problem of predicting neurons morphological variables from electrophysiological ones.
Resumo:
El propósito de esta tesis fue estudiar el rendimiento ofensivo de los equipos de balonmano de élite cuando se considera el balonmano como un sistema dinámico complejo no lineal. La perspectiva de análisis dinámica dependiente del tiempo fue adoptada para evaluar el rendimiento de los equipos durante el partido. La muestra general comprendió los 240 partidos jugados en la temporada 2011-2012 de la liga profesional masculina de balonmano de España (Liga ASOBAL). En el análisis posterior solo se consideraron los partidos ajustados (diferencia final de goles ≤ 5; n = 142). El estado del marcador, la localización del partido, el nivel de los oponentes y el periodo de juego fueron incorporados al análisis como variables situacionales. Tres estudios compusieron el núcleo de la tesis. En el primer estudio, analizamos la coordinación entre las series temporales que representan el proceso goleador a lo largo del partido de cada uno de los dos equipos que se enfrentan. Autocorrelaciones, correlaciones cruzadas, doble media móvil y transformada de Hilbert fueron usadas para el análisis. El proceso goleador de los equipos presentó una alta consistencia a lo largo de todos los partidos, así como fuertes modos de coordinación en fase en todos los contextos de juego. Las únicas diferencias se encontraron en relación al periodo de juego. La coordinación en los procesos goleadores de los equipos fue significativamente menor en el 1er y 2º periodo (0–10 min y 10–20 min), mostrando una clara coordinación creciente a medida que el partido avanzaba. Esto sugiere que son los 20 primeros minutos aquellos que rompen los partidos. En el segundo estudio, analizamos los efectos temporales (efecto inmediato, a corto y a medio plazo) de los tiempos muertos en el rendimiento goleador de los equipos. Modelos de regresión lineal múltiple fueron empleados para el análisis. Los resultados mostraron incrementos de 0.59, 1.40 y 1.85 goles para los periodos que comprenden la primera, tercera y quinta posesión de los equipos que pidieron el tiempo muerto. Inversamente, se encontraron efectos significativamente negativos para los equipos rivales, con decrementos de 0.50, 1.43 y 2.05 goles en los mismos periodos respectivamente. La influencia de las variables situacionales solo se registró en ciertos periodos de juego. Finalmente, en el tercer estudio, analizamos los efectos temporales de las exclusiones de los jugadores sobre el rendimiento goleador de los equipos, tanto para los equipos que sufren la exclusión (inferioridad numérica) como para los rivales (superioridad numérica). Se emplearon modelos de regresión lineal múltiple para el análisis. Los resultados mostraron efectos negativos significativos en el número de goles marcados por los equipos con un jugador menos, con decrementos de 0.25, 0.40, 0.61, 0.62 y 0.57 goles para los periodos que comprenden el primer, segundo, tercer, cuarto y quinto minutos previos y posteriores a la exclusión. Para los rivales, los resultados mostraron efectos positivos significativos, con incrementos de la misma magnitud en los mismos periodos. Esta tendencia no se vio afectada por el estado del marcador, localización del partido, nivel de los oponentes o periodo de juego. Los incrementos goleadores fueron menores de lo que se podría esperar de una superioridad numérica de 2 minutos. Diferentes teorías psicológicas como la paralización ante situaciones de presión donde se espera un gran rendimiento pueden ayudar a explicar este hecho. Los últimos capítulos de la tesis enumeran las conclusiones principales y presentan diferentes aplicaciones prácticas que surgen de los tres estudios. Por último, se presentan las limitaciones y futuras líneas de investigación. ABSTRACT The purpose of this thesis was to investigate the offensive performance of elite handball teams when considering handball as a complex non-linear dynamical system. The time-dependent dynamic approach was adopted to assess teams’ performance during the game. The overall sample comprised the 240 games played in the season 2011-2012 of men’s Spanish Professional Handball League (ASOBAL League). In the subsequent analyses, only close games (final goal-difference ≤ 5; n = 142) were considered. Match status, game location, quality of opposition, and game period situational variables were incorporated into the analysis. Three studies composed the core of the thesis. In the first study, we analyzed the game-scoring coordination between the time series representing the scoring processes of the two opposing teams throughout the game. Autocorrelation, cross-correlation, double moving average, and Hilbert transform were used for analysis. The scoring processes of the teams presented a high consistency across all the games as well as strong in-phase modes of coordination in all the game contexts. The only differences were found when controlling for the game period. The coordination in the scoring processes of the teams was significantly lower for the 1st and 2nd period (0–10 min and 10–20 min), showing a clear increasing coordination behavior as the game progressed. This suggests that the first 20 minutes are those that break the game-scoring. In the second study, we analyzed the temporal effects (immediate effect, short-term effect, and medium-term effect) of team timeouts on teams’ scoring performance. Multiple linear regression models were used for the analysis. The results showed increments of 0.59, 1.40 and 1.85 goals for the periods within the first, third and fifth timeout ball possessions for the teams that requested the timeout. Conversely, significant negative effects on goals scored were found for the opponent teams, with decrements of 0.59, 1.43 and 2.04 goals for the same periods, respectively. The influence of situational variables on the scoring performance was only registered in certain game periods. Finally, in the third study, we analyzed the players’ exclusions temporal effects on teams’ scoring performance, for the teams that suffer the exclusion (numerical inferiority) and for the opponents (numerical superiority). Multiple linear regression models were used for the analysis. The results showed significant negative effects on the number of goals scored for the teams with one less player, with decrements of 0.25, 0.40, 0.61, 0.62, and 0.57 goals for the periods within the previous and post one, two, three, four and five minutes of play. For the opponent teams, the results showed positive effects, with increments of the same magnitude in the same game periods. This trend was not affected by match status, game location, quality of opposition, or game period. The scoring increments were smaller than might be expected from a 2-minute numerical playing superiority. Psychological theories such as choking under pressure situations where good performance is expected could contribute to explain this finding. The final chapters of the thesis enumerate the main conclusions and underline the main practical applications that arise from the three studies. Lastly, limitations and future research directions are described.
Resumo:
El minuto final de un partido ajustado de baloncesto es un momento crítico que está sujeto a multitud de factores que influyen en su desarrollo. Así, el porcentaje de acierto en los tiros libres durante ese periodo de tiempo va a determinar, en muchas ocasiones, el resultado final del partido. La disminución de rendimiento (drop) en esta faceta de juego en condiciones de presión, puede estar relacionada con múltiples variables propias del contexto deportivo estudiado, como por ejemplo: los segundos restantes de posesión, la situación en el marcador (ir ganando, empatando o perdiendo), la localización del partido (jugar en casa o fuera), la fase de competición (fase regular o eliminatorias) o el nivel del equipo (mejores/peores equipos). Además, las características del jugador que realiza los lanzamientos tienen una gran importancia respecto a su edad y años de experiencia para afrontar los momentos críticos, así como el puesto de juego que ocupa en el equipo. En este sentido, la combinación de factores del contexto y del jugador, permiten interactuar en el rendimiento del lanzador en los momentos finales de partido durante sus lanzamientos de tiro libre. El presente trabajo de tesis doctoral tiene como objetivo encontrar aquellas variables más relacionadas con la disminución de rendimiento del jugador en los tiros libres durante el último minuto de juego, y la última serie de tiros libres en los partidos ajustados de baloncesto. Para alcanzar el objetivo del estudio se analizaron 124 partidos ajustados (diferencias iguales o inferiores a 2 puntos) de todas las competiciones (fase regular, playoff y copa del Rey) de la liga ACB durante las temporadas 2011-2012 a 2014-2015. Para el registro de variables se analizó el porcentaje de acierto en los tiros libres del lanzador en la liga regular, partido completo, último minuto y última serie. De este modo se trató de analizar qué variables del contexto y del jugador permitían explicar el rendimiento en los tiros libres durante el último minuto, y la última serie de tiros libres del partido. Por otro lado, se trató de conocer el grado de asociación entre el descenso del rendimiento (drop) en los momentos finales de partido, y las variables estudiadas del jugador: puesto de juego, edad, y años de experiencia profesional; mientras que las variables situacionales consideradas fueron: fase de competición, localización, clasificación, tiempo restante, y diferencia parcial en el marcador. Para el análisis de los datos se realizaron dos modelos estadísticos: 1º) un modelo de regresión lineal múltiple para conocer el efecto de las variables independientes en el porcentaje de aciertos del lanzador en el último minuto, y en la última serie de tiros libres del partido; y 2º) un análisis de regresión logística binomial para analizar la relación existente entre la probabilidad de tener un drop (disminución del rendimiento) y las características del lanzador, y las variables situacionales. Los resultados del modelo de regresión lineal múltiple mostraron efectos negativos significativos en el porcentaje de acierto en los tiros libres durante el último minuto, cuando los lanzadores son los pívots (-19,45%). Por otro lado, los resultados durante la última serie mostraron el efecto negativo significativo sobre la posición de pívot (- 19,30%) y la diferencia parcial en el marcador (-3,33%, para cada punto de diferencia en el marcador) en el porcentaje de acierto en los tiros libres. Las variables independientes edad, experiencia profesional, clasificación en la liga regular, fase de competición, localización, y tiempo restante, no revelaron efectos significativos en los modelos de regresión lineal. Los resultados de la regresión logística binomial revelaron que las variables experiencia profesional entre 13 y 18 años (OR = 4,63), jugar de alero (OR = 23,01), y jugar de base (OR = 10,68) están relacionadas con una baja probabilidad de disminuir el rendimiento durante el último minuto del partido; mientras que ir ganando, aumenta esta probabilidad (OR = 0,06). Además, los resultados de la última serie mostraron una menor disminución del rendimiento del jugador cuando tiene entre 13 y 18 años de experiencia (OR = 4,28), y juega de alero (OR = 8,06) o base (OR = 6,34). Por el contrario, las variables situacionales relacionadas con esa disminución del rendimiento del jugador son las fases eliminatorias (OR = 0,22) e ir ganando (OR = 0,04). Los resultados principales del estudio mostraron que existe una disminución del rendimiento del jugador en su porcentaje de acierto en los tiros libres durante el último minuto y en la última serie de lanzamientos del partido, y que está relacionada significativamente con la edad, experiencia profesional, puesto de juego del jugador, y diferencia parcial en el marcador. Encontrando relación también con la fase de competición, durante la última serie de tiros libres del partido. Esta información supone una valiosa información para el entrenador, y su aplicación en el ámbito competitivo real. En este sentido, la creación de simulaciones en el apartado de aplicaciones prácticas, permite predecir el porcentaje de acierto en los tiros libres de un jugador durante los momentos de mayor presión del partido, en base a su perfil de rendimiento. Lo que puede servir para realizar una toma de decisiones más idónea, con el objetivo de lograr el mejor resultado. Del mismo modo, orienta el tipo de proceso de entrenamiento que se ha de seguir, en relación a los jugadores más tendentes al drop, con el objetivo de minimizar el efecto de la presión sobre su capacidad para rendir adecuadamente en la ejecución de los tiros libres, y lograr de esta manera un rendimiento más homogéneo en todos los jugadores del equipo en esta faceta del juego, durante el momento crítico del final de partido. ABSTRACT. The final minute of a close game in basketball is a critical moment which is subject to many factors that influence its development. Thus, the success rate in free-throws during that period will determine, in many cases, the outcome of the game. Decrease of performance (drop) in this facet of play under pressure conditions, may be related to studied own multiple sports context variables, such as the remaining seconds of possession, the situation in the score (to be winning, drawing, or losing) the location of the match (playing at home or away), the competition phase (regular season or playoffs) or team level (best/worst teams). In addition, the characteristics of the player are very important related to his age and years of experience to face the critical moments, as well as his playing position into team. In this sense, the combination of factors in context and player, allows interact about performance of shooter in the final moments of the game during his free-throw shooting. The aim of this present doctoral thesis was find the most related variables to player´s drop in free throws in the last minute of the game and the last row of free-throws in closed games of basketball. To achieve the objective of the study, 124 closed games (less or equal than 2 points difference) were analyzed in every copetition in ACB league (regular season, playoff and cup) from 2011-2012 to 2014-2015 seasons. To record the variables, the percentage of success of the shooter in regular season, full game, last minute, and last row were analyzed. This way, it is tried to analyze which player and context variables explain the free-throw performance in last minute and last row of the game. On the other hand, it is tried to determine the degree of association between decrease of performance (drop) of the player in the final moments, and studied player variables: playing position, age, and years of professional experience; while considered situational variables considered were: competition phase, location, classification, remaining time, and score-line. For data analysis were performed two statistical models: 1) A multiple linear regression model to determine the effect of the independent variables in the succsess percentage of shooter at the last minute, and in the last row of free-throws in the game; and 2) A binomial logistic regression analysis to analyze the relationship between the probability of a drop (lower performance) and the characteristics of the shooter and situational variables. The results of multiple linear regression model showed significant negative effects on the free-throw percentage during last minute, when shooters are centers (-19.45%). On the other hand, results in the last series showed the significant negative effect on the center position (-19.30%) and score-line (-3.33% for each point difference in the score) in the free-throw percentage. The independent variables age, professional experience, ranking in the regular season, competition phase, location, and remaining time, revealed no significant effects on linear regression models. The results of the binomial logistic regression showed that the variables professional experience between 13 and 18 years (OR = 4.63), playing forward (OR = 23.01) and playing guard (OR = 10.68) are related to reduce the probability to decrease the performance during the last minute of the game. While wining, increases it (OR = 0.06). Furthermore, the results of the last row showed a reduction in performance degradation when player is between 13 and 18 years of experience (OR = 4.28), and playing forward (OR = 8.06) or guard (OR = 6.34). By contrast, the variables related to the decrease in performance of the player are the knockout phases (OR = 0.22) and wining (OR = 0.04). The main results of the study showed that there is a decrease in performance of the player in the percentage of success in free-throws in the last minute and last row of the game, and it is significantly associated with age, professional experience, and player position. Finding relationship with the competition phase, during last row of free-throws of the game too. This information is a valuable information for the coach, for applying in real competitive environment. In this sense, create simulations in the section of practical applications allows to predict the success rate of free-throw of a player during the most pressing moments of the game, based on their performance profile. What can be used to take more appropriate decisions in order to achieve the best result. Similarly, guides the type of training process must be followed in relation to the most favorable players to drop, in order to minimize the effect of pressure on their ability to perform properly in the execution of the free-throws. And to achieve, in this way, a more consistent performance in all team players in this facet of the game, during the critical moment in the final of the game.
Resumo:
Locally weighted regression is a technique that predicts the response for new data items from their neighbors in the training data set, where closer data items are assigned higher weights in the prediction. However, the original method may suffer from overfitting and fail to select the relevant variables. In this paper we propose combining a regularization approach with locally weighted regression to achieve sparse models. Specifically, the lasso is a shrinkage and selection method for linear regression. We present an algorithm that embeds lasso in an iterative procedure that alternatively computes weights and performs lasso-wise regression. The algorithm is tested on three synthetic scenarios and two real data sets. Results show that the proposed method outperforms linear and local models for several kinds of scenarios
Resumo:
Time domain laser reflectance spectroscopy (TDRS) was applied for the first time to evaluate internal fruit quality. This technique, known in medicine-related knowledge areas, has not been used before in agricultural or food research. It allows the simultaneous non-destructive measuring of two optical characteristics of the tissues: light scattering and absorption. Models to measure firmness, sugar & acid contents in kiwifruit, tomato, apple, peach, nectarine and other fruits were built using sequential statistical techniques: principal component analysis, multiple stepwise linear regression, clustering and discriminant analysis. Consistent correlations were established between the two parameters measured with TDRS, i.e. absorption & transport scattering coefficients, with chemical constituents (sugars and acids) and firmness, respectively. Classification models were built to sort fruits into three quality grades, according to their firmness, soluble solids and acidity.
Resumo:
Abstract Air pollution is a big threat and a phenomenon that has a specific impact on human health, in addition, changes that occur in the chemical composition of the atmosphere can change the weather and cause acid rain or ozone destruction. Those are phenomena of global importance. The World Health Organization (WHO) considerates air pollution as one of the most important global priorities. Salamanca, Gto., Mexico has been ranked as one of the most polluted cities in this country. The industry of the area led to a major economic development and rapid population growth in the second half of the twentieth century. The impact in the air quality is important and significant efforts have been made to measure the concentrations of pollutants. The main pollution sources are locally based plants in the chemical and power generation sectors. The registered concerning pollutants are Sulphur Dioxide (SO2) and particles on the order of ∼10 micrometers or less (PM10). The prediction in the concentration of those pollutants can be a powerful tool in order to take preventive measures such as the reduction of emissions and alerting the affected population. In this PhD thesis we propose a model to predict concentrations of pollutants SO2 and PM10 for each monitoring booth in the Atmospheric Monitoring Network Salamanca (REDMAS - for its spanish acronym). The proposed models consider the use of meteorological variables as factors influencing the concentration of pollutants. The information used along this work is the current real data from REDMAS. In the proposed model, Artificial Neural Networks (ANN) combined with clustering algorithms are used. The type of ANN used is the Multilayer Perceptron with a hidden layer, using separate structures for the prediction of each pollutant. The meteorological variables used for prediction were: Wind Direction (WD), wind speed (WS), Temperature (T) and relative humidity (RH). Clustering algorithms, K-means and Fuzzy C-means, are used to find relationships between air pollutants and weather variables under consideration, which are added as input of the RNA. Those relationships provide information to the ANN in order to obtain the prediction of the pollutants. The results of the model proposed in this work are compared with the results of a multivariate linear regression and multilayer perceptron neural network. The evaluation of the prediction is calculated with the mean absolute error, the root mean square error, the correlation coefficient and the index of agreement. The results show the importance of meteorological variables in the prediction of the concentration of the pollutants SO2 and PM10 in the city of Salamanca, Gto., Mexico. The results show that the proposed model perform better than multivariate linear regression and multilayer perceptron neural network. The models implemented for each monitoring booth have the ability to make predictions of air quality that can be used in a system of real-time forecasting and human health impact analysis. Among the main results of the development of this thesis we can cite: A model based on artificial neural network combined with clustering algorithms for prediction with a hour ahead of the concentration of each pollutant (SO2 and PM10) is proposed. A different model was designed for each pollutant and for each of the three monitoring booths of the REDMAS. A model to predict the average of pollutant concentration in the next 24 hours of pollutants SO2 and PM10 is proposed, based on artificial neural network combined with clustering algorithms. Model was designed for each booth of the REDMAS and each pollutant separately. Resumen La contaminación atmosférica es una amenaza aguda, constituye un fenómeno que tiene particular incidencia sobre la salud del hombre. Los cambios que se producen en la composición química de la atmósfera pueden cambiar el clima, producir lluvia ácida o destruir el ozono, fenómenos todos ellos de una gran importancia global. La Organización Mundial de la Salud (OMS) considera la contaminación atmosférica como una de las más importantes prioridades mundiales. Salamanca, Gto., México; ha sido catalogada como una de las ciudades más contaminadas en este país. La industria de la zona propició un importante desarrollo económico y un crecimiento acelerado de la población en la segunda mitad del siglo XX. Las afectaciones en el aire son graves y se han hecho importantes esfuerzos por medir las concentraciones de los contaminantes. Las principales fuentes de contaminación son fuentes fijas como industrias químicas y de generación eléctrica. Los contaminantes que se han registrado como preocupantes son el Bióxido de Azufre (SO2) y las Partículas Menores a 10 micrómetros (PM10). La predicción de las concentraciones de estos contaminantes puede ser una potente herramienta que permita tomar medidas preventivas como reducción de emisiones a la atmósfera y alertar a la población afectada. En la presente tesis doctoral se propone un modelo de predicción de concentraci ón de los contaminantes más críticos SO2 y PM10 para cada caseta de monitorización de la Red de Monitorización Atmosférica de Salamanca (REDMAS). Los modelos propuestos plantean el uso de las variables meteorol ógicas como factores que influyen en la concentración de los contaminantes. La información utilizada durante el desarrollo de este trabajo corresponde a datos reales obtenidos de la REDMAS. En el Modelo Propuesto (MP) se aplican Redes Neuronales Artificiales (RNA) combinadas con algoritmos de agrupamiento. La RNA utilizada es el Perceptrón Multicapa con una capa oculta, utilizando estructuras independientes para la predicción de cada contaminante. Las variables meteorológicas disponibles para realizar la predicción fueron: Dirección de Viento (DV), Velocidad de Viento (VV), Temperatura (T) y Humedad Relativa (HR). Los algoritmos de agrupamiento K-means y Fuzzy C-means son utilizados para encontrar relaciones existentes entre los contaminantes atmosféricos en estudio y las variables meteorológicas. Dichas relaciones aportan información a las RNA para obtener la predicción de los contaminantes, la cual es agregada como entrada de las RNA. Los resultados del modelo propuesto en este trabajo son comparados con los resultados de una Regresión Lineal Multivariable (RLM) y un Perceptrón Multicapa (MLP). La evaluación de la predicción se realiza con el Error Medio Absoluto, la Raíz del Error Cuadrático Medio, el coeficiente de correlación y el índice de acuerdo. Los resultados obtenidos muestran la importancia de las variables meteorológicas en la predicción de la concentración de los contaminantes SO2 y PM10 en la ciudad de Salamanca, Gto., México. Los resultados muestran que el MP predice mejor la concentración de los contaminantes SO2 y PM10 que los modelos RLM y MLP. Los modelos implementados para cada caseta de monitorizaci ón tienen la capacidad para realizar predicciones de calidad del aire, estos modelos pueden ser implementados en un sistema que permita realizar la predicción en tiempo real y analizar el impacto en la salud de la población. Entre los principales resultados obtenidos del desarrollo de esta tesis podemos citar: Se propone un modelo basado en una red neuronal artificial combinado con algoritmos de agrupamiento para la predicción con una hora de anticipaci ón de la concentración de cada contaminante (SO2 y PM10). Se diseñó un modelo diferente para cada contaminante y para cada una de las tres casetas de monitorización de la REDMAS. Se propone un modelo de predicción del promedio de la concentración de las próximas 24 horas de los contaminantes SO2 y PM10, basado en una red neuronal artificial combinado con algoritmos de agrupamiento. Se diseñó un modelo para cada caseta de monitorización de la REDMAS y para cada contaminante por separado.
Resumo:
Transportation infrastructure is known to affect the value of real estate property by virtue of changes in accessibility. The impact of transportation facilities is highly localized as well, and it is possible that spillover effects result from the capitalization of accessibility. The objective of this study was to review the theoretical background related to spatial hedonic models and the opportunities that they provided to evaluate the effect of new transportation infrastructure. An empirical case study is presented: the Madrid Metro Line 12, known as Metrosur, in the region of Madrid, Spain. The effect of proximity to metro stations on housing prices was evaluated. The analysis took into account a host of variables, including structure, location, and neighborhood and made use of three modeling approaches: linear regression estimation with ordinary least squares, spatial error, and spatial lag. The results indicated that better accessibility to Metrosur stations had a positive impact on real estate values and that the effect was marked in cases in which a house was for sale. The results also showed the presence of submarkets, which were well defined by geographic boundaries, and transport fares, which implied that the economic benefits differed across municipalities.
Resumo:
We propose a linear regression method for estimating Weibull parameters from life tests. The method uses stochastic models of the unreliability at each failure instant. As a result, a heteroscedastic regression problem arises that is solved by weighted least squares minimization. The main feature of our method is an innovative s-normalization of the failure data models, to obtain analytic expressions of centers and weights for the regression. The method has been Monte Carlo contrasted with Benard?s approximation, and Maximum Likelihood Estimation; and it has the highest global scores for its robustness, and performance.
Resumo:
Prediction at ungauged sites is essential for water resources planning and management. Ungauged sites have no observations about the magnitude of floods, but some site and basin characteristics are known. Regression models relate physiographic and climatic basin characteristics to flood quantiles, which can be estimated from observed data at gauged sites. However, these models assume linear relationships between variables Prediction intervals are estimated by the variance of the residuals in the estimated model. Furthermore, the effect of the uncertainties in the explanatory variables on the dependent variable cannot be assessed. This paper presents a methodology to propagate the uncertainties that arise in the process of predicting flood quantiles at ungauged basins by a regression model. In addition, Bayesian networks were explored as a feasible tool for predicting flood quantiles at ungauged sites. Bayesian networks benefit from taking into account uncertainties thanks to their probabilistic nature. They are able to capture non-linear relationships between variables and they give a probability distribution of discharges as result. The methodology was applied to a case study in the Tagus basin in Spain.
Resumo:
In the last few years there has been a heightened interest in data treatment and analysis with the aim of discovering hidden knowledge and eliciting relationships and patterns within this data. Data mining techniques (also known as Knowledge Discovery in Databases) have been applied over a wide range of fields such as marketing, investment, fraud detection, manufacturing, telecommunications and health. In this study, well-known data mining techniques such as artificial neural networks (ANN), genetic programming (GP), forward selection linear regression (LR) and k-means clustering techniques, are proposed to the health and sports community in order to aid with resistance training prescription. Appropriate resistance training prescription is effective for developing fitness, health and for enhancing general quality of life. Resistance exercise intensity is commonly prescribed as a percent of the one repetition maximum. 1RM, dynamic muscular strength, one repetition maximum or one execution maximum, is operationally defined as the heaviest load that can be moved over a specific range of motion, one time and with correct performance. The safety of the 1RM assessment has been questioned as such an enormous effort may lead to muscular injury. Prediction equations could help to tackle the problem of predicting the 1RM from submaximal loads, in order to avoid or at least, reduce the associated risks. We built different models from data on 30 men who performed up to 5 sets to exhaustion at different percentages of the 1RM in the bench press action, until reaching their actual 1RM. Also, a comparison of different existing prediction equations is carried out. The LR model seems to outperform the ANN and GP models for the 1RM prediction in the range between 1 and 10 repetitions. At 75% of the 1RM some subjects (n = 5) could perform 13 repetitions with proper technique in the bench press action, whilst other subjects (n = 20) performed statistically significant (p < 0:05) more repetitions at 70% than at 75% of their actual 1RM in the bench press action. Rate of perceived exertion (RPE) seems not to be a good predictor for 1RM when all the sets are performed until exhaustion, as no significant differences (p < 0:05) were found in the RPE at 75%, 80% and 90% of the 1RM. Also, years of experience and weekly hours of strength training are better correlated to 1RM (p < 0:05) than body weight. O'Connor et al. 1RM prediction equation seems to arise from the data gathered and seems to be the most accurate 1RM prediction equation from those proposed in literature and used in this study. Epley's 1RM prediction equation is reproduced by means of data simulation from 1RM literature equations. Finally, future lines of research are proposed related to the problem of the 1RM prediction by means of genetic algorithms, neural networks and clustering techniques. RESUMEN En los últimos años ha habido un creciente interés en el tratamiento y análisis de datos con el propósito de descubrir relaciones, patrones y conocimiento oculto en los mismos. Las técnicas de data mining (también llamadas de \Descubrimiento de conocimiento en bases de datos\) se han aplicado consistentemente a lo gran de un gran espectro de áreas como el marketing, inversiones, detección de fraude, producción industrial, telecomunicaciones y salud. En este estudio, técnicas bien conocidas de data mining como las redes neuronales artificiales (ANN), programación genética (GP), regresión lineal con selección hacia adelante (LR) y la técnica de clustering k-means, se proponen a la comunidad del deporte y la salud con el objetivo de ayudar con la prescripción del entrenamiento de fuerza. Una apropiada prescripción de entrenamiento de fuerza es efectiva no solo para mejorar el estado de forma general, sino para mejorar la salud e incrementar la calidad de vida. La intensidad en un ejercicio de fuerza se prescribe generalmente como un porcentaje de la repetición máxima. 1RM, fuerza muscular dinámica, una repetición máxima o una ejecución máxima, se define operacionalmente como la carga máxima que puede ser movida en un rango de movimiento específico, una vez y con una técnica correcta. La seguridad de las pruebas de 1RM ha sido cuestionada debido a que el gran esfuerzo requerido para llevarlas a cabo puede derivar en serias lesiones musculares. Las ecuaciones predictivas pueden ayudar a atajar el problema de la predicción de la 1RM con cargas sub-máximas y son empleadas con el propósito de eliminar o al menos, reducir los riesgos asociados. En este estudio, se construyeron distintos modelos a partir de los datos recogidos de 30 hombres que realizaron hasta 5 series al fallo en el ejercicio press de banca a distintos porcentajes de la 1RM, hasta llegar a su 1RM real. También se muestra una comparación de algunas de las distintas ecuaciones de predicción propuestas con anterioridad. El modelo LR parece superar a los modelos ANN y GP para la predicción de la 1RM entre 1 y 10 repeticiones. Al 75% de la 1RM algunos sujetos (n = 5) pudieron realizar 13 repeticiones con una técnica apropiada en el ejercicio press de banca, mientras que otros (n = 20) realizaron significativamente (p < 0:05) más repeticiones al 70% que al 75% de su 1RM en el press de banca. El ínndice de esfuerzo percibido (RPE) parece no ser un buen predictor del 1RM cuando todas las series se realizan al fallo, puesto que no existen diferencias signifiativas (p < 0:05) en el RPE al 75%, 80% y el 90% de la 1RM. Además, los años de experiencia y las horas semanales dedicadas al entrenamiento de fuerza están más correlacionadas con la 1RM (p < 0:05) que el peso corporal. La ecuación de O'Connor et al. parece surgir de los datos recogidos y parece ser la ecuación de predicción de 1RM más precisa de aquellas propuestas en la literatura y empleadas en este estudio. La ecuación de predicción de la 1RM de Epley es reproducida mediante simulación de datos a partir de algunas ecuaciones de predicción de la 1RM propuestas con anterioridad. Finalmente, se proponen futuras líneas de investigación relacionadas con el problema de la predicción de la 1RM mediante algoritmos genéticos, redes neuronales y técnicas de clustering.
Resumo:
Este estudio profundiza en la estimación de variables forestales a partir de información LiDAR en el Valle de la Fuenfría (Cercedilla, Madrid). Para ello se dispone de dos vuelos realizados con sensor LiDAR en los años 2002 y 2011 y en el invierno de 2013 se ha realizado un inventario de 60 parcelas de campo. En primer lugar se han estimado seis variables dasométricas (volumen, área basimétrica, biomasa total, altura dominante, densidad y diámetro medio cuadrático) para 2013, tanto a nivel de píxel como a nivel de rodal y monte. Se construyeron modelos de regresión lineal múltiple que permitieron estimar con precisión dichas variables. En segundo lugar, se probaron diferentes métodos para la estimación de la distribución diamétrica. Por un lado, el método de predicción de percentiles y, por otro lado, el método de predicción de parámetros. Este segundo método se probó para una función Weibull simple, una función Weibull doble y una combinación de ambas según la distribución que mejor se ajustaba a cada parcela. Sin embargo, ninguno de los métodos ha resultado suficientemente válido para predecir la distribución diamétrica. Por último se estimaron el crecimiento en volumen y área basimétrica a partir de la comparación de los vuelos del 2002 y 2011. A pesar de que la tecnología LiDAR era diferente y solo se disponía de un inventario completo, realizado en 2013, los modelos construidos presentan buenas bondades de ajuste. Asimismo, el crecimiento a nivel de pixel se ha mostrado estar relacionado de forma estadísticamente significativa con la pendiente, orientación y altitud media del píxel. ABSTRACT This project goes in depth on the estimation of forest attributes by means of LiDAR data in Fuenfria’s Valley (Cercedilla, Madrid). The available information was two LiDAR flights (2002 and 2011) and a forest inventory consisting of 60 plots (2013). First, six different dasometric attributes (volume, basal area, total aboveground biomass, top height, density and quadratic mean diameter) were estimated in 2013 both at a pixel, stand and forest level. The models were developed using multiple linear regression and were good enough to predict these attributes with great accuracy. Second, the measured diameter distribution at each plot was fitted to a simple and a double Weibull distribution and different methods for its estimation were tested. Neither parameter prediction method nor percentile prediction method were able to account for the diameter distribution. Finally, volume and top height growths were estimated comparing 2011 LiDAR flight with 2002 LiDAR flight. Even though the LiDAR technology was not the same and there was just one forest inventory with sample plots, the models properly explain the growth. Besides, growth at each pixel is significantly related to its average slope, orientation and altitude.