912 resultados para forward selection component analysis
Resumo:
BACKGROUND It is unknown why patients with extensive ulcerative colitis (UC) have a higher risk of colorectal cancer compared with patients with left-sided UC. This study characterizes the inflammatory processes in left-sided UC, pancolitis, and UC-associated dysplasia at the transcriptional level to identify potential biomarkers and transcripts of importance for the carcinogenic behavior of chronic inflammation. METHODS The Affymetrix GeneChip Human Genome U133 Plus 2.0 was applied on colonic biopsies from UC patients with left-sided UC, pancolitis, dysplasia, and controls. Reverse transcription polymerase chain reaction and immunohistochemistry were performed for validating selected transcripts in the initial cohort and in 2 independent cohorts of patients with UC. Microarray data were analyzed by principal component analysis, and reverse transcription polymerase chain reaction and immunohistochemistry data by the Wilcoxon's rank-sum test. RESULTS The principal component analysis results revealed separate clusters for left-sided UC, pancolitis, dysplasia, and controls. Close clustering of dysplastic and pancolitic samples indicated similarities in gene expression. Indeed, 101 and 656 parallel upregulated and downregulated transcripts, respectively, were identified in specimens from dysplasia and pancolitis. Validation of selected transcripts hereof identified insulin receptor alpha (INSRA) and MAP kinase interacting serine/threonine kinase 2 (MKNK2) with an enhanced expression in dysplasia compared with left-sided UC and controls, whereas laminin γ2 (LAMC2) was found with a lower expression in dysplasia compared with the remaining 3 groups. CONCLUSIONS This study demonstrates pancolitis and left-sided UC as distinct inflammatory processes at the transcriptional level, and identifies INSRA, MKNK2, and LAMC2 as potential critical transcripts in the inflammation-driven preneoplastic process of UC.
Resumo:
Shetland ponies were selected for numerous traits including small stature, strength, hardiness and longevity. Despite the different selection criteria, Shetland ponies are well known for their small stature. We performed a selection signature analysis including genome-wide SNPs of 75 Shetland ponies and 76 large-sized horses. Based upon this dataset, we identified a selection signature on equine chromosome (ECA) 1 between 103.8 Mb and 108.5 Mb. A total of 33 annotated genes are located within this interval including the IGF1R gene at 104.2 Mb and the ADAMTS17 gene at 105.4 Mb. These two genes are well known to have a major impact on body height in numerous species including humans. Homozygosity mapping in the Shetland ponies identified a region with increased homozygosity between 107.4 Mb and 108.5 Mb. None of the annotated genes in this region have so far been associated with height. Thus, we cannot exclude the possibility that the identified selection signature on ECA1 is associated with some trait other than height, for which Shetland ponies were selected.
Resumo:
In population studies, most current methods focus on identifying one outcome-related SNP at a time by testing for differences of genotype frequencies between disease and healthy groups or among different population groups. However, testing a great number of SNPs simultaneously has a problem of multiple testing and will give false-positive results. Although, this problem can be effectively dealt with through several approaches such as Bonferroni correction, permutation testing and false discovery rates, patterns of the joint effects by several genes, each with weak effect, might not be able to be determined. With the availability of high-throughput genotyping technology, searching for multiple scattered SNPs over the whole genome and modeling their joint effect on the target variable has become possible. Exhaustive search of all SNP subsets is computationally infeasible for millions of SNPs in a genome-wide study. Several effective feature selection methods combined with classification functions have been proposed to search for an optimal SNP subset among big data sets where the number of feature SNPs far exceeds the number of observations. ^ In this study, we take two steps to achieve the goal. First we selected 1000 SNPs through an effective filter method and then we performed a feature selection wrapped around a classifier to identify an optimal SNP subset for predicting disease. And also we developed a novel classification method-sequential information bottleneck method wrapped inside different search algorithms to identify an optimal subset of SNPs for classifying the outcome variable. This new method was compared with the classical linear discriminant analysis in terms of classification performance. Finally, we performed chi-square test to look at the relationship between each SNP and disease from another point of view. ^ In general, our results show that filtering features using harmononic mean of sensitivity and specificity(HMSS) through linear discriminant analysis (LDA) is better than using LDA training accuracy or mutual information in our study. Our results also demonstrate that exhaustive search of a small subset with one SNP, two SNPs or 3 SNP subset based on best 100 composite 2-SNPs can find an optimal subset and further inclusion of more SNPs through heuristic algorithm doesn't always increase the performance of SNP subsets. Although sequential forward floating selection can be applied to prevent from the nesting effect of forward selection, it does not always out-perform the latter due to overfitting from observing more complex subset states. ^ Our results also indicate that HMSS as a criterion to evaluate the classification ability of a function can be used in imbalanced data without modifying the original dataset as against classification accuracy. Our four studies suggest that Sequential Information Bottleneck(sIB), a new unsupervised technique, can be adopted to predict the outcome and its ability to detect the target status is superior to the traditional LDA in the study. ^ From our results we can see that the best test probability-HMSS for predicting CVD, stroke,CAD and psoriasis through sIB is 0.59406, 0.641815, 0.645315 and 0.678658, respectively. In terms of group prediction accuracy, the highest test accuracy of sIB for diagnosing a normal status among controls can reach 0.708999, 0.863216, 0.639918 and 0.850275 respectively in the four studies if the test accuracy among cases is required to be not less than 0.4. On the other hand, the highest test accuracy of sIB for diagnosing a disease among cases can reach 0.748644, 0.789916, 0.705701 and 0.749436 respectively in the four studies if the test accuracy among controls is required to be at least 0.4. ^ A further genome-wide association study through Chi square test shows that there are no significant SNPs detected at the cut-off level 9.09451E-08 in the Framingham heart study of CVD. Study results in WTCCC can only detect two significant SNPs that are associated with CAD. In the genome-wide study of psoriasis most of top 20 SNP markers with impressive classification accuracy are also significantly associated with the disease through chi-square test at the cut-off value 1.11E-07. ^ Although our classification methods can achieve high accuracy in the study, complete descriptions of those classification results(95% confidence interval or statistical test of differences) require more cost-effective methods or efficient computing system, both of which can't be accomplished currently in our genome-wide study. We should also note that the purpose of this study is to identify subsets of SNPs with high prediction ability and those SNPs with good discriminant power are not necessary to be causal markers for the disease.^
Resumo:
Strategies are compared for the development of a linear regression model with stochastic (multivariate normal) regressor variables and the subsequent assessment of its predictive ability. Bias and mean squared error of four estimators of predictive performance are evaluated in simulated samples of 32 population correlation matrices. Models including all of the available predictors are compared with those obtained using selected subsets. The subset selection procedures investigated include two stopping rules, C$\sb{\rm p}$ and S$\sb{\rm p}$, each combined with an 'all possible subsets' or 'forward selection' of variables. The estimators of performance utilized include parametric (MSEP$\sb{\rm m}$) and non-parametric (PRESS) assessments in the entire sample, and two data splitting estimates restricted to a random or balanced (Snee's DUPLEX) 'validation' half sample. The simulations were performed as a designed experiment, with population correlation matrices representing a broad range of data structures.^ The techniques examined for subset selection do not generally result in improved predictions relative to the full model. Approaches using 'forward selection' result in slightly smaller prediction errors and less biased estimators of predictive accuracy than 'all possible subsets' approaches but no differences are detected between the performances of C$\sb{\rm p}$ and S$\sb{\rm p}$. In every case, prediction errors of models obtained by subset selection in either of the half splits exceed those obtained using all predictors and the entire sample.^ Only the random split estimator is conditionally (on $\\beta$) unbiased, however MSEP$\sb{\rm m}$ is unbiased on average and PRESS is nearly so in unselected (fixed form) models. When subset selection techniques are used, MSEP$\sb{\rm m}$ and PRESS always underestimate prediction errors, by as much as 27 percent (on average) in small samples. Despite their bias, the mean squared errors (MSE) of these estimators are at least 30 percent less than that of the unbiased random split estimator. The DUPLEX split estimator suffers from large MSE as well as bias, and seems of little value within the context of stochastic regressor variables.^ To maximize predictive accuracy while retaining a reliable estimate of that accuracy, it is recommended that the entire sample be used for model development, and a leave-one-out statistic (e.g. PRESS) be used for assessment. ^
Resumo:
Pathway based genome wide association study evolves from pathway analysis for microarray gene expression and is under rapid development as a complementary for single-SNP based genome wide association study. However, it faces new challenges, such as the summarization of SNP statistics to pathway statistics. The current study applies the ridge regularized Kernel Sliced Inverse Regression (KSIR) to achieve dimension reduction and compared this method to the other two widely used methods, the minimal-p-value (minP) approach of assigning the best test statistics of all SNPs in each pathway as the statistics of the pathway and the principal component analysis (PCA) method of utilizing PCA to calculate the principal components of each pathway. Comparison of the three methods using simulated datasets consisting of 500 cases, 500 controls and100 SNPs demonstrated that KSIR method outperformed the other two methods in terms of causal pathway ranking and the statistical power. PCA method showed similar performance as the minP method. KSIR method also showed a better performance over the other two methods in analyzing a real dataset, the WTCCC Ulcerative Colitis dataset consisting of 1762 cases, 3773 controls as the discovery cohort and 591 cases, 1639 controls as the replication cohort. Several immune and non-immune pathways relevant to ulcerative colitis were identified by these methods. Results from the current study provided a reference for further methodology development and identified novel pathways that may be of importance to the development of ulcerative colitis.^
Resumo:
Developing countries are experiencing unprecedented levels of economic growth. As a result, they will be responsible for most of the future growth in energy demand and greenhouse gas (GHG) emissions. Curbing GHG emissions in developing countries has become one of the cornerstones of a future international agreement under the United Nations Framework Convention for Climate Change (UNFCCC). However, setting caps for developing countries’ GHG emissions has encountered strong resistance in the current round of negotiations. Continued economic growth that allows poverty eradication is still the main priority for most developing countries, and caps are perceived as a constraint to future growth prospects. The development, transfer and use of low-carbon technologies have more positive connotations, and are seen as the potential path towards low-carbon development. So far, the success of the UNFCCC process in improving the levels of technology transfer (TT) to developing countries has been limited. This thesis analyses the causes for such limited success and seeks to improve on the understanding about what constitutes TT in the field of climate change, establish the factors that enable them in developing countries and determine which policies could be implemented to reinforce these factors. Despite the wide recognition of the importance of technology and knowledge transfer to developing countries in the climate change mitigation policy agenda, this issue has not received sufficient attention in academic research. Current definitions of climate change TT barely take into account the perspective of actors involved in actual climate change TT activities, while respective measurements do not bear in mind the diversity of channels through which these happen and the outputs and effects that they convey. Furthermore, the enabling factors for TT in non-BRIC (Brazil, Russia, India, China) developing countries have been seldom investigated, and policy recommendations to improve the level and quality of TTs to developing countries have not been adapted to the specific needs of highly heterogeneous countries, commonly denominated as “developing countries”. This thesis contributes to enriching the climate change TT debate from the perspective of a smaller emerging economy (Chile) and by undertaking a quantitative analysis of enabling factors for TT in a large sample of developing countries. Two methodological approaches are used to study climate change TT: comparative case study analysis and quantitative analysis. Comparative case studies analyse TT processes in ten cases based in Chile, all of which share the same economic, technological and policy frameworks, thus enabling us to draw conclusions on the enabling factors and obstacles operating in TT processes. The quantitative analysis uses three methodologies – principal component analysis, multiple regression analysis and cluster analysis – to assess the performance of developing countries in a number of enabling factors and the relationship between these factors and indicators of TT, as well as to create groups of developing countries with similar performances. The findings of this thesis are structured to provide responses to four main research questions: What constitutes technology transfer and how does it happen? Is it possible to measure technology transfer, and what are the main challenges in doing so? Which factors enable climate change technology transfer to developing countries? And how do different developing countries perform in these enabling factors, and how can differentiated policy priorities be defined accordingly? vi Resumen Los paises en desarrollo estan experimentando niveles de crecimiento economico sin precedentes. Como consecuencia, se espera que sean responsables de la mayor parte del futuro crecimiento global en demanda energetica y emisiones de Gases de Efecto de Invernadero (GEI). Reducir las emisiones de GEI en los paises en desarrollo es por tanto uno de los pilares de un futuro acuerdo internacional en el marco de la Convencion Marco de las Naciones Unidas para el Cambio Climatico (UNFCCC). La posibilidad de compromisos vinculantes de reduccion de emisiones de GEI ha sido rechazada por los paises en desarrollo, que perciben estos limites como frenos a su desarrollo economico y a su prioridad principal de erradicacion de la pobreza. El desarrollo, transferencia y uso de tecnologias bajas en carbono tiene connotaciones mas positivas y se percibe como la via hacia un crecimiento bajo en carbono. Hasta el momento, la UNFCCC ha tenido un exito limitado en la promocion de transferencias de tecnologia (TT) a paises en desarrollo. Esta tesis analiza las causas de este resultado y busca mejorar la comprension sobre que constituye transferencia de tecnologia en el area de cambio climatico, cuales son los factores que la facilitan en paises en desarrollo y que politicas podrian implementarse para reforzar dichos factores. A pesar del extendido reconocimiento sobre la importancia de la transferencia de tecnologia a paises en desarrollo en la agenda politica de cambio climatico, esta cuestion no ha sido suficientemente atendida por la investigacion existente. Las definiciones actuales de transferencia de tecnologia relacionada con la mitigacion del cambio climatico no tienen en cuenta la diversidad de canales por las que se manifiestan o los efectos que consiguen. Los factores facilitadores de TT en paises en desarrollo no BRIC (Brasil, Rusia, India y China) apenas han sido investigados, y las recomendaciones politicas para aumentar el nivel y la calidad de la TT no se han adaptado a las necesidades especificas de paises muy heterogeneos aglutinados bajo el denominado grupo de "paises en desarrollo". Esta tesis contribuye a enriquecer el debate sobre la TT de cambio climatico con la perspectiva de una economia emergente de pequeno tamano (Chile) y el analisis cuantitativo de factores que facilitan la TT en una amplia muestra de paises en desarrollo. Se utilizan dos metodologias para el estudio de la TT a paises en desarrollo: analisis comparativo de casos de estudio y analisis cuantitativo basado en metodos multivariantes. Los casos de estudio analizan procesos de TT en diez casos basados en Chile, para derivar conclusiones sobre los factores que facilitan u obstaculizan el proceso de transferencia. El analisis cuantitativo multivariante utiliza tres metodologias: regresion multiple, analisis de componentes principales y analisis cluster. Con dichas metodologias se busca analizar el posicionamiento de diversos paises en cuanto a factores que facilitan la TT; las relaciones entre dichos factores e indicadores de transferencia tecnologica; y crear grupos de paises con caracteristicas similares que podrian beneficiarse de politicas similares para la promocion de la transferencia de tecnologia. Los resultados de la tesis se estructuran en torno a cuatro preguntas de investigacion: .Que es la transferencia de tecnologia y como ocurre?; .Es posible medir la transferencia de tecnologias de bajo carbono?; .Que factores facilitan la transferencia de tecnologias de bajo carbono a paises en desarrollo? y .Como se puede agrupar a los paises en desarrollo en funcion de sus necesidades politicas para la promocion de la transferencia de tecnologias de bajo carbono?
Resumo:
In the last years significant efforts have been devoted to the development of advanced data analysis tools to both predict the occurrence of disruptions and to investigate the operational spaces of devices, with the long term goal of advancing the understanding of the physics of these events and to prepare for ITER. On JET the latest generation of the disruption predictor called APODIS has been deployed in the real time network during the last campaigns with the new metallic wall. Even if it was trained only with discharges with the carbon wall, it has reached very good performance, with both missed alarms and false alarms in the order of a few percent (and strategies to improve the performance have already been identified). Since for the optimisation of the mitigation measures, predicting also the type of disruption is considered to be also very important, a new clustering method, based on the geodesic distance on a probabilistic manifold, has been developed. This technique allows automatic classification of an incoming disruption with a success rate of better than 85%. Various other manifold learning tools, particularly Principal Component Analysis and Self Organised Maps, are also producing very interesting results in the comparative analysis of JET and ASDEX Upgrade (AUG) operational spaces, on the route to developing predictors capable of extrapolating from one device to another.
Resumo:
Hoy en día, con la evolución continua y rápida de las tecnologías de la información y los dispositivos de computación, se recogen y almacenan continuamente grandes volúmenes de datos en distintos dominios y a través de diversas aplicaciones del mundo real. La extracción de conocimiento útil de una cantidad tan enorme de datos no se puede realizar habitualmente de forma manual, y requiere el uso de técnicas adecuadas de aprendizaje automático y de minería de datos. La clasificación es una de las técnicas más importantes que ha sido aplicada con éxito a varias áreas. En general, la clasificación se compone de dos pasos principales: en primer lugar, aprender un modelo de clasificación o clasificador a partir de un conjunto de datos de entrenamiento, y en segundo lugar, clasificar las nuevas instancias de datos utilizando el clasificador aprendido. La clasificación es supervisada cuando todas las etiquetas están presentes en los datos de entrenamiento (es decir, datos completamente etiquetados), semi-supervisada cuando sólo algunas etiquetas son conocidas (es decir, datos parcialmente etiquetados), y no supervisada cuando todas las etiquetas están ausentes en los datos de entrenamiento (es decir, datos no etiquetados). Además, aparte de esta taxonomía, el problema de clasificación se puede categorizar en unidimensional o multidimensional en función del número de variables clase, una o más, respectivamente; o también puede ser categorizado en estacionario o cambiante con el tiempo en función de las características de los datos y de la tasa de cambio subyacente. A lo largo de esta tesis, tratamos el problema de clasificación desde tres perspectivas diferentes, a saber, clasificación supervisada multidimensional estacionaria, clasificación semisupervisada unidimensional cambiante con el tiempo, y clasificación supervisada multidimensional cambiante con el tiempo. Para llevar a cabo esta tarea, hemos usado básicamente los clasificadores Bayesianos como modelos. La primera contribución, dirigiéndose al problema de clasificación supervisada multidimensional estacionaria, se compone de dos nuevos métodos de aprendizaje de clasificadores Bayesianos multidimensionales a partir de datos estacionarios. Los métodos se proponen desde dos puntos de vista diferentes. El primer método, denominado CB-MBC, se basa en una estrategia de envoltura de selección de variables que es voraz y hacia delante, mientras que el segundo, denominado MB-MBC, es una estrategia de filtrado de variables con una aproximación basada en restricciones y en el manto de Markov. Ambos métodos han sido aplicados a dos problemas reales importantes, a saber, la predicción de los inhibidores de la transcriptasa inversa y de la proteasa para el problema de infección por el virus de la inmunodeficiencia humana tipo 1 (HIV-1), y la predicción del European Quality of Life-5 Dimensions (EQ-5D) a partir de los cuestionarios de la enfermedad de Parkinson con 39 ítems (PDQ-39). El estudio experimental incluye comparaciones de CB-MBC y MB-MBC con los métodos del estado del arte de la clasificación multidimensional, así como con métodos comúnmente utilizados para resolver el problema de predicción de la enfermedad de Parkinson, a saber, la regresión logística multinomial, mínimos cuadrados ordinarios, y mínimas desviaciones absolutas censuradas. En ambas aplicaciones, los resultados han sido prometedores con respecto a la precisión de la clasificación, así como en relación al análisis de las estructuras gráficas que identifican interacciones conocidas y novedosas entre las variables. La segunda contribución, referida al problema de clasificación semi-supervisada unidimensional cambiante con el tiempo, consiste en un método nuevo (CPL-DS) para clasificar flujos de datos parcialmente etiquetados. Los flujos de datos difieren de los conjuntos de datos estacionarios en su proceso de generación muy rápido y en su aspecto de cambio de concepto. Es decir, los conceptos aprendidos y/o la distribución subyacente están probablemente cambiando y evolucionando en el tiempo, lo que hace que el modelo de clasificación actual sea obsoleto y deba ser actualizado. CPL-DS utiliza la divergencia de Kullback-Leibler y el método de bootstrapping para cuantificar y detectar tres tipos posibles de cambio: en las predictoras, en la a posteriori de la clase o en ambas. Después, si se detecta cualquier cambio, un nuevo modelo de clasificación se aprende usando el algoritmo EM; si no, el modelo de clasificación actual se mantiene sin modificaciones. CPL-DS es general, ya que puede ser aplicado a varios modelos de clasificación. Usando dos modelos diferentes, el clasificador naive Bayes y la regresión logística, CPL-DS se ha probado con flujos de datos sintéticos y también se ha aplicado al problema real de la detección de código malware, en el cual los nuevos ficheros recibidos deben ser continuamente clasificados en malware o goodware. Los resultados experimentales muestran que nuestro método es efectivo para la detección de diferentes tipos de cambio a partir de los flujos de datos parcialmente etiquetados y también tiene una buena precisión de la clasificación. Finalmente, la tercera contribución, sobre el problema de clasificación supervisada multidimensional cambiante con el tiempo, consiste en dos métodos adaptativos, a saber, Locally Adpative-MB-MBC (LA-MB-MBC) y Globally Adpative-MB-MBC (GA-MB-MBC). Ambos métodos monitorizan el cambio de concepto a lo largo del tiempo utilizando la log-verosimilitud media como métrica y el test de Page-Hinkley. Luego, si se detecta un cambio de concepto, LA-MB-MBC adapta el actual clasificador Bayesiano multidimensional localmente alrededor de cada nodo cambiado, mientras que GA-MB-MBC aprende un nuevo clasificador Bayesiano multidimensional. El estudio experimental realizado usando flujos de datos sintéticos multidimensionales indica los méritos de los métodos adaptativos propuestos. ABSTRACT Nowadays, with the ongoing and rapid evolution of information technology and computing devices, large volumes of data are continuously collected and stored in different domains and through various real-world applications. Extracting useful knowledge from such a huge amount of data usually cannot be performed manually, and requires the use of adequate machine learning and data mining techniques. Classification is one of the most important techniques that has been successfully applied to several areas. Roughly speaking, classification consists of two main steps: first, learn a classification model or classifier from an available training data, and secondly, classify the new incoming unseen data instances using the learned classifier. Classification is supervised when the whole class values are present in the training data (i.e., fully labeled data), semi-supervised when only some class values are known (i.e., partially labeled data), and unsupervised when the whole class values are missing in the training data (i.e., unlabeled data). In addition, besides this taxonomy, the classification problem can be categorized into uni-dimensional or multi-dimensional depending on the number of class variables, one or more, respectively; or can be also categorized into stationary or streaming depending on the characteristics of the data and the rate of change underlying it. Through this thesis, we deal with the classification problem under three different settings, namely, supervised multi-dimensional stationary classification, semi-supervised unidimensional streaming classification, and supervised multi-dimensional streaming classification. To accomplish this task, we basically used Bayesian network classifiers as models. The first contribution, addressing the supervised multi-dimensional stationary classification problem, consists of two new methods for learning multi-dimensional Bayesian network classifiers from stationary data. They are proposed from two different points of view. The first method, named CB-MBC, is based on a wrapper greedy forward selection approach, while the second one, named MB-MBC, is a filter constraint-based approach based on Markov blankets. Both methods are applied to two important real-world problems, namely, the prediction of the human immunodeficiency virus type 1 (HIV-1) reverse transcriptase and protease inhibitors, and the prediction of the European Quality of Life-5 Dimensions (EQ-5D) from 39-item Parkinson’s Disease Questionnaire (PDQ-39). The experimental study includes comparisons of CB-MBC and MB-MBC against state-of-the-art multi-dimensional classification methods, as well as against commonly used methods for solving the Parkinson’s disease prediction problem, namely, multinomial logistic regression, ordinary least squares, and censored least absolute deviations. For both considered case studies, results are promising in terms of classification accuracy as well as regarding the analysis of the learned MBC graphical structures identifying known and novel interactions among variables. The second contribution, addressing the semi-supervised uni-dimensional streaming classification problem, consists of a novel method (CPL-DS) for classifying partially labeled data streams. Data streams differ from the stationary data sets by their highly rapid generation process and their concept-drifting aspect. That is, the learned concepts and/or the underlying distribution are likely changing and evolving over time, which makes the current classification model out-of-date requiring to be updated. CPL-DS uses the Kullback-Leibler divergence and bootstrapping method to quantify and detect three possible kinds of drift: feature, conditional or dual. Then, if any occurs, a new classification model is learned using the expectation-maximization algorithm; otherwise, the current classification model is kept unchanged. CPL-DS is general as it can be applied to several classification models. Using two different models, namely, naive Bayes classifier and logistic regression, CPL-DS is tested with synthetic data streams and applied to the real-world problem of malware detection, where the new received files should be continuously classified into malware or goodware. Experimental results show that our approach is effective for detecting different kinds of drift from partially labeled data streams, as well as having a good classification performance. Finally, the third contribution, addressing the supervised multi-dimensional streaming classification problem, consists of two adaptive methods, namely, Locally Adaptive-MB-MBC (LA-MB-MBC) and Globally Adaptive-MB-MBC (GA-MB-MBC). Both methods monitor the concept drift over time using the average log-likelihood score and the Page-Hinkley test. Then, if a drift is detected, LA-MB-MBC adapts the current multi-dimensional Bayesian network classifier locally around each changed node, whereas GA-MB-MBC learns a new multi-dimensional Bayesian network classifier from scratch. Experimental study carried out using synthetic multi-dimensional data streams shows the merits of both proposed adaptive methods.
Resumo:
La Responsabilidad Social Corporativa (RSC) sigue constituyendo en la actualidad un área de estudio de elevado interés tanto para la comunidad académica como para los negocios en general. A pesar del gran número de investigaciones realizadas en las pasadas décadas sobre los distintos aspectos que la caracterizan, y la definición generalizada de políticas relacionadas en las compañías más importantes, existen todavía algunos asuntos clave sobre los que se plantean interrogantes fundamentales. La complejidad asociada al constructo RSC y su carácter intrínsecamente dinámico explican en parte esta afirmación. En su aplicación práctica, las dudas sobre la RSC se enfocan hoy en día hacia su implantación con carácter permanente en el día a día de las organizaciones, la relevancia estratégica de las principales iniciativas, o la posibilidad de obtención de beneficios a medio y largo plazo. Se observa de esta forma la traslación de los debates principales hacia las consecuencias más estratégicas de dichas políticas, influenciados por prestigiosos estudios académicos en los que se caracteriza la denominada RSC Estratégica (RSCE), y por las principales organizaciones de certificación de memorias anuales de RSC y sostenibilidad. En este contexto se sitúa el objeto principal de esta investigación, consistente en el diseño de un modelo de implantación de RSCE que permita no sólo identificar los factores más importantes a tener en consideración para su éxito, sino para caracterizar las potenciales formas de creación de valor que pueden surgir de la aplicación del mismo. Se argumenta la elección del tema por considerarse que los asuntos asociados a la RSC no están lo suficientemente explorados desde la visión estratégica más actual, y por constituir la creación de valor el objetivo más crítico dentro de los procesos directivos de planificación estratégica. De esta forma, se utilizan dos metodologías para destacar qué factores son esenciales en la implantación de la RSCE, con qué fines las compañías aplican esas políticas, y qué resultados obtienen como consecuencia: análisis comparativo de casos de estudio y análisis estadístico cuantitativo. Los casos de estudio analizan en profundidad políticas globales de RSCE bajo diferentes puntos de vista, para derivar conclusiones sobre los factores que facilitan u obstaculizan su implantación permanente en las organizaciones. Su desarrollo se estructura en torno a un marco conceptual de referencia obtenido a través de la revisión bibliográfica específica, y se complementa con la información primaria y secundaria de investigación. Por su parte, el análisis cuantitativo se desarrolla mediante tres técnicas exploratorias: estadística descriptiva, regresión múltiple y análisis de componentes principales. Su aplicación combinada va a posibilitar el contraste de aspectos destacados en los análisis de casos, así como la configuración final del modelo de implantación, y la expresión numérica de la creación de valor a través de la RSCE en función de las dimensiones estratégicas consideradas. En consecuencia, los resultados de la tesis se estructuran alrededor de tres preguntas de investigación: ¿cómo se están produciendo y qué caracterización presentan los beneficios que resultan como consecuencia de la implantación de la RSCE en los procesos de planificación estratégica de las compañías?, ¿qué factores esenciales y característicos de la RSCE pueden resultar críticos en los procesos de implantación y futuro desarrollo?, y ¿qué importancia puede tener en el medio y largo plazo el poder de decisión de compra de los consumidores y usuarios finales en la implantación y desarrollo de políticas de RSCE? ABSTRACT Corporate Social Responsibility (CSR) remains a study area of high interest today to both the academic community and businesses in general. Despite the large number of investigations of various aspects of CSR in past decades, and its generalized consideration by the world’s most important companies, there are still some key issues and fundamental questions to resolve. The complexity associated with the CSR construct and its inherently dynamic character, partly explains this statement. In its practical application, doubts about CSR arise today about its permanent implementation in normal business activities, the strategic relevance of related policies, and the possibility of making profits in the medium and long term. It is observed in this way the translation of the main debates towards the more strategic consequences of these policies, influenced by prestigious academic studies that characterize the so-called Strategic CSR (SCSR), and by leading certification agencies of CSR and sustainability reports. In this context, the main purpose of this investigation is to design a model of SCSR for implementation that allows one to not only identify the most important factors to consider for SCSR success, but also to characterize potential forms of value creation that can arise from its application. The selection of this research approach is justified because it is believed that important issues that are associated with CSR have not been sufficiently explored from the aspect of the strategic vision in the current context, and because value creation constitutes the most critical objective within the strategic planning steering processes. Thus, two methods are used to highlight which factors are essential in SCSR implementation processes, the end to which companies apply these policies, and the kind of results that they expect. These methods are: comparative analysis of case studies and quantitative statistical analysis. The case studies discuss in depth SCSR global policies under different perspectives to draw conclusions about the factors that facilitate or hinder permanent implantation in organizations. Their development is structured around a conceptual framework that is obtained by review of specific literature, and is complemented by primary and secondary research information. On the other hand, quantitative analysis is developed by means of three exploratory techniques: descriptive statistics, multiple regression and principal component analysis. Their combined application facilitates a contrast of highlighted aspects in analyzing cases, the final configuration of the implementation model, and the numerical expression of value creation by SCSR as a consequence of the strategic dimensions considered by companies. Finally, the results of the thesis are structured around three research questions: what are the benefits that result from the implementation of SCSR policies in companies’ strategic planning processes?, which essential SCSR factors are potentially critical in the implementation and future development of companies’ processes?, and how decisive in the medium and long term will be the purchase decision power of consumers to the success of SCSR policies?
Resumo:
In the last few years there has been a heightened interest in data treatment and analysis with the aim of discovering hidden knowledge and eliciting relationships and patterns within this data. Data mining techniques (also known as Knowledge Discovery in Databases) have been applied over a wide range of fields such as marketing, investment, fraud detection, manufacturing, telecommunications and health. In this study, well-known data mining techniques such as artificial neural networks (ANN), genetic programming (GP), forward selection linear regression (LR) and k-means clustering techniques, are proposed to the health and sports community in order to aid with resistance training prescription. Appropriate resistance training prescription is effective for developing fitness, health and for enhancing general quality of life. Resistance exercise intensity is commonly prescribed as a percent of the one repetition maximum. 1RM, dynamic muscular strength, one repetition maximum or one execution maximum, is operationally defined as the heaviest load that can be moved over a specific range of motion, one time and with correct performance. The safety of the 1RM assessment has been questioned as such an enormous effort may lead to muscular injury. Prediction equations could help to tackle the problem of predicting the 1RM from submaximal loads, in order to avoid or at least, reduce the associated risks. We built different models from data on 30 men who performed up to 5 sets to exhaustion at different percentages of the 1RM in the bench press action, until reaching their actual 1RM. Also, a comparison of different existing prediction equations is carried out. The LR model seems to outperform the ANN and GP models for the 1RM prediction in the range between 1 and 10 repetitions. At 75% of the 1RM some subjects (n = 5) could perform 13 repetitions with proper technique in the bench press action, whilst other subjects (n = 20) performed statistically significant (p < 0:05) more repetitions at 70% than at 75% of their actual 1RM in the bench press action. Rate of perceived exertion (RPE) seems not to be a good predictor for 1RM when all the sets are performed until exhaustion, as no significant differences (p < 0:05) were found in the RPE at 75%, 80% and 90% of the 1RM. Also, years of experience and weekly hours of strength training are better correlated to 1RM (p < 0:05) than body weight. O'Connor et al. 1RM prediction equation seems to arise from the data gathered and seems to be the most accurate 1RM prediction equation from those proposed in literature and used in this study. Epley's 1RM prediction equation is reproduced by means of data simulation from 1RM literature equations. Finally, future lines of research are proposed related to the problem of the 1RM prediction by means of genetic algorithms, neural networks and clustering techniques. RESUMEN En los últimos años ha habido un creciente interés en el tratamiento y análisis de datos con el propósito de descubrir relaciones, patrones y conocimiento oculto en los mismos. Las técnicas de data mining (también llamadas de \Descubrimiento de conocimiento en bases de datos\) se han aplicado consistentemente a lo gran de un gran espectro de áreas como el marketing, inversiones, detección de fraude, producción industrial, telecomunicaciones y salud. En este estudio, técnicas bien conocidas de data mining como las redes neuronales artificiales (ANN), programación genética (GP), regresión lineal con selección hacia adelante (LR) y la técnica de clustering k-means, se proponen a la comunidad del deporte y la salud con el objetivo de ayudar con la prescripción del entrenamiento de fuerza. Una apropiada prescripción de entrenamiento de fuerza es efectiva no solo para mejorar el estado de forma general, sino para mejorar la salud e incrementar la calidad de vida. La intensidad en un ejercicio de fuerza se prescribe generalmente como un porcentaje de la repetición máxima. 1RM, fuerza muscular dinámica, una repetición máxima o una ejecución máxima, se define operacionalmente como la carga máxima que puede ser movida en un rango de movimiento específico, una vez y con una técnica correcta. La seguridad de las pruebas de 1RM ha sido cuestionada debido a que el gran esfuerzo requerido para llevarlas a cabo puede derivar en serias lesiones musculares. Las ecuaciones predictivas pueden ayudar a atajar el problema de la predicción de la 1RM con cargas sub-máximas y son empleadas con el propósito de eliminar o al menos, reducir los riesgos asociados. En este estudio, se construyeron distintos modelos a partir de los datos recogidos de 30 hombres que realizaron hasta 5 series al fallo en el ejercicio press de banca a distintos porcentajes de la 1RM, hasta llegar a su 1RM real. También se muestra una comparación de algunas de las distintas ecuaciones de predicción propuestas con anterioridad. El modelo LR parece superar a los modelos ANN y GP para la predicción de la 1RM entre 1 y 10 repeticiones. Al 75% de la 1RM algunos sujetos (n = 5) pudieron realizar 13 repeticiones con una técnica apropiada en el ejercicio press de banca, mientras que otros (n = 20) realizaron significativamente (p < 0:05) más repeticiones al 70% que al 75% de su 1RM en el press de banca. El ínndice de esfuerzo percibido (RPE) parece no ser un buen predictor del 1RM cuando todas las series se realizan al fallo, puesto que no existen diferencias signifiativas (p < 0:05) en el RPE al 75%, 80% y el 90% de la 1RM. Además, los años de experiencia y las horas semanales dedicadas al entrenamiento de fuerza están más correlacionadas con la 1RM (p < 0:05) que el peso corporal. La ecuación de O'Connor et al. parece surgir de los datos recogidos y parece ser la ecuación de predicción de 1RM más precisa de aquellas propuestas en la literatura y empleadas en este estudio. La ecuación de predicción de la 1RM de Epley es reproducida mediante simulación de datos a partir de algunas ecuaciones de predicción de la 1RM propuestas con anterioridad. Finalmente, se proponen futuras líneas de investigación relacionadas con el problema de la predicción de la 1RM mediante algoritmos genéticos, redes neuronales y técnicas de clustering.
Resumo:
En el presente trabajo se ha llevado a cabo un estudio de la biodiversidad del frijol común (Phaseolus vulgaris L.) en Honduras, que es el segundo de los cultivos de granos básicos en importancia. Dicho estudio se ha realizado mediante una caracterización agromorfológica, molecular y ecogeográfica en una selección de 300 accesiones conservadas en el banco de germoplasma ubicado en la Escuela Agrícola Panamericana (EAP) El Zamorano, y que se colectaron en 13 departamentos del país durante el periodo de 1990 a 1994. Estas accesiones fueron colectadas cuatro años antes del acontecimiento del huracán Mitch, el cual a su paso afectó al 96% del área total cultivable en su momento, lo cual nos hace considerar que la biodiversidad de razas locales (landraces) de frijol común existentes in situ fueron severamente afectadas. Los trabajos dirigidos a analizar la biodiversidad de razas locales de frijol común en Honduras son escasos, y este trabajo se constituye como el primero que incluye una amplia muestra a ser estudiada a través de una caracterización en tres aspectos complementarios (agromorfológico, molecular y ecogeográfico). Se evaluaron 32 caracteres agromorfológicos, 12 cuantitativos y 20 cualitativos, en distintas partes de la planta. Se establecieron las correlaciones entre los caracteres agromorfológicos y se elaboró un dendrograma con los mismos, en el que se formaron ocho grupos, en parte relacionados principalmente con los colores y tamaños de la semilla. Mediante el análisis de componentes principales se estudiaron los caracteres de más peso en cada uno de los tres primeros componentes. Asimismo, se estudiaron las correlaciones entre caracteres, siendo las más altas la longitud y anchura de la hoja, días a madurez y a cosecha y longitud y peso de semilla. Por otra parte, el mapa de diversidad agromorfológica mostró la existencia de tres zonas con mayor diversidad: en el oeste (en los departamentos de Santa Bárbara, Lempira y Copán), en el centro-norte (en los departamentos de Francisco Morazán, Yoro y Atlántida) y en el sur (en el departamento de El Paraíso y al sur de Francisco Morazán). Para la caracterización molecular partimos de 12 marcadores de tipo microsatélite, evaluados en 54 accesiones, que fueron elegidas por constituir grupos que compartían un mismo nombre local. Finalmente, se seleccionaron los cuatro microsatélites (BM53, GATS91, BM211 y PV-AT007) que resultaron ser más polimórficos e informativos para el análisis de las 300 accesiones, con los que se detectaron un total de 119 alelos (21 de ellos únicos o privados de accesión) y 256 patrones alélicos diferentes. Para estudiar la estructura y relaciones genéticas en las 300 accesiones se incluyeron en el análisis tres controles o accesiones de referencia, pertenecientes dos de ellas al acervo genético Andino y una al Mesoamericano. En el dendrograma se obtuvieron 25 grupos de accesiones con idénticas combinaciones de alelos. Al comparar este dendrograma con el de caracteres agromorfológicos se observaron diversos grupos con marcada similitud en ambos. Un total de 118 accesiones resultaron ser homogéneas y homocigóticas, a la vez que representativas del grupo de 300 accesiones, por lo que se analizaron con más detalle. El análisis de la estructura genética definió la formación de dos grupos, supuestamente relacionados con los acervos genéticos Andino (48) y Mesoamericano (61), y un reducido número de accesiones (9) que podrían tener un origen híbrido, debido a la existencia de un cierto grado de introgresión entre ambos acervos. La diferenciación genética entre ambos grupos fue del 13,3%. Asimismo, 66 de los 82 alelos detectados fueron privados de grupo, 30 del supuesto grupo Andino y 36 del Mesoamericano. Con relación al mapa de diversidad molecular, presentó una distribución bastante similar al de la diversidad agromorfológica, detectándose también las zonas de mayor diversidad genética en el oeste (en los departamentos de Lempira y Santa Bárbara), en el centro-norte (en los departamentos de Yoro y Atlántida) y en el sur (en el departamento de El Paraíso y al sur de Francisco Morazán). Para la caracterización ecogeográfica se seleccionaron variables de tipo bioclimático (2), geofísico (2) y edáfico (8), y mediante el método de agrupamiento de partición alrededor de los medoides, la combinación de los grupos con cada uno de los tres tipos de variables definió un total de 32 categorías ecogeográficas en el país, detectándose accesiones en 16 de ellas. La distribución de las accesiones previsiblemente esté relacionada con la existencia de condiciones más favorables al cultivo de frijol. En el mapa de diversidad ecogeográfica, nuevamente, se observaron varias zonas con alta diversidad tanto en el oeste, como en el centro-norte y en el sur del país. Como consecuencia del estudio realizado, se concluyó la existencia de una marcada biodiversidad en el material analizado, desde el punto de vista tanto agromorfológico como molecular. Por lo que resulta de gran importancia plantear la conservación de este patrimonio genético tanto ex situ, en bancos de germoplasma, como on farm, en las propias explotaciones de los agricultores del país, siempre que sea posible. ABSTRACT In the present work we have carried out a study of the biodiversity of the common bean (Phaseolus vulgaris L) in Honduras, which is the second of the basic grain crops in importance. This study was conducted through agro-morphological, molecular and ecogeographical characterization of a selection of 300 accessions conserved in the genebank located in the ‘Escuela Agrícola Panamericana (EAP) El Zamorano’ that were collected in 13 departments of the country during the 1990 to 1994 period. These accessions were collected four years before the occurrence of Mitch hurricane, which affected 96% of the total cultivable area at the time, which makes us to consider that the biodiversity of local landraces of common bean existing in situ were severely affected. The work aimed to analyze the biodiversity of local races of common bean in Honduras are scarce, and this work constitutes the first to include a large sample to be studied through a characterization on three complementary aspects (agromorphological, molecular and ecogeographical). Thirty two agromorphological characters, 12 quantitative and 20 qualitative, in various parts of the plant were evaluated. Correlations between agromorphological characters were established and a dendrogram with them was constructed, in which eight groups were formed, in part mainly related to the colors and sizes of the seeds. By principal component analysis the characters with more weight in each of the first three components were studied. Also, correlations between characters were studied, the highest of them being length and leaf width, days to maturity and harvest, and seed length and weight. Moreover, the map of agromorphological diversity showed the existence of three areas with more diversity: the west (departments of Santa Barbara, Copan and Lempira), the center-north (departments of Francisco Morazán, Yoro and Atlántida) and the south (department of El Paraiso and south of Francisco Morazán). For molecular characterization we started with 12 microsatellite markers, evaluated in 54 accessions, which were chosen because they formed groups that shared the same local name. Finally, four microsatellites (BM53, GATS91, BM211 and PV-AT007) were selected for the analysis of 300 accessions, since they were the most polymorphic and informative. They gave a total of 119 alleles (21 of them unique or private for the accession) and 256 different allelic patterns. To study the structure and genetic relationships in the 300 accessions, three controls or accessions of reference were included in the analysis: two of them belonging to the Andean gene pool and one to the Mesoamerican. In the dendrogram, 25 accession groups with identical allele combinations were obtained. Comparing this dendrogram to the obtained with agromorphological characters, several groups with marked similarity in both were observed. A total of 118 accessions were homozygous and homogeneous, while representing the group of 300 accessions, therefore they were analyzed in more detail. The analysis of the genetic structure defined the formation of two groups, supposedly related to the Andean (48) and the Mesoamerican (61) gene pools, and a small number of accessions (9) which may have a hybrid origin, due to the existence of some degree of introgression between both gene pools. Genetic differentiation between both groups was 13.3%. Also, 66 of the 82 detected alleles were private or unique for the group, 30 of the supposed Andean group and 36 of the Mesoamerican. With relation to the map of molecular diversity, it showed a quite similar distribution to the agromorphological, also detecting the areas of greatest genetic diversity in the west (departments of Lempira and Santa Bárbara), in the center-north (departments Atlántida and Yoro) and in the south (departments of El Paraíso and south of Francisco Morazán). For the ecogeographical characterization, bioclimatic (2), geophysical (2) and edaphic (8) variables were selected, and by the method of clustering partition around the medoids, the combination of the groups to each of the three types of variables defined a total of 32 ecogeographical categories in the country, having accessions in 16 of them. The distribution of accessions is likely related to the existence of more favorable conditions for the cultivation of beans. The map of ecogeographical diversity, again, several areas with high diversity both in the west and in the center-north and in the south of the country were observed. As a result of study, the existence of marked biodiversity in the analyzed material was concluded, both from the agromorphological and from the molecular point of view. Consequently it is very important to propose the conservation of this genetic heritage both ex situ, in genebanks, as on farm, in the holdings of the farmers of the country, whenever possible.
Resumo:
Phaseolus vulgaris L. (frijol común o judía) es una leguminosa de gran demanda para la nutrición humana y un producto agrícola muy importante. Sin embargo, la producción de frijol se ve limitada por presiones ambientales como la sequía. En México, el 85% de la cosecha de frijol se produce en la temporada de primavera-verano, principalmente en las regiones del altiplano semiárido con una precipitación anual entre 250 y 400 mm. A pesar del implemento de tecnología en el campo, los factores naturales impiden al agricultor llegar a los rendimientos deseados. El Instituto Nacional de Investigaciones Forestales, Agrícolas y Pecuarias (INIFAP), como instituto de investigación gubernamental en México, tiene como objetivo la mejora de cultivos estratégicos, uno de ellos, P. vulgaris. Los estudios en relación a la sequía se enfocan especialmente en la selección de genotipos tolerantes, los cuales son sometidos en condiciones de estrés y monitoreando parámetros como el rendimiento y peso de semilla, además de algunos indicadores tales como índice de cosecha. El resultado de estos trabajos ha sido la obtención de variedades con mayor tolerancia a la sequía, tales como Pinto Villa y Pinto Saltillo. En los últimos años se ha avanzado notablemente en el conocimiento de las bases moleculares en las respuestas de las plantas al estrés. De acuerdo a diversos estudios se ha demostrado que las plantas bajo estrés por sequía experimentan cambios en la expresión de genes involucrados en la señalización, regulación de la transcripción y la traducción, transporte de agua y la función directa en la protección celular. También se ha observado que el déficit de agua es causado por las temperaturas extremas y la alta concentración de sales, por lo que al nivel molecular, las respuestas al estrés tienen puntos de especificidad y puntos de entrecruzamiento. La sequía puede generar estreses secundarios, tales como el nutricional, oxidativo y osmótico. Sin embargo, es necesario identificar y caracterizar muchos de los componentes involucrados en las respuestas al déficit hídrico, la caracterización de estos genes permitirá tener una mejor comprensión de los mecanismos bioquímicos y fisiológicos involucrados en la tolerancia al estrés. Actualmente, con el apoyo de la biología molecular se han identificado algunos genes que otorgan ventajas para la adaptación a ambientes desfavorables. Por lo que el objetivo del presente trabajo es identificar marcadores genéticos asociados a rasgos fenotípicos con énfasis a la tolerancia a estrés hídrico en P. vulgaris. Una vez establecidos los marcadores asociados al estrés hídrico, es factible considerar su uso para la selección asistida por marcadores en líneas o variedades de frijol de interés para los mejoradores. Se evaluaron 282 familias F3:5 derivadas de la cruza entre los cultivares Pinto Villa y Pinto Saltillo. Las familias se sembraron bajo un diseño simple de látice 17x17, el experimento se llevo acabo en el ciclo primavera-verano del 2010 y 2011, y otoñoinvierno de 2010 en el Campo Experimental Bajío del INIFAP con dos repeticiones para cada tratamiento de humedad (riego completo y sequía terminal). En todos los genotipos se realizó el fenotipado (variables fenotípicas) y el genotipado a través de marcadores moleculares. Los análisis estadísticos se basaron en el análisis de componentes principales (Eigen Analysis Selection Index Method, ESIM), la asociación entre marcadores SNP y el fenotipado (paquete SNPassoc para R) y el análisis de varianza (ANOVA). Los valores ESIM mostraron que las variables de Rendimiento, Días a floración, Días a madurez fisiológica e Índice de cosecha fueron sobresalientes en sequía terminal, por lo que se sugieren tomarse en consideración para los estudios de sequía en P. vulgaris como monitores de evaluación a la resistencia. Se identificaron nueve familias sobresalieron por sus valores ESIM (PV/PS6, 22, 131, 137, 149, 154, 201, 236 y 273), además de presentar valores superiores para el rendimiento en comparación con los parentales. Estos genotipos son candidatos interesantes para realizar estudios de identificación de loci asociados con la respuesta al estrés, y como potenciales parentales en el desarrollo de nuevas variedades de frijol. En los análisis de asociación SNPassoc se identificaron 83 SNPs significativos (p<0,0003) asociados a los rasgos fenotípicos, obteniendo un total de 222 asociaciones, de las cuales predomina el modelo genético de codominancia para las variables Días a floración, Periodo reproductivo y Biomasa total. Treinta y siete SNPs se identificaron a diferentes funciones biológicas a través del análisis de anotación funcional, de los cuales 12 SNPs (9, 18, 28, 39, 61, 69, 80, 106, 115, 128, 136 y 142) sobresalen por su asociación al fenotipado, y cuya anotación funcional indica que se encuentran en genes relacionados a la tolerancia a la sequía, tales como la actividad kinasa, actividad metabólica del almidón, carbohidratos y prolina, respuesta al estrés oxidativo, así como en los genes LEA y posibles factores de transcripción. En el caso de los análisis ANOVA, se identificaron 72 asociaciones entre los SNPs y las variables fenotípicas (F< 3,94E-04). Las 72 asociaciones corresponden a 30 SNPs y 7 variables fenotípicas, de las que predomina Peso de 100 semillas y Periodo reproductivo. Para los rasgos de Rendimiento, Índice de cosecha y Días a madurez fisiológica se presentaron asociaciones con seis SNPs (17, 34, 37, 50, 93 y 107), de los cuales, a los SNP37 y SNP107 fueron identificados a la anotación biológica de protein binding. Por otro lado, los SNP106 y SNP128 asociados al Periodo reproductivo, son genes con actividad kinasa y actividad metabólica del almidón, respectivamente. Para los marcadores tipo AFLP, se identificaron 271 asociaciones (F<2,34E-04). Las asociaciones corresponden a 86 AFLPs con todas las variables fenotípicas evaluadas, de las que predomina peso de 100 semillas, Días a floración y Periodo reproductivo. Debido a que los en los AFLPs no es posible determinar su anotación biológica, se proponen como marcadores potenciales relacionados a la resistencia a la sequía en frijol. Los AFLPs candidatos requieren más estudios tales como la secuenciación de los alelos respectivos, así como la identificación de éstas secuencias en el genoma de referencia y su anotación biológica, entre otros análisis, de esta manera podríamos establecer aquellos marcadores candidatos a la validación para la selección asistida. El presente trabajo propone tanto genotipos como marcadores genéticos, que deben ser validados para ser utilizados en el programa de mejoramiento de P. vulgaris, con el objetivo de desarrollar nuevas líneas o variedades tolerantes a la sequía. ABSTRACT Phaseolus vulgaris L. (common bean or judia) is a legume of great demand for human consumption and an important agricultural product. However, the common bean production is limited by environmental stresses, such as drought. In Mexico, 85% of the common bean crop is produced in the spring-summer season mainly in semiarid highland regions with a rainfall between 250 and 400 mm per year. In spite of the improvement of crop technology, the natural factors hamper getting an optimal yield. The National Institute for Forestry, Agriculture and Livestock (INIFAP) is a government research institute from Mexico, whose main objective is the genetic breeding of strategic crops, like P. vulgaris L. The drought tolerance studies particularly focus on the selection of bean tolerant genotypes, which are subjected to stress conditions, by means of monitoring parameters such as yield and seed weight, plus some agronomic indicators such as harvest index. The results of these works have led to obtain cultivars with higher drought tolerance such as Pinto Villa and Pinto Saltillo. Significant achievements have been recently made in understanding the molecular basis of stress plant responses. Several studies have shown that plants under drought stress present changes in gene expression related to cell signalling, transcriptional and translational regulation, water transport and cell protection. In addition, it has been observed that the extreme temperatures and high salt concentrations can cause a water deficiency so, at the molecular level, stress responses have specific and crossover points. The drought can cause secondary stresses, such as nutritional, oxidative and osmotic stress. It is required the identification of more components involved in the response to water deficit, the characterization of these genes will allow a better understanding of the biochemical and physiological mechanisms involved in stress tolerance. Currently, with the support of molecular biology techniques, some genes that confer an advantage for the crop adaptation to unfavourable environments have been identified. The objective of this study is to identify genetic markers associated with phenotypic traits with emphasis on water stress tolerance in P. vulgaris. The establishment of molecular markers linked to drought tolerance would make possible their use for marker-assisted selection in bean breeding programs. Two hundred and eighty two F3:5 families derived from a cross between the drought resistant cultivars Pinto Villa and Pinto Saltillo were evaluated. The families were sowed under a 17x17 simple lattice design. The experiment was conducted between spring-summer seasons in 2010 and 2011, and autumn-winter seasons in 2010 at the Bajio Experimental Station of INIFAP with two treatments (full irrigation and terminal drought). All families were phenotyped and genotyped using molecular markers. Statistical analysis was based on principal component analysis (Eigen Analysis Selection Index Method, ESIM), association analysis between SNP markers and phenotype (SNPassoc package R) and analysis of variance (ANOVA). The ESIM values showed that seed yield, days to flowering, days to physiological maturity and harvest index were outstanding traits in terminal drought treatment, so they could be considered as suitable parameters for drought-tolerance evaluation in P. vulgaris. Nine outstanding families for the ESIM values were identified (PV/PS6, 22, 131, 137, 149, 154, 201, 236 and 273), in addition, these families showed higher values for seed yield compared to the parental cultivars. These families are promising candidates for studies focused on the identification of loci associated to the stress response, and as potential parental cultivars for the development of new varieties of common bean. In the SNPassoc analysis, 83 SNPs were found significantly associated (p<0.0003) with phenotypic traits, obtaining a total of 222 associations, most of which involved the traits days to flowering, reproductive period and total biomass under a codominant genetic model. The functional annotation analysis showed 37 SNPs with different biological functions, 12 of them (9, 18, 28, 39, 61, 69, 80, 106, 115, 128, 136 and 142) stand out by their association to phenotype. The functional annotation suggested a connection with genes related to drought tolerance, such as kinase activity, starch, carbohydrates and proline metabolic processes, responses to oxidative stress, as well as LEA genes and putative transcription factors. In the ANOVA analysis, 72 associations between SNPs and phenotypic traits (F<3.94E- 04) were identified. All of these associations corresponded to 30 SNPs markers and seven phenotypic traits. Weight of 100 seeds and reproductive period were the traits with more associations. Seed yield, harvest index and days to physiological maturity were associated to six SNPs (17, 34, 37, 50, 93 and 107), the SNP37 and SNP107 were identified as located in protein binding genes. The SNP106 and SNP128 were associated with the reproductive period and belonged to genes with kinase activity and genes related to starch metabolic process, respectively. In the case of AFLP markers, 271 associations (F<2.34E-04) were identified. The associations involved 86 AFLPs and all phenotypic traits, being the most frequently associated weight of 100 seeds, days to flowering and reproductive period. Even though it is not possible to perform a functional annotation for AFLP markers, they are proposed as potential markers related to drought resistance in common bean. AFLPs candidates require additional studies such as the sequencing of the respective alleles, identification of these sequences in the reference genome and gene annotation, before their use in marker assisted selection. This work, although requires further validation, proposes both genotypes and genetic markers that could be used in breeding programs of P. vulgaris in order to develop new lines or cultivars with enhanced drought-tolerance.
Resumo:
La importantísima expansión urbana que sufren las principales ciudades de los países en vías de desarrollo, es el mayor reto que afronta la habitabilidad a nivel mundial. Dentro de la teoría general de la Habitabilidad Básica (HaB-ETSAM-UPM, 1995) la ordenación del territorio y el planeamiento urbanístico son las herramientas determinantes para orientar coherentemente los procesos de urbanización, como se reconoce también desde las principales esferas técnicas a nivel internacional. Pero tales herramientas deben enfocarse a una construcción eficiente del territorio, actuando desde una aproximación multidisciplinar, flexible y directa, que incida en las prioridades específicas de cada contexto. Para ello, resulta fundamental comprender a fondo las realidades específicas de estos ámbitos. La ciudad es un fenómeno complejo en esencia. El tejido construido, en constante proceso de cambio, es el caparazón visible que alberga una maravillosa mezcla entrelazada de espacios, funciones, flujos, personas.... Cada ciudad, diferente y única, se integra en su medio, se adapta a geografías, contextos y climas distintos, evoluciona según dinámicas propias, en incomprensibles (o casi) procesos evolutivos. El estudio de la ciudad, supone siempre una simplificación de la misma. La realidad urbana, por detallado que sea nuestro análisis, siempre contendrá indescifrables relaciones que se nos escapan. En cambio, necesitamos de métodos analíticos que nos ayuden a comprender algo esa complejidad. Acercarnos en ese análisis, es un paso previo fundamental para la formulación de respuestas. En este plano, de avance en la comprensión del hecho urbano, se sitúa este trabajo. Se pone el acento en el enfoque cuantitativo, profundizando en datos básicos concretos, siempre aceptando de partida que esta información es una componente mínima, pero esperamos que sustantiva, de un fenómeno inabordable. Y es esta búsqueda de comprensión material y cuantitativa de la ciudad, el objetivo esencial de la investigación. Se pretende proporcionar una base detallada de aquéllos aspectos fundamentales, que pueden ser medidos en los entornos urbanos y que nos proporcionan información útil para el diagnóstico y las propuestas. Para ello, se aportan rangos y referencias deseables, a través de una herramienta para la comprensión y la valoración de cada contexto, la Matriz de Indicadores. Esta herramienta se concibe desde la reflexión a la aplicación práctica, a la utilidad directa, al aporte concreto para quien pueda servir. Ésta es la voluntad decidida con la que se aborda este trabajo, centrado en los entornos urbanos donde el aporte técnico es prioritario: la Ciudad Informal. La Ciudad Informal, entendida aquí como aquélla que se desarrolla sin los medios suficientes (técnicos, económicos e institucionales) que proporciona la planificación, aquélla por donde la habitabilidad precaria se extiende. Es la ciudad que predomina en los países en vías de desarrollo, en los contextos de bajos recursos, allí donde, precisamente, se concentran los principales déficits y necesidades a nivel global. El enfoque nace de la teoría de la Habitabilidad Básica, de la definición de mínimos posibles para, desde allí, construir el espacio necesario para el desarrollo humano. Éste es el ámbito genérico objeto del trabajo que, a su vez, se nutre, de forma muy importante, de la experiencia directa en la ciudad de Makeni, en Sierra Leona. Esta ciudad nos sirve de prototipo experimental en un doble sentido. Por un lado, sirve como espacio empírico en el que chequear la metodología de valoración cuantitativa; y, por otro, el conocimiento de esta ciudad de tamaño medio africana, que se ha ido adquiriendo en los últimos cinco años, es una base directa para el desarrollo teórico de la propia metodología, que ayuda a atisbar lo esencial en contextos similares. El encaje de todo este recorrido se ha articulado desde una experiencia académica que, como docente, he coordinado directa e intensamente. Experiencia muy enriquecedora, que ha sumado muchas manos y mucho aprendizaje en este tiempo. Teoría y práctica en planeamiento urbano se alternan en el trabajo, nutriéndose la una de la otra y a la inversa. Trabajo que nace desde la pasión por la ciudad y el urbanismo. Desde la búsqueda por comprender y desde la vocación de actuar, de intentar mejorar y hacer más habitables los entornos urbanos. Especialmente allí donde las dificultades se agolpan y el camino se alarga, se llena de polvo. Acumular preguntas a cada paso. Cada vez más preguntas. Las respuestas, si existen, aparecen entrelazadas en dinámicas indescifrables de las que queremos formar parte. Fundirnos por momentos en la misma búsqueda, acompañarla. Sentirnos cerca de quiénes comienzan de cero casi cada día. Y otra vez, arrancar. Y compartir, desde el conocimiento, si acaso es que se puede. Y la ciudad. Brutal, imponente, asfixiante, maravillosa, imposible. Creación colectiva insuperable, de energías sumadas que se cosen sin patrón aparente. O sin más razón que la del propio pulso de la vida. Así se siente Makeni. ABSTRACT The important urban growth suffering major cities of developing countries, is the biggest challenge facing the global habitability. Within the general theory of Basic Habitability (HAB-ETSAM-UPM, 1995) spatial planning and urban planning are the crucial tools to consistently guide the urbanization process, as also recognized from the main technical areas worldwide. But such tools should focus on an efficient construction of the territory, working from a multidisciplinary, flexible and direct approach, that affects the specific priorities of each context. To do this, it is essential to thoroughly understand the specific realities of these areas. The city is essentially a complex phenomenon. The urban fabric in constant flux, is the visible shell that houses a wonderful mixture interlocking spaces, functions, flows, people.... Every city, different and unique, is integrated into its environment, adapted to geographies, contexts and climates, it evolves according to its own dynamics, along (almost) incomprehensible evolutionary processes. The study of the city, is always a simplification of it. The urban reality, even studied from a detailed analysis, always contain undecipherable relationships that escape us. Instead, we need analytical methods that help us understand something that complexity. Moving forward in this analysis is an essential first step in formulating responses. At this level, progressing in understand the urban reality, is where this work is located. The emphasis on the quantitative approach is placed, delving into specific basic data, starting always accepting that this information is just a minimal component, but we hope that substantive, of an intractable phenomenon. And it is this search for materials and quantitative understanding of the city, the main objective of the research. It is intended to provide a detailed basis of those fundamental aspects that can be measured in urban environments that provide us useful information for the diagnosis and proposals. To do this, desirable ranges and references are provided, through a tool for understanding and appreciation of each context, the Indicator Matrix. This tool is conceived from reflection to practical application, to a direct utility, concrete contribution to who can serve. This is the firm resolve with which this work is addressed, centered in urban environments where the technical contribution is a priority: the Informal City. The Informal City, understood here as the urban areas developed without the sufficient resources (technical, economic and institutional) which planning provides, where it is extended the precarious habitability. It is the city that prevails in developing countries, in low-resource settings, where, precisely, the main gaps and needs in the global context are concentrated. The approach stems from the theory of Basic Habitability, the definition of possible minimum, to build the necessary space for human development. This is the generic scope of the work object, that is also based in the direct experience in the town of Makeni, Sierra Leone. This city serves as an experimental prototype in two ways. On the one hand, it serves as a space where empirically check the quantitative assessment methodology; and, secondly, the knowledge of this African city of medium size, which has been acquired in the last five years, is a direct basis for the theoretical development of the methodology itself, which helps to glimpse the essence in similar contexts. The engagement of this whole journey has been articulated from an academic experience, directly and intensely coordinated as teacher. Enriching experience that has added many hands and much learning at this time. Theory and practice in urban planning are mixed at work, enriching the one of the other and vice versa. Work is born from the passion for the city and urbanism. From the search for understanding and from the vocation of acting, trying to improve and make more livable urban environments. Especially where the difficulties are crowded and the road is so long, full of dust. To accumulate questions at every turn. More and more questions. The answers, if do exist, appears inside indecipherable dynamics in which we want to be involved. Merge at times in the same search. Feel close to those who start from scratch almost every day. And again, move forward. And share, from knowledge, if possible. And the city. Brutal, impressive, suffocating, wonderful, impossible. Unsurpassed collective creation, combined energy mix that are sewn with no apparent pattern. Or for no reason other than the pulse of life itself. As it feels the city of Makeni.
Resumo:
Avian plumage has long been used to test theories of sexual selection, with humans assessing the colors. However, many birds see in the ultraviolet (<400 nm), to which humans are blind. Consequently, it is important to know whether natural variation in UV reflectance from plumage functions in sexual signaling. We show that female starlings rank males differently when UV wavelengths are present or absent. Principal component analysis of ≈1300 reflectance spectra (300–700 nm) taken from sexually dimorphic plumage regions of males predicted preference under the UV+ treatment. Under UV− conditions, females ranked males in a different and nonrandom order, but plumage reflectance in the human visible spectrum did not predict choice. Natural variation in UV reflectance is thus important in avian mate assessment, and the prevailing light environment can have profound effects on observed mating preferences.
Resumo:
Deformable Template models are first applied to track the inner wall of coronary arteries in intravascular ultrasound sequences, mainly in the assistance to angioplasty surgery. A circular template is used for initializing an elliptical deformable model to track wall deformation when inflating a balloon placed at the tip of the catheter. We define a new energy function for driving the behavior of the template and we test its robustness both in real and synthetic images. Finally we introduce a framework for learning and recognizing spatio-temporal geometric constraints based on Principal Component Analysis (eigenconstraints).