13 resultados para Principal components analysis
em Universidad Politécnica de Madrid
Resumo:
Independent Components Analysis is a Blind Source Separation method that aims to find the pure source signals mixed together in unknown proportions in the observed signals under study. It does this by searching for factors which are mutually statistically independent. It can thus be classified among the latent-variable based methods. Like other methods based on latent variables, a careful investigation has to be carried out to find out which factors are significant and which are not. Therefore, it is important to dispose of a validation procedure to decide on the optimal number of independent components to include in the final model. This can be made complicated by the fact that two consecutive models may differ in the order and signs of similarly-indexed ICs. As well, the structure of the extracted sources can change as a function of the number of factors calculated. Two methods for determining the optimal number of ICs are proposed in this article and applied to simulated and real datasets to demonstrate their performance.
Resumo:
FBGs are excellent strain sensors, because of its low size and multiplexing capability. Tens to hundred of sensors may be embedded into a structure, as it has already been demonstrated. Nevertheless, they only afford strain measurements at local points, so unless the damage affects the strain readings in a distinguishable manner, damage will go undetected. This paper show the experimental results obtained on the wing of a UAV, instrumented with 32 FBGs, before and after small damages were introduced. The PCA algorithm was able to distinguish the damage cases, even for small cracks. Principal Component Analysis (PCA) is a technique of multivariable analysis to reduce a complex data set to a lower dimension and reveal some hidden patterns that underlie.
Resumo:
Data from an attitudinal survey and stated preference ranking experiment conducted in two urban European interchanges (i.e. City-HUBs) in Madrid (Spain) and Thessaloniki (Greece) show that the importance that City-HUBs users attach to the intermodal infrastructure varies strongly as a function of their perceptions of time spent in the interchange (i.e.intermodal transfer and waiting time). A principal components analysis allocates respondents (i.e. city-HUB users) to two classes with substantially different perceptions of time saving when they make a transfer and of time using during their waiting time.
Resumo:
The use of a common environment for processing different powder foods in the industry has increased the risk of finding peanut traces in powder foods. The analytical methods commonly used for detection of peanut such as enzyme-linked immunosorbent assay (ELISA) and real-time polymerase chain reaction (RT-PCR) represent high specificity and sensitivity but are destructive and time-consuming, and require highly skilled experimenters. The feasibility of NIR hyperspectral imaging (HSI) is studied for the detection of peanut traces down to 0.01% by weight. A principal-component analysis (PCA) was carried out on a dataset of peanut and flour spectra. The obtained loadings were applied to the HSI images of adulterated wheat flour samples with peanut traces. As a result, HSI images were reduced to score images with enhanced contrast between peanut and flour particles. Finally, a threshold was fixed in score images to obtain a binary classification image, and the percentage of peanut adulteration was compared with the percentage of pixels identified as peanut particles. This study allowed the detection of traces of peanut down to 0.01% and quantification of peanut adulteration from 10% to 0.1% with a coefficient of determination (r2) of 0.946. These results show the feasibility of using HSI systems for the detection of peanut traces in conjunction with chemical procedures, such as RT-PCR and ELISA to facilitate enhanced quality-control surveillance on food-product processing lines.
Resumo:
In recent years, Independent Components Analysis (ICA) has proven itself to be a powerful signal-processing technique for solving the Blind-Source Separation (BSS) problems in different scientific domains. In the present work, an application of ICA for processing NIR hyperspectral images to detect traces of peanut in wheat flour is presented. Processing was performed without a priori knowledge of the chemical composition of the two food materials. The aim was to extract the source signals of the different chemical components from the initial data set and to use them in order to determine the distribution of peanut traces in the hyperspectral images. To determine the optimal number of independent component to be extracted, the Random ICA by blocks method was used. This method is based on the repeated calculation of several models using an increasing number of independent components after randomly segmenting the matrix data into two blocks and then calculating the correlations between the signals extracted from the two blocks. The extracted ICA signals were interpreted and their ability to classify peanut and wheat flour was studied. Finally, all the extracted ICs were used to construct a single synthetic signal that could be used directly with the hyperspectral images to enhance the contrast between the peanut and the wheat flours in a real multi-use industrial environment. Furthermore, feature extraction methods (connected components labelling algorithm followed by flood fill method to extract object contours) were applied in order to target the spatial location of the presence of peanut traces. A good visualization of the distributions of peanut traces was thus obtained
Resumo:
Este trabajo presenta una solución al problema del reconocimiento del género de un rostro humano a partir de una imagen. Adoptamos una aproximación que utiliza la cara completa a través de la textura de la cara normalizada y redimensionada como entrada a un clasificador Näive Bayes. Presentamos la técnica de Análisis de Componentes Principales Probabilístico Condicionado-a-la-Clase (CC-PPCA) para reducir la dimensionalidad de los vectores de características para la clasificación y asegurar la asunción de independencia para el clasificador. Esta nueva aproximación tiene la deseable propiedad de presentar un modelo paramétrico sencillo para las marginales. Además, este modelo puede estimarse con muy pocos datos. En los experimentos que hemos desarrollados mostramos que CC-PPCA obtiene un 90% de acierto en la clasificación, resultado muy similar al mejor presentado en la literatura---ABSTRACT---This paper presents a solution to the problem of recognizing the gender of a human face from an image. We adopt a holistic approach by using the cropped and normalized texture of the face as input to a Naïve Bayes classifier. First it is introduced the Class-Conditional Probabilistic Principal Component Analysis (CC-PPCA) technique to reduce the dimensionality of the classification attribute vector and enforce the independence assumption of the classifier. This new approach has the desirable property of a simple parametric model for the marginals. Moreover this model can be estimated with very few data. In the experiments conducted we show that using CCPPCA we get 90% classification accuracy, which is similar result to the best in the literature. The proposed method is very simple to train and implement.
Resumo:
Developing countries are experiencing unprecedented levels of economic growth. As a result, they will be responsible for most of the future growth in energy demand and greenhouse gas (GHG) emissions. Curbing GHG emissions in developing countries has become one of the cornerstones of a future international agreement under the United Nations Framework Convention for Climate Change (UNFCCC). However, setting caps for developing countries’ GHG emissions has encountered strong resistance in the current round of negotiations. Continued economic growth that allows poverty eradication is still the main priority for most developing countries, and caps are perceived as a constraint to future growth prospects. The development, transfer and use of low-carbon technologies have more positive connotations, and are seen as the potential path towards low-carbon development. So far, the success of the UNFCCC process in improving the levels of technology transfer (TT) to developing countries has been limited. This thesis analyses the causes for such limited success and seeks to improve on the understanding about what constitutes TT in the field of climate change, establish the factors that enable them in developing countries and determine which policies could be implemented to reinforce these factors. Despite the wide recognition of the importance of technology and knowledge transfer to developing countries in the climate change mitigation policy agenda, this issue has not received sufficient attention in academic research. Current definitions of climate change TT barely take into account the perspective of actors involved in actual climate change TT activities, while respective measurements do not bear in mind the diversity of channels through which these happen and the outputs and effects that they convey. Furthermore, the enabling factors for TT in non-BRIC (Brazil, Russia, India, China) developing countries have been seldom investigated, and policy recommendations to improve the level and quality of TTs to developing countries have not been adapted to the specific needs of highly heterogeneous countries, commonly denominated as “developing countries”. This thesis contributes to enriching the climate change TT debate from the perspective of a smaller emerging economy (Chile) and by undertaking a quantitative analysis of enabling factors for TT in a large sample of developing countries. Two methodological approaches are used to study climate change TT: comparative case study analysis and quantitative analysis. Comparative case studies analyse TT processes in ten cases based in Chile, all of which share the same economic, technological and policy frameworks, thus enabling us to draw conclusions on the enabling factors and obstacles operating in TT processes. The quantitative analysis uses three methodologies – principal component analysis, multiple regression analysis and cluster analysis – to assess the performance of developing countries in a number of enabling factors and the relationship between these factors and indicators of TT, as well as to create groups of developing countries with similar performances. The findings of this thesis are structured to provide responses to four main research questions: What constitutes technology transfer and how does it happen? Is it possible to measure technology transfer, and what are the main challenges in doing so? Which factors enable climate change technology transfer to developing countries? And how do different developing countries perform in these enabling factors, and how can differentiated policy priorities be defined accordingly? vi Resumen Los paises en desarrollo estan experimentando niveles de crecimiento economico sin precedentes. Como consecuencia, se espera que sean responsables de la mayor parte del futuro crecimiento global en demanda energetica y emisiones de Gases de Efecto de Invernadero (GEI). Reducir las emisiones de GEI en los paises en desarrollo es por tanto uno de los pilares de un futuro acuerdo internacional en el marco de la Convencion Marco de las Naciones Unidas para el Cambio Climatico (UNFCCC). La posibilidad de compromisos vinculantes de reduccion de emisiones de GEI ha sido rechazada por los paises en desarrollo, que perciben estos limites como frenos a su desarrollo economico y a su prioridad principal de erradicacion de la pobreza. El desarrollo, transferencia y uso de tecnologias bajas en carbono tiene connotaciones mas positivas y se percibe como la via hacia un crecimiento bajo en carbono. Hasta el momento, la UNFCCC ha tenido un exito limitado en la promocion de transferencias de tecnologia (TT) a paises en desarrollo. Esta tesis analiza las causas de este resultado y busca mejorar la comprension sobre que constituye transferencia de tecnologia en el area de cambio climatico, cuales son los factores que la facilitan en paises en desarrollo y que politicas podrian implementarse para reforzar dichos factores. A pesar del extendido reconocimiento sobre la importancia de la transferencia de tecnologia a paises en desarrollo en la agenda politica de cambio climatico, esta cuestion no ha sido suficientemente atendida por la investigacion existente. Las definiciones actuales de transferencia de tecnologia relacionada con la mitigacion del cambio climatico no tienen en cuenta la diversidad de canales por las que se manifiestan o los efectos que consiguen. Los factores facilitadores de TT en paises en desarrollo no BRIC (Brasil, Rusia, India y China) apenas han sido investigados, y las recomendaciones politicas para aumentar el nivel y la calidad de la TT no se han adaptado a las necesidades especificas de paises muy heterogeneos aglutinados bajo el denominado grupo de "paises en desarrollo". Esta tesis contribuye a enriquecer el debate sobre la TT de cambio climatico con la perspectiva de una economia emergente de pequeno tamano (Chile) y el analisis cuantitativo de factores que facilitan la TT en una amplia muestra de paises en desarrollo. Se utilizan dos metodologias para el estudio de la TT a paises en desarrollo: analisis comparativo de casos de estudio y analisis cuantitativo basado en metodos multivariantes. Los casos de estudio analizan procesos de TT en diez casos basados en Chile, para derivar conclusiones sobre los factores que facilitan u obstaculizan el proceso de transferencia. El analisis cuantitativo multivariante utiliza tres metodologias: regresion multiple, analisis de componentes principales y analisis cluster. Con dichas metodologias se busca analizar el posicionamiento de diversos paises en cuanto a factores que facilitan la TT; las relaciones entre dichos factores e indicadores de transferencia tecnologica; y crear grupos de paises con caracteristicas similares que podrian beneficiarse de politicas similares para la promocion de la transferencia de tecnologia. Los resultados de la tesis se estructuran en torno a cuatro preguntas de investigacion: .Que es la transferencia de tecnologia y como ocurre?; .Es posible medir la transferencia de tecnologias de bajo carbono?; .Que factores facilitan la transferencia de tecnologias de bajo carbono a paises en desarrollo? y .Como se puede agrupar a los paises en desarrollo en funcion de sus necesidades politicas para la promocion de la transferencia de tecnologias de bajo carbono?
Resumo:
In the last years significant efforts have been devoted to the development of advanced data analysis tools to both predict the occurrence of disruptions and to investigate the operational spaces of devices, with the long term goal of advancing the understanding of the physics of these events and to prepare for ITER. On JET the latest generation of the disruption predictor called APODIS has been deployed in the real time network during the last campaigns with the new metallic wall. Even if it was trained only with discharges with the carbon wall, it has reached very good performance, with both missed alarms and false alarms in the order of a few percent (and strategies to improve the performance have already been identified). Since for the optimisation of the mitigation measures, predicting also the type of disruption is considered to be also very important, a new clustering method, based on the geodesic distance on a probabilistic manifold, has been developed. This technique allows automatic classification of an incoming disruption with a success rate of better than 85%. Various other manifold learning tools, particularly Principal Component Analysis and Self Organised Maps, are also producing very interesting results in the comparative analysis of JET and ASDEX Upgrade (AUG) operational spaces, on the route to developing predictors capable of extrapolating from one device to another.
Resumo:
En muchas áreas de la ingeniería, la integridad y confiabilidad de las estructuras son aspectos de extrema importancia. Estos son controlados mediante el adecuado conocimiento de danos existentes. Típicamente, alcanzar el nivel de conocimiento necesario que permita caracterizar la integridad estructural implica el uso de técnicas de ensayos no destructivos. Estas técnicas son a menudo costosas y consumen mucho tiempo. En la actualidad, muchas industrias buscan incrementar la confiabilidad de las estructuras que emplean. Mediante el uso de técnicas de última tecnología es posible monitorizar las estructuras y en algunos casos, es factible detectar daños incipientes que pueden desencadenar en fallos catastróficos. Desafortunadamente, a medida que la complejidad de las estructuras, los componentes y sistemas incrementa, el riesgo de la aparición de daños y fallas también incrementa. Al mismo tiempo, la detección de dichas fallas y defectos se torna más compleja. En años recientes, la industria aeroespacial ha realizado grandes esfuerzos para integrar los sensores dentro de las estructuras, además de desarrollar algoritmos que permitan determinar la integridad estructural en tiempo real. Esta filosofía ha sido llamada “Structural Health Monitoring” (o “Monitorización de Salud Estructural” en español) y este tipo de estructuras han recibido el nombre de “Smart Structures” (o “Estructuras Inteligentes” en español). Este nuevo tipo de estructuras integran materiales, sensores, actuadores y algoritmos para detectar, cuantificar y localizar daños dentro de ellas mismas. Una novedosa metodología para detección de daños en estructuras se propone en este trabajo. La metodología está basada en mediciones de deformación y consiste en desarrollar técnicas de reconocimiento de patrones en el campo de deformaciones. Estas últimas, basadas en PCA (Análisis de Componentes Principales) y otras técnicas de reducción dimensional. Se propone el uso de Redes de difracción de Bragg y medidas distribuidas como sensores de deformación. La metodología se validó mediante pruebas a escala de laboratorio y pruebas a escala real con estructuras complejas. Los efectos de las condiciones de carga variables fueron estudiados y diversos experimentos fueron realizados para condiciones de carga estáticas y dinámicas, demostrando que la metodología es robusta ante condiciones de carga desconocidas. ABSTRACT In many engineering fields, the integrity and reliability of the structures are extremely important aspects. They are controlled by the adequate knowledge of existing damages. Typically, achieving the level of knowledge necessary to characterize the structural integrity involves the usage of nondestructive testing techniques. These are often expensive and time consuming. Nowadays, many industries look to increase the reliability of the structures used. By using leading edge techniques it is possible to monitoring these structures and in some cases, detect incipient damage that could trigger catastrophic failures. Unfortunately, as the complexity of the structures, components and systems increases, the risk of damages and failures also increases. At the same time, the detection of such failures and defects becomes more difficult. In recent years, the aerospace industry has done great efforts to integrate the sensors within the structures and, to develop algorithms for determining the structural integrity in real time. The ‘philosophy’ has being called “Structural Health Monitoring” and these structures have been called “smart structures”. These new types of structures integrate materials, sensors, actuators and algorithms to detect, quantify and locate damage within itself. A novel methodology for damage detection in structures is proposed. The methodology is based on strain measurements and consists in the development of strain field pattern recognition techniques. The aforementioned are based on PCA (Principal Component Analysis) and other dimensional reduction techniques. The use of fiber Bragg gratings and distributed sensing as strain sensors is proposed. The methodology have been validated by using laboratory scale tests and real scale tests with complex structures. The effects of the variable load conditions were studied and several experiments were performed for static and dynamic load conditions, demonstrating that the methodology is robust under unknown load conditions.
Resumo:
En el presente trabajo se ha llevado a cabo un estudio de la biodiversidad del frijol común (Phaseolus vulgaris L.) en Honduras, que es el segundo de los cultivos de granos básicos en importancia. Dicho estudio se ha realizado mediante una caracterización agromorfológica, molecular y ecogeográfica en una selección de 300 accesiones conservadas en el banco de germoplasma ubicado en la Escuela Agrícola Panamericana (EAP) El Zamorano, y que se colectaron en 13 departamentos del país durante el periodo de 1990 a 1994. Estas accesiones fueron colectadas cuatro años antes del acontecimiento del huracán Mitch, el cual a su paso afectó al 96% del área total cultivable en su momento, lo cual nos hace considerar que la biodiversidad de razas locales (landraces) de frijol común existentes in situ fueron severamente afectadas. Los trabajos dirigidos a analizar la biodiversidad de razas locales de frijol común en Honduras son escasos, y este trabajo se constituye como el primero que incluye una amplia muestra a ser estudiada a través de una caracterización en tres aspectos complementarios (agromorfológico, molecular y ecogeográfico). Se evaluaron 32 caracteres agromorfológicos, 12 cuantitativos y 20 cualitativos, en distintas partes de la planta. Se establecieron las correlaciones entre los caracteres agromorfológicos y se elaboró un dendrograma con los mismos, en el que se formaron ocho grupos, en parte relacionados principalmente con los colores y tamaños de la semilla. Mediante el análisis de componentes principales se estudiaron los caracteres de más peso en cada uno de los tres primeros componentes. Asimismo, se estudiaron las correlaciones entre caracteres, siendo las más altas la longitud y anchura de la hoja, días a madurez y a cosecha y longitud y peso de semilla. Por otra parte, el mapa de diversidad agromorfológica mostró la existencia de tres zonas con mayor diversidad: en el oeste (en los departamentos de Santa Bárbara, Lempira y Copán), en el centro-norte (en los departamentos de Francisco Morazán, Yoro y Atlántida) y en el sur (en el departamento de El Paraíso y al sur de Francisco Morazán). Para la caracterización molecular partimos de 12 marcadores de tipo microsatélite, evaluados en 54 accesiones, que fueron elegidas por constituir grupos que compartían un mismo nombre local. Finalmente, se seleccionaron los cuatro microsatélites (BM53, GATS91, BM211 y PV-AT007) que resultaron ser más polimórficos e informativos para el análisis de las 300 accesiones, con los que se detectaron un total de 119 alelos (21 de ellos únicos o privados de accesión) y 256 patrones alélicos diferentes. Para estudiar la estructura y relaciones genéticas en las 300 accesiones se incluyeron en el análisis tres controles o accesiones de referencia, pertenecientes dos de ellas al acervo genético Andino y una al Mesoamericano. En el dendrograma se obtuvieron 25 grupos de accesiones con idénticas combinaciones de alelos. Al comparar este dendrograma con el de caracteres agromorfológicos se observaron diversos grupos con marcada similitud en ambos. Un total de 118 accesiones resultaron ser homogéneas y homocigóticas, a la vez que representativas del grupo de 300 accesiones, por lo que se analizaron con más detalle. El análisis de la estructura genética definió la formación de dos grupos, supuestamente relacionados con los acervos genéticos Andino (48) y Mesoamericano (61), y un reducido número de accesiones (9) que podrían tener un origen híbrido, debido a la existencia de un cierto grado de introgresión entre ambos acervos. La diferenciación genética entre ambos grupos fue del 13,3%. Asimismo, 66 de los 82 alelos detectados fueron privados de grupo, 30 del supuesto grupo Andino y 36 del Mesoamericano. Con relación al mapa de diversidad molecular, presentó una distribución bastante similar al de la diversidad agromorfológica, detectándose también las zonas de mayor diversidad genética en el oeste (en los departamentos de Lempira y Santa Bárbara), en el centro-norte (en los departamentos de Yoro y Atlántida) y en el sur (en el departamento de El Paraíso y al sur de Francisco Morazán). Para la caracterización ecogeográfica se seleccionaron variables de tipo bioclimático (2), geofísico (2) y edáfico (8), y mediante el método de agrupamiento de partición alrededor de los medoides, la combinación de los grupos con cada uno de los tres tipos de variables definió un total de 32 categorías ecogeográficas en el país, detectándose accesiones en 16 de ellas. La distribución de las accesiones previsiblemente esté relacionada con la existencia de condiciones más favorables al cultivo de frijol. En el mapa de diversidad ecogeográfica, nuevamente, se observaron varias zonas con alta diversidad tanto en el oeste, como en el centro-norte y en el sur del país. Como consecuencia del estudio realizado, se concluyó la existencia de una marcada biodiversidad en el material analizado, desde el punto de vista tanto agromorfológico como molecular. Por lo que resulta de gran importancia plantear la conservación de este patrimonio genético tanto ex situ, en bancos de germoplasma, como on farm, en las propias explotaciones de los agricultores del país, siempre que sea posible. ABSTRACT In the present work we have carried out a study of the biodiversity of the common bean (Phaseolus vulgaris L) in Honduras, which is the second of the basic grain crops in importance. This study was conducted through agro-morphological, molecular and ecogeographical characterization of a selection of 300 accessions conserved in the genebank located in the ‘Escuela Agrícola Panamericana (EAP) El Zamorano’ that were collected in 13 departments of the country during the 1990 to 1994 period. These accessions were collected four years before the occurrence of Mitch hurricane, which affected 96% of the total cultivable area at the time, which makes us to consider that the biodiversity of local landraces of common bean existing in situ were severely affected. The work aimed to analyze the biodiversity of local races of common bean in Honduras are scarce, and this work constitutes the first to include a large sample to be studied through a characterization on three complementary aspects (agromorphological, molecular and ecogeographical). Thirty two agromorphological characters, 12 quantitative and 20 qualitative, in various parts of the plant were evaluated. Correlations between agromorphological characters were established and a dendrogram with them was constructed, in which eight groups were formed, in part mainly related to the colors and sizes of the seeds. By principal component analysis the characters with more weight in each of the first three components were studied. Also, correlations between characters were studied, the highest of them being length and leaf width, days to maturity and harvest, and seed length and weight. Moreover, the map of agromorphological diversity showed the existence of three areas with more diversity: the west (departments of Santa Barbara, Copan and Lempira), the center-north (departments of Francisco Morazán, Yoro and Atlántida) and the south (department of El Paraiso and south of Francisco Morazán). For molecular characterization we started with 12 microsatellite markers, evaluated in 54 accessions, which were chosen because they formed groups that shared the same local name. Finally, four microsatellites (BM53, GATS91, BM211 and PV-AT007) were selected for the analysis of 300 accessions, since they were the most polymorphic and informative. They gave a total of 119 alleles (21 of them unique or private for the accession) and 256 different allelic patterns. To study the structure and genetic relationships in the 300 accessions, three controls or accessions of reference were included in the analysis: two of them belonging to the Andean gene pool and one to the Mesoamerican. In the dendrogram, 25 accession groups with identical allele combinations were obtained. Comparing this dendrogram to the obtained with agromorphological characters, several groups with marked similarity in both were observed. A total of 118 accessions were homozygous and homogeneous, while representing the group of 300 accessions, therefore they were analyzed in more detail. The analysis of the genetic structure defined the formation of two groups, supposedly related to the Andean (48) and the Mesoamerican (61) gene pools, and a small number of accessions (9) which may have a hybrid origin, due to the existence of some degree of introgression between both gene pools. Genetic differentiation between both groups was 13.3%. Also, 66 of the 82 detected alleles were private or unique for the group, 30 of the supposed Andean group and 36 of the Mesoamerican. With relation to the map of molecular diversity, it showed a quite similar distribution to the agromorphological, also detecting the areas of greatest genetic diversity in the west (departments of Lempira and Santa Bárbara), in the center-north (departments Atlántida and Yoro) and in the south (departments of El Paraíso and south of Francisco Morazán). For the ecogeographical characterization, bioclimatic (2), geophysical (2) and edaphic (8) variables were selected, and by the method of clustering partition around the medoids, the combination of the groups to each of the three types of variables defined a total of 32 ecogeographical categories in the country, having accessions in 16 of them. The distribution of accessions is likely related to the existence of more favorable conditions for the cultivation of beans. The map of ecogeographical diversity, again, several areas with high diversity both in the west and in the center-north and in the south of the country were observed. As a result of study, the existence of marked biodiversity in the analyzed material was concluded, both from the agromorphological and from the molecular point of view. Consequently it is very important to propose the conservation of this genetic heritage both ex situ, in genebanks, as on farm, in the holdings of the farmers of the country, whenever possible.
Resumo:
The application of the Electro-Mechanical Impedance (EMI) method for damage detection in Structural Health Monitoring has noticeable increased in recent years. EMI method utilizes piezoelectric transducers for directly measuring the mechanical properties of the host structure, obtaining the so called impedance measurement, highly influenced by the variations of dynamic parameters of the structure. These measurements usually contain a large number of frequency points, as well as a high number of dimensions, since each frequency range swept can be considered as an independent variable. That makes this kind of data hard to handle, increasing the computational costs and being substantially time-consuming. In that sense, the Principal Component Analysis (PCA)-based data compression has been employed in this work, in order to enhance the analysis capability of the raw data. Furthermore, a Support Vector Machine (SVM), which has been widespread used in machine learning and pattern recognition fields, has been applied in this study in order to model any possible existing pattern in the PCAcompress data, using for that just the first two Principal Components. Different known non-damaged and damaged measurements of an experimental tested beam were used as training input data for the SVM algorithm, using as test input data the same amount of cases measured in beams with unknown structural health conditions. Thus, the purpose of this work is to demonstrate how, with a few impedance measurements of a beam as raw data, its healthy status can be determined based on pattern recognition procedures.
Resumo:
Phaseolus vulgaris L. (frijol común o judía) es una leguminosa de gran demanda para la nutrición humana y un producto agrícola muy importante. Sin embargo, la producción de frijol se ve limitada por presiones ambientales como la sequía. En México, el 85% de la cosecha de frijol se produce en la temporada de primavera-verano, principalmente en las regiones del altiplano semiárido con una precipitación anual entre 250 y 400 mm. A pesar del implemento de tecnología en el campo, los factores naturales impiden al agricultor llegar a los rendimientos deseados. El Instituto Nacional de Investigaciones Forestales, Agrícolas y Pecuarias (INIFAP), como instituto de investigación gubernamental en México, tiene como objetivo la mejora de cultivos estratégicos, uno de ellos, P. vulgaris. Los estudios en relación a la sequía se enfocan especialmente en la selección de genotipos tolerantes, los cuales son sometidos en condiciones de estrés y monitoreando parámetros como el rendimiento y peso de semilla, además de algunos indicadores tales como índice de cosecha. El resultado de estos trabajos ha sido la obtención de variedades con mayor tolerancia a la sequía, tales como Pinto Villa y Pinto Saltillo. En los últimos años se ha avanzado notablemente en el conocimiento de las bases moleculares en las respuestas de las plantas al estrés. De acuerdo a diversos estudios se ha demostrado que las plantas bajo estrés por sequía experimentan cambios en la expresión de genes involucrados en la señalización, regulación de la transcripción y la traducción, transporte de agua y la función directa en la protección celular. También se ha observado que el déficit de agua es causado por las temperaturas extremas y la alta concentración de sales, por lo que al nivel molecular, las respuestas al estrés tienen puntos de especificidad y puntos de entrecruzamiento. La sequía puede generar estreses secundarios, tales como el nutricional, oxidativo y osmótico. Sin embargo, es necesario identificar y caracterizar muchos de los componentes involucrados en las respuestas al déficit hídrico, la caracterización de estos genes permitirá tener una mejor comprensión de los mecanismos bioquímicos y fisiológicos involucrados en la tolerancia al estrés. Actualmente, con el apoyo de la biología molecular se han identificado algunos genes que otorgan ventajas para la adaptación a ambientes desfavorables. Por lo que el objetivo del presente trabajo es identificar marcadores genéticos asociados a rasgos fenotípicos con énfasis a la tolerancia a estrés hídrico en P. vulgaris. Una vez establecidos los marcadores asociados al estrés hídrico, es factible considerar su uso para la selección asistida por marcadores en líneas o variedades de frijol de interés para los mejoradores. Se evaluaron 282 familias F3:5 derivadas de la cruza entre los cultivares Pinto Villa y Pinto Saltillo. Las familias se sembraron bajo un diseño simple de látice 17x17, el experimento se llevo acabo en el ciclo primavera-verano del 2010 y 2011, y otoñoinvierno de 2010 en el Campo Experimental Bajío del INIFAP con dos repeticiones para cada tratamiento de humedad (riego completo y sequía terminal). En todos los genotipos se realizó el fenotipado (variables fenotípicas) y el genotipado a través de marcadores moleculares. Los análisis estadísticos se basaron en el análisis de componentes principales (Eigen Analysis Selection Index Method, ESIM), la asociación entre marcadores SNP y el fenotipado (paquete SNPassoc para R) y el análisis de varianza (ANOVA). Los valores ESIM mostraron que las variables de Rendimiento, Días a floración, Días a madurez fisiológica e Índice de cosecha fueron sobresalientes en sequía terminal, por lo que se sugieren tomarse en consideración para los estudios de sequía en P. vulgaris como monitores de evaluación a la resistencia. Se identificaron nueve familias sobresalieron por sus valores ESIM (PV/PS6, 22, 131, 137, 149, 154, 201, 236 y 273), además de presentar valores superiores para el rendimiento en comparación con los parentales. Estos genotipos son candidatos interesantes para realizar estudios de identificación de loci asociados con la respuesta al estrés, y como potenciales parentales en el desarrollo de nuevas variedades de frijol. En los análisis de asociación SNPassoc se identificaron 83 SNPs significativos (p<0,0003) asociados a los rasgos fenotípicos, obteniendo un total de 222 asociaciones, de las cuales predomina el modelo genético de codominancia para las variables Días a floración, Periodo reproductivo y Biomasa total. Treinta y siete SNPs se identificaron a diferentes funciones biológicas a través del análisis de anotación funcional, de los cuales 12 SNPs (9, 18, 28, 39, 61, 69, 80, 106, 115, 128, 136 y 142) sobresalen por su asociación al fenotipado, y cuya anotación funcional indica que se encuentran en genes relacionados a la tolerancia a la sequía, tales como la actividad kinasa, actividad metabólica del almidón, carbohidratos y prolina, respuesta al estrés oxidativo, así como en los genes LEA y posibles factores de transcripción. En el caso de los análisis ANOVA, se identificaron 72 asociaciones entre los SNPs y las variables fenotípicas (F< 3,94E-04). Las 72 asociaciones corresponden a 30 SNPs y 7 variables fenotípicas, de las que predomina Peso de 100 semillas y Periodo reproductivo. Para los rasgos de Rendimiento, Índice de cosecha y Días a madurez fisiológica se presentaron asociaciones con seis SNPs (17, 34, 37, 50, 93 y 107), de los cuales, a los SNP37 y SNP107 fueron identificados a la anotación biológica de protein binding. Por otro lado, los SNP106 y SNP128 asociados al Periodo reproductivo, son genes con actividad kinasa y actividad metabólica del almidón, respectivamente. Para los marcadores tipo AFLP, se identificaron 271 asociaciones (F<2,34E-04). Las asociaciones corresponden a 86 AFLPs con todas las variables fenotípicas evaluadas, de las que predomina peso de 100 semillas, Días a floración y Periodo reproductivo. Debido a que los en los AFLPs no es posible determinar su anotación biológica, se proponen como marcadores potenciales relacionados a la resistencia a la sequía en frijol. Los AFLPs candidatos requieren más estudios tales como la secuenciación de los alelos respectivos, así como la identificación de éstas secuencias en el genoma de referencia y su anotación biológica, entre otros análisis, de esta manera podríamos establecer aquellos marcadores candidatos a la validación para la selección asistida. El presente trabajo propone tanto genotipos como marcadores genéticos, que deben ser validados para ser utilizados en el programa de mejoramiento de P. vulgaris, con el objetivo de desarrollar nuevas líneas o variedades tolerantes a la sequía. ABSTRACT Phaseolus vulgaris L. (common bean or judia) is a legume of great demand for human consumption and an important agricultural product. However, the common bean production is limited by environmental stresses, such as drought. In Mexico, 85% of the common bean crop is produced in the spring-summer season mainly in semiarid highland regions with a rainfall between 250 and 400 mm per year. In spite of the improvement of crop technology, the natural factors hamper getting an optimal yield. The National Institute for Forestry, Agriculture and Livestock (INIFAP) is a government research institute from Mexico, whose main objective is the genetic breeding of strategic crops, like P. vulgaris L. The drought tolerance studies particularly focus on the selection of bean tolerant genotypes, which are subjected to stress conditions, by means of monitoring parameters such as yield and seed weight, plus some agronomic indicators such as harvest index. The results of these works have led to obtain cultivars with higher drought tolerance such as Pinto Villa and Pinto Saltillo. Significant achievements have been recently made in understanding the molecular basis of stress plant responses. Several studies have shown that plants under drought stress present changes in gene expression related to cell signalling, transcriptional and translational regulation, water transport and cell protection. In addition, it has been observed that the extreme temperatures and high salt concentrations can cause a water deficiency so, at the molecular level, stress responses have specific and crossover points. The drought can cause secondary stresses, such as nutritional, oxidative and osmotic stress. It is required the identification of more components involved in the response to water deficit, the characterization of these genes will allow a better understanding of the biochemical and physiological mechanisms involved in stress tolerance. Currently, with the support of molecular biology techniques, some genes that confer an advantage for the crop adaptation to unfavourable environments have been identified. The objective of this study is to identify genetic markers associated with phenotypic traits with emphasis on water stress tolerance in P. vulgaris. The establishment of molecular markers linked to drought tolerance would make possible their use for marker-assisted selection in bean breeding programs. Two hundred and eighty two F3:5 families derived from a cross between the drought resistant cultivars Pinto Villa and Pinto Saltillo were evaluated. The families were sowed under a 17x17 simple lattice design. The experiment was conducted between spring-summer seasons in 2010 and 2011, and autumn-winter seasons in 2010 at the Bajio Experimental Station of INIFAP with two treatments (full irrigation and terminal drought). All families were phenotyped and genotyped using molecular markers. Statistical analysis was based on principal component analysis (Eigen Analysis Selection Index Method, ESIM), association analysis between SNP markers and phenotype (SNPassoc package R) and analysis of variance (ANOVA). The ESIM values showed that seed yield, days to flowering, days to physiological maturity and harvest index were outstanding traits in terminal drought treatment, so they could be considered as suitable parameters for drought-tolerance evaluation in P. vulgaris. Nine outstanding families for the ESIM values were identified (PV/PS6, 22, 131, 137, 149, 154, 201, 236 and 273), in addition, these families showed higher values for seed yield compared to the parental cultivars. These families are promising candidates for studies focused on the identification of loci associated to the stress response, and as potential parental cultivars for the development of new varieties of common bean. In the SNPassoc analysis, 83 SNPs were found significantly associated (p<0.0003) with phenotypic traits, obtaining a total of 222 associations, most of which involved the traits days to flowering, reproductive period and total biomass under a codominant genetic model. The functional annotation analysis showed 37 SNPs with different biological functions, 12 of them (9, 18, 28, 39, 61, 69, 80, 106, 115, 128, 136 and 142) stand out by their association to phenotype. The functional annotation suggested a connection with genes related to drought tolerance, such as kinase activity, starch, carbohydrates and proline metabolic processes, responses to oxidative stress, as well as LEA genes and putative transcription factors. In the ANOVA analysis, 72 associations between SNPs and phenotypic traits (F<3.94E- 04) were identified. All of these associations corresponded to 30 SNPs markers and seven phenotypic traits. Weight of 100 seeds and reproductive period were the traits with more associations. Seed yield, harvest index and days to physiological maturity were associated to six SNPs (17, 34, 37, 50, 93 and 107), the SNP37 and SNP107 were identified as located in protein binding genes. The SNP106 and SNP128 were associated with the reproductive period and belonged to genes with kinase activity and genes related to starch metabolic process, respectively. In the case of AFLP markers, 271 associations (F<2.34E-04) were identified. The associations involved 86 AFLPs and all phenotypic traits, being the most frequently associated weight of 100 seeds, days to flowering and reproductive period. Even though it is not possible to perform a functional annotation for AFLP markers, they are proposed as potential markers related to drought resistance in common bean. AFLPs candidates require additional studies such as the sequencing of the respective alleles, identification of these sequences in the reference genome and gene annotation, before their use in marker assisted selection. This work, although requires further validation, proposes both genotypes and genetic markers that could be used in breeding programs of P. vulgaris in order to develop new lines or cultivars with enhanced drought-tolerance.
Resumo:
Las patologías de la voz se han transformado en los últimos tiempos en una problemática social con cierto calado. La contaminación de las ciudades, hábitos como el de fumar, el uso de aparatos de aire acondicionado, etcétera, contribuyen a ello. Esto alcanza más relevancia en profesionales que utilizan su voz de manera frecuente, como, por ejemplo, locutores, cantantes, profesores o teleoperadores. Por todo ello resultan de especial interés las técnicas de ayuda al diagnóstico que son capaces de extraer conclusiones clínicas a partir de una muestra de la voz grabada con un micrófono, frente a otras invasivas que implican la exploración utilizando laringoscopios, fibroscopios o videoendoscopios, técnicas en cualquier caso mucho más molestas para los pacientes al exigir la introducción parcial del instrumental citado por la garganta, en actuaciones consideradas de tipo quirúrgico. Dentro de aquellas técnicas se ha avanzado mucho en un período de tiempo relativamente corto. En lo que se refiere al diagnóstico de patologías, hemos pasado en los últimos quince años de trabajar principalmente con parámetros extraídos de la señal de voz –tanto en el dominio del tiempo como en el de la frecuencia– y con escalas elaboradas con valoraciones subjetivas realizadas por expertos a hacerlo también con parámetros procedentes de estimaciones de la fuente glótica. La importancia de utilizar la fuente glótica reside, a grandes rasgos, en que se trata de una señal vinculada directamente al estado de la estructura laríngea del locutor y también en que está generalmente menos influida por el tracto vocal que la señal de voz. Es conocido que el tracto vocal guarda más relación con el mensaje hablado, y su presencia dificulta el proceso de detección de patología vocal. Estas estimaciones de la fuente glótica han sido obtenidas a través de técnicas de filtrado inverso desarrolladas por nuestro grupo de investigación. Hemos conseguido, además, profundizar en la naturaleza de la señal glótica: somos capaces de descomponerla y relacionarla con parámetros biomecánicos de los propios pliegues vocales, obteniendo estimaciones de elementos como la masa, la pérdida de energía o la elasticidad del cuerpo y de la cubierta del pliegue, entre otros. De las componentes de la fuente glótica surgen también los denominados parámetros biométricos, relacionados con la forma de la señal, que constituyen por sí mismos una firma biométrica del individuo. También trabajaremos con parámetros temporales, relacionados con las diferentes etapas que se observan dentro de la señal glótica durante un ciclo de fonación. Por último, consideraremos parámetros clásicos de perturbación y energía de la señal. En definitiva, contamos ahora con una considerable cantidad de parámetros glóticos que conforman una base estadística multidimensional, destinada a ser capaz de discriminar personas con voces patológicas o disfónicas de aquellas que no presentan patología en la voz o con voces sanas o normofónicas. Esta tesis doctoral se ocupa de varias cuestiones: en primer lugar, es necesario analizar cuidadosamente estos nuevos parámetros, por lo que ofreceremos una completa descripción estadística de los mismos. También estudiaremos cuestiones como la distribución de los parámetros atendiendo a criterios como el de normalidad estadística de los mismos, ocupándonos especialmente de la diferencia entre las distribuciones que presentan sujetos sanos y sujetos con patología vocal. Para todo ello emplearemos diferentes técnicas estadísticas: generación de elementos y diagramas descriptivos, pruebas de normalidad y diversos contrastes de hipótesis, tanto paramétricos como no paramétricos, que considerarán la diferencia entre los grupos de personas sanas y los grupos de personas con alguna patología relacionada con la voz. Además, nos interesa encontrar relaciones estadísticas entre los parámetros, de cara a eliminar posibles redundancias presentes en el modelo, a reducir la dimensionalidad del problema y a establecer un criterio de importancia relativa en los parámetros en cuanto a su capacidad discriminante para el criterio patológico/sano. Para ello se aplicarán técnicas estadísticas como la Correlación Lineal Bivariada y el Análisis Factorial basado en Componentes Principales. Por último, utilizaremos la conocida técnica de clasificación Análisis Discriminante, aplicada a diferentes combinaciones de parámetros y de factores, para determinar cuáles de ellas son las que ofrecen tasas de acierto más prometedoras. Para llevar a cabo la experimentación se ha utilizado una base de datos equilibrada y robusta formada por doscientos sujetos, cien de ellos pertenecientes al género femenino y los restantes cien al género masculino, con una proporción también equilibrada entre los sujetos que presentan patología vocal y aquellos que no la presentan. Una de las aplicaciones informáticas diseñada para llevar a cabo la recogida de muestras también es presentada en esta tesis. Los distintos estudios estadísticos realizados nos permitirán identificar aquellos parámetros que tienen una mayor contribución a la hora de detectar la presencia de patología vocal. Alguno de los estudios, además, nos permitirá presentar una ordenación de los parámetros en base a su importancia para realizar la detección. Por otra parte, también concluiremos que en ocasiones es conveniente realizar una reducción de la dimensionalidad de los parámetros para mejorar las tasas de detección. Por fin, las propias tasas de detección constituyen quizá la conclusión más importante del trabajo. Todos los análisis presentes en el trabajo serán realizados para cada uno de los dos géneros, de acuerdo con diversos estudios previos que demuestran que los géneros masculino y femenino deben tratarse de forma independiente debido a las diferencias orgánicas observadas entre ambos. Sin embargo, en lo referente a la detección de patología vocal contemplaremos también la posibilidad de trabajar con la base de datos unificada, comprobando que las tasas de acierto son también elevadas. Abstract Voice pathologies have become recently in a social problem that has reached a certain concern. Pollution in cities, smoking habits, air conditioning, etc. contributes to it. This problem is more relevant for professionals who use their voice frequently: speakers, singers, teachers, actors, telemarketers, etc. Therefore techniques that are capable of drawing conclusions from a sample of the recorded voice are of particular interest for the diagnosis as opposed to other invasive ones, involving exploration by laryngoscopes, fiber scopes or video endoscopes, which are techniques much less comfortable for patients. Voice quality analysis has come a long way in a relatively short period of time. In regard to the diagnosis of diseases, we have gone in the last fifteen years from working primarily with parameters extracted from the voice signal (both in time and frequency domains) and with scales drawn from subjective assessments by experts to produce more accurate evaluations with estimates derived from the glottal source. The importance of using the glottal source resides broadly in that this signal is linked to the state of the speaker's laryngeal structure. Unlike the voice signal (phonated speech) the glottal source, if conveniently reconstructed using adaptive lattices, may be less influenced by the vocal tract. As it is well known the vocal tract is related to the articulation of the spoken message and its influence complicates the process of voice pathology detection, unlike when using the reconstructed glottal source, where vocal tract influence has been almost completely removed. The estimates of the glottal source have been obtained through inverse filtering techniques developed by our research group. We have also deepened into the nature of the glottal signal, dissecting it and relating it to the biomechanical parameters of the vocal folds, obtaining several estimates of items such as mass, loss or elasticity of cover and body of the vocal fold, among others. From the components of the glottal source also arise the so-called biometric parameters, related to the shape of the signal, which are themselves a biometric signature of the individual. We will also work with temporal parameters related to the different stages that are observed in the glottal signal during a cycle of phonation. Finally, we will take into consideration classical perturbation and energy parameters. In short, we have now a considerable amount of glottal parameters in a multidimensional statistical basis, designed to be able to discriminate people with pathologic or dysphonic voices from those who do not show pathology. This thesis addresses several issues: first, a careful analysis of these new parameters is required, so we will offer a complete statistical description of them. We will also discuss issues such as distribution of the parameters, considering criteria such as their statistical normality. We will take special care in the analysis of the difference between distributions from healthy subjects and the distributions from pathological subjects. To reach these goals we will use different statistical techniques such as: generation of descriptive items and diagramas, tests for normality and hypothesis testing, both parametric and nonparametric. These latter techniques consider the difference between the groups of healthy subjects and groups of people with an illness related to voice. In addition, we are interested in finding statistical relationships between parameters. There are various reasons behind that: eliminate possible redundancies in the model, reduce the dimensionality of the problem and establish a criterion of relative importance in the parameters. The latter reason will be done in terms of discriminatory power for the criterion pathological/healthy. To this end, statistical techniques such as Bivariate Linear Correlation and Factor Analysis based on Principal Components will be applied. Finally, we will use the well-known technique of Discriminant Analysis classification applied to different combinations of parameters and factors to determine which of these combinations offers more promising success rates. To perform the experiments we have used a balanced and robust database, consisting of two hundred speakers, one hundred of them males and one hundred females. We have also used a well-balanced proportion where subjects with vocal pathology as well as subjects who don´t have a vocal pathology are equally represented. A computer application designed to carry out the collection of samples is also presented in this thesis. The different statistical analyses performed will allow us to determine which parameters contribute in a more decisive way in the detection of vocal pathology. Therefore, some of the analyses will even allow us to present a ranking of the parameters based on their importance for the detection of vocal pathology. On the other hand, we will also conclude that it is sometimes desirable to perform a dimensionality reduction in order to improve the detection rates. Finally, detection rates themselves are perhaps the most important conclusion of the work. All the analyses presented in this work have been performed for each of the two genders in agreement with previous studies showing that male and female genders should be treated independently, due to the observed functional differences between them. However, with regard to the detection of vocal pathology we will consider the possibility of working with the unified database, ensuring that the success rates obtained are also high.