3 resultados para TASA DE CAMBIO
em Universidad Politécnica de Madrid
Resumo:
Hoy en día, con la evolución continua y rápida de las tecnologías de la información y los dispositivos de computación, se recogen y almacenan continuamente grandes volúmenes de datos en distintos dominios y a través de diversas aplicaciones del mundo real. La extracción de conocimiento útil de una cantidad tan enorme de datos no se puede realizar habitualmente de forma manual, y requiere el uso de técnicas adecuadas de aprendizaje automático y de minería de datos. La clasificación es una de las técnicas más importantes que ha sido aplicada con éxito a varias áreas. En general, la clasificación se compone de dos pasos principales: en primer lugar, aprender un modelo de clasificación o clasificador a partir de un conjunto de datos de entrenamiento, y en segundo lugar, clasificar las nuevas instancias de datos utilizando el clasificador aprendido. La clasificación es supervisada cuando todas las etiquetas están presentes en los datos de entrenamiento (es decir, datos completamente etiquetados), semi-supervisada cuando sólo algunas etiquetas son conocidas (es decir, datos parcialmente etiquetados), y no supervisada cuando todas las etiquetas están ausentes en los datos de entrenamiento (es decir, datos no etiquetados). Además, aparte de esta taxonomía, el problema de clasificación se puede categorizar en unidimensional o multidimensional en función del número de variables clase, una o más, respectivamente; o también puede ser categorizado en estacionario o cambiante con el tiempo en función de las características de los datos y de la tasa de cambio subyacente. A lo largo de esta tesis, tratamos el problema de clasificación desde tres perspectivas diferentes, a saber, clasificación supervisada multidimensional estacionaria, clasificación semisupervisada unidimensional cambiante con el tiempo, y clasificación supervisada multidimensional cambiante con el tiempo. Para llevar a cabo esta tarea, hemos usado básicamente los clasificadores Bayesianos como modelos. La primera contribución, dirigiéndose al problema de clasificación supervisada multidimensional estacionaria, se compone de dos nuevos métodos de aprendizaje de clasificadores Bayesianos multidimensionales a partir de datos estacionarios. Los métodos se proponen desde dos puntos de vista diferentes. El primer método, denominado CB-MBC, se basa en una estrategia de envoltura de selección de variables que es voraz y hacia delante, mientras que el segundo, denominado MB-MBC, es una estrategia de filtrado de variables con una aproximación basada en restricciones y en el manto de Markov. Ambos métodos han sido aplicados a dos problemas reales importantes, a saber, la predicción de los inhibidores de la transcriptasa inversa y de la proteasa para el problema de infección por el virus de la inmunodeficiencia humana tipo 1 (HIV-1), y la predicción del European Quality of Life-5 Dimensions (EQ-5D) a partir de los cuestionarios de la enfermedad de Parkinson con 39 ítems (PDQ-39). El estudio experimental incluye comparaciones de CB-MBC y MB-MBC con los métodos del estado del arte de la clasificación multidimensional, así como con métodos comúnmente utilizados para resolver el problema de predicción de la enfermedad de Parkinson, a saber, la regresión logística multinomial, mínimos cuadrados ordinarios, y mínimas desviaciones absolutas censuradas. En ambas aplicaciones, los resultados han sido prometedores con respecto a la precisión de la clasificación, así como en relación al análisis de las estructuras gráficas que identifican interacciones conocidas y novedosas entre las variables. La segunda contribución, referida al problema de clasificación semi-supervisada unidimensional cambiante con el tiempo, consiste en un método nuevo (CPL-DS) para clasificar flujos de datos parcialmente etiquetados. Los flujos de datos difieren de los conjuntos de datos estacionarios en su proceso de generación muy rápido y en su aspecto de cambio de concepto. Es decir, los conceptos aprendidos y/o la distribución subyacente están probablemente cambiando y evolucionando en el tiempo, lo que hace que el modelo de clasificación actual sea obsoleto y deba ser actualizado. CPL-DS utiliza la divergencia de Kullback-Leibler y el método de bootstrapping para cuantificar y detectar tres tipos posibles de cambio: en las predictoras, en la a posteriori de la clase o en ambas. Después, si se detecta cualquier cambio, un nuevo modelo de clasificación se aprende usando el algoritmo EM; si no, el modelo de clasificación actual se mantiene sin modificaciones. CPL-DS es general, ya que puede ser aplicado a varios modelos de clasificación. Usando dos modelos diferentes, el clasificador naive Bayes y la regresión logística, CPL-DS se ha probado con flujos de datos sintéticos y también se ha aplicado al problema real de la detección de código malware, en el cual los nuevos ficheros recibidos deben ser continuamente clasificados en malware o goodware. Los resultados experimentales muestran que nuestro método es efectivo para la detección de diferentes tipos de cambio a partir de los flujos de datos parcialmente etiquetados y también tiene una buena precisión de la clasificación. Finalmente, la tercera contribución, sobre el problema de clasificación supervisada multidimensional cambiante con el tiempo, consiste en dos métodos adaptativos, a saber, Locally Adpative-MB-MBC (LA-MB-MBC) y Globally Adpative-MB-MBC (GA-MB-MBC). Ambos métodos monitorizan el cambio de concepto a lo largo del tiempo utilizando la log-verosimilitud media como métrica y el test de Page-Hinkley. Luego, si se detecta un cambio de concepto, LA-MB-MBC adapta el actual clasificador Bayesiano multidimensional localmente alrededor de cada nodo cambiado, mientras que GA-MB-MBC aprende un nuevo clasificador Bayesiano multidimensional. El estudio experimental realizado usando flujos de datos sintéticos multidimensionales indica los méritos de los métodos adaptativos propuestos. ABSTRACT Nowadays, with the ongoing and rapid evolution of information technology and computing devices, large volumes of data are continuously collected and stored in different domains and through various real-world applications. Extracting useful knowledge from such a huge amount of data usually cannot be performed manually, and requires the use of adequate machine learning and data mining techniques. Classification is one of the most important techniques that has been successfully applied to several areas. Roughly speaking, classification consists of two main steps: first, learn a classification model or classifier from an available training data, and secondly, classify the new incoming unseen data instances using the learned classifier. Classification is supervised when the whole class values are present in the training data (i.e., fully labeled data), semi-supervised when only some class values are known (i.e., partially labeled data), and unsupervised when the whole class values are missing in the training data (i.e., unlabeled data). In addition, besides this taxonomy, the classification problem can be categorized into uni-dimensional or multi-dimensional depending on the number of class variables, one or more, respectively; or can be also categorized into stationary or streaming depending on the characteristics of the data and the rate of change underlying it. Through this thesis, we deal with the classification problem under three different settings, namely, supervised multi-dimensional stationary classification, semi-supervised unidimensional streaming classification, and supervised multi-dimensional streaming classification. To accomplish this task, we basically used Bayesian network classifiers as models. The first contribution, addressing the supervised multi-dimensional stationary classification problem, consists of two new methods for learning multi-dimensional Bayesian network classifiers from stationary data. They are proposed from two different points of view. The first method, named CB-MBC, is based on a wrapper greedy forward selection approach, while the second one, named MB-MBC, is a filter constraint-based approach based on Markov blankets. Both methods are applied to two important real-world problems, namely, the prediction of the human immunodeficiency virus type 1 (HIV-1) reverse transcriptase and protease inhibitors, and the prediction of the European Quality of Life-5 Dimensions (EQ-5D) from 39-item Parkinson’s Disease Questionnaire (PDQ-39). The experimental study includes comparisons of CB-MBC and MB-MBC against state-of-the-art multi-dimensional classification methods, as well as against commonly used methods for solving the Parkinson’s disease prediction problem, namely, multinomial logistic regression, ordinary least squares, and censored least absolute deviations. For both considered case studies, results are promising in terms of classification accuracy as well as regarding the analysis of the learned MBC graphical structures identifying known and novel interactions among variables. The second contribution, addressing the semi-supervised uni-dimensional streaming classification problem, consists of a novel method (CPL-DS) for classifying partially labeled data streams. Data streams differ from the stationary data sets by their highly rapid generation process and their concept-drifting aspect. That is, the learned concepts and/or the underlying distribution are likely changing and evolving over time, which makes the current classification model out-of-date requiring to be updated. CPL-DS uses the Kullback-Leibler divergence and bootstrapping method to quantify and detect three possible kinds of drift: feature, conditional or dual. Then, if any occurs, a new classification model is learned using the expectation-maximization algorithm; otherwise, the current classification model is kept unchanged. CPL-DS is general as it can be applied to several classification models. Using two different models, namely, naive Bayes classifier and logistic regression, CPL-DS is tested with synthetic data streams and applied to the real-world problem of malware detection, where the new received files should be continuously classified into malware or goodware. Experimental results show that our approach is effective for detecting different kinds of drift from partially labeled data streams, as well as having a good classification performance. Finally, the third contribution, addressing the supervised multi-dimensional streaming classification problem, consists of two adaptive methods, namely, Locally Adaptive-MB-MBC (LA-MB-MBC) and Globally Adaptive-MB-MBC (GA-MB-MBC). Both methods monitor the concept drift over time using the average log-likelihood score and the Page-Hinkley test. Then, if a drift is detected, LA-MB-MBC adapts the current multi-dimensional Bayesian network classifier locally around each changed node, whereas GA-MB-MBC learns a new multi-dimensional Bayesian network classifier from scratch. Experimental study carried out using synthetic multi-dimensional data streams shows the merits of both proposed adaptive methods.
Resumo:
El abandono académico es un problema que preocupa en todas las universidades. Por ello, muchas instituciones promueven estudios para analizar sus causas y desarrollan programas de retención de estudiantes. De los estudios analizados se deduce que el mayor porcentaje de abandono se da en el primer año de contacto con la universidad y, por este motivo, muchos programas de retención proponen actuar sobre los estudiantes de nuevo ingreso en este período. El interés de la Universidad Politécnica de Madrid (UPM) por la reducción del abandono y la mejora de los índices de permanencia ha quedado de manifiesto en el pasado reciente mediante la participación en proyectos y elaboración de estudios. Sin embargo, la dotación presupuestaria restrictiva implica que los estudios basados en entrevistas a estudiantes sólo se puedan llevar a cabo de manera puntual y no sistemática, por lo que no pueden detectar la incidencia de circunstancias cambiantes (como, por ejemplo, una subida de tasas o un cambio de plan de estudios). En el presente trabajo se propone considerar la tasa de permanencia -o retención- del primer año, como indicador de calidad, y se describe un protocolo para el análisis y mejora de este indicador que integra diferentes elementos: 1) establece, como grupos de interés, a las autoridades universitarias y a los grupos de profesores que propongan intervenciones paliativas del abandono y favorecedoras de la permanencia, así como a los gestores responsables de estas intervenciones; 2) propone acciones y recomendaciones consensuadas entre distintos agentes; 3) presenta un sistema efectivo y sostenible de recogida y análisis de la información. Para su desarrollo se ha diseñado una herramienta informática en línea que permite realizar automáticamente análisis de permanencia basados en datos objetivos disponibles en los servicios de gestión de la universidad. Esta herramienta presenta grandes ventajas: trabaja con el colectivo completo de cada cohorte de estudiantes de primer año y no con una muestra, permite hacer estudios longitudinales para detectar tendencias y estudios transversales para comparar distintas carreras. También permite analizar la influencia de factores como el género, la procedencia, la modalidad de acceso o la nota de acceso en el riesgo de abandono. Los informes se elaboran de modo automático y sin colaboración de agentes externos, por lo que la herramienta es sostenible y no está sujeta a disposición presupuestaria.
Resumo:
En el complejo de plagas que atacan a los principales cultivos hortícolas protegidos, destacan principalmente los Hemípteros, y dentro de estos los pulgones, dada su importancia como vectores de virus que provocan considerables daños y pérdidas económicas. Debido a que la dispersión de la mayoría de los virus de plantas puede ser eficaz con densidades bajas de vectores y su control es muy complicado al no existir métodos curativos para su control, es necesario generar nuevos conocimientos sobre las interacciones virus-vector con el fin de desarrollar nuevas y eficaces estrategias de control. Por ello, el objetivo general de esta Tesis ha sido conocer el efecto de la infección viral (directo-mediado por la presencia del virus en el vector- e indirecto-mediado por las alteraciones físico-químicas que se originan en la planta como consecuencia de la infección viral-) sobre el comportamiento y eficacia biológica del vector Aphis gossypii Glover y sus posibles repercusiones en la epidemiología de virosis de transmisión no persistente (Cucumber mosaic virus, CMV, Cucumovirus) y persistente (Cucurbit aphid-borne yellows virus, CABYV, Polerovirus). El primer objetivo de esta Tesis Doctoral, se centró en el estudio del efecto indirecto del virus de transmisión no persistente CMV sobre el comportamiento alimenticio y la preferencia del pulgón A. gossypii en el cultivo de pepino. Los ensayos de despegue y aterrizaje mostraron que los pulgones que fueron liberados en las plantas de pepino infectadas con CMV tuvieron una mayor propensión en migrar hacia las plantas no infectadas (60, 120 y 180 minutos después de la liberación) que aquellos que fueron sometidos al tratamiento contrario (planta no infectada hacia planta infectada con CMV). El estudio de preferencia y asentamiento mostró que el vector A. gossypii prefiere asentarse en plantas infectadas con CMV en una etapa temprana de evaluación (30 minutos después de la liberación). Sin embargo, este comportamiento se revirtió en una etapa posterior (4 y 48 horas después de la liberación), donde los pulgones se asentaron más en las plantas no infectadas. A través de la técnica de Gráficos de Penetración Eléctrica (EPG) se observó un efecto indirecto del virus CMV, revelado por un cambio brusco en el comportamiento de prueba del pulgón a lo largo del tiempo, cuando éstos fueron expuestos a las plantas infectadas con CMV. Los primeros 15 minutos de registro EPG mostraron que los pulgones hicieron un número mayor de punciones intracelulares (potencial drops - pds) y pruebas en las plantas infectadas con CMV que en las plantas no infectadas. Por otra parte, la duración de la primera prueba fue más corta y la duración total de las pds por insecto fue mucho más larga en las plantas infectadas con CMV. Se observaron diferencias significativas en el tiempo transcurrido desde el final de la última pd hasta el final de la prueba, siendo ese tiempo más corto para los pulgones que estaban alimentándose en plantas infectadas con CMV. En la segunda hora de registro los pulgones rechazaron las plantas infectadas con CMV como fuente de alimento, permaneciendo menos tiempo en las fases de prueba en floema (fase de salivación – E1 y fase de ingestión del floema – E2). El comportamiento alimenticio observado sobre las plantas infectadas con CMV favorece la adquisición y posterior transmisión de los virus de transmisión no persistente, los cuales son adquiridos e inoculados durante la realización de pruebas intracelulares en las primeras pruebas de corta duración. En el segundo objetivo de la Tesis se evaluó el efecto directo e indirecto del virus de transmisión persistente CABYV en el comportamiento alimenticio y preferencia del pulgón A. gossypii en cultivo de pepino, especie susceptible al virus, y algodón, especie inmune al virus. No se observó un efecto directo del virus relevante en el comportamiento alimenticio del vector, ya que los resultados obtenidos a nivel floemático en plantas de pepino no se observaron en plantas de algodón, inmune al virus CABYV. Esto sugiere que los resultados obtenidos en pepino, pueden deberse a un “posible efecto indirecto” originado por la infección de las plantas susceptibles al virus durante la realización del ensayo, lo que indirectamente puede modificar el comportamiento del pulgón durante la fase de evaluación. Sin embargo, el virus CABYV modificó indirectamente el comportamiento alimenticio de su vector a través de cambios en la planta infectada. Los pulgones tardaron menos tiempo en llegar al floema, realizaron un mayor número de pruebas floemáticas y permanecieron durante más tiempo en actividades floemáticas en plantas infectadas con CABYV. El comportamiento observado sobre las plantas infectadas con CABYV favorece la adquisición de virus persistentes, los cuales son adquiridos durante la alimentación sostenida en floema. El estudio de preferencia y asentamiento de A. gossypii mostró que los pulgones virulíferos prefieren asentarse en plantas no infectadas a corto y largo plazo de evaluación (2, 4 y 48 horas después de la liberación). Los ensayos de despegue y aterrizaje mostraron que los pulgones virulíferos que fueron liberados en las plantas de pepino infectadas con CABYV tuvieron una mayor propensión en migrar hacia las plantas no infectadas (3, 6, 24 y 48 horas después de la liberación) que aquellos que fueron sometidos al tratamiento contrario (planta no infectada hacia planta infectada con CABYV). Sin embargo, los pulgones no virulíferos no mostraron preferencia por plantas de pepino no infectadas o infectadas con CABYV en ninguno de los ensayos (preferencia o despegue) o periodos evaluados (corto y largo plazo). Los resultados indican que el virus CABYV es capaz de modificar indirectamente el comportamiento alimenticio de su vector a través de cambios en la planta infectada, favoreciendo su adquisición por su principal vector, A. gossypii. Una vez que los pulgones tienen capacidad de transmitir el virus (virulíferos) se produce un cambio en su comportamiento prefiriendo asentarse sobre plantas no infectadas optimizándose así la dispersión viral. El tercer objetivo de la Tesis, fue evaluar los efectos directos e indirectos del virus CABYV así como los efectos indirectos del virus CMV en la eficacia biológica del vector A. gossypii. Los resultados obtenidos en los ensayos realizados con el virus persistente CABYV indican que el virus parece no modificar directamente ni indirectamente la eficacia biológica del vector en plantas de pepino o algodón, no observándose diferencias estadísticas en ninguno de los parámetros poblacionales evaluados (tiempo de desarrollo, tasa intrínseca de crecimiento, tiempo generacional medio, tasa media de crecimiento relativo y ninfas totales). En cuanto a los ensayos realizados con el virus no persistente, CMV, los resultados muestran un efecto indirecto del virus sobre la biología del vector. Así resultó que tanto la tasa intrínseca de crecimiento natural (rm) como la tasa media de crecimiento relativo (RGR) fueron más altas para pulgones crecidos sobre plantas infectadas con CMV que sobre plantas no infectadas, favoreciendo la reproducción y crecimiento poblacional del vector sobre plantas infectadas con CMV. Los resultados obtenidos en la presente Tesis, ofrecen un ejemplo de como los virus de plantas pueden manipular directa e indirectamente a su vector, maximizando así su dispersión entre las plantas. Esos nuevos conocimientos generados tienen implicaciones importantes en la transmisión, dispersión y en la epidemiología de los virus y deben ser considerados para diseñar o ajustar los modelos de simulación existentes y patrones de dispersión que describen las epidemias de estos virus. ABSTRACT The main objective of this Thesis has been to understand the effect of the viral infection (direct-mediated by the presence of the virus in the vector and indirect mediated by the chemical and physical changes originated in the plant as a consequence of the viral infection) on the behaviour and biological efficacy of the vector Aphis gossypii Glover and its consequences in the epidemiology of two viral diseases, one with non-persistent transmission (Cucumber mosaic virus, CMV, Cucumovirus) and another with persistent transmission (Cucurbit aphid-borne yellows virus, CABYV, Polerovirus). The first objective of this Thesis was the study of the indirect effect of the nonpersistent virus CMV on the feeding behaviour and preference of the aphid A. gossypii in cucumber plants. The results of the alighting and settling behaviour studies showed that aphids exhibited no preference to migrate from CMV-infected to mock-inoculated plants at short time intervals (1, 10 and 30 min after release), but showed a clear shift in preference to migrate from CMV-infected to mock-inoculated plants 60 min after release. Our free-choice preference assays showed that A. gossypii alates preferred CMV-infected over mockinoculated plants at an early stage (30 min), but this behaviour was reverted at a later stage and aphids preferred to settle and reproduce on mock-inoculated plants. The electrical penetration graph (EPG) technique revealed a sharp change in aphid probing behaviour over time when exposed to CMV-infected plants. At the beginning (first 15 min) aphid vectors dramatically increased the number of short superficial probes and intracellular punctures when exposed to CMV-infected plants. At a later stage (second hour of recording) aphids diminished their feeding on CMV-infected plants as indicated by much less time spent in phloem salivation and ingestion (E1 and E2). This particular probing behaviour including an early increase in the number of short superficial probes and intracellular punctures followed by a phloem feeding deterrence is known to enhance the transmission efficiency of viruses transmitted in a NP manner. We conclude that CMV induces specific changes in a plant host that modify the alighting, settling and probing behaviour of its main vector A. gossypii, leading to optimum transmission and spread of the virus. The second objective of this work was to evaluate the effects that the persistently aphid transmitted Cucurbit aphid-borne yellows virus (CABYV) can induce directly and indirectly on the alighting, settling and probing behaviour activities of the cotton aphid A. gossypii. Only minor direct changes on aphid feeding behaviour was observed due to CABYV when viruliferous aphids fed on mock-inoculated plants. However, the feeding behaviour of non-viruliferous aphids was very different on CABYV-infected than on mockinoculated plants. Non-viruliferous aphids spent longer time feeding from the phloem when plants were infected by CABYV than on mock-inoculated plants, suggesting that CABYV indirectly manipulates aphid feeding behaviour through its shared host plant in order to favour viral acquisition. The vector alighting and settling preference was compared between nonviruliferous and viruliferous aphids. Viruliferous aphids showed a clear preference for mockinoculated over CABYV-infected plants at short and long time, while such behaviour was not observed for non-viruliferous aphids. Overall, our results indicate that CABYV induces changes in its host plant that modifies aphid feeding behaviour in a way that virus acquisition from infected plants is enhanced. Once the aphids become viruliferous they prefer to settle on healthy plants, leading to optimize the transmission and spread of the virus. The third objective was to evaluate the direct and indirect effects of CABYV and indirect effects of the CMV on the A. gossypii fitness. Obtained results for the persistent virus CABYV showed that the virus did not modify the vector fitness in cucumber or cotton plants. None of the evaluated variables was statistically significant (development time (d), intrinsic growth rate (rm), mean relative growth rate (RGR) and total number of nymphs). On the other hand, data obtained for the non-persistent virus (CMV) showed an indirect effect of the virus on the vector fitness. Thus, the rm and RGR were higher for aphids grown on CMV-infected plants compared to aphids grown on mock-inoculated plants. Overall, the obtained results are clear examples of how plant viruses could manipulate directly and indirectly vector behaviour to optimize its own dispersion. These results are important for a better understanding of transmission, dispersion and epidemiology of plant viruses transmitted by vectors. This information could be also considered to design or adjust simulation models and dispersion patterns that describe plant virus epidemics.