Biblioteca Digital

931 resultados para bayesian networks

Multi-dimensional classification using Bayesian networks for stationary and evolving streaming data

Relevância:

100.00% 100.00%

Publicador:

Resumo:

Hoy en d��a, con la evoluci��n continua y r��pida de las tecnolog��as de la informaci��n y los dispositivos de computaci��n, se recogen y almacenan continuamente grandes vol��menes de datos en distintos dominios y a trav��s de diversas aplicaciones del mundo real. La extracci��n de conocimiento ��til de una cantidad tan enorme de datos no se puede realizar habitualmente de forma manual, y requiere el uso de t��cnicas adecuadas de aprendizaje autom��tico y de miner��a de datos. La clasificaci��n es una de las t��cnicas m��s importantes que ha sido aplicada con ��xito a varias ��reas. En general, la clasificaci��n se compone de dos pasos principales: en primer lugar, aprender un modelo de clasificaci��n o clasificador a partir de un conjunto de datos de entrenamiento, y en segundo lugar, clasificar las nuevas instancias de datos utilizando el clasificador aprendido. La clasificaci��n es supervisada cuando todas las etiquetas est��n presentes en los datos de entrenamiento (es decir, datos completamente etiquetados), semi-supervisada cuando s��lo algunas etiquetas son conocidas (es decir, datos parcialmente etiquetados), y no supervisada cuando todas las etiquetas est��n ausentes en los datos de entrenamiento (es decir, datos no etiquetados). Adem��s, aparte de esta taxonom��a, el problema de clasificaci��n se puede categorizar en unidimensional o multidimensional en funci��n del n��mero de variables clase, una o m��s, respectivamente; o tambi��n puede ser categorizado en estacionario o cambiante con el tiempo en funci��n de las caracter��sticas de los datos y de la tasa de cambio subyacente. A lo largo de esta tesis, tratamos el problema de clasificaci��n desde tres perspectivas diferentes, a saber, clasificaci��n supervisada multidimensional estacionaria, clasificaci��n semisupervisada unidimensional cambiante con el tiempo, y clasificaci��n supervisada multidimensional cambiante con el tiempo. Para llevar a cabo esta tarea, hemos usado b��sicamente los clasificadores Bayesianos como modelos. La primera contribuci��n, dirigi��ndose al problema de clasificaci��n supervisada multidimensional estacionaria, se compone de dos nuevos m��todos de aprendizaje de clasificadores Bayesianos multidimensionales a partir de datos estacionarios. Los m��todos se proponen desde dos puntos de vista diferentes. El primer m��todo, denominado CB-MBC, se basa en una estrategia de envoltura de selecci��n de variables que es voraz y hacia delante, mientras que el segundo, denominado MB-MBC, es una estrategia de filtrado de variables con una aproximaci��n basada en restricciones y en el manto de Markov. Ambos m��todos han sido aplicados a dos problemas reales importantes, a saber, la predicci��n de los inhibidores de la transcriptasa inversa y de la proteasa para el problema de infecci��n por el virus de la inmunodeficiencia humana tipo 1 (HIV-1), y la predicci��n del European Quality of Life-5 Dimensions (EQ-5D) a partir de los cuestionarios de la enfermedad de Parkinson con 39 ��tems (PDQ-39). El estudio experimental incluye comparaciones de CB-MBC y MB-MBC con los m��todos del estado del arte de la clasificaci��n multidimensional, as�� como con m��todos com��nmente utilizados para resolver el problema de predicci��n de la enfermedad de Parkinson, a saber, la regresi��n log��stica multinomial, m��nimos cuadrados ordinarios, y m��nimas desviaciones absolutas censuradas. En ambas aplicaciones, los resultados han sido prometedores con respecto a la precisi��n de la clasificaci��n, as�� como en relaci��n al an��lisis de las estructuras gr��ficas que identifican interacciones conocidas y novedosas entre las variables. La segunda contribuci��n, referida al problema de clasificaci��n semi-supervisada unidimensional cambiante con el tiempo, consiste en un m��todo nuevo (CPL-DS) para clasificar flujos de datos parcialmente etiquetados. Los flujos de datos difieren de los conjuntos de datos estacionarios en su proceso de generaci��n muy r��pido y en su aspecto de cambio de concepto. Es decir, los conceptos aprendidos y/o la distribuci��n subyacente est��n probablemente cambiando y evolucionando en el tiempo, lo que hace que el modelo de clasificaci��n actual sea obsoleto y deba ser actualizado. CPL-DS utiliza la divergencia de Kullback-Leibler y el m��todo de bootstrapping para cuantificar y detectar tres tipos posibles de cambio: en las predictoras, en la a posteriori de la clase o en ambas. Despu��s, si se detecta cualquier cambio, un nuevo modelo de clasificaci��n se aprende usando el algoritmo EM; si no, el modelo de clasificaci��n actual se mantiene sin modificaciones. CPL-DS es general, ya que puede ser aplicado a varios modelos de clasificaci��n. Usando dos modelos diferentes, el clasificador naive Bayes y la regresi��n log��stica, CPL-DS se ha probado con flujos de datos sint��ticos y tambi��n se ha aplicado al problema real de la detecci��n de c��digo malware, en el cual los nuevos ficheros recibidos deben ser continuamente clasificados en malware o goodware. Los resultados experimentales muestran que nuestro m��todo es efectivo para la detecci��n de diferentes tipos de cambio a partir de los flujos de datos parcialmente etiquetados y tambi��n tiene una buena precisi��n de la clasificaci��n. Finalmente, la tercera contribuci��n, sobre el problema de clasificaci��n supervisada multidimensional cambiante con el tiempo, consiste en dos m��todos adaptativos, a saber, Locally Adpative-MB-MBC (LA-MB-MBC) y Globally Adpative-MB-MBC (GA-MB-MBC). Ambos m��todos monitorizan el cambio de concepto a lo largo del tiempo utilizando la log-verosimilitud media como m��trica y el test de Page-Hinkley. Luego, si se detecta un cambio de concepto, LA-MB-MBC adapta el actual clasificador Bayesiano multidimensional localmente alrededor de cada nodo cambiado, mientras que GA-MB-MBC aprende un nuevo clasificador Bayesiano multidimensional. El estudio experimental realizado usando flujos de datos sint��ticos multidimensionales indica los m��ritos de los m��todos adaptativos propuestos. ABSTRACT Nowadays, with the ongoing and rapid evolution of information technology and computing devices, large volumes of data are continuously collected and stored in different domains and through various real-world applications. Extracting useful knowledge from such a huge amount of data usually cannot be performed manually, and requires the use of adequate machine learning and data mining techniques. Classification is one of the most important techniques that has been successfully applied to several areas. Roughly speaking, classification consists of two main steps: first, learn a classification model or classifier from an available training data, and secondly, classify the new incoming unseen data instances using the learned classifier. Classification is supervised when the whole class values are present in the training data (i.e., fully labeled data), semi-supervised when only some class values are known (i.e., partially labeled data), and unsupervised when the whole class values are missing in the training data (i.e., unlabeled data). In addition, besides this taxonomy, the classification problem can be categorized into uni-dimensional or multi-dimensional depending on the number of class variables, one or more, respectively; or can be also categorized into stationary or streaming depending on the characteristics of the data and the rate of change underlying it. Through this thesis, we deal with the classification problem under three different settings, namely, supervised multi-dimensional stationary classification, semi-supervised unidimensional streaming classification, and supervised multi-dimensional streaming classification. To accomplish this task, we basically used Bayesian network classifiers as models. The first contribution, addressing the supervised multi-dimensional stationary classification problem, consists of two new methods for learning multi-dimensional Bayesian network classifiers from stationary data. They are proposed from two different points of view. The first method, named CB-MBC, is based on a wrapper greedy forward selection approach, while the second one, named MB-MBC, is a filter constraint-based approach based on Markov blankets. Both methods are applied to two important real-world problems, namely, the prediction of the human immunodeficiency virus type 1 (HIV-1) reverse transcriptase and protease inhibitors, and the prediction of the European Quality of Life-5 Dimensions (EQ-5D) from 39-item Parkinson��s Disease Questionnaire (PDQ-39). The experimental study includes comparisons of CB-MBC and MB-MBC against state-of-the-art multi-dimensional classification methods, as well as against commonly used methods for solving the Parkinson��s disease prediction problem, namely, multinomial logistic regression, ordinary least squares, and censored least absolute deviations. For both considered case studies, results are promising in terms of classification accuracy as well as regarding the analysis of the learned MBC graphical structures identifying known and novel interactions among variables. The second contribution, addressing the semi-supervised uni-dimensional streaming classification problem, consists of a novel method (CPL-DS) for classifying partially labeled data streams. Data streams differ from the stationary data sets by their highly rapid generation process and their concept-drifting aspect. That is, the learned concepts and/or the underlying distribution are likely changing and evolving over time, which makes the current classification model out-of-date requiring to be updated. CPL-DS uses the Kullback-Leibler divergence and bootstrapping method to quantify and detect three possible kinds of drift: feature, conditional or dual. Then, if any occurs, a new classification model is learned using the expectation-maximization algorithm; otherwise, the current classification model is kept unchanged. CPL-DS is general as it can be applied to several classification models. Using two different models, namely, naive Bayes classifier and logistic regression, CPL-DS is tested with synthetic data streams and applied to the real-world problem of malware detection, where the new received files should be continuously classified into malware or goodware. Experimental results show that our approach is effective for detecting different kinds of drift from partially labeled data streams, as well as having a good classification performance. Finally, the third contribution, addressing the supervised multi-dimensional streaming classification problem, consists of two adaptive methods, namely, Locally Adaptive-MB-MBC (LA-MB-MBC) and Globally Adaptive-MB-MBC (GA-MB-MBC). Both methods monitor the concept drift over time using the average log-likelihood score and the Page-Hinkley test. Then, if a drift is detected, LA-MB-MBC adapts the current multi-dimensional Bayesian network classifier locally around each changed node, whereas GA-MB-MBC learns a new multi-dimensional Bayesian network classifier from scratch. Experimental study carried out using synthetic multi-dimensional data streams shows the merits of both proposed adaptive methods.

931 resultados para bayesian networks

Filtro por publicador