946 resultados para Multiple Signal Classification.
Resumo:
Los gliomas malignos representan una de las formas más agresivas de los tumores del sistema nervioso central (SNC). De acuerdo con la clasificación de los tumores cerebrales de la Organización Mundial de la Salud (OMS), los astrocitomas han sido categorizados en cuatro grados, determinados por la patología subyacente. Es así como los gliomas malignos (o de alto grado) incluyen el glioma anaplásico (grado III) así como el glioblastoma multiforme (GBM, grado IV),estos últimos los más agresivos con el peor pronóstico (1). El manejo terapéutico de los tumores del SNC se basa en la cirugía, la radioterapia y la quimioterapia, dependiendo de las características del tumor, el estadio clínico y la edad (2),(3), sin embargo ninguno de los tratamientos estándar es completamente seguro y compatible con una calidad de vida aceptable (3), (4). En general, la quimioterapia es la primera opción en los tumores diseminados, como el glioblastoma invasivo y el meduloblastoma de alto riesgo o con metástasis múltiple, pero el pronóstico en estos pacientes es muy pobre (2),(3). Solamente nuevas terapias dirigidas (2) como las terapias anti-angiogénicas (4); o terapias génicas muestran un beneficio real en grupos limitados de pacientes con defectos moleculares específicos conocidos (4). De este modo, se hace necesario el desarrollo de nuevas terapias farmacológicas para atacar los tumores cerebrales. Frente a las terapias los gliomas malignos son con frecuencia quimioresistentes, y esta resistencia parece depender de al menos dos mecanismos: en primer lugar, la pobre penetración de muchas drogas anticáncer a través de la barrera hematoencefálica (BBB: Blood Brain Barrier), la barrera del fluido sangre-cerebroespinal (BCSFB: Blood-cerebrospinal fluid barrier) y la barrera sangre-tumor (BTB: blood-tumor barrier). Dicha resistencia se debe a la interacción de la droga con varios transportadores o bombas de eflujo de droga ABC (ABC: ATP-binding cassette) que se sobre expresan en las células endoteliales o epiteliales de estas barreras. En segundo lugar, estos transportadores de eflujo de drogas ABC propios de las células tumorales confieren un fenotipo conocido como resistencia a multidrogas (MDR: multidrug resistance), el cual es característico de varios tumores sólidos. Este fenotipo también está presente en los tumores del SNC y su papel en gliomas es objeto de investigación (5). Por consiguiente el suministro de medicamentos a través de la BBB es uno de los problemas vitales en los tratamientos de terapia dirigida. Estudios recientes han demostrado que algunas moléculas pequeñas utilizadas en estas terapias son sustratos de la glicoproteína P (Pgp: P-gycoprotein), así como también de otras bombas de eflujo como las proteínas relacionadas con la resistencia a multidrogas (MRPs: multidrug resistance-related proteins (MRPs) o la proteína relacionada con cáncer de seno (BCRP: breast-cancer resistance related protein)) que no permiten que las drogas de este tipo alcancen el tumor (1). Un sustrato de Pgp y BCRP es la DOXOrubicina (DOXO), un fármaco utilizado en la terapia anti cáncer, el cual es muy eficaz para atacar las células del tumor cerebral in vitro, pero con un uso clínico limitado por la poca entrega a través de la barrera hematoencefálica (BBB) y por la resistencia propia de los tumores. Por otra parte las células de BBB y las células del tumor cerebral tienen también proteínas superficiales, como el receptor de la lipoproteína de baja densidad (LDLR), que podría utilizarse como blanco terapéutico en BBB y tumores cerebrales. Es asi como la importancia de este estudio se basa en la generación de estrategias terapéuticas que promuevan el paso de las drogas a través de la barrera hematoencefalica y tumoral, y a su vez, se reconozcan mecanismos celulares que induzcan el incremento en la expresión de los transportadores ABC, de manera que puedan ser utilizados como blancos terapéuticos.Este estudio demostró que el uso de una nueva estrategia basada en el “Caballo de Troya”, donde se combina la droga DOXOrubicina, la cual es introducida dentro de un liposoma, salvaguarda la droga de manera que se evita su reconocimiento por parte de los transportadores ABC tanto de la BBB como de las células del tumor. La construcción del liposoma permitió utilizar el receptor LDLR de las células asegurando la entrada a través de la BBB y hacia las células tumorales a través de un proceso de endocitosis. Este mecanismo fue asociado al uso de estatinas o drogas anticolesterol las cuales favorecieron la expresión de LDLR y disminuyeron la actividad de los transportadores ABC por nitración de los mismos, incrementando la eficiencia de nuestro Caballo de Troya. Por consiguiente demostramos que el uso de una nueva estrategia o formulación denominada ApolipoDOXO más el uso de estatinas favorece la administración de fármacos a través de la BBB, venciendo la resistencia del tumor y reduciendo los efectos colaterales dosis dependiente de la DOXOrubicina. Además esta estrategia del "Caballo de Troya", es un nuevo enfoque terapéutico que puede ser considerado como una nueva estrategia para aumentar la eficacia de diferentes fármacos en varios tumores cerebrales y garantiza una alta eficiencia incluso en un medio hipóxico,característico de las células cancerosas, donde la expresión del transportador Pgp se vió aumentada. Teniendo en cuenta la relación entre algunas vías de señalización reconocidas como moduladores de la actividad de Pgp, este estudio presenta no solo la estrategia del Caballo de Troya, sino también otra propuesta terapéutica relacionada con el uso de Temozolomide más DOXOrubicina. Esta estrategia demostró que el temozolomide logra penetrar la BBB por que interviene en la via de señalización de la Wnt/GSK3/β-catenina, la cual modula la expresión del transportador Pgp. Se demostró que el TMZ disminuye la proteína y el mRNA de Wnt3 permitiendo plantear la hipótesis de que la droga al disminuir la transcripción del gen Wnt3 en células de BBB, incrementa la activación de la vía fosforilando la β-catenina y conduciendo a disminuir la β-catenina nuclear y por tanto su unión al promotor del gen mdr1. Con base en los resultados este estudio permitió el reconocimiento de tres mecanismos básicos relacionados con la expresión de los transportadores ABC y asociados a las estrategias empleadas: el primero fue el uso de las estatinas, el cual condujo a la nitración de los transportadores disminuyendo su actividad por la via del factor de transcripción NFκB; el segundo a partir del uso del temozolomide, el cual metila el gen de Wnt3 reduciendo la actividad de la via de señalización de la la β-catenina, disminuyendo la expresión del transportador Pgp. El tercero consistió en la determinación de la relación entre el eje RhoA/RhoA quinasa como un modulador de la via (no canónica) GSK3/β-catenina. Se demostró que la proteína quinasa RhoA promovió la activación de la proteína PTB1, la cual al fosforilar a GSK3 indujo la fosforilación de la β-catenina, lo cual dio lugar a su destrucción por el proteosoma, evitando su unión al promotor del gen mdr1 y por tanto reduciendo su expresión. En conclusión las estrategias propuestas en este trabajo incrementaron la citotoxicidad de las células tumorales al aumentar la permeabilidad no solo de la barrera hematoencefálica, sino también de la propia barrera tumoral. Igualmente, la estrategia del “Caballo de Troya” podría ser útil para la terapia de otras enfermedades asociadas al sistema nervioso central. Por otra parte estos estudios indican que el reconocimiento de mecanismos asociados a la expresión de los transportadores ABC podría constituir una herramienta clave en el desarrollo de nuevas terapias anticáncer.
Resumo:
L'increment de bases de dades que cada vegada contenen imatges més difícils i amb un nombre més elevat de categories, està forçant el desenvolupament de tècniques de representació d'imatges que siguin discriminatives quan es vol treballar amb múltiples classes i d'algorismes que siguin eficients en l'aprenentatge i classificació. Aquesta tesi explora el problema de classificar les imatges segons l'objecte que contenen quan es disposa d'un gran nombre de categories. Primerament s'investiga com un sistema híbrid format per un model generatiu i un model discriminatiu pot beneficiar la tasca de classificació d'imatges on el nivell d'anotació humà sigui mínim. Per aquesta tasca introduïm un nou vocabulari utilitzant una representació densa de descriptors color-SIFT, i desprès s'investiga com els diferents paràmetres afecten la classificació final. Tot seguit es proposa un mètode par tal d'incorporar informació espacial amb el sistema híbrid, mostrant que la informació de context es de gran ajuda per la classificació d'imatges. Desprès introduïm un nou descriptor de forma que representa la imatge segons la seva forma local i la seva forma espacial, tot junt amb un kernel que incorpora aquesta informació espacial en forma piramidal. La forma es representada per un vector compacte obtenint un descriptor molt adequat per ésser utilitzat amb algorismes d'aprenentatge amb kernels. Els experiments realitzats postren que aquesta informació de forma te uns resultats semblants (i a vegades millors) als descriptors basats en aparença. També s'investiga com diferents característiques es poden combinar per ésser utilitzades en la classificació d'imatges i es mostra com el descriptor de forma proposat juntament amb un descriptor d'aparença millora substancialment la classificació. Finalment es descriu un algoritme que detecta les regions d'interès automàticament durant l'entrenament i la classificació. Això proporciona un mètode per inhibir el fons de la imatge i afegeix invariança a la posició dels objectes dins les imatges. S'ensenya que la forma i l'aparença sobre aquesta regió d'interès i utilitzant els classificadors random forests millora la classificació i el temps computacional. Es comparen els postres resultats amb resultats de la literatura utilitzant les mateixes bases de dades que els autors Aixa com els mateixos protocols d'aprenentatge i classificació. Es veu com totes les innovacions introduïdes incrementen la classificació final de les imatges.
Resumo:
La calidad de energía eléctrica incluye la calidad del suministro y la calidad de la atención al cliente. La calidad del suministro a su vez se considera que la conforman dos partes, la forma de onda y la continuidad. En esta tesis se aborda la continuidad del suministro a través de la localización de faltas. Este problema se encuentra relativamente resuelto en los sistemas de transmisión, donde por las características homogéneas de la línea, la medición en ambos terminales y la disponibilidad de diversos equipos, se puede localizar el sitio de falta con una precisión relativamente alta. En sistemas de distribución, sin embargo, la localización de faltas es un problema complejo y aún no resuelto. La complejidad es debida principalmente a la presencia de conductores no homogéneos, cargas intermedias, derivaciones laterales y desbalances en el sistema y la carga. Además, normalmente, en estos sistemas sólo se cuenta con medidas en la subestación, y un modelo simplificado del circuito. Los principales esfuerzos en la localización han estado orientados al desarrollo de métodos que utilicen el fundamental de la tensión y de la corriente en la subestación, para estimar la reactancia hasta la falta. Como la obtención de la reactancia permite cuantificar la distancia al sitio de falta a partir del uso del modelo, el Método se considera Basado en el Modelo (MBM). Sin embargo, algunas de sus desventajas están asociadas a la necesidad de un buen modelo del sistema y a la posibilidad de localizar varios sitios donde puede haber ocurrido la falta, esto es, se puede presentar múltiple estimación del sitio de falta. Como aporte, en esta tesis se presenta un análisis y prueba comparativa entre varios de los MBM frecuentemente referenciados. Adicionalmente se complementa la solución con métodos que utilizan otro tipo de información, como la obtenida de las bases históricas de faltas con registros de tensión y corriente medidos en la subestación (no se limita solamente al fundamental). Como herramienta de extracción de información de estos registros, se utilizan y prueban dos técnicas de clasificación (LAMDA y SVM). Éstas relacionan las características obtenidas de la señal, con la zona bajo falta y se denominan en este documento como Métodos de Clasificación Basados en el Conocimiento (MCBC). La información que usan los MCBC se obtiene de los registros de tensión y de corriente medidos en la subestación de distribución, antes, durante y después de la falta. Los registros se procesan para obtener los siguientes descriptores: a) la magnitud de la variación de tensión ( dV ), b) la variación de la magnitud de corriente ( dI ), c) la variación de la potencia ( dS ), d) la reactancia de falta ( Xf ), e) la frecuencia del transitorio ( f ), y f) el valor propio máximo de la matriz de correlación de corrientes (Sv), cada uno de los cuales ha sido seleccionado por facilitar la localización de la falta. A partir de estos descriptores, se proponen diferentes conjuntos de entrenamiento y validación de los MCBC, y mediante una metodología que muestra la posibilidad de hallar relaciones entre estos conjuntos y las zonas en las cuales se presenta la falta, se seleccionan los de mejor comportamiento. Los resultados de aplicación, demuestran que con la combinación de los MCBC con los MBM, se puede reducir el problema de la múltiple estimación del sitio de falta. El MCBC determina la zona de falta, mientras que el MBM encuentra la distancia desde el punto de medida hasta la falta, la integración en un esquema híbrido toma las mejores características de cada método. En este documento, lo que se conoce como híbrido es la combinación de los MBM y los MCBC, de una forma complementaria. Finalmente y para comprobar los aportes de esta tesis, se propone y prueba un esquema de integración híbrida para localización de faltas en dos sistemas de distribución diferentes. Tanto los métodos que usan los parámetros del sistema y se fundamentan en la estimación de la impedancia (MBM), como aquellos que usan como información los descriptores y se fundamentan en técnicas de clasificación (MCBC), muestran su validez para resolver el problema de localización de faltas. Ambas metodologías propuestas tienen ventajas y desventajas, pero según la teoría de integración de métodos presentada, se alcanza una alta complementariedad, que permite la formulación de híbridos que mejoran los resultados, reduciendo o evitando el problema de la múltiple estimación de la falta.
Resumo:
There is growing evidence that, rather than maximizing energy intake subject to constraints, many animals attempt to regulate intake of multiple nutrients independently. In the complex diets of animals such as herbivores, the consumption of nutritionally imbalanced foods is sometimes inevitable, forcing trade-offs between eating too much of nutrients present in the foods in relative excess against too little of those in deficit. Such situations are not adequately represented in existing formulations of foraging theory. Here we provide the necessary theory to fit this case, using an approach that combines state-space models of nutrition with Tilman's models of resource exploitation (Tilman 1982, Resource Competition and Community Structure, Princeton: Princeton University Press). Our approach was to construct a smooth fitness landscape over nutrient space, centred on a 'target' intake at which no fitness cost is incurred, and this leads to a natural classification of the simple possible fitness landscapes based on Taylor series approximations of landscape shape. We next examined how needs for multiple nutrients can be assessed experimentally using direct measures of animal performance as the common currency, so that the nutritional strategies of animals can be mapped on to the performance surface, including the position of regulated points of intake and points of nutrient balance when fed suboptimal foods. We surveyed published data and conducted an experiment to map out the performance landscape of a generalist leaf-feeding caterpillar, Spodoptera littoralis. (C) 2004 Tire Association for the Study of Animal Behaviour. Poblished by Elsevier Ltd. All rights reserved.
Resumo:
In this work the G(A)(0) distribution is assumed as the universal model for amplitude Synthetic Aperture (SAR) imagery data under the Multiplicative Model. The observed data, therefore, is assumed to obey a G(A)(0) (alpha; gamma, n) law, where the parameter n is related to the speckle noise, and (alpha, gamma) are related to the ground truth, giving information about the background. Therefore, maps generated by the estimation of (alpha, gamma) in each coordinate can be used as the input for classification methods. Maximum likelihood estimators are derived and used to form estimated parameter maps. This estimation can be hampered by the presence of corner reflectors, man-made objects used to calibrate SAR images that produce large return values. In order to alleviate this contamination, robust (M) estimators are also derived for the universal model. Gaussian Maximum Likelihood classification is used to obtain maps using hard-to-deal-with simulated data, and the superiority of robust estimation is quantitatively assessed.
Classification of lactose and mandelic acid THz spectra using subspace and wavelet-packet algorithms
Resumo:
This work compares classification results of lactose, mandelic acid and dl-mandelic acid, obtained on the basis of their respective THz transients. The performance of three different pre-processing algorithms applied to the time-domain signatures obtained using a THz-transient spectrometer are contrasted by evaluating the classifier performance. A range of amplitudes of zero-mean white Gaussian noise are used to artificially degrade the signal-to-noise ratio of the time-domain signatures to generate the data sets that are presented to the classifier for both learning and validation purposes. This gradual degradation of interferograms by increasing the noise level is equivalent to performing measurements assuming a reduced integration time. Three signal processing algorithms were adopted for the evaluation of the complex insertion loss function of the samples under study; a) standard evaluation by ratioing the sample with the background spectra, b) a subspace identification algorithm and c) a novel wavelet-packet identification procedure. Within class and between class dispersion metrics are adopted for the three data sets. A discrimination metric evaluates how well the three classes can be distinguished within the frequency range 0. 1 - 1.0 THz using the above algorithms.
Resumo:
The popularity of wireless local area networks (WLANs) has resulted in their dense deployments around the world. While this increases capacity and coverage, the problem of increased interference can severely degrade the performance of WLANs. However, the impact of interference on throughput in dense WLANs with multiple access points (APs) has had very limited prior research. This is believed to be due to 1) the inaccurate assumption that throughput is always a monotonically decreasing function of interference and 2) the prohibitively high complexity of an accurate analytical model. In this work, firstly we provide a useful classification of commonly found interference scenarios. Secondly, we investigate the impact of interference on throughput for each class based on an approach that determines the possibility of parallel transmissions. Extensive packet-level simulations using OPNET have been performed to support the observations made. Interestingly, results have shown that in some topologies, increased interference can lead to higher throughput and vice versa.
Resumo:
We consider a fully complex-valued radial basis function (RBF) network for regression and classification applications. For regression problems, the locally regularised orthogonal least squares (LROLS) algorithm aided with the D-optimality experimental design, originally derived for constructing parsimonious real-valued RBF models, is extended to the fully complex-valued RBF (CVRBF) network. Like its real-valued counterpart, the proposed algorithm aims to achieve maximised model robustness and sparsity by combining two effective and complementary approaches. The LROLS algorithm alone is capable of producing a very parsimonious model with excellent generalisation performance while the D-optimality design criterion further enhances the model efficiency and robustness. By specifying an appropriate weighting for the D-optimality cost in the combined model selecting criterion, the entire model construction procedure becomes automatic. An example of identifying a complex-valued nonlinear channel is used to illustrate the regression application of the proposed fully CVRBF network. The proposed fully CVRBF network is also applied to four-class classification problems that are typically encountered in communication systems. A complex-valued orthogonal forward selection algorithm based on the multi-class Fisher ratio of class separability measure is derived for constructing sparse CVRBF classifiers that generalise well. The effectiveness of the proposed algorithm is demonstrated using the example of nonlinear beamforming for multiple-antenna aided communication systems that employ complex-valued quadrature phase shift keying modulation scheme. (C) 2007 Elsevier B.V. All rights reserved.
Resumo:
This work compares and contrasts results of classifying time-domain ECG signals with pathological conditions taken from the MITBIH arrhythmia database. Linear discriminant analysis and a multi-layer perceptron were used as classifiers. The neural network was trained by two different methods, namely back-propagation and a genetic algorithm. Converting the time-domain signal into the wavelet domain reduced the dimensionality of the problem at least 10-fold. This was achieved using wavelets from the db6 family as well as using adaptive wavelets generated using two different strategies. The wavelet transforms used in this study were limited to two decomposition levels. A neural network with evolved weights proved to be the best classifier with a maximum of 99.6% accuracy when optimised wavelet-transform ECG data wits presented to its input and 95.9% accuracy when the signals presented to its input were decomposed using db6 wavelets. The linear discriminant analysis achieved a maximum classification accuracy of 95.7% when presented with optimised and 95.5% with db6 wavelet coefficients. It is shown that the much simpler signal representation of a few wavelet coefficients obtained through an optimised discrete wavelet transform facilitates the classification of non-stationary time-variant signals task considerably. In addition, the results indicate that wavelet optimisation may improve the classification ability of a neural network. (c) 2005 Elsevier B.V. All rights reserved.
Resumo:
Although extensively studied within the lidar community, the multiple scattering phenomenon has always been considered a rare curiosity by radar meteorologists. Up to few years ago its appearance has only been associated with two- or three-body-scattering features (e.g. hail flares and mirror images) involving highly reflective surfaces. Recent atmospheric research aimed at better understanding of the water cycle and the role played by clouds and precipitation in affecting the Earth's climate has driven the deployment of high frequency radars in space. Examples are the TRMM 13.5 GHz, the CloudSat 94 GHz, the upcoming EarthCARE 94 GHz, and the GPM dual 13-35 GHz radars. These systems are able to detect the vertical distribution of hydrometeors and thus provide crucial feedbacks for radiation and climate studies. The shift towards higher frequencies increases the sensitivity to hydrometeors, improves the spatial resolution and reduces the size and weight of the radar systems. On the other hand, higher frequency radars are affected by stronger extinction, especially in the presence of large precipitating particles (e.g. raindrops or hail particles), which may eventually drive the signal below the minimum detection threshold. In such circumstances the interpretation of the radar equation via the single scattering approximation may be problematic. Errors will be large when the radiation emitted from the radar after interacting more than once with the medium still contributes substantially to the received power. This is the case if the transport mean-free-path becomes comparable with the instrument footprint (determined by the antenna beam-width and the platform altitude). This situation resembles to what has already been experienced in lidar observations, but with a predominance of wide- versus small-angle scattering events. At millimeter wavelengths, hydrometeors diffuse radiation rather isotropically compared to the visible or near infrared region where scattering is predominantly in the forward direction. A complete understanding of radiation transport modeling and data analysis methods under wide-angle multiple scattering conditions is mandatory for a correct interpretation of echoes observed by space-borne millimeter radars. This paper reviews the status of research in this field. Different numerical techniques currently implemented to account for higher order scattering are reviewed and their weaknesses and strengths highlighted. Examples of simulated radar backscattering profiles are provided with particular emphasis given to situations in which the multiple scattering contributions become comparable or overwhelm the single scattering signal. We show evidences of multiple scattering effects from air-borne and from CloudSat observations, i.e. unique signatures which cannot be explained by single scattering theory. Ideas how to identify and tackle the multiple scattering effects are discussed. Finally perspectives and suggestions for future work are outlined. This work represents a reference-guide for studies focused at modeling the radiation transport and at interpreting data from high frequency space-borne radar systems that probe highly opaque scattering media such as thick ice clouds or precipitating clouds.
Resumo:
Real-world text classification tasks often suffer from poor class structure with many overlapping classes and blurred boundaries. Training data pooled from multiple sources tend to be inconsistent and contain erroneous labelling, leading to poor performance of standard text classifiers. The classification of health service products to specialized procurement classes is used to examine and quantify the extent of these problems. A novel method is presented to analyze the labelled data by selectively merging classes where there is not enough information for the classifier to distinguish them. Initial results show the method can identify the most problematic classes, which can be used either as a focus to improve the training data or to merge classes to increase confidence in the predicted results of the classifier.
Resumo:
Deep Brain Stimulation has been used in the study of and for treating Parkinson’s Disease (PD) tremor symptoms since the 1980s. In the research reported here we have carried out a comparative analysis to classify tremor onset based on intraoperative microelectrode recordings of a PD patient’s brain Local Field Potential (LFP) signals. In particular, we compared the performance of a Support Vector Machine (SVM) with two well known artificial neural network classifiers, namely a Multiple Layer Perceptron (MLP) and a Radial Basis Function Network (RBN). The results show that in this study, using specifically PD data, the SVM provided an overall better classification rate achieving an accuracy of 81% recognition.
Resumo:
Liquid clouds play a profound role in the global radiation budget but it is difficult to remotely retrieve their vertical profile. Ordinary narrow field-of-view (FOV) lidars receive a strong return from such clouds but the information is limited to the first few optical depths. Wideangle multiple-FOV lidars can isolate radiation scattered multiple times before returning to the instrument, often penetrating much deeper into the cloud than the singly-scattered signal. These returns potentially contain information on the vertical profile of extinction coefficient, but are challenging to interpret due to the lack of a fast radiative transfer model for simulating them. This paper describes a variational algorithm that incorporates a fast forward model based on the time-dependent two-stream approximation, and its adjoint. Application of the algorithm to simulated data from a hypothetical airborne three-FOV lidar with a maximum footprint width of 600m suggests that this approach should be able to retrieve the extinction structure down to an optical depth of around 6, and total opticaldepth up to at least 35, depending on the maximum lidar FOV. The convergence behavior of Gauss-Newton and quasi-Newton optimization schemes are compared. We then present results from an application of the algorithm to observations of stratocumulus by the 8-FOV airborne “THOR” lidar. It is demonstrated how the averaging kernel can be used to diagnose the effective vertical resolution of the retrieved profile, and therefore the depth to which information on the vertical structure can be recovered. This work enables exploitation of returns from spaceborne lidar and radar subject to multiple scattering more rigorously than previously possible.
Resumo:
Generally classifiers tend to overfit if there is noise in the training data or there are missing values. Ensemble learning methods are often used to improve a classifier's classification accuracy. Most ensemble learning approaches aim to improve the classification accuracy of decision trees. However, alternative classifiers to decision trees exist. The recently developed Random Prism ensemble learner for classification aims to improve an alternative classification rule induction approach, the Prism family of algorithms, which addresses some of the limitations of decision trees. However, Random Prism suffers like any ensemble learner from a high computational overhead due to replication of the data and the induction of multiple base classifiers. Hence even modest sized datasets may impose a computational challenge to ensemble learners such as Random Prism. Parallelism is often used to scale up algorithms to deal with large datasets. This paper investigates parallelisation for Random Prism, implements a prototype and evaluates it empirically using a Hadoop computing cluster.
Resumo:
A two-stage linear-in-the-parameter model construction algorithm is proposed aimed at noisy two-class classification problems. The purpose of the first stage is to produce a prefiltered signal that is used as the desired output for the second stage which constructs a sparse linear-in-the-parameter classifier. The prefiltering stage is a two-level process aimed at maximizing a model's generalization capability, in which a new elastic-net model identification algorithm using singular value decomposition is employed at the lower level, and then, two regularization parameters are optimized using a particle-swarm-optimization algorithm at the upper level by minimizing the leave-one-out (LOO) misclassification rate. It is shown that the LOO misclassification rate based on the resultant prefiltered signal can be analytically computed without splitting the data set, and the associated computational cost is minimal due to orthogonality. The second stage of sparse classifier construction is based on orthogonal forward regression with the D-optimality algorithm. Extensive simulations of this approach for noisy data sets illustrate the competitiveness of this approach to classification of noisy data problems.