909 resultados para classification and regression trees


Relevância:

100.00% 100.00%

Publicador:

Resumo:

Perinteisesti ajoneuvojen markkinointikampanjoissa kohderyhmät muodostetaan yksinkertaisella kriteeristöllä koskien henkilön tai hänen ajoneuvonsa ominaisuuksia. Ennustavan analytiikan avulla voidaan tuottaa kohderyhmänmuodostukseen teknisesti kompleksisia mutta kuitenkin helppokäyttöisiä menetelmiä. Tässä työssä on sovellettu luokittelu- ja regressiomenetelmiä uuden auton ostajien joukkoon. Tämän työn menetelmiksi on rajattu tukivektorikone sekä Coxin regressiomalli. Coxin regression avulla on tutkittu elinaika-analyysien soveltuvuutta ostotapahtuman tapahtumahetken mallintamiseen. Luokittelu tukivektorikonetta käyttäen onnistuu tehtävässään noin 72% tapauksissa. Tukivektoriregressiolla mallinnetun hankintahetken virheen keskiarvo on noin neljä kuukautta. Työn tulosten perusteella myös elinaika-analyysin käyttö ostotapahtuman tapahtumahetken mallintamiseen on menetelmänä käyttökelpoinen.

Relevância:

100.00% 100.00%

Publicador:

Resumo:

Les chutes chez les personnes âgées représentent un problème majeur. Il n’est donc pas étonnant que l’identification des facteurs qui en accroissent le risque ait mobilisé autant d’attention. Les aînés plus fragiles ayant besoin de soutien pour vivre dans la communauté sont néanmoins demeurés le parent pauvre de la recherche, bien que, plus récemment, les autorités québécoises en aient fait une cible d’intervention prioritaire. Les études d’observation prospectives sont particulièrement indiquées pour étudier les facteurs de risque de chutes chez les personnes âgées. Leur identification optimale est cependant compliquée par le fait que l’exposition aux facteurs de risque peut varier au cours du suivi et qu’un même individu peut subir plus d’un événement. Il y a 20 ans, des chercheurs ont tenté de sensibiliser leurs homologues à cet égard, mais leurs efforts sont demeurés vains. On continue aujourd’hui à faire peu de cas de ces considérations, se concentrant sur la proportion des personnes ayant fait une chute ou sur le temps écoulé jusqu’à la première chute. On écarte du coup une quantité importante d’information pertinente. Dans cette thèse, nous examinons les méthodes en usage et nous proposons une extension du modèle de risques de Cox. Nous illustrons cette méthode par une étude des facteurs de risque susceptibles d’être associés à des chutes parmi un groupe de 959 personnes âgées ayant eu recours aux services publics de soutien à domicile. Nous comparons les résultats obtenus avec la méthode de Wei, Lin et Weissfeld à ceux obtenus avec d’autres méthodes, dont la régression logistique conventionnelle, la régression logistique groupée, la régression binomiale négative et la régression d’Andersen et Gill. L’investigation est caractérisée par des prises de mesures répétées des facteurs de risque au domicile des participants et par des relances téléphoniques mensuelles visant à documenter la survenue des chutes. Les facteurs d’exposition étudiés, qu’ils soient fixes ou variables dans le temps, comprennent les caractéristiques sociodémographiques, l’indice de masse corporelle, le risque nutritionnel, la consommation d’alcool, les dangers de l’environnement domiciliaire, la démarche et l’équilibre, et la consommation de médicaments. La quasi-totalité (99,6 %) des usagers présentaient au moins un facteur à haut risque. L’exposition à des risques multiples était répandue, avec une moyenne de 2,7 facteurs à haut risque distincts par participant. Les facteurs statistiquement associés au risque de chutes incluent le sexe masculin, les tranches d’âge inférieures, l’histoire de chutes antérieures, un bas score à l’échelle d’équilibre de Berg, un faible indice de masse corporelle, la consommation de médicaments de type benzodiazépine, le nombre de dangers présents au domicile et le fait de vivre dans une résidence privée pour personnes âgées. Nos résultats révèlent cependant que les méthodes courantes d’analyse des facteurs de risque de chutes – et, dans certains cas, de chutes nécessitant un recours médical – créent des biais appréciables. Les biais pour les mesures d’association considérées proviennent de la manière dont l’exposition et le résultat sont mesurés et définis de même que de la manière dont les méthodes statistiques d’analyse en tiennent compte. Une dernière partie, tout aussi innovante que distincte de par la nature des outils statistiques utilisés, complète l’ouvrage. Nous y identifions des profils d’aînés à risque de devenir des chuteurs récurrents, soit ceux chez qui au moins deux chutes sont survenues dans les six mois suivant leur évaluation initiale. Une analyse par arbre de régression et de classification couplée à une analyse de survie a révélé l’existence de cinq profils distinctifs, dont le risque relatif varie de 0,7 à 5,1. Vivre dans une résidence pour aînés, avoir des antécédents de chutes multiples ou des troubles de l’équilibre et consommer de l’alcool sont les principaux facteurs associés à une probabilité accrue de chuter précocement et de devenir un chuteur récurrent. Qu’il s’agisse d’activité de dépistage des facteurs de risque de chutes ou de la population ciblée, cette thèse s’inscrit dans une perspective de gain de connaissances sur un thème hautement d’actualité en santé publique. Nous encourageons les chercheurs intéressés par l’identification des facteurs de risque de chutes chez les personnes âgées à recourir à la méthode statistique de Wei, Lin et Weissfeld car elle tient compte des expositions variables dans le temps et des événements récurrents. Davantage de recherches seront par ailleurs nécessaires pour déterminer le choix du meilleur test de dépistage pour un facteur de risque donné chez cette clientèle.

Relevância:

100.00% 100.00%

Publicador:

Resumo:

Mémoire numérisé par la Division de la gestion de documents et des archives de l'Université de Montréal

Relevância:

100.00% 100.00%

Publicador:

Resumo:

In den vorliegenden Untersuchungen wurde der Gehalt von Carotinoiden in Weizen, Mais und Möhren sowie der Polyphenolgehalt in Möhren mit analytischen Methoden zum Nachweis dieser Substanzen gemessen. Der Gehalt der Carotinoide in Mais und der Gehalt der phenolischen Bestandteile in Möhren wurde mit Messungen mittels HPLC-Analytik gemessen. Die Methoden wurden aus literaturbekannten Verfahren abgeleitet und an die Anforderungen der untersuchten Probenmatrices angepasst und validiert. Dem Verfahren lag die Frage zugrunde, ob es möglich ist, Kulturpflanzen aus verschiedenen Anbausystemen auf der Basis des Gehaltes bestimmter sekundärer Pflanzeninhaltsstoffe zu differenzieren und aufgrund von Unterschieden im Gehalt der sekundären Pflanzeninhaltsstoffe zu klassifizieren. Die Gesamtverfahren wurden dabei gemäß der ISO 17025 validiert. Für die Messungen standen Proben aus definierten Langzeitversuchen und Erzeugerproben ausgesuchter ökologisch bzw. konventionell arbeitender Anbaubetriebe zur Verfügung. Als Grundlage für eine valide Methodeneinschätzung wurden die Messungen an codierten Proben vorgenommen. Eine Decodierung der Proben erfolgte erst nach der Vorlage der Messergebnisse in den genannten Projekten. Die Messung und Auswertung des Carotinoidgehaltes in Weizen, Mais und Möhren vor dem Hintergrund der Differenzierung und Klassifizierung erfolgte in Proben eines Erntejahres. Die Messung des Gehaltes phenolischer Substanzen in Möhren erfolgte in Möhren aus 3 Erntejahren. Die verwendeten HPLC-Verfahren konnten in Bezug auf den analytischen Teil der Messungen in den einzelnen Verfahrensschritten Linearität, Spezifität, Präzision und Robustheit erfolgreich überprüft werden. Darüber hinaus wurden wichtige Einflussgrößen auf die Messungen bestimmt. Für die Verfahren zur photometrischen Bestimmung der Gesamtcarotinoide konnte eine Grundkalibrierung der Parameter Präzision und Linearität des Verfahrens erfolgreich durchgeführt werden. Während der Anwendung der HPLC-Methoden an codierten Proben konnten in allen untersuchten Probenmatrices quantitativ bedeutende Inhaltsstoffe nachgewiesen und identifiziert werden. Eine vollständige Identifizierung aller dargestellten Peaks konnte in den Untersuchungen der Polyphenole in Möhren und der Carotinoide in Mais nicht erfolgen. Im Hinblick auf die Frage nach der Differenzierung und Klassifizierung ergab sich in den verschiedenen Proben ein unterschiedliches Bild. Sowohl durch den Carotinoid- als auch den Polyphenolgehalt konnten einzelne Proben statistisch signifikant differenziert werden. Die Trennleistung hing dabei sowohl von den jeweiligen Komponenten als auch von der untersuchten Probenmatrix ab. Ein durchgängig höherer Gehalt sekundärer Pflanzeninhaltsstoffe in Proben aus ökologischem Anbau konnte nicht bestätigt werden. Für die Klassifizierung der Proben verschiedener Anbauvarianten und konnten multivariate statistische Methoden, wie lineare Diskriminantenanalyse (LDA) und Classification and Regression Tree (CART), erfolgreich angewandt werden. Eine Klassifizierung mit unterschiedlichen statistischen Verfahren erbrachte dabei unterschiedliche Ergebnisse. In der Klassifizierung der decodierten Proben mittels LDA wirkten sich die Faktoren Sorte und Standort stärker auf das Klassifizierungsergebnis aus als der Faktor Anbausystem. Eine Klassifizierung der decodierten Proben nach dem Anbausystem wurde mit dem CART-Verfahren durchgeführt. Auf dieser Basis wurden für die Polyphenole in Möhren 97 % der Proben richtig klassifiziert. Durch die Messwerte des Carotinoidgehaltes und des Luteingehaltes in Weizen konnte der größere Teil der Proben (90 %) korrekt klassifiziert werden. Auf der Basis des Carotinoidgehaltes in Mais wurde der Großteil der Proben (95 %) korrekt nach dem Anbausystem klassifiziert. Auf der Basis des mittels HPLC gemessenen Carotinoidgehaltes in Möhren konnten die Proben 97 % korrekt klassifiziert werden (97 %). Insgesamt erscheint der Grundgedanke der Klassifizierung durch den Gehalt sekundärer Pflanzeninhaltsstoffe vielversprechend. Durch die vielfältigen Einflussgrößen auf den Sekundärstoffwechsel von Pflanzen müssten Veränderungen, die durch Sorte und Standort auftreten, über mehrere Jahre erhoben und systematisiert werden.

Relevância:

100.00% 100.00%

Publicador:

Resumo:

In dieser Arbeit wird ein Verfahren zum Einsatz neuronaler Netzwerke vorgestellt, das auf iterative Weise Klassifikation und Prognoseschritte mit dem Ziel kombiniert, bessere Ergebnisse der Prognose im Vergleich zu einer einmaligen hintereinander Ausführung dieser Schritte zu erreichen. Dieses Verfahren wird am Beispiel der Prognose der Windstromerzeugung abhängig von der Wettersituation erörtert. Eine Verbesserung wird in diesem Rahmen mit einzelnen Ausreißern erreicht. Verschiedene Aspekte werden in drei Kapiteln diskutiert: In Kapitel 1 werden die verwendeten Daten und ihre elektronische Verarbeitung vorgestellt. Die Daten bestehen zum einen aus Windleistungshochrechnungen für die Bundesrepublik Deutschland der Jahre 2011 und 2012, welche als Transparenzanforderung des Erneuerbaren Energiegesetzes durch die Übertragungsnetzbetreiber publiziert werden müssen. Zum anderen werden Wetterprognosen, die der Deutsche Wetterdienst im Rahmen der Grundversorgung kostenlos bereitstellt, verwendet. Kapitel 2 erläutert zwei aus der Literatur bekannte Verfahren - Online- und Batchalgorithmus - zum Training einer selbstorganisierenden Karte. Aus den dargelegten Verfahrenseigenschaften begründet sich die Wahl des Batchverfahrens für die in Kapitel 3 erläuterte Methode. Das in Kapitel 3 vorgestellte Verfahren hat im modellierten operativen Einsatz den gleichen Ablauf, wie eine Klassifikation mit anschließender klassenspezifischer Prognose. Bei dem Training des Verfahrens wird allerdings iterativ vorgegangen, indem im Anschluss an das Training der klassenspezifischen Prognose ermittelt wird, zu welcher Klasse der Klassifikation ein Eingabedatum gehören sollte, um mit den vorliegenden klassenspezifischen Prognosemodellen die höchste Prognosegüte zu erzielen. Die so gewonnene Einteilung der Eingaben kann genutzt werden, um wiederum eine neue Klassifikationsstufe zu trainieren, deren Klassen eine verbesserte klassenspezifisch Prognose ermöglichen.

Relevância:

100.00% 100.00%

Publicador:

Resumo:

Objetivos: Determinar la prevalencia y los factores asociados con el desarrollo de hipotiroidismo autoinmune (HA) en una cohorte de pacientes con lupus eritematoso sistémico (LES), y analizar la información actual en cuanto a la prevalencia e impacto de la enfermedad tiroidea autoinmune y la autoinmunidad tiroidea en pacientes con LES. Métodos: Este fue un estudio realizado en dos pasos. Primero, un total de 376 pacientes con LES fueron evaluados sistemáticamente por la presencia de: 1) HA confirmado, 2) positividad para anticuerpos tiroperoxidasa/tiroglobulina (TPOAb/TgAb) sin hipotiroidismo, 3) hipotiroidismo no autoinmune, y 4) pacientes con LES sin hipotiroidismo ni positividad para TPOAb/TgAb. Se construyeron modelos multivariados y árboles de regresión y clasificación para analizar los datos. Segundo, la información actual fue evaluada a través de una revisión sistemática de la literatura (RLS). Se siguieron las guías PRISMA para la búsqueda en las bases de datos PubMed, Scopus, SciELO y Librería Virtual en Salud. Resultados: En nuestra cohorte, la prevalencia de HA confirmado fue de 12% (Grupo 1). Sin embargo, la frecuencia de positividad para TPOAb y TgAb fue de 21% y 10%, respectivamente (Grupo 2). Los pacientes con LES sin HA, hipotiroidismo no autoinmune ni positividad para TPOAb/TgAb constituyeron el 40% de la corhorte. Los pacientes con HA confirmada fueron estadísticamente significativo de mayor edad y tuvieron un inicio tardío de la enfermedad. El tabaquismo (ORA 6.93, IC 95% 1.98-28.54, p= 0.004), la presencia de Síndrome de Sjögren (SS) (ORA 23.2, IC 95% 1.89-359.53, p= 0.015) y la positividad para anticuerpos anti-péptido cíclico citrulinado (anti-CCP) (ORA 10.35, IC 95% 1.04-121.26, p= 0.047) se asociaron con la coexistencia de LES-HA, ajustado por género y duración de la enfermedad. El tabaquismo y el SS fueron confirmados como factores predictivos para LES-HA (AUC del modelo CART = 0.72). En la RSL, la prevalencia de ETA en LES varío entre 1% al 60%. Los factores asociados con esta poliautoinmunidad fueron el género femenino, edad avanzada, tabaquismo, positividad para algunos anticuerpos, SS y el compromiso articular y cutáneo. Conclusiones: La ETA es frecuente en pacientes con LES, y no afecta la severidad del LES. Los factores de riesgo identificados ayudarán a los clínicos en la búsqueda de ETA. Nuestros resultados deben estimular políticas para la suspensión del tabaquismo en pacientes con LES.

Relevância:

100.00% 100.00%

Publicador:

Resumo:

Arylpiperazine compounds are promising 5-HT1A receptor ligands that can contribute for accelerating the onset of therapeutic effect of selective serotonin reuptake inhibitors. In the present work, the chemometric methods HCA, PCA, KNN, SIMCA and PLS were employed in order to obtain SAR and QSAR models relating the structures of arylpiperazine compounds to their 5-HT1A receptor affinities. A training set of 52 compounds was used to construct the models and the best ones were obtained with nine topological descriptors. The classification and regression models were externally validated by means of predictions for a test set of 14 compounds and have presented good quality, as verified by the correctness of classifications, in the case of pattern recognition studies, and b, the high correlation coefficients (q(2) = 0.76, r(2) = 0.83) and small prediction errors for the PLS regression. Since the results are in good agreement with previous SAR studies, we can suggest that these findings can help in the search for 5-HT1A receptor ligands that are able to improve antidepressant treatment. (c) 2007 Elsevier Masson SAS. All rights reserved.

Relevância:

100.00% 100.00%

Publicador:

Resumo:

Accurate speed prediction is a crucial step in the development of a dynamic vehcile activated sign (VAS). A previous study showed that the optimal trigger speed of such signs will need to be pre-determined according to the nature of the site and to the traffic conditions. The objective of this paper is to find an accurate predictive model based on historical traffic speed data to derive the optimal trigger speed for such signs. Adaptive neuro fuzzy (ANFIS), classification and regression tree (CART) and random forest (RF) were developed to predict one step ahead speed during all times of the day. The developed models were evaluated and compared to the results obtained from artificial neural network (ANN), multiple linear regression (MLR) and naïve prediction using traffic speed data collected at four sites located in Sweden. The data were aggregated into two periods, a short term period (5-min) and a long term period (1-hour). The results of this study showed that using RF is a promising method for predicting mean speed in the two proposed periods.. It is concluded that in terms of performance and computational complexity, a simplistic input features to the predicitive model gave a marked increase in the response time of the model whilse still delivering a low prediction error.

Relevância:

100.00% 100.00%

Publicador:

Resumo:

Hundreds of Terabytes of CMS (Compact Muon Solenoid) data are being accumulated for storage day by day at the University of Nebraska-Lincoln, which is one of the eight US CMS Tier-2 sites. Managing this data includes retaining useful CMS data sets and clearing storage space for newly arriving data by deleting less useful data sets. This is an important task that is currently being done manually and it requires a large amount of time. The overall objective of this study was to develop a methodology to help identify the data sets to be deleted when there is a requirement for storage space. CMS data is stored using HDFS (Hadoop Distributed File System). HDFS logs give information regarding file access operations. Hadoop MapReduce was used to feed information in these logs to Support Vector Machines (SVMs), a machine learning algorithm applicable to classification and regression which is used in this Thesis to develop a classifier. Time elapsed in data set classification by this method is dependent on the size of the input HDFS log file since the algorithmic complexities of Hadoop MapReduce algorithms here are O(n). The SVM methodology produces a list of data sets for deletion along with their respective sizes. This methodology was also compared with a heuristic called Retention Cost which was calculated using size of the data set and the time since its last access to help decide how useful a data set is. Accuracies of both were compared by calculating the percentage of data sets predicted for deletion which were accessed at a later instance of time. Our methodology using SVMs proved to be more accurate than using the Retention Cost heuristic. This methodology could be used to solve similar problems involving other large data sets.

Relevância:

100.00% 100.00%

Publicador:

Resumo:

Objective Various nonvalidated criteria for disease flare have been used in studies of gout. Our objective was to develop empirical definitions for a gout flare from patient-reported features. Methods Possible elements for flare criteria were previously reported. Data were collected from 210 gout patients at 8 international sites to evaluate potential gout flare criteria against the gold standard of an expert rheumatologist definition. Flare definitions based on the presence of the number of criteria independently associated with the flare and classification and regression tree approaches were developed. Results The mean +/- SD age of the study participants was 56.2 +/- 15 years, 207 of them (98%) were men, and 54 of them (26%) had flares of gout. The presence of any patient-reported warm joint, any patient-reported swollen joint, patient-reported pain at rest score of >3 (010 scale), and patient-reported flare were independently associated with the study gold standard. The greatest discriminating power was noted for the presence of 3 or more of the above 4 criteria (sensitivity 91% and specificity 82%). Requiring all 4 criteria provided the highest specificity (96%) and positive predictive value (85%). A classification tree identified pain at rest with a score of >3, followed by patient self-reported flare, as the rule associated with the gold standard (sensitivity 83% and specificity 90%). Conclusion We propose definitions for a disease flare based on self-reported items in patients previously diagnosed as having gout. Patient-reported flare, joint pain at rest, warm joints, and swollen joints were most strongly associated with presence of a gout flare. These provisional definitions will next be validated in clinical trials.

Relevância:

100.00% 100.00%

Publicador:

Resumo:

[ES] In this paper we address the problem of inserting virtual content in a video sequence. The method we propose uses just image information. We perform primitive tracking, camera calibration, real and virtual camera synchronisation and finally rendering to insert the virtual content in the real video sequence. To simplify the calibration step we assume that cameras are mounted on a tripod (which is a common situation in practise). The primitive tracking procedure, which uses lines and circles as primitives, is performed by means of a CART (Classification and Regression Tree). Finally, the virtual and real camera synchronisation and rendering is performed using functions of OpenGL (Open Graphic Library). We have applied the method proposed to sport event scenarios, specifically, soccer matches. In order to illustrate its performance, it has been applied to real HD (High Definition) video sequences. The quality of the proposed method is validated by inserting virtual elements in such HD video sequence.

Relevância:

100.00% 100.00%

Publicador:

Resumo:

[EN] [EN] In this paper we present a new method for image primitives tracking based on a CART (Classification and Regression Tree). Primitives tracking procedure uses lines and circles as primitives. We have applied the proposed method to sport event scenarios, specifically, soccer matches. We estimate CART parameters using a learning procedure based on RGB image channels. In order to illustrate its performance, it has been applied to real HD (High Definition) video sequences and some numerical experiments are shown. The quality of the primitives tracking with the decision tree is validated by the percentage error rates obtained and the comparison with other techniques as a morphological method. We also present applications of the proposed method to camera calibration and graphic object insertion in real video sequences.

Relevância:

100.00% 100.00%

Publicador:

Resumo:

OBJECTIVES: Proteomics approaches to cardiovascular biology and disease hold the promise of identifying specific proteins and peptides or modification thereof to assist in the identification of novel biomarkers. METHOD: By using surface-enhanced laser desorption and ionization time of flight mass spectroscopy (SELDI-TOF-MS) serum peptide and protein patterns were detected enabling to discriminate between postmenopausal women with and without hormone replacement therapy (HRT). RESULTS: Serum of 13 HRT and 27 control subjects was analyzed and 42 peptides and proteins could be tentatively identified based on their molecular weight and binding characteristics on the chip surface. By using decision tree-based Biomarker Patternstrade mark Software classification and regression analysis a discriminatory function was developed allowing to distinguish between HRT women and controls correctly and, thus, yielding a sensitivity of 100% and a specificity of 100%. The results show that peptide and protein patterns have the potential to deliver novel biomarkers as well as pinpointing targets for improved treatment. The biomarkers obtained represent a promising tool to discriminate between HRT users and non-users. CONCLUSION: According to a tentative identification of the markers by their molecular weight and binding characteristics, most of them appear to be part of the inflammation induced acute-phase response

Relevância:

100.00% 100.00%

Publicador:

Resumo:

La familia de algoritmos de Boosting son un tipo de técnicas de clasificación y regresión que han demostrado ser muy eficaces en problemas de Visión Computacional. Tal es el caso de los problemas de detección, de seguimiento o bien de reconocimiento de caras, personas, objetos deformables y acciones. El primer y más popular algoritmo de Boosting, AdaBoost, fue concebido para problemas binarios. Desde entonces, muchas han sido las propuestas que han aparecido con objeto de trasladarlo a otros dominios más generales: multiclase, multilabel, con costes, etc. Nuestro interés se centra en extender AdaBoost al terreno de la clasificación multiclase, considerándolo como un primer paso para posteriores ampliaciones. En la presente tesis proponemos dos algoritmos de Boosting para problemas multiclase basados en nuevas derivaciones del concepto margen. El primero de ellos, PIBoost, está concebido para abordar el problema descomponiéndolo en subproblemas binarios. Por un lado, usamos una codificación vectorial para representar etiquetas y, por otro, utilizamos la función de pérdida exponencial multiclase para evaluar las respuestas. Esta codificación produce un conjunto de valores margen que conllevan un rango de penalizaciones en caso de fallo y recompensas en caso de acierto. La optimización iterativa del modelo genera un proceso de Boosting asimétrico cuyos costes dependen del número de etiquetas separadas por cada clasificador débil. De este modo nuestro algoritmo de Boosting tiene en cuenta el desbalanceo debido a las clases a la hora de construir el clasificador. El resultado es un método bien fundamentado que extiende de manera canónica al AdaBoost original. El segundo algoritmo propuesto, BAdaCost, está concebido para problemas multiclase dotados de una matriz de costes. Motivados por los escasos trabajos dedicados a generalizar AdaBoost al terreno multiclase con costes, hemos propuesto un nuevo concepto de margen que, a su vez, permite derivar una función de pérdida adecuada para evaluar costes. Consideramos nuestro algoritmo como la extensión más canónica de AdaBoost para este tipo de problemas, ya que generaliza a los algoritmos SAMME, Cost-Sensitive AdaBoost y PIBoost. Por otro lado, sugerimos un simple procedimiento para calcular matrices de coste adecuadas para mejorar el rendimiento de Boosting a la hora de abordar problemas estándar y problemas con datos desbalanceados. Una serie de experimentos nos sirven para demostrar la efectividad de ambos métodos frente a otros conocidos algoritmos de Boosting multiclase en sus respectivas áreas. En dichos experimentos se usan bases de datos de referencia en el área de Machine Learning, en primer lugar para minimizar errores y en segundo lugar para minimizar costes. Además, hemos podido aplicar BAdaCost con éxito a un proceso de segmentación, un caso particular de problema con datos desbalanceados. Concluimos justificando el horizonte de futuro que encierra el marco de trabajo que presentamos, tanto por su aplicabilidad como por su flexibilidad teórica. Abstract The family of Boosting algorithms represents a type of classification and regression approach that has shown to be very effective in Computer Vision problems. Such is the case of detection, tracking and recognition of faces, people, deformable objects and actions. The first and most popular algorithm, AdaBoost, was introduced in the context of binary classification. Since then, many works have been proposed to extend it to the more general multi-class, multi-label, costsensitive, etc... domains. Our interest is centered in extending AdaBoost to two problems in the multi-class field, considering it a first step for upcoming generalizations. In this dissertation we propose two Boosting algorithms for multi-class classification based on new generalizations of the concept of margin. The first of them, PIBoost, is conceived to tackle the multi-class problem by solving many binary sub-problems. We use a vectorial codification to represent class labels and a multi-class exponential loss function to evaluate classifier responses. This representation produces a set of margin values that provide a range of penalties for failures and rewards for successes. The stagewise optimization of this model introduces an asymmetric Boosting procedure whose costs depend on the number of classes separated by each weak-learner. In this way the Boosting procedure takes into account class imbalances when building the ensemble. The resulting algorithm is a well grounded method that canonically extends the original AdaBoost. The second algorithm proposed, BAdaCost, is conceived for multi-class problems endowed with a cost matrix. Motivated by the few cost-sensitive extensions of AdaBoost to the multi-class field, we propose a new margin that, in turn, yields a new loss function appropriate for evaluating costs. Since BAdaCost generalizes SAMME, Cost-Sensitive AdaBoost and PIBoost algorithms, we consider our algorithm as a canonical extension of AdaBoost to this kind of problems. We additionally suggest a simple procedure to compute cost matrices that improve the performance of Boosting in standard and unbalanced problems. A set of experiments is carried out to demonstrate the effectiveness of both methods against other relevant Boosting algorithms in their respective areas. In the experiments we resort to benchmark data sets used in the Machine Learning community, firstly for minimizing classification errors and secondly for minimizing costs. In addition, we successfully applied BAdaCost to a segmentation task, a particular problem in presence of imbalanced data. We conclude the thesis justifying the horizon of future improvements encompassed in our framework, due to its applicability and theoretical flexibility.

Relevância:

100.00% 100.00%

Publicador:

Resumo:

Support vector machines (SVMs) have recently emerged as a powerful technique for solving problems in pattern classification and regression. Best performance is obtained from the SVM its parameters have their values optimally set. In practice, good parameter settings are usually obtained by a lengthy process of trial and error. This paper describes the use of genetic algorithm to evolve these parameter settings for an application in mobile robotics.