4 resultados para CTC

em Archivo Digital para la Docencia y la Investigación - Repositorio Institucional de la Universidad del País Vasco


Relevância:

20.00% 20.00%

Publicador:

Resumo:

En este proyecto se analiza y compara el comportamiento del algoritmo CTC diseñado por el grupo de investigación ALDAPA usando bases de datos muy desbalanceadas. En concreto se emplea un conjunto de bases de datos disponibles en el sitio web asociado al proyecto KEEL (http://sci2s.ugr.es/keel/index.php) y que han sido ya utilizadas con diferentes algoritmos diseñados para afrontar el problema de clases desbalanceadas (Class imbalance problem) en el siguiente trabajo: A. Fernandez, S. García, J. Luengo, E. Bernadó-Mansilla, F. Herrera, "Genetics-Based Machine Learning for Rule Induction: State of the Art, Taxonomy and Comparative Study". IEEE Transactions on Evolutionary Computation 14:6 (2010) 913-941, http://dx.doi.org/10.1109/TEVC.2009.2039140 Las bases de datos (incluidas las muestras del cross-validation), junto con los resultados obtenidos asociados a la experimentación de este trabajo se pueden encontrar en un sitio web creado a tal efecto: http://sci2s.ugr.es/gbml/. Esto hace que los resultados del CTC obtenidos con estas muestras sean directamente comparables con los obtenidos por todos los algoritmos obtenidos en este trabajo.

Relevância:

20.00% 20.00%

Publicador:

Resumo:

This document aims to describe an update of the implementation of the J48Consolidated class within WEKA platform. The J48Consolidated class implements the CTC algorithm [2][3] which builds a unique decision tree based on a set of samples. The J48Consolidated class extends WEKA’s J48 class which implements the well-known C4.5 algorithm. This implementation was described in the technical report "J48Consolidated: An implementation of CTC algorithm for WEKA". The main, but not only, change in this update is the integration of the notion of coverage in order to determine the number of samples to be generated to build a consolidated tree. We define coverage as the percentage of examples of the training sample present in –or covered by– the set of generated subsamples. So, depending on the type of samples that we use, we will need more or less samples in order to achieve a specific value of coverage.

Relevância:

20.00% 20.00%

Publicador:

Resumo:

The CTC algorithm, Consolidated Tree Construction algorithm, is a machine learning paradigm that was designed to solve a class imbalance problem, a fraud detection problem in the area of car insurance [1] where, besides, an explanation about the classification made was required. The algorithm is based on a decision tree construction algorithm, in this case the well-known C4.5, but it extracts knowledge from data using a set of samples instead of a single one as C4.5 does. In contrast to other methodologies based on several samples to build a classifier, such as bagging, the CTC builds a single tree and as a consequence, it obtains comprehensible classifiers. The main motivation of this implementation is to make public and available an implementation of the CTC algorithm. With this purpose we have implemented the algorithm within the well-known WEKA data mining environment http://www.cs.waikato.ac.nz/ml/weka/). WEKA is an open source project that contains a collection of machine learning algorithms written in Java for data mining tasks. J48 is the implementation of C4.5 algorithm within the WEKA package. We called J48Consolidated to the implementation of CTC algorithm based on the J48 Java class.

Relevância:

10.00% 10.00%

Publicador:

Resumo:

En los trabajos expuestos en esta memoria de tesis, hemos analizado elefecto que tienen sobre la capacidad de aprendizaje de diferentes algoritmosde clasificación los cambios en la distribución de clases, teniendo encuenta para ello, diferentes métodos de remuestreo de datos.En concreto se ha analizado este efecto en el conocido algoritmo deconstrucción de árboles de clasificación propuesto por Quinlan, el algoritmoC4.5, y en el algoritmo de construcción de árboles consolidados, elalgoritmo CTC, propuesto por el grupo de investigación ALDAPA de laUniversidad del País Vasco que, basado en el mismo C4.5, obtiene un árbol declasificación pero basado en un conjunto de muestras.Así mismo, planteamos cómo encontrar la distribución de clases más adecuadapara un algoritmo de clasificación y método de remuestreo concretos.