919 resultados para Naive Bayes classifier
Resumo:
In multi-label classification, examples can be associated with multiple labels simultaneously. The task of learning from multi-label data can be addressed by methods that transform the multi-label classification problem into several single-label classification problems. The binary relevance approach is one of these methods, where the multi-label learning task is decomposed into several independent binary classification problems, one for each label in the set of labels, and the final labels for each example are determined by aggregating the predictions from all binary classifiers. However, this approach fails to consider any dependency among the labels. Aiming to accurately predict label combinations, in this paper we propose a simple approach that enables the binary classifiers to discover existing label dependency by themselves. An experimental study using decision trees, a kernel method as well as Naive Bayes as base-learning techniques shows the potential of the proposed approach to improve the multi-label classification performance.
Resumo:
Numerosi studi hanno messo in evidenza che la struttura delle comunità macrobentoniche delle spiagge sabbiose dipende da una serie di forzanti fisiche; queste ultime interagendo tra loro determinano la morfodinamica della spiagge stesse. Lo scopo di questo lavoro consiste nell’analisi dei popolamenti macrobentonici di due siti presenti lungo la costa emiliano - romagnola, che differiscono per caratteristiche morfodinamiche, grado di antropizzazione e modalità gestionali di difesa dall’erosione costiera. I siti oggetto di studio sono Lido Spina e Bellocchio; il primo è soggetto ad interventi di ripascimento periodici, mentre il secondo rappresenta un’opportunità rara, per lo studio degli effetti del retreat, in quanto è in forte erosione da molti anni ma, essendo inserito all’interno di una riserva naturale, non è sottoposto ad alcuna misura di gestione. Sono state analizzate le comunità macrobentoniche e le variabili abiotiche (mediana e classazione del sedimento, ampiezza della zona intertidale, pendenza della spiaggia, contenuto di sostanza organica totale presente nel sedimento e i principali parametri chimico-fisici). I risultati del presente studio hanno evidenziato un’elevata eterogeneità della struttura di comunità all’interno del sito di Bellocchio rispetto a Spina; inoltre i popolamenti presenti a Bellocchio mostrano una netta differenza tra i due livelli mareali. Per quanto riguarda i descrittori abiotici, i due siti differiscono per ampiezza della zona intertidale e pendenza della spiaggia; in particolare Lido Spina presenta una condizione di minore dissipatività, essendo caratterizzata da un profilo più ripido e una granulometria più grossolana rispetto a Bellocchio. Nel complesso le caratteristiche granulometriche (mediana e classazione) e il contenuto di materia organica rappresentano le variabili ambientali maggiormente responsabili delle differenze osservate tra i popolamenti macrobentonici analizzati. Al fine di valutare la resistenza dell’habitat intertidale agli eventi naturali di disturbo (storm surge e flooding), sono state effettuare delle simulazioni considerando lo scenario attuale (SLR=0), mediante un modello ibrido fuzzy naive Bayes. I risultati indicano una maggiore resistenza delle comunità presenti nel sito di Spina, in quanto non si hanno variazioni significative del numero medio di taxa e di individui; viceversa le simulazioni relative a Bellocchio mostrano una diminuzione del numero medio di taxa e aumento del numero medio di individui, sottolineando una maggiore vulnerabilità delle comunità macrobentoniche presenti in questo sito. L’inasprimento dei fenomeni estremi potrebbe quindi avere un effetto negativo sulla diversità della componente macrobentonica, soprattutto per gli ambienti di transizione già interessati da fenomeni erosivi, come nel caso di Bellocchio. La perdita di specie, che svolgono processi ecosistemici particolarmente importanti, come il riciclo di nutrienti, potrebbe favorire l’aumento di abbondanza di specie opportunistiche, l’insediamento di specie alloctone, con la conseguente alterazione, se non scomparsa delle principali funzioni ecologiche svolte da questi ecosistemi costieri.
Resumo:
Nell’attuale contesto di aumento degli impatti antropici e di “Global Climate Change” emerge la necessità di comprenderne i possibili effetti di questi sugli ecosistemi inquadrati come fruitori di servizi e funzioni imprescindibili sui quali si basano intere tessiture economiche e sociali. Lo studio previsionale degli ecosistemi si scontra con l’elevata complessità di questi ultimi in luogo di una altrettanto elevata scarsità di osservazioni integrate. L’approccio modellistico appare il più adatto all’analisi delle dinamiche complesse degli ecosistemi ed alla contestualizzazione complessa di risultati sperimentali ed osservazioni empiriche. L’approccio riduzionista-deterministico solitamente utilizzato nell’implementazione di modelli non si è però sin qui dimostrato in grado di raggiungere i livelli di complessità più elevati all’interno della struttura eco sistemica. La componente che meglio descrive la complessità ecosistemica è quella biotica in virtù dell’elevata dipendenza dalle altre componenti e dalle loro interazioni. In questo lavoro di tesi viene proposto un approccio modellistico stocastico basato sull’utilizzo di un compilatore naive Bayes operante in ambiente fuzzy. L’utilizzo congiunto di logica fuzzy e approccio naive Bayes è utile al processa mento del livello di complessità e conseguentemente incertezza insito negli ecosistemi. I modelli generativi ottenuti, chiamati Fuzzy Bayesian Ecological Model(FBEM) appaiono in grado di modellizare gli stati eco sistemici in funzione dell’ elevato numero di interazioni che entrano in gioco nella determinazione degli stati degli ecosistemi. Modelli FBEM sono stati utilizzati per comprendere il rischio ambientale per habitat intertidale di spiagge sabbiose in caso di eventi di flooding costiero previsti nell’arco di tempo 2010-2100. L’applicazione è stata effettuata all’interno del progetto EU “Theseus” per il quale i modelli FBEM sono stati utilizzati anche per una simulazione a lungo termine e per il calcolo dei tipping point specifici dell’habitat secondo eventi di flooding di diversa intensità.
Resumo:
L’aumento della frequenza di accadimento e dell’intensità di eventi di tempesta rappresenta una seria minaccia per gli ambienti costieri, in particolare per quelli dominati da spiagge sabbiose. Nel seguente lavoro di tesi si è voluto approfittare di un evento di flooding che ha interessato la spiaggia di Cesenatico (Febbraio 2015), provocando un lieve arretramento della linea di riva, per valutare la risposta del comparto macrobentonico a uno shift da zona intertidale a quella di primo subtidale. I dati relativi al periodo post-disturbo (after), mostrano variazioni sia dal punto di vista dell’ambiente fisico che delle comunità bentoniche ad esso associate; per quanto riguarda i campioni del 2015, si è osservata una diminuzione della media granulometrica e un aumento della materia organica rispetto al 2011 (before). Si evidenziano differenze anche tra le comunità bentoniche before e after l’evento, con valori di abbondanza, numero di taxa e diversità maggiori in after, nonché dell’intera struttura di comunità in cui si osservano variazioni di dominanza di particolari specie e l’insediamento di specie non presenti prima dell’evento. In before c’è una dominanza di S. squamata, un polichete fossatorio tipico dell’intertidale. In after è risultato che molte più specie concorrono nel determinare i pattern osservati, ed emerge una netta dominanza di L. mediterraneum e dei tanaidacei del genere Apseudes. I valori delle variabili ambientali e biotiche sono stati utilizzati per costruire un modello previsionale FNB (fuzzy naive Bayes) che è stato utilizzato con i dati abiotici relativi all’after per prevedere i pattern di comunità. Dalle simulazioni si osserva che i pattern spaziali del macrobenthos seguono l’evoluzione dell’intero sistema, confermando uno shift da intertidale a primo subtidale e può essere usato come base per comprendere gli effetti di un flooding costiero su sistemi vulnerabili qual è la spiaggia di Cesenatico.
Resumo:
Manual counting of bacterial colony forming units (CFUs) on agar plates is laborious and error-prone. We therefore implemented a colony counting system with a novel segmentation algorithm to discriminate bacterial colonies from blood and other agar plates.A colony counter hardware was designed and a novel segmentation algorithm was written in MATLAB. In brief, pre-processing with Top-Hat-filtering to obtain a uniform background was followed by the segmentation step, during which the colony images were extracted from the blood agar and individual colonies were separated. A Bayes classifier was then applied to count the final number of bacterial colonies as some of the colonies could still be concatenated to form larger groups. To assess accuracy and performance of the colony counter, we tested automated colony counting of different agar plates with known CFU numbers of S. pneumoniae, P. aeruginosa and M. catarrhalis and showed excellent performance.
Resumo:
OBJECTIVE Our aim was to assess the diagnostic and predictive value of several quantitative EEG (qEEG) analysis methods in comatose patients. METHODS In 79 patients, coupling between EEG signals on the left-right (inter-hemispheric) axis and on the anterior-posterior (intra-hemispheric) axis was measured with four synchronization measures: relative delta power asymmetry, cross-correlation, symbolic mutual information and transfer entropy directionality. Results were compared with etiology of coma and clinical outcome. Using cross-validation, the predictive value of measure combinations was assessed with a Bayes classifier with mixture of Gaussians. RESULTS Five of eight measures showed a statistically significant difference between patients grouped according to outcome; one measure revealed differences in patients grouped according to the etiology. Interestingly, a high level of synchrony between the left and right hemisphere was associated with mortality on intensive care unit, whereas higher synchrony between anterior and posterior brain regions was associated with survival. The combination with the best predictive value reached an area-under the curve of 0.875 (for patients with post anoxic encephalopathy: 0.946). CONCLUSIONS EEG synchronization measures can contribute to clinical assessment, and provide new approaches for understanding the pathophysiology of coma. SIGNIFICANCE Prognostication in coma remains a challenging task. qEEG could improve current multi-modal approaches.
Resumo:
Mass spectrometry (MS) data provide a promising strategy for biomarker discovery. For this purpose, the detection of relevant peakbins in MS data is currently under intense research. Data from mass spectrometry are challenging to analyze because of their high dimensionality and the generally low number of samples available. To tackle this problem, the scientific community is becoming increasingly interested in applying feature subset selection techniques based on specialized machine learning algorithms. In this paper, we present a performance comparison of some metaheuristics: best first (BF), genetic algorithm (GA), scatter search (SS) and variable neighborhood search (VNS). Up to now, all the algorithms, except for GA, have been first applied to detect relevant peakbins in MS data. All these metaheuristic searches are embedded in two different filter and wrapper schemes coupled with Naive Bayes and SVM classifiers.
Resumo:
In this paper we investigate whether conventional text categorization methods may suffice to infer different verbal intelligence levels. This research goal relies on the hypothesis that the vocabulary that speakers make use of reflects their verbal intelligence levels. Automatic verbal intelligence estimation of users in a spoken language dialog system may be useful when defining an optimal dialog strategy by improving its adaptation capabilities. The work is based on a corpus containing descriptions (i.e. monologs) of a short film by test persons yielding different educational backgrounds and the verbal intelligence scores of the speakers. First, a one-way analysis of variance was performed to compare the monologs with the film transcription and to demonstrate that there are differences in the vocabulary used by the test persons yielding different verbal intelligence levels. Then, for the classification task, the monologs were represented as feature vectors using the classical TF–IDF weighting scheme. The Naive Bayes, k-nearest neighbors and Rocchio classifiers were tested. In this paper we describe and compare these classification approaches, define the optimal classification parameters and discuss the classification results obtained.
Resumo:
We present a model of Bayesian network for continuous variables, where densities and conditional densities are estimated with B-spline MoPs. We use a novel approach to directly obtain conditional densities estimation using B-spline properties. In particular we implement naive Bayes and wrapper variables selection. Finally we apply our techniques to the problem of predicting neurons morphological variables from electrophysiological ones.
Resumo:
En esta Tesis Doctoral se emplean y desarrollan Métodos Bayesianos para su aplicación en análisis geotécnicos habituales, con un énfasis particular en (i) la valoración y selección de modelos geotécnicos basados en correlaciones empíricas; en (ii) el desarrollo de predicciones acerca de los resultados esperados en modelos geotécnicos complejos. Se llevan a cabo diferentes aplicaciones a problemas geotécnicos, como es el caso de: (1) En el caso de rocas intactas, se presenta un método Bayesiano para la evaluación de modelos que permiten estimar el módulo de Young a partir de la resistencia a compresión simple (UCS). La metodología desarrollada suministra estimaciones de las incertidumbres de los parámetros y predicciones y es capaz de diferenciar entre las diferentes fuentes de error. Se desarrollan modelos "específicos de roca" para los tipos de roca más comunes y se muestra cómo se pueden "actualizar" esos modelos "iniciales" para incorporar, cuando se encuentra disponible, la nueva información específica del proyecto, reduciendo las incertidumbres del modelo y mejorando sus capacidades predictivas. (2) Para macizos rocosos, se presenta una metodología, fundamentada en un criterio de selección de modelos, que permite determinar el modelo más apropiado, entre un conjunto de candidatos, para estimar el módulo de deformación de un macizo rocoso a partir de un conjunto de datos observados. Una vez que se ha seleccionado el modelo más apropiado, se emplea un método Bayesiano para obtener distribuciones predictivas de los módulos de deformación de macizos rocosos y para actualizarlos con la nueva información específica del proyecto. Este método Bayesiano de actualización puede reducir significativamente la incertidumbre asociada a la predicción, y por lo tanto, afectar las estimaciones que se hagan de la probabilidad de fallo, lo cual es de un interés significativo para los diseños de mecánica de rocas basados en fiabilidad. (3) En las primeras etapas de los diseños de mecánica de rocas, la información acerca de los parámetros geomecánicos y geométricos, las tensiones in-situ o los parámetros de sostenimiento, es, a menudo, escasa o incompleta. Esto plantea dificultades para aplicar las correlaciones empíricas tradicionales que no pueden trabajar con información incompleta para realizar predicciones. Por lo tanto, se propone la utilización de una Red Bayesiana para trabajar con información incompleta y, en particular, se desarrolla un clasificador Naïve Bayes para predecir la probabilidad de ocurrencia de grandes deformaciones (squeezing) en un túnel a partir de cinco parámetros de entrada habitualmente disponibles, al menos parcialmente, en la etapa de diseño. This dissertation employs and develops Bayesian methods to be used in typical geotechnical analyses, with a particular emphasis on (i) the assessment and selection of geotechnical models based on empirical correlations; on (ii) the development of probabilistic predictions of outcomes expected for complex geotechnical models. Examples of application to geotechnical problems are developed, as follows: (1) For intact rocks, we present a Bayesian framework for model assessment to estimate the Young’s moduli based on their UCS. Our approach provides uncertainty estimates of parameters and predictions, and can differentiate among the sources of error. We develop ‘rock-specific’ models for common rock types, and illustrate that such ‘initial’ models can be ‘updated’ to incorporate new project-specific information as it becomes available, reducing model uncertainties and improving their predictive capabilities. (2) For rock masses, we present an approach, based on model selection criteria to select the most appropriate model, among a set of candidate models, to estimate the deformation modulus of a rock mass, given a set of observed data. Once the most appropriate model is selected, a Bayesian framework is employed to develop predictive distributions of the deformation moduli of rock masses, and to update them with new project-specific data. Such Bayesian updating approach can significantly reduce the associated predictive uncertainty, and therefore, affect our computed estimates of probability of failure, which is of significant interest to reliability-based rock engineering design. (3) In the preliminary design stage of rock engineering, the information about geomechanical and geometrical parameters, in situ stress or support parameters is often scarce or incomplete. This poses difficulties in applying traditional empirical correlations that cannot deal with incomplete data to make predictions. Therefore, we propose the use of Bayesian Networks to deal with incomplete data and, in particular, a Naïve Bayes classifier is developed to predict the probability of occurrence of tunnel squeezing based on five input parameters that are commonly available, at least partially, at design stages.
Resumo:
Este trabajo presenta una solución al problema del reconocimiento del género de un rostro humano a partir de una imagen. Adoptamos una aproximación que utiliza la cara completa a través de la textura de la cara normalizada y redimensionada como entrada a un clasificador Näive Bayes. Presentamos la técnica de Análisis de Componentes Principales Probabilístico Condicionado-a-la-Clase (CC-PPCA) para reducir la dimensionalidad de los vectores de características para la clasificación y asegurar la asunción de independencia para el clasificador. Esta nueva aproximación tiene la deseable propiedad de presentar un modelo paramétrico sencillo para las marginales. Además, este modelo puede estimarse con muy pocos datos. En los experimentos que hemos desarrollados mostramos que CC-PPCA obtiene un 90% de acierto en la clasificación, resultado muy similar al mejor presentado en la literatura---ABSTRACT---This paper presents a solution to the problem of recognizing the gender of a human face from an image. We adopt a holistic approach by using the cropped and normalized texture of the face as input to a Naïve Bayes classifier. First it is introduced the Class-Conditional Probabilistic Principal Component Analysis (CC-PPCA) technique to reduce the dimensionality of the classification attribute vector and enforce the independence assumption of the classifier. This new approach has the desirable property of a simple parametric model for the marginals. Moreover this model can be estimated with very few data. In the experiments conducted we show that using CCPPCA we get 90% classification accuracy, which is similar result to the best in the literature. The proposed method is very simple to train and implement.
Resumo:
Os motores de indução trifásicos são os principais elementos de conversão de energia elétrica em mecânica motriz aplicados em vários setores produtivos. Identificar um defeito no motor em operação pode fornecer, antes que ele falhe, maior segurança no processo de tomada de decisão sobre a manutenção da máquina, redução de custos e aumento de disponibilidade. Nesta tese são apresentas inicialmente uma revisão bibliográfica e a metodologia geral para a reprodução dos defeitos nos motores e a aplicação da técnica de discretização dos sinais de correntes e tensões no domínio do tempo. É também desenvolvido um estudo comparativo entre métodos de classificação de padrões para a identificação de defeitos nestas máquinas, tais como: Naive Bayes, k-Nearest Neighbor, Support Vector Machine (Sequential Minimal Optimization), Rede Neural Artificial (Perceptron Multicamadas), Repeated Incremental Pruning to Produce Error Reduction e C4.5 Decision Tree. Também aplicou-se o conceito de Sistemas Multiagentes (SMA) para suportar a utilização de múltiplos métodos concorrentes de forma distribuída para reconhecimento de padrões de defeitos em rolamentos defeituosos, quebras nas barras da gaiola de esquilo do rotor e curto-circuito entre as bobinas do enrolamento do estator de motores de indução trifásicos. Complementarmente, algumas estratégias para a definição da severidade dos defeitos supracitados em motores foram exploradas, fazendo inclusive uma averiguação da influência do desequilíbrio de tensão na alimentação da máquina para a determinação destas anomalias. Os dados experimentais foram adquiridos por meio de uma bancada experimental em laboratório com motores de potência de 1 e 2 cv acionados diretamente na rede elétrica, operando em várias condições de desequilíbrio das tensões e variações da carga mecânica aplicada ao eixo do motor.
Resumo:
A anotação geográfica de documentos consiste na adoção de metadados para a identificação de nomes de locais e a posição de suas ocorrências no texto. Esta informação é útil, por exemplo, para mecanismos de busca. A partir dos topônimos mencionados no texto é possível identificar o contexto espacial em que o assunto do texto está inserido, o que permite agrupar documentos que se refiram a um mesmo contexto, atribuindo ao documento um escopo geográfico. Esta Dissertação de Mestrado apresenta um novo método, batizado de Geofier, para determinação do escopo geográfico de documentos. A novidade apresentada pelo Geofier é a possibilidade da identificação do escopo geográfico de um documento por meio de classificadores de aprendizagem de máquina treinados sem o uso de um gazetteer e sem premissas quanto à língua dos textos analisados. A Wikipédia foi utilizada como fonte de um conjunto de documentos anotados geograficamente para o treinamento de uma hierarquia de Classificadores Naive Bayes e Support Vector Machines (SVMs). Uma comparação de desempenho entre o Geofier e uma reimplementação do sistema Web-a-Where foi realizada em relação à determinação do escopo geográfico dos textos da Wikipédia. A hierarquia do Geofier foi treinada e avaliada de duas formas: usando topônimos do mesmo gazetteer que o Web-a-Where e usando n-gramas extraídos dos documentos de treinamento. Como resultado, o Geofier manteve desempenho superior ao obtido pela reimplementação do Web-a-Where.
Resumo:
This paper aims to identify the communication goal(s) of a user's information-seeking query out of a finite set of within-domain goals in natural language queries. It proposes using Tree-Augmented Naive Bayes networks (TANs) for goal detection. The problem is formulated as N binary decisions, and each is performed by a TAN. Comparative study has been carried out to compare the performance with Naive Bayes, fully-connected TANs, and multi-layer neural networks. Experimental results show that TANs consistently give better results when tested on the ATIS and DARPA Communicator corpora.
Resumo:
Web APIs have gained increasing popularity in recent Web service technology development owing to its simplicity of technology stack and the proliferation of mashups. However, efficiently discovering Web APIs and the relevant documentations on the Web is still a challenging task even with the best resources available on the Web. In this paper we cast the problem of detecting the Web API documentations as a text classification problem of classifying a given Web page as Web API associated or not. We propose a supervised generative topic model called feature latent Dirichlet allocation (feaLDA) which offers a generic probabilistic framework for automatic detection of Web APIs. feaLDA not only captures the correspondence between data and the associated class labels, but also provides a mechanism for incorporating side information such as labelled features automatically learned from data that can effectively help improving classification performance. Extensive experiments on our Web APIs documentation dataset shows that the feaLDA model outperforms three strong supervised baselines including naive Bayes, support vector machines, and the maximum entropy model, by over 3% in classification accuracy. In addition, feaLDA also gives superior performance when compared against other existing supervised topic models.