947 resultados para naive bayes classifier


Relevância:

10.00% 10.00%

Publicador:

Resumo:

O sistema de transportes rodoviário é avaliado habitualmente por quatro parâmetros de desempenho: acessibilidade, mobilidade, economia e ambiente. Face à dimensão do problema que a sinistralidade rodoviária representa actualmente, em termos sociais e económicos, é essencial que a engenharia rodoviária consiga avaliar objectivamente a segurança rodoviária. Mas como medir a "Oferta da Segurança Rodoviária"? É apresentada nesta dissertação uma proposta de abordagem metológica da questão anterior, que assenta num desenvolvimento baseado na Aproximação Empírica de Bayes (AEB), sendo estruturado no pressuposto de vir a ser uma componente a ser integrada num sistema global de monitorização e maximização da segurança rodoviária. Esta abordagem metológica pode vir a ser aplicada com grande sucesso aos procedimentos, de gestão da segurança rodoviária e consequentemente facilitar também, ao nível estratégico, a estabilização das variáveis macroscópicas relevantes para a aferição global do desempenho no âmbito da segurança rodoviária e consequentemente, do sistema rodoviário. A proposta metodológica apresentada foi testada com sucesso através de um estudo de caso no IC1. Este itinerário foi seccionado em 43 troços homogéneos (face ao ambiente rodoviário), nos quais foi analisado o volume de exposição ao risco e a frequência observada de acidentes, para um periódo de 5 anos (2003-2007).

Relevância:

10.00% 10.00%

Publicador:

Resumo:

Low noise surfaces have been increasingly considered as a viable and cost-effective alternative to acoustical barriers. However, road planners and administrators frequently lack information on the correlation between the type of road surface and the resulting noise emission profile. To address this problem, a method to identify and classify different types of road pavements was developed, whereby near field road noise is analyzed using statistical learning methods. The vehicle rolling sound signal near the tires and close to the road surface was acquired by two microphones in a special arrangement which implements the Close-Proximity method. A set of features, characterizing the properties of the road pavement, was extracted from the corresponding sound profiles. A feature selection method was used to automatically select those that are most relevant in predicting the type of pavement, while reducing the computational cost. A set of different types of road pavement segments were tested and the performance of the classifier was evaluated. Results of pavement classification performed during a road journey are presented on a map, together with geographical data. This procedure leads to a considerable improvement in the quality of road pavement noise data, thereby increasing the accuracy of road traffic noise prediction models.

Relevância:

10.00% 10.00%

Publicador:

Resumo:

A organização automática de mensagens de correio electrónico é um desafio actual na área da aprendizagem automática. O número excessivo de mensagens afecta cada vez mais utilizadores, especialmente os que usam o correio electrónico como ferramenta de comunicação e trabalho. Esta tese aborda o problema da organização automática de mensagens de correio electrónico propondo uma solução que tem como objectivo a etiquetagem automática de mensagens. A etiquetagem automática é feita com recurso às pastas de correio electrónico anteriormente criadas pelos utilizadores, tratando-as como etiquetas, e à sugestão de múltiplas etiquetas para cada mensagem (top-N). São estudadas várias técnicas de aprendizagem e os vários campos que compõe uma mensagem de correio electrónico são analisados de forma a determinar a sua adequação como elementos de classificação. O foco deste trabalho recai sobre os campos textuais (o assunto e o corpo das mensagens), estudando-se diferentes formas de representação, selecção de características e algoritmos de classificação. É ainda efectuada a avaliação dos campos de participantes através de algoritmos de classificação que os representam usando o modelo vectorial ou como um grafo. Os vários campos são combinados para classificação utilizando a técnica de combinação de classificadores Votação por Maioria. Os testes são efectuados com um subconjunto de mensagens de correio electrónico da Enron e um conjunto de dados privados disponibilizados pelo Institute for Systems and Technologies of Information, Control and Communication (INSTICC). Estes conjuntos são analisados de forma a perceber as características dos dados. A avaliação do sistema é realizada através da percentagem de acerto dos classificadores. Os resultados obtidos apresentam melhorias significativas em comparação com os trabalhos relacionados.

Relevância:

10.00% 10.00%

Publicador:

Resumo:

INTRODUÇÃO: Como parte do programa de investigação sobre violência familiar e desnutrição severa na infância, especificamente um estudo do tipo caso-controle foi avaliada a confiabilidade dos instrumentos utilizados no processo de obtenção de dados. Estudou-se a confiabilidade de quatro componentes do instrumento principal: (a) as Escalas sobre Táticas de Conflitos (Conflicts Tactics Scales - CTS) que medem o grau de conflito/violência familiar; (b) o instrumento CAGE (Cut-down; Annoyed; Guilty & Eye-opener) usado para indicar suspeição de alcoolismo; (c) o NSDUQ (Non-student Drugs Use Questionnaire) que visa aferir o uso de drogas ilícitas; e (d) a medida antropométrica de comprimento. MÉTODO: Para os três primeiros componentes citados foram avaliadas a estabilidade (confiabilidade intra-observador ou teste-reteste) e a equivalência (confiabilidade inter-observador), usando-se os 50 primeiros sujeitos captados no estudo caso-controle de fundo. Para a análise, usou-se o índice Kappa (k) com ajustamento (pseudo-Bayes) para lidar com problemas de estimabilidade. Em relação ao componente "d", foi estudada somente a equivalência (n=73), usando-se o Coeficiente de Correlação Intraclasse (Intra-class Correlation Coefficient - ICC) como estimador. RESULTADOS: Todos os componentes mostraram estabilidade e equivalência aceitáveis. Quanto à estabilidade das CTS, CAGE e NSDUQ, as estimações de k foram em torno de 0,70, 0,78 e 0,85, respectivamente. Em relação à equivalência, encontrou-se os valores de 1,0 para as CTS e NSDUQ e 0,75 para CAGE. A equivalência estimada através do ICC para comprimento foi de 0,99. Algumas situações desviantes foram observadas. Os resultados apontam para uma adequada padronização dos observadores e refletem a boa qualidade do processo de aferição referente ao estudo de fundo, encorajando a equipe de pesquisa a prosseguir com maior segurança.

Relevância:

10.00% 10.00%

Publicador:

Resumo:

OBJETIVO: Analisar a distribuição espacial da hanseníase, identificar áreas de possível sub-registro de casos ou de provável alta transmissão (risco) e verificar a associação dessa distribuição à existência de casos de formas multibacilares. MÉTODOS: O estudo foi realizado em Recife, PE, de acordo com 94 bairros analisados. A fonte de coleta de dados foi o Sistema de Informações sobre Agravos de Notificação do Ministério da Saúde. Foi adotada uma abordagem ecológica com utilização do método bayesiano empírico para suavização local de taxas, a partir de informações de bairros vizinhos por adjacência. RESULTADOS: A ocorrência média anual foi de 17,3% de casos novos em menores de 15 anos (28,3% de formas multibacilares), indicando um processo de intensa transmissão da doença. A análise da distribuição espacial de hanseníase apontou três áreas onde se concentram bairros com taxas de detecção elevadas e que possuem baixa condição de vida. CONCLUSÕES: O emprego do modelo bayesiano, baseado em informações de unidades espaciais vizinhas, permitiu estimar novamente indicadores epidemiológicos. Foi possível identificar áreas prioritárias para o programa de controle de hanseníase no município, tanto pelo elevado número de ocorrências correlacionado à presença de formas multibacilares de doença em menores de 15 anos quanto pela existência de subnotificação.

Relevância:

10.00% 10.00%

Publicador:

Resumo:

In music genre classification, most approaches rely on statistical characteristics of low-level features computed on short audio frames. In these methods, it is implicitly considered that frames carry equally relevant information loads and that either individual frames, or distributions thereof, somehow capture the specificities of each genre. In this paper we study the representation space defined by short-term audio features with respect to class boundaries, and compare different processing techniques to partition this space. These partitions are evaluated in terms of accuracy on two genre classification tasks, with several types of classifiers. Experiments show that a randomized and unsupervised partition of the space, used in conjunction with a Markov Model classifier lead to accuracies comparable to the state of the art. We also show that unsupervised partitions of the space tend to create less hubs.

Relevância:

10.00% 10.00%

Publicador:

Resumo:

Faz-se nesta dissertação a análise do movimento humano utilizando sinais de ultrassons refletidos pelos diversos membros do corpo humano, designados por assinaturas de ultrassons. Estas assinaturas são confrontadas com os sinais gerados pelo contato dos membros inferiores do ser humano com o chão, recolhidos de forma passiva. O método seguido teve por base o estudo das assinaturas de Doppler e micro-Doppler. Estas assinaturas são obtidas através do processamento dos ecos de ultrassons recolhidos, com recurso à Short-Time Fourier Transform e apresentadas sobre a forma de espectrograma, onde se podem identificar os desvios de frequência causados pelo movimento das diferentes partes do corpo humano. É proposto um algoritmo inovador que, embora possua algumas limitações, é capaz de isolar e extrair de forma automática algumas das curvas e parâmetros característicos dos membros envolvidos no movimento humano. O algoritmo desenvolvido consegue analisar as assinaturas de micro-Doppler do movimento humano, estimando diversos parâmetros tais como o número de passadas realizadas, a cadência da passada, o comprimento da passada, a velocidade a que o ser humano se desloca e a distância percorrida. Por forma a desenvolver, no futuro, um classificador capaz de distinguir entre humanos e outros animais, são também recolhidas e analisadas assinaturas de ultrassons refletidas por dois animais quadrúpedes, um canino e um equídeo. São ainda estudadas as principais características que permitem classificar o tipo de animal que originou a assinatura de ultrassons. Com este estudo mostra-se ser possível a análise de movimento humano por ultrassons, havendo características nas assinaturas recolhidas que permitem a classificação do movimento como humano ou não humano. Do trabalho desenvolvido resultou ainda uma base de dados de assinaturas de ultrassons de humanos e animais que permitirá suportar trabalho de investigação e desenvolvimento futuro.

Relevância:

10.00% 10.00%

Publicador:

Resumo:

Dissertação de Mestrado, Engenharia Zootécnica, 11 de Junho de 2014, Universidade dos Açores.

Relevância:

10.00% 10.00%

Publicador:

Resumo:

Liver steatosis is a common disease usually associated with social and genetic factors. Early detection and quantification is important since it can evolve to cirrhosis. Steatosis is usually a diffuse liver disease, since it is globally affected. However, steatosis can also be focal affecting only some foci difficult to discriminate. In both cases, steatosis is detected by laboratorial analysis and visual inspection of ultrasound images of the hepatic parenchyma. Liver biopsy is the most accurate diagnostic method but its invasive nature suggest the use of other non-invasive methods, while visual inspection of the ultrasound images is subjective and prone to error. In this paper a new Computer Aided Diagnosis (CAD) system for steatosis classification and analysis is presented, where the Bayes Factor, obatined from objective intensity and textural features extracted from US images of the liver, is computed in a local or global basis. The main goal is to provide the physician with an application to make it faster and accurate the diagnosis and quantification of steatosis, namely in a screening approach. The results showed an overall accuracy of 93.54% with a sensibility of 95.83% and 85.71% for normal and steatosis class, respectively. The proposed CAD system seemed suitable as a graphical display for steatosis classification and comparison with some of the most recent works in the literature is also presented.

Relevância:

10.00% 10.00%

Publicador:

Resumo:

PURPOSE: Fatty liver disease (FLD) is an increasing prevalent disease that can be reversed if detected early. Ultrasound is the safest and ubiquitous method for identifying FLD. Since expert sonographers are required to accurately interpret the liver ultrasound images, lack of the same will result in interobserver variability. For more objective interpretation, high accuracy, and quick second opinions, computer aided diagnostic (CAD) techniques may be exploited. The purpose of this work is to develop one such CAD technique for accurate classification of normal livers and abnormal livers affected by FLD. METHODS: In this paper, the authors present a CAD technique (called Symtosis) that uses a novel combination of significant features based on the texture, wavelet transform, and higher order spectra of the liver ultrasound images in various supervised learning-based classifiers in order to determine parameters that classify normal and FLD-affected abnormal livers. RESULTS: On evaluating the proposed technique on a database of 58 abnormal and 42 normal liver ultrasound images, the authors were able to achieve a high classification accuracy of 93.3% using the decision tree classifier. CONCLUSIONS: This high accuracy added to the completely automated classification procedure makes the authors' proposed technique highly suitable for clinical deployment and usage.

Relevância:

10.00% 10.00%

Publicador:

Resumo:

In this work the identification and diagnosis of various stages of chronic liver disease is addressed. The classification results of a support vector machine, a decision tree and a k-nearest neighbor classifier are compared. Ultrasound image intensity and textural features are jointly used with clinical and laboratorial data in the staging process. The classifiers training is performed by using a population of 97 patients at six different stages of chronic liver disease and a leave-one-out cross-validation strategy. The best results are obtained using the support vector machine with a radial-basis kernel, with 73.20% of overall accuracy. The good performance of the method is a promising indicator that it can be used, in a non invasive way, to provide reliable information about the chronic liver disease staging.

Relevância:

10.00% 10.00%

Publicador:

Resumo:

In this work liver contour is semi-automatically segmented and quantified in order to help the identification and diagnosis of diffuse liver disease. The features extracted from the liver contour are jointly used with clinical and laboratorial data in the staging process. The classification results of a support vector machine, a Bayesian and a k-nearest neighbor classifier are compared. A population of 88 patients at five different stages of diffuse liver disease and a leave-one-out cross-validation strategy are used in the classification process. The best results are obtained using the k-nearest neighbor classifier, with an overall accuracy of 80.68%. The good performance of the proposed method shows a reliable indicator that can improve the information in the staging of diffuse liver disease.

Relevância:

10.00% 10.00%

Publicador:

Resumo:

Introduction: A major focus of data mining process - especially machine learning researches - is to automatically learn to recognize complex patterns and help to take the adequate decisions strictly based on the acquired data. Since imaging techniques like MPI – Myocardial Perfusion Imaging on Nuclear Cardiology, can implicate a huge part of the daily workflow and generate gigabytes of data, there could be advantages on Computerized Analysis of data over Human Analysis: shorter time, homogeneity and consistency, automatic recording of analysis results, relatively inexpensive, etc.Objectives: The aim of this study relates with the evaluation of the efficacy of this methodology on the evaluation of MPI Stress studies and the process of decision taking concerning the continuation – or not – of the evaluation of each patient. It has been pursued has an objective to automatically classify a patient test in one of three groups: “Positive”, “Negative” and “Indeterminate”. “Positive” would directly follow to the Rest test part of the exam, the “Negative” would be directly exempted from continuation and only the “Indeterminate” group would deserve the clinician analysis, so allowing economy of clinician’s effort, increasing workflow fluidity at the technologist’s level and probably sparing time to patients. Methods: WEKA v3.6.2 open source software was used to make a comparative analysis of three WEKA algorithms (“OneR”, “J48” and “Naïve Bayes”) - on a retrospective study using the comparison with correspondent clinical results as reference, signed by nuclear cardiologist experts - on “SPECT Heart Dataset”, available on University of California – Irvine, at the Machine Learning Repository. For evaluation purposes, criteria as “Precision”, “Incorrectly Classified Instances” and “Receiver Operating Characteristics (ROC) Areas” were considered. Results: The interpretation of the data suggests that the Naïve Bayes algorithm has the best performance among the three previously selected algorithms. Conclusions: It is believed - and apparently supported by the findings - that machine learning algorithms could significantly assist, at an intermediary level, on the analysis of scintigraphic data obtained on MPI, namely after Stress acquisition, so eventually increasing efficiency of the entire system and potentially easing both roles of Technologists and Nuclear Cardiologists. In the actual continuation of this study, it is planned to use more patient information and significantly increase the population under study, in order to allow improving system accuracy.

Relevância:

10.00% 10.00%

Publicador:

Resumo:

OBJETIVO: Desenvolver um modelo estatístico baseado em métodos Bayesianos para estimar o risco de infecção tuberculosa em estudos com perdas de seguimento, comparando-o com um modelo clássico determinístico. MÉTODOS: O modelo estocástico proposto é baseado em um algoritmo de amostradores de Gibbs, utilizando as informações de perdas de seguimento ao final de um estudo longitudinal. Para simular o número desconhecido de indivíduos reatores ao final do estudo e perdas de seguimento, mas não reatores no tempo inicial, uma variável latente foi introduzida no novo modelo. Apresenta-se um exercício de aplicação de ambos os modelos para comparação das estimativas geradas. RESULTADOS: As estimativas pontuais fornecidas por ambos os modelos são próximas, mas o modelo Bayesiano apresentou a vantagem de trazer os intervalos de credibilidade como medidas da variabilidade amostral dos parâmetros estimados. CONCLUSÕES: O modelo Bayesiano pode ser útil em estudos longitudinais com baixa adesão ao seguimento.

Relevância:

10.00% 10.00%

Publicador:

Resumo:

As tags podem ser utilizadas com diferentes propósitos, entre os quais organizar os recursos para fins pessoais e partilhar informação potencialmente relevante com outros utilizadores. Este trabalho conjuga diversas áreas de conhecimento e explora a utilização de tags, debruçando-se numa categoria em particular que engloba as tags de opinião. Estas podem ser usadas para expressar sentimentos ou opiniões sobre os recursos. Foram realizadas análises sobre a utilização de tags na loja online Amazon. Recolhida uma amostra de dados, as tags foram classificadas e analisadas segundo diversos aspectos, inclusive quanto à sua polaridade. Além da atribuição de tags, na Amazon é possível atribuir pontuações (de 1 a 5) aos recursos. Neste trabalho compararam-se ainda as duas formas referidas de classificação de recursos, verificando a existência de alguma correspondência entre ambas, com significado estatístico. Adicionalmente, foi desenvolvido um classificador semi-automático que tem como objectivo classificar as tags atribuídas aos recursos para proporcionar uma classificação rápida e eficiente da polaridade das tags que considera também a informação disponível sobre os recursos durante o processo.