921 resultados para Document classification,Naive Bayes classifier,Verb-object pairs


Relevância:

100.00% 100.00%

Publicador:

Resumo:

Dato il recente avvento delle tecnologie NGS, in grado di sequenziare interi genomi umani in tempi e costi ridotti, la capacità di estrarre informazioni dai dati ha un ruolo fondamentale per lo sviluppo della ricerca. Attualmente i problemi computazionali connessi a tali analisi rientrano nel topic dei Big Data, con databases contenenti svariati tipi di dati sperimentali di dimensione sempre più ampia. Questo lavoro di tesi si occupa dell'implementazione e del benchmarking dell'algoritmo QDANet PRO, sviluppato dal gruppo di Biofisica dell'Università di Bologna: il metodo consente l'elaborazione di dati ad alta dimensionalità per l'estrazione di una Signature a bassa dimensionalità di features con un'elevata performance di classificazione, mediante una pipeline d'analisi che comprende algoritmi di dimensionality reduction. Il metodo è generalizzabile anche all'analisi di dati non biologici, ma caratterizzati comunque da un elevato volume e complessità, fattori tipici dei Big Data. L'algoritmo QDANet PRO, valutando la performance di tutte le possibili coppie di features, ne stima il potere discriminante utilizzando un Naive Bayes Quadratic Classifier per poi determinarne il ranking. Una volta selezionata una soglia di performance, viene costruito un network delle features, da cui vengono determinate le componenti connesse. Ogni sottografo viene analizzato separatamente e ridotto mediante metodi basati sulla teoria dei networks fino all'estrapolazione della Signature finale. Il metodo, già precedentemente testato su alcuni datasets disponibili al gruppo di ricerca con riscontri positivi, è stato messo a confronto con i risultati ottenuti su databases omici disponibili in letteratura, i quali costituiscono un riferimento nel settore, e con algoritmi già esistenti che svolgono simili compiti. Per la riduzione dei tempi computazionali l'algoritmo è stato implementato in linguaggio C++ su HPC, con la parallelizzazione mediante librerie OpenMP delle parti più critiche.

Relevância:

100.00% 100.00%

Publicador:

Resumo:

Security defects are common in large software systems because of their size and complexity. Although efficient development processes, testing, and maintenance policies are applied to software systems, there are still a large number of vulnerabilities that can remain, despite these measures. Some vulnerabilities stay in a system from one release to the next one because they cannot be easily reproduced through testing. These vulnerabilities endanger the security of the systems. We propose vulnerability classification and prediction frameworks based on vulnerability reproducibility. The frameworks are effective to identify the types and locations of vulnerabilities in the earlier stage, and improve the security of software in the next versions (referred to as releases). We expand an existing concept of software bug classification to vulnerability classification (easily reproducible and hard to reproduce) to develop a classification framework for differentiating between these vulnerabilities based on code fixes and textual reports. We then investigate the potential correlations between the vulnerability categories and the classical software metrics and some other runtime environmental factors of reproducibility to develop a vulnerability prediction framework. The classification and prediction frameworks help developers adopt corresponding mitigation or elimination actions and develop appropriate test cases. Also, the vulnerability prediction framework is of great help for security experts focus their effort on the top-ranked vulnerability-prone files. As a result, the frameworks decrease the number of attacks that exploit security vulnerabilities in the next versions of the software. To build the classification and prediction frameworks, different machine learning techniques (C4.5 Decision Tree, Random Forest, Logistic Regression, and Naive Bayes) are employed. The effectiveness of the proposed frameworks is assessed based on collected software security defects of Mozilla Firefox.

Relevância:

100.00% 100.00%

Publicador:

Resumo:

A organização automática de mensagens de correio electrónico é um desafio actual na área da aprendizagem automática. O número excessivo de mensagens afecta cada vez mais utilizadores, especialmente os que usam o correio electrónico como ferramenta de comunicação e trabalho. Esta tese aborda o problema da organização automática de mensagens de correio electrónico propondo uma solução que tem como objectivo a etiquetagem automática de mensagens. A etiquetagem automática é feita com recurso às pastas de correio electrónico anteriormente criadas pelos utilizadores, tratando-as como etiquetas, e à sugestão de múltiplas etiquetas para cada mensagem (top-N). São estudadas várias técnicas de aprendizagem e os vários campos que compõe uma mensagem de correio electrónico são analisados de forma a determinar a sua adequação como elementos de classificação. O foco deste trabalho recai sobre os campos textuais (o assunto e o corpo das mensagens), estudando-se diferentes formas de representação, selecção de características e algoritmos de classificação. É ainda efectuada a avaliação dos campos de participantes através de algoritmos de classificação que os representam usando o modelo vectorial ou como um grafo. Os vários campos são combinados para classificação utilizando a técnica de combinação de classificadores Votação por Maioria. Os testes são efectuados com um subconjunto de mensagens de correio electrónico da Enron e um conjunto de dados privados disponibilizados pelo Institute for Systems and Technologies of Information, Control and Communication (INSTICC). Estes conjuntos são analisados de forma a perceber as características dos dados. A avaliação do sistema é realizada através da percentagem de acerto dos classificadores. Os resultados obtidos apresentam melhorias significativas em comparação com os trabalhos relacionados.

Relevância:

100.00% 100.00%

Publicador:

Resumo:

Mestrado em Engenharia Informática

Relevância:

100.00% 100.00%

Publicador:

Resumo:

Mestrado em Engenharia Informática - Área de Especialização em Arquiteturas, Sistemas e Redes

Relevância:

100.00% 100.00%

Publicador:

Resumo:

Dissertação para obtenção do Grau de Mestre em Engenharia Biomédica

Relevância:

100.00% 100.00%

Publicador:

Resumo:

This thesis introduces a novel conceptual framework to support the creation of knowledge representations based on enriched Semantic Vectors, using the classical vector space model approach extended with ontological support. One of the primary research challenges addressed here relates to the process of formalization and representation of document contents, where most existing approaches are limited and only take into account the explicit, word-based information in the document. This research explores how traditional knowledge representations can be enriched through incorporation of implicit information derived from the complex relationships (semantic associations) modelled by domain ontologies with the addition of information presented in documents. The relevant achievements pursued by this thesis are the following: (i) conceptualization of a model that enables the semantic enrichment of knowledge sources supported by domain experts; (ii) development of a method for extending the traditional vector space, using domain ontologies; (iii) development of a method to support ontology learning, based on the discovery of new ontological relations expressed in non-structured information sources; (iv) development of a process to evaluate the semantic enrichment; (v) implementation of a proof-of-concept, named SENSE (Semantic Enrichment kNowledge SourcEs), which enables to validate the ideas established under the scope of this thesis; (vi) publication of several scientific articles and the support to 4 master dissertations carried out by the department of Electrical and Computer Engineering from FCT/UNL. It is worth mentioning that the work developed under the semantic referential covered by this thesis has reused relevant achievements within the scope of research European projects, in order to address approaches which are considered scientifically sound and coherent and avoid “reinventing the wheel”.

Relevância:

100.00% 100.00%

Publicador:

Resumo:

BACKGROUND: Major factors influencing the phenotypic diversity of a lineage can be recognized by characterizing the extent and mode of trait evolution between related species. Here, we compared the evolutionary dynamics of traits associated with floral morphology and climatic preferences in a clade composed of the genera Codonanthopsis, Codonanthe and Nematanthus (Gesneriaceae). To test the mode and specific components that lead to phenotypic diversity in this group, we performed a Bayesian phylogenetic analysis of combined nuclear and plastid DNA sequences and modeled the evolution of quantitative traits related to flower shape and size and to climatic preferences. We propose an alternative approach to display graphically the complex dynamics of trait evolution along a phylogenetic tree using a wide range of evolutionary scenarios. RESULTS: Our results demonstrated heterogeneous trait evolution. Floral shapes displaced into separate regimes selected by the different pollinator types (hummingbirds versus insects), while floral size underwent a clade-specific evolution. Rates of evolution were higher for the clade that is hummingbird pollinated and experienced flower resupination, compared with species pollinated by bees, suggesting a relevant role of plant-pollinator interactions in lowland rainforest. The evolution of temperature preferences is best explained by a model with distinct selective regimes between the Brazilian Atlantic Forest and the other biomes, whereas differentiation along the precipitation axis was characterized by higher rates, compared with temperature, and no regime or clade-specific patterns. CONCLUSIONS: Our study shows different selective regimes and clade-specific patterns in the evolution of morphological and climatic components during the diversification of Neotropical species. Our new graphical visualization tool allows the representation of trait trajectories under parameter-rich models, thus contributing to a better understanding of complex evolutionary dynamics.

Relevância:

100.00% 100.00%

Publicador:

Resumo:

Mémoire numérisé par la Division de la gestion de documents et des archives de l'Université de Montréal

Relevância:

100.00% 100.00%

Publicador:

Resumo:

Este trabalho descreve a especificação e implementação do protótipo Assistente de Feedback que ajuda os usuários a ajustarem os parâmetros do serviço de filtragem de mensagens vindas do correio eletrônico de sistemas como o Direto. O Assistente de Feedback é instalado no computador do usuário do Direto para monitorar suas preferências representadas pelas ações aplicadas nas mensagens do correio eletrônico. O trabalho apresenta, ainda, uma revisão bibliográfica sobre os conceitos gerais de probabilidades, redes Bayesianas e classificadores. Procura-se descrever as características gerais dos classificadores, em especial o Naive Bayes, sua lógica e seu desempenho comparado a outros classificadores. São abordados, também, conceitos relacionados ao modelo de perfil de usuário e o ambiente Direto. O Naive Bayes torna-se atraente para ser utilizado no Assistente de Feedback por apresentar bom desempenho sobre os demais classificadores e por ser eficiente na predição, quando os atributos são independentes entre si. O Assistente de Feedback utiliza um classificador Naive Bayes para predizer as preferências por intermédio das ações do usuário. Utiliza, também, pesos que representarão a satisfação do usuário para os termos extraídos do corpo da mensagem. Esses pesos são associados às ações do usuário para estimar os termos mais interessantes e menos interessantes, pelo valor de suas médias finais. Quando o usuário desejar alterar os filtros de mensagens do Direto, ele solicita ao Assistente de Feedback sugestões para possíveis exclusões dos termos menos interessantes e as possíveis inclusões dos termos mais interessantes. O protótipo é testado utilizando dois métodos de avaliação para medir o grau de precisão e o desempenho do Assistente de Feedback. Os resultados obtidos na avaliação de precisão apresentam valores satisfatórios, considerando o uso de cinco classes pelo classificador do Assistente de Feedback. Os resultados dos testes de desempenho permitem observar que, se forem utilizadas máquinas com configurações mais atualizadas, os usuários conseguirão receber sugestões com tempo de respostas mais toleráveis.

Relevância:

100.00% 100.00%

Publicador:

Resumo:

Modelos para detecção de fraude são utilizados para identificar se uma transação é legítima ou fraudulenta com base em informações cadastrais e transacionais. A técnica proposta no estudo apresentado, nesta dissertação, consiste na de Redes Bayesianas (RB); seus resultados foram comparados à técnica de Regressão Logística (RL), amplamente utilizada pelo mercado. As Redes Bayesianas avaliadas foram os classificadores bayesianos, com a estrutura Naive Bayes. As estruturas das redes bayesianas foram obtidas a partir de dados reais, fornecidos por uma instituição financeira. A base de dados foi separada em amostras de desenvolvimento e validação por cross validation com dez partições. Naive Bayes foram os classificadores escolhidos devido à simplicidade e a sua eficiência. O desempenho do modelo foi avaliado levando-se em conta a matriz de confusão e a área abaixo da curva ROC. As análises dos modelos revelaram desempenho, levemente, superior da regressão logística quando comparado aos classificadores bayesianos. A regressão logística foi escolhida como modelo mais adequado por ter apresentado melhor desempenho na previsão das operações fraudulentas, em relação à matriz de confusão. Baseada na área abaixo da curva ROC, a regressão logística demonstrou maior habilidade em discriminar as operações que estão sendo classificadas corretamente, daquelas que não estão.

Relevância:

100.00% 100.00%

Publicador:

Resumo:

This paper attempts to investigate the discourse manifestations of the grammatical relation direct object with respect to the syntactic, semantic and pragmatic properties that underlie this element. The research adopts theoretical orientation of the functionalism from North American and Brazilian schools inspired in Givón (1995, 2001), Hopper and Thompson (1980), Chafe (1979), Furtado da Cunha, Oliveira, Martelotta (2003) inter alia. From functionalism, the research uses principles of iconicity, markedness and informativity and it analize categories of transitivity, grounding and animacy. This research is anchored in prototype model (TAYLOR 1995); construction grammar model (GOLDBERG 1996, 2002). Both theoretical orientations share the view that language is a malleable living organism subject to socio-cultural context. Grammar is then the result of created, maintained, and systematized linguistic patterns developed from and used for language use. According to a functional linguistics and cognitivist linguistics verbs are stored in the speakers lexicon in syntactic-semantic frames which are more frequent. These frames carry information concerning obligatory and optional arguments and the semantic roles these arguments take in the clause. The analysis focuses on the semantic type of the verbs and its relationship with the argument encoded as a direct object observing the aspectual nature of verbs. Direct objects are classified according to their morphology (lexical or pronominal noun phrase), semantic role, informational content and animacy. This study discusses pedagogical implications with relation to how the grammatical concepts touched on this paper are treated in school textbooks. The empirical data come from Corpus Discurso & Gramática: a língua falada e escrita na cidade do Natal (FURTADO DA CUNHA, 1998). This corpus is composed of texts that contain spoken and written modalities. These modalities are in turn organized according to different types: personal narratives, retold narrative, description of preferred place, procedural place, procedural description and report on argumentation. The sample data totals 40 texts produced by four language consultants of the last graduation date. The paper shows that the same syntactic structures (formed through Subject-Verb-Object) correspond to different semantic-pragmatic structures in relation to specific communicative purposes even verb is an event, process or state. The argument structure are not aleatory but are related to experience; that is the way humans conceptualize the world and talk about it

Relevância:

100.00% 100.00%

Publicador:

Resumo:

A narrativa pode conectar elementos diversos e, assim, promover a construção de sentenças verticais e horizontais, frente à mediação de interlocutor. Esta pesquisa visou analisar a extensão e a organização sintática dos enunciados de narrativas construídas por um aluno não-falante usuário de recurso suplementar de comunicação. Previamente à construção das narrativas, selecionadas de acordo com os centros de interesse, idade, grau de escolaridade e temáticas trabalhadas na escola do aluno, símbolos gráficos do Picture Communication Symbols eram confeccionados e adaptados para que, por meio destes e dos recursos verbais e não-verbais inerentes à atividade discursiva, a história pudesse ser contada, por acesso visual e auditivo, pelo interlocutor e recontada pelo aluno, após a estruturação e organização dos múltiplos signos em sentenças. Todas as interações foram filmadas e complementadas com anotações de um diário de registro contínuo. Após a análise das transcrições das fitas e das anotações do diário, foi possível determinar três estágios de unidades significativas: 1) Caracterização ou natureza dos elementos constituintes dos enunciados das narrativas em: a) objeto; b) símbolo gráfico; c) escrita; d) vocalização; e) gesto representativo; 2) Extensão dos enunciados das narrativas de 1 a 6 elementos, linearmente, e 7 ou mais elementos; 3) Organização sintática dos elementos constituintes das narrativas em sujeito, verbo e objeto isolados, em sentenças verticais, e associados, em sentenças horizontais. Ressaltou-se, assim, a ampliação e aprimoramento da organização e da estrutura sintática dos enunciados das narrativas construídas pelo aluno mediado pelo interlocutor.

Relevância:

100.00% 100.00%

Publicador:

Resumo:

The objective of the researches in artificial intelligence is to qualify the computer to execute functions that are performed by humans using knowledge and reasoning. This work was developed in the area of machine learning, that it s the study branch of artificial intelligence, being related to the project and development of algorithms and techniques capable to allow the computational learning. The objective of this work is analyzing a feature selection method for ensemble systems. The proposed method is inserted into the filter approach of feature selection method, it s using the variance and Spearman correlation to rank the feature and using the reward and punishment strategies to measure the feature importance for the identification of the classes. For each ensemble, several different configuration were used, which varied from hybrid (homogeneous) to non-hybrid (heterogeneous) structures of ensemble. They were submitted to five combining methods (voting, sum, sum weight, multiLayer Perceptron and naïve Bayes) which were applied in six distinct database (real and artificial). The classifiers applied during the experiments were k- nearest neighbor, multiLayer Perceptron, naïve Bayes and decision tree. Finally, the performance of ensemble was analyzed comparatively, using none feature selection method, using a filter approach (original) feature selection method and the proposed method. To do this comparison, a statistical test was applied, which demonstrate that there was a significant improvement in the precision of the ensembles

Relevância:

100.00% 100.00%

Publicador:

Resumo:

The municipality of Areia Branca is within the mesoregion of West Potiguar and within the microregion of Mossoró, covering an area of 357,58 km2. Covering an area of weakness in terms of environmental, housing, together with the municipality of Grossos-RN, the estuary of River Apodi-Mossoró. The municipality of Areia Branca has historically suffered from a lack of planning regarding the use and occupation of land as some economic activities, attracted by the extremely favorable natural conditions, have exploited their natural resources improperly. The aim of this study is to quantify and analyze the environmental degradation in the municipality. Thus initially was performed a characterization of land use using remote sensing, geoprocessing and geographic information system GIS in order to generate data and information on the municipal scale, which may serve as input to the environmental planning and land use planning in the region. From this perspective, were used a Landsat 5 image TM sensor for the year 2010. In the processing of this image was used SPRING 5.2 and applied a supervised classification using the classifier regions, which was employed Bhattacharya Distance method with a threshold at 30%. Thus was obtained the land use map that was analyzed the spatial distribution of different types of the use that is occurring in the city, identifying areas that are being used incorrectly and the main types of environmental degradation. And further, were applied the methodology proposed by Beltrame (1994), Physical Diagnosis Conservationist under some adaptations for quantifying the level of degradation or conservation study area. As results, the indexes were obtained for the parameters in the proposed methodology, allowing quantitatively analyze the degradation potential of each sector. From this perspective, considering a scale of 0 to 100, sector A and sector B had value 31.20 units of risk of physical deterioration. And the C sector, has shown its value - 34.64 units degradation risk and should be considered a priority in relation to the achievement of conservation actions