919 resultados para genoma, genetica, dna, bioinformatica, mapreduce, snp, gwas, big data, sequenziamento, pipeline
Resumo:
In general, pattern recognition techniques require a high computational burden for learning the discriminating functions that are responsible to separate samples from distinct classes. As such, there are several studies that make effort to employ machine learning algorithms in the context of big data classification problems. The research on this area ranges from Graphics Processing Units-based implementations to mathematical optimizations, being the main drawback of the former approaches to be dependent on the graphic video card. Here, we propose an architecture-independent optimization approach for the optimum-path forest (OPF) classifier, that is designed using a theoretical formulation that relates the minimum spanning tree with the minimum spanning forest generated by the OPF over the training dataset. The experiments have shown that the approach proposed can be faster than the traditional one in five public datasets, being also as accurate as the original OPF. (C) 2014 Elsevier B. V. All rights reserved.
Resumo:
Pós-graduação em Zootecnia - FCAV
Resumo:
Pós-graduação em Engenharia de Produção - FEB
Resumo:
Conselho Nacional de Desenvolvimento Científico e Tecnológico (CNPq)
Resumo:
Conselho Nacional de Desenvolvimento Científico e Tecnológico (CNPq)
Resumo:
Pós-graduação em Ciência da Computação - IBILCE
Resumo:
With the Big Data development and the growth of cloud computing and Internet of Things, data centers have been multiplying in Brazil and the rest of the world. Designing and running this sites in an efficient way has become a necessary challenge and to do so, it's essential a better understanding of its infrastructure. Thus, this paper presents a bibliography study using technical concepts in order to understand the specific needs related to this environment and the best forms address them. It discusses the data center infrastructure main systems, methods to improve their energy efficiency and their future trends
Resumo:
Pós-graduação em Ciência da Computação - IBILCE
Resumo:
With the Big Data development and the growth of cloud computing and Internet of Things, data centers have been multiplying in Brazil and the rest of the world. Designing and running this sites in an efficient way has become a necessary challenge and to do so, it's essential a better understanding of its infrastructure. Thus, this paper presents a bibliography study using technical concepts in order to understand the specific needs related to this environment and the best forms address them. It discusses the data center infrastructure main systems, methods to improve their energy efficiency and their future trends
Resumo:
[ES] Uno de los cinco componentes de la arquitectura triskel, una base de datos NoSQL que trata de dar solución al problema de Big data de la web semántica, el gran número de identificadores de recursos que se necesitarían debido al creciente número de sitios web, concretamente el motor de gestión de ejecución de patrones basados en tripletas y en la tecnología RDF. Se encarga de recoger la petición de consulta por parte del intérprete, analizar los patrones que intervienen en la consulta en busca de dependencias explotables entre ellos, y así poder realizar la consulta con mayor rapidez además de ir resolviendo los diferentes patrones contra el almacenamiento, un TripleStore, y devolver el resultado de la petición en una tabla.
Resumo:
[ES] SPARQL Interpreter es uno de los cinco componentes de la Arquitectura Triskel, una arquitectura de software para una base de datos NoSQL que intenta aportar una solución al problema de Big Data en la web semántica. Este componente da solución al problema de la comunicación entre el lenguaje y el motor, interpretando las consultas que se realicen contra el almacenamiento en lenguaje SPARQL y generando una estructura de datos que los componentes inferiores puedan leer y ejecutar.
Resumo:
Progettazione di un sistema di Social Intelligence e Sentiment Analysis per un'azienda del settore consumer goods
Resumo:
Quando la probabilità di misurare un particolare valore di una certa quantità varia inversamente come potenza di tale valore, il quantitativo è detto come seguente una power-law, conosciuta anche come legge di Zipf o distribuzione di Pareto. Obiettivo di questa tesi sarà principalmente quello di verificare se il campione esteso di imprese segue la power-law (e se sì, in che limiti). A tale fine si configureranno i dati in un formato di rete monomodale, della quale si studieranno alcune macro-proprietà di struttura a livllo complessivo e con riferimento alle componenti (i singoli subnet distinti) di maggior dimensione. Successivamente si compiranno alcuni approfondimenti sulla struttura fine di alcuni subnet, essenzialmente rivolti ad evidenziare la potenza di unapproccio network-based, anche al fine di rivelare rilevanti proprietà nascoste del sistema economico soggiacente, sempre, ovviamente, nei limiti della modellizzazione adottata. In sintesi, ciò che questo lavoro intende ottenere è lo sviluppo di un approccio alternativo al trattamento dei big data a componente relazionale intrinseca (in questo caso le partecipazioni di capitale), verso la loro conversione in "big knowledge": da un insieme di dati cognitivamente inaccessibili, attraverso la strutturazione dell'informazione in modalità di rete, giungere ad una conoscenza sufficientemente chiara e giustificata.
Resumo:
Lo scopo del clustering è quindi quello di individuare strutture nei dati significative, ed è proprio dalla seguente definizione che è iniziata questa attività di tesi , fornendo un approccio innovativo ed inesplorato al cluster, ovvero non ricercando la relazione ma ragionando su cosa non lo sia. Osservando un insieme di dati ,cosa rappresenta la non relazione? Una domanda difficile da porsi , che ha intrinsecamente la sua risposta, ovvero l’indipendenza di ogni singolo dato da tutti gli altri. La ricerca quindi dell’indipendenza tra i dati ha portato il nostro pensiero all’approccio statistico ai dati , in quanto essa è ben descritta e dimostrata in statistica. Ogni punto in un dataset, per essere considerato “privo di collegamenti/relazioni” , significa che la stessa probabilità di essere presente in ogni elemento spaziale dell’intero dataset. Matematicamente parlando , ogni punto P in uno spazio S ha la stessa probabilità di cadere in una regione R ; il che vuol dire che tale punto può CASUALMENTE essere all’interno di una qualsiasi regione del dataset. Da questa assunzione inizia il lavoro di tesi, diviso in più parti. Il secondo capitolo analizza lo stato dell’arte del clustering, raffrontato alla crescente problematica della mole di dati, che con l’avvento della diffusione della rete ha visto incrementare esponenzialmente la grandezza delle basi di conoscenza sia in termini di attributi (dimensioni) che in termini di quantità di dati (Big Data). Il terzo capitolo richiama i concetti teorico-statistici utilizzati dagli algoritimi statistici implementati. Nel quarto capitolo vi sono i dettagli relativi all’implementazione degli algoritmi , ove sono descritte le varie fasi di investigazione ,le motivazioni sulle scelte architetturali e le considerazioni che hanno portato all’esclusione di una delle 3 versioni implementate. Nel quinto capitolo gli algoritmi 2 e 3 sono confrontati con alcuni algoritmi presenti in letteratura, per dimostrare le potenzialità e le problematiche dell’algoritmo sviluppato , tali test sono a livello qualitativo , in quanto l’obbiettivo del lavoro di tesi è dimostrare come un approccio statistico può rivelarsi un’arma vincente e non quello di fornire un nuovo algoritmo utilizzabile nelle varie problematiche di clustering. Nel sesto capitolo saranno tratte le conclusioni sul lavoro svolto e saranno elencati i possibili interventi futuri dai quali la ricerca appena iniziata del clustering statistico potrebbe crescere.
Resumo:
Obiettivo di questa tesi dal titolo “Analisi di tecniche per l’estrazione di informazioni da documenti testuali e non strutturati” è quello di mostrare tecniche e metodologie informatiche che permettano di ricavare informazioni e conoscenza da dati in formato testuale. Gli argomenti trattati includono l'analisi di software per l'estrazione di informazioni, il web semantico, l'importanza dei dati e in particolare i Big Data, Open Data e Linked Data. Si parlerà inoltre di data mining e text mining.