8 resultados para network traffic analysis
em AMS Tesi di Laurea - Alm@DL - Università di Bologna
Resumo:
The cybernetics revolution of the last years improved a lot our lives, having an immediate access to services and a huge amount of information over the Internet. Nowadays the user is increasingly asked to insert his sensitive information on the Internet, leaving its traces everywhere. But there are some categories of people that cannot risk to reveal their identities on the Internet. Even if born to protect U.S. intelligence communications online, nowadays Tor is the most famous low-latency network, that guarantees both anonymity and privacy of its users. The aim of this thesis project is to well understand how the Tor protocol works, not only studying its theory, but also implementing those concepts in practice, having a particular attention for security topics. In order to run a Tor private network, that emulates the real one, a virtual testing environment has been configured. This behavior allows to conduct experiments without putting at risk anonymity and privacy of real users. We used a Tor patch, that stores TLS and circuit keys, to be given as inputs to a Tor dissector for Wireshark, in order to obtain decrypted and decoded traffic. Observing clear traffic allowed us to well check the protocol outline and to have a proof of the format of each cell. Besides, these tools allowed to identify a traffic pattern, used to conduct a traffic correlation attack to passively deanonymize hidden service clients. The attacker, controlling two nodes of the Tor network, is able to link a request for a given hidden server to the client who did it, deanonymizing him. The robustness of the traffic pattern and the statistics, such as the true positive rate, and the false positive rate, of the attack are object of a potential future work.
Resumo:
In piattaforme di Stream Processing è spesso necessario eseguire elaborazioni differenziate degli stream di input. Questa tesi ha l'obiettivo di realizzare uno scheduler in grado di attribuire priorità di esecuzione differenti agli operatori deputati all'elaborazione degli stream.
Resumo:
Il distretto è un luogo relazionale dinamico dove le imprese danno luogo a differenti comportamenti economici di vario genere e natura, cooperando in un certo senso per lo sviluppo e la crescita del distretto stesso. In un primo momento di formazione del distretto si sono delineati comportamenti di tipo path dependent per vantaggi economici dovuti alla distribuzione delle imprese nel territorio, ma con il tempo si sono cominciati ad avere comportamenti espansionistici differenti sia dall'interno che dall'esterno del distretto influendo direttamente sulla struttura del stesso. É ragionevole dunque pensare che gli attori guardino al rapporto “locale/globale” con una sorta di "strabismo", da un lato leggendo il distretto (dall’interno come dall’esterno) come un luogo privilegiato per la formazione di economie di prossimità, dall’altro puntando a disporre le catene produttive nello spazio globale, alla ricerca dei vantaggi derivanti da un minor costo del lavoro o dalla immediata prossimità dei mercati di sbocco. il distretto viene dunque attraversato da dinamiche che lo globalizzano ma, al contempo, ne preservano (almeno per ora) la specificità. Non è più possibile leggere la sua forma economica solo nella logica della embeddedness, e non sarebbe certo corretto farlo solo in chiave di openness. Si tratta dunque di interrogarsi sul rapporto più di integrazione/complementarità che di contrapposizione fra openness ed embeddedness. In questa tesi verrà descritto un metodo d'approccio per dare un valore al fenomeno di Openness e Embeddedness presente nel distretto partendo da un dataset di dati relazionali ricavati da due database economici Amadeus e Aida. Non essendo possibile trovare pubblicamente dati sulle reti di fornitura delle singole aziende, siamo partiti dai dati relazionali di cinque aziende “seme”, ed attraverso una ricerca ricorsiva nelle relazioni di azionariato/partecipazione, siamo riusciti ad ottenere un campione di analisi che ci permette di mettere in luce tramite la custer analysis le principali tipologie di reti di imprese presenti nel distretto ed estese nello spazio globale.
Resumo:
Questa dissertazione esamina le sfide e i limiti che gli algoritmi di analisi di grafi incontrano in architetture distribuite costituite da personal computer. In particolare, analizza il comportamento dell'algoritmo del PageRank così come implementato in una popolare libreria C++ di analisi di grafi distribuiti, la Parallel Boost Graph Library (Parallel BGL). I risultati qui presentati mostrano che il modello di programmazione parallela Bulk Synchronous Parallel è inadatto all'implementazione efficiente del PageRank su cluster costituiti da personal computer. L'implementazione analizzata ha infatti evidenziato una scalabilità negativa, il tempo di esecuzione dell'algoritmo aumenta linearmente in funzione del numero di processori. Questi risultati sono stati ottenuti lanciando l'algoritmo del PageRank della Parallel BGL su un cluster di 43 PC dual-core con 2GB di RAM l'uno, usando diversi grafi scelti in modo da facilitare l'identificazione delle variabili che influenzano la scalabilità. Grafi rappresentanti modelli diversi hanno dato risultati differenti, mostrando che c'è una relazione tra il coefficiente di clustering e l'inclinazione della retta che rappresenta il tempo in funzione del numero di processori. Ad esempio, i grafi Erdős–Rényi, aventi un basso coefficiente di clustering, hanno rappresentato il caso peggiore nei test del PageRank, mentre i grafi Small-World, aventi un alto coefficiente di clustering, hanno rappresentato il caso migliore. Anche le dimensioni del grafo hanno mostrato un'influenza sul tempo di esecuzione particolarmente interessante. Infatti, si è mostrato che la relazione tra il numero di nodi e il numero di archi determina il tempo totale.
Resumo:
Il presente lavoro di tesi si inserisce nell’ambito della classificazione di dati ad alta dimensionalità, sviluppando un algoritmo basato sul metodo della Discriminant Analysis. Esso classifica i campioni attraverso le variabili prese a coppie formando un network a partire da quelle che hanno una performance sufficientemente elevata. Successivamente, l’algoritmo si avvale di proprietà topologiche dei network (in particolare la ricerca di subnetwork e misure di centralità di singoli nodi) per ottenere varie signature (sottoinsiemi delle variabili iniziali) con performance ottimali di classificazione e caratterizzate da una bassa dimensionalità (dell’ordine di 101, inferiore di almeno un fattore 103 rispetto alle variabili di partenza nei problemi trattati). Per fare ciò, l’algoritmo comprende una parte di definizione del network e un’altra di selezione e riduzione della signature, calcolando ad ogni passaggio la nuova capacità di classificazione operando test di cross-validazione (k-fold o leave- one-out). Considerato l’alto numero di variabili coinvolte nei problemi trattati – dell’ordine di 104 – l’algoritmo è stato necessariamente implementato su High-Performance Computer, con lo sviluppo in parallelo delle parti più onerose del codice C++, nella fattispecie il calcolo vero e proprio del di- scriminante e il sorting finale dei risultati. L’applicazione qui studiata è a dati high-throughput in ambito genetico, riguardanti l’espressione genica a livello cellulare, settore in cui i database frequentemente sono costituiti da un numero elevato di variabili (104 −105) a fronte di un basso numero di campioni (101 −102). In campo medico-clinico, la determinazione di signature a bassa dimensionalità per la discriminazione e classificazione di campioni (e.g. sano/malato, responder/not-responder, ecc.) è un problema di fondamentale importanza, ad esempio per la messa a punto di strategie terapeutiche personalizzate per specifici sottogruppi di pazienti attraverso la realizzazione di kit diagnostici per l’analisi di profili di espressione applicabili su larga scala. L’analisi effettuata in questa tesi su vari tipi di dati reali mostra che il metodo proposto, anche in confronto ad altri metodi esistenti basati o me- no sull’approccio a network, fornisce performance ottime, tenendo conto del fatto che il metodo produce signature con elevate performance di classifica- zione e contemporaneamente mantenendo molto ridotto il numero di variabili utilizzate per questo scopo.
Resumo:
In questa tesi vengono studiate alcune caratteristiche dei network a multiplex; in particolare l'analisi verte sulla quantificazione delle differenze fra i layer del multiplex. Le dissimilarita sono valutate sia osservando le connessioni di singoli nodi in layer diversi, sia stimando le diverse partizioni dei layer. Sono quindi introdotte alcune importanti misure per la caratterizzazione dei multiplex, che vengono poi usate per la costruzione di metodi di community detection . La quantificazione delle differenze tra le partizioni di due layer viene stimata utilizzando una misura di mutua informazione. Viene inoltre approfondito l'uso del test dell'ipergeometrica per la determinazione di nodi sovra-rappresentati in un layer, mostrando l'efficacia del test in funzione della similarita dei layer. Questi metodi per la caratterizzazione delle proprieta dei network a multiplex vengono applicati a dati biologici reali. I dati utilizzati sono stati raccolti dallo studio DILGOM con l'obiettivo di determinare le implicazioni genetiche, trascrittomiche e metaboliche dell'obesita e della sindrome metabolica. Questi dati sono utilizzati dal progetto Mimomics per la determinazione di relazioni fra diverse omiche. Nella tesi sono analizzati i dati metabolici utilizzando un approccio a multiplex network per verificare la presenza di differenze fra le relazioni di composti sanguigni di persone obese e normopeso.
Resumo:
Negli ultimi anni la teoria dei network è stata applicata agli ambiti più diversi, mostrando proprietà caratterizzanti tutti i network reali. In questo lavoro abbiamo applicato gli strumenti della teoria dei network a dati cerebrali ottenuti tramite MRI funzionale “resting”, provenienti da due esperimenti. I dati di fMRI sono particolarmente adatti ad essere studiati tramite reti complesse, poiché in un esperimento si ottengono tipicamente più di centomila serie temporali per ogni individuo, da più di 100 valori ciascuna. I dati cerebrali negli umani sono molto variabili e ogni operazione di acquisizione dati, così come ogni passo della costruzione del network, richiede particolare attenzione. Per ottenere un network dai dati grezzi, ogni passo nel preprocessamento è stato effettuato tramite software appositi, e anche con nuovi metodi da noi implementati. Il primo set di dati analizzati è stato usato come riferimento per la caratterizzazione delle proprietà del network, in particolare delle misure di centralità, dal momento che pochi studi a riguardo sono stati condotti finora. Alcune delle misure usate indicano valori di centralità significativi, quando confrontati con un modello nullo. Questo comportamento `e stato investigato anche a istanti di tempo diversi, usando un approccio sliding window, applicando un test statistico basato su un modello nullo pi`u complesso. Il secondo set di dati analizzato riguarda individui in quattro diversi stati di riposo, da un livello di completa coscienza a uno di profonda incoscienza. E' stato quindi investigato il potere che queste misure di centralità hanno nel discriminare tra diversi stati, risultando essere dei potenziali bio-marcatori di stati di coscienza. E’ stato riscontrato inoltre che non tutte le misure hanno lo stesso potere discriminante. Secondo i lavori a noi noti, questo `e il primo studio che caratterizza differenze tra stati di coscienza nel cervello di individui sani per mezzo della teoria dei network.