Questa tesi è incentrata sull'analisi dell'arbitraggio statistico, strategia di trading che cerca di trarre profitto dalle fluttuazioni statistiche di prezzo di uno o più asset sulla base del loro valore atteso. In generale, si creano opportunità di arbitraggio statistico quando si riescono ad individuare delle componenti sistematiche nelle dinamiche dei prezzi di alcuni asset che si muovono con regolarità persistenti e prevalenti. Perturbazioni casuali della domanda e dell’offerta nei mercati possono causare divergenze nei prezzi, dando luogo a opportunità di intermarket spread, ossia simultanei acquisto e vendita di commodities correlate tra loro. Vengono approfonditi vari test econometrici, i test unit root utilizzati per verificare se una serie storica possa essere modellizzata con un processo random walk. Infine viene costruita una strategia di trading basata sull'arbitraggio statistico e applicata numericamente alle serie storiche dal 2010 al 2014 di due titoli azionari sul petrolio: Brent e WTI.


Questa tesi si inserisce nell'ambito delle analisi statistiche e dei metodi stocastici applicati all'analisi delle sequenze di DNA. Nello specifico il nostro lavoro è incentrato sullo studio del dinucleotide CG (CpG) all'interno del genoma umano, che si trova raggruppato in zone specifiche denominate CpG islands. Queste sono legate alla metilazione del DNA, un processo che riveste un ruolo fondamentale nella regolazione genica. La prima parte dello studio è dedicata a una caratterizzazione globale del contenuto e della distribuzione dei 16 diversi dinucleotidi all'interno del genoma umano: in particolare viene studiata la distribuzione delle distanze tra occorrenze successive dello stesso dinucleotide lungo la sequenza. I risultati vengono confrontati con diversi modelli nulli: sequenze random generate con catene di Markov di ordine zero (basate sulle frequenze relative dei nucleotidi) e uno (basate sulle probabilità di transizione tra diversi nucleotidi) e la distribuzione geometrica per le distanze. Da questa analisi le proprietà caratteristiche del dinucleotide CpG emergono chiaramente, sia dal confronto con gli altri dinucleotidi che con i modelli random. A seguito di questa prima parte abbiamo scelto di concentrare le successive analisi in zone di interesse biologico, studiando l’abbondanza e la distribuzione di CpG al loro interno (CpG islands, promotori e Lamina Associated Domains). Nei primi due casi si osserva un forte arricchimento nel contenuto di CpG, e la distribuzione delle distanze è spostata verso valori inferiori, indicando che questo dinucleotide è clusterizzato. All’interno delle LADs si trovano mediamente meno CpG e questi presentano distanze maggiori. Infine abbiamo adottato una rappresentazione a random walk del DNA, costruita in base al posizionamento dei dinucleotidi: il walk ottenuto presenta caratteristiche drasticamente diverse all’interno e all’esterno di zone annotate come CpG island. Riteniamo pertanto che metodi basati su questo approccio potrebbero essere sfruttati per migliorare l’individuazione di queste aree di interesse nel genoma umano e di altri organismi.


L'obiettivo della tesi è studiare la dinamica di un random walk su network. Essa è inoltre suddivisa in due parti: la prima è prettamente teorica, mentre la seconda analizza i risultati ottenuti mediante simulazioni. La parte teorica è caratterizzata dall'introduzione di concetti chiave per comprendere i random walk, come i processi di Markov e la Master Equation. Dopo aver fornito un esempio intuitivo di random walk nel caso unidimensionale, tale concetto viene generalizzato. Così può essere introdotta la Master Equation che determina l'evoluzione del sistema. Successivamente si illustrano i concetti di linearità e non linearità, fondamentali per la parte di simulazione. Nella seconda parte si studia il comportamento di un random walk su network nel caso lineare e non lineare, studiando le caratteristiche della soluzione stazionaria. La non linearità introdotta simula un comportamento egoista da parte di popolazioni in interazioni. In particolare si dimostra l'esistenza di una Biforcazione di Hopf.


L'obbiettivo di questa tesi è quello di studiare alcune proprietà statistiche di un random walk su network. Dopo aver definito il concetto di network e di random walk su network, sono state studiate le caratteristiche dello stato stazionario di questo sistema, la loro dipendenza dalla topologia della rete e l'andamento del sistema verso l'equilibrio, con particolare interesse per la distribuzione delle fluttuazioni delle popolazioni sui differenti nodi, una volta raggiunto lo stato stazionario. In seguito, si è voluto osservare il comportamento del network sottoposto ad una forzatura costante, rappresentata da sorgenti e pozzi applicati in diversi nodi, e quindi la sua suscettività a perturbazioni esterne. Tramite alcune simulazioni al computer, viene provato che una forzatura esterna modifica in modo diverso lo stato del network in base alla topologia di quest'ultimo. Dai risultati si è trovato quali sono i nodi che, una volta perturbati, sono in grado di cambiare ampiamente lo stato generale del sistema e quali lo influenzano in minima parte.


Questa tesi si inserisce nell’ambito di studio dei modelli stocastici applicati alle sequenze di DNA. I random walk e le catene di Markov sono tra i processi aleatori che hanno trovato maggiore diffusione in ambito applicativo grazie alla loro capacità di cogliere le caratteristiche salienti di molti sistemi complessi, pur mantenendo semplice la descrizione di questi. Nello specifico, la trattazione si concentra sull’applicazione di questi nel contesto dell’analisi statistica delle sequenze genomiche. Il DNA può essere rappresentato in prima approssimazione da una sequenza di nucleotidi che risulta ben riprodotta dal modello a catena di Markov; ciò rappresenta il punto di partenza per andare a studiare le proprietà statistiche delle catene di DNA. Si approfondisce questo discorso andando ad analizzare uno studio che si ripropone di caratterizzare le sequenze di DNA tramite le distribuzioni delle distanze inter-dinucleotidiche. Se ne commentano i risultati, al fine di mostrare le potenzialità di questi modelli nel fare emergere caratteristiche rilevanti in altri ambiti, in questo caso quello biologico.


Historia magistra vitae, scriveva Cicerone nel De Oratore; il passato deve insegnare a comprendere meglio il futuro. Un concetto che a primo acchito può sembrare confinato nell'ambito della filosofia e della letteratura, ma che ha invece applicazioni matematiche e fisiche di estrema importanza. Esistono delle tecniche che permettono, conoscendo il passato, di effettuare delle migliori stime del futuro? Esistono dei metodi che permettono, conoscendo il presente, di aggiornare le stime effettuate nel passato? Nel presente elaborato viene illustrato come argomento centrale il filtro di Kalman, un algoritmo ricorsivo che, dato un set di misure di una certa grandezza fino al tempo t, permette di calcolare il valore atteso di tale grandezza al tempo t+1, oltre alla varianza della relativa distribuzione prevista; permette poi, una volta effettuata la t+1-esima misura, di aggiornare di conseguenza valore atteso e varianza della distribuzione dei valori della grandezza in esame. Si è quindi applicato questo algoritmo, testandone l'efficacia, prima a dei casi fisici, quali il moto rettilineo uniforme, il moto uniformemente accelerato, l'approssimazione delle leggi orarie del moto e l'oscillatore armonico; poi, introducendo la teoria di Kendall conosciuta come ipotesi di random walk e costruendo un modello di asset pricing basato sui processi di Wiener, si è applicato il filtro di Kalman a delle serie storiche di rendimenti di strumenti di borsa per osservare se questi si muovessero effettivamente secondo un modello di random walk e per prevedere il valore al tempo finale dei titoli.


The purpose of this thesis is to clarify the role of non-equilibrium stationary currents of Markov processes in the context of the predictability of future states of the system. Once the connection between the predictability and the conditional entropy is established, we provide a comprehensive approach to the definition of a multi-particle Markov system. In particular, starting from the well-known theory of random walk on network, we derive the non-linear master equation for an interacting multi-particle system under the one-step process hypothesis, highlighting the limits of its tractability and the prop- erties of its stationary solution. Lastly, in order to study the impact of the NESS on the predictability at short times, we analyze the conditional entropy by modulating the intensity of the stationary currents, both for a single-particle and a multi-particle Markov system. The results obtained analytically are numerically tested on a 5-node cycle network and put in correspondence with the stationary entropy production. Furthermore, because of the low dimensionality of the single-particle system, an analysis of its spectral properties as a function of the modulated stationary currents is performed.


In this thesis we discuss the expansion of an existing project, called CHIMeRA, which is a comprehensive biomedical network, and the analysis of its sub-components by using graph theory. We describe how it is structured internally, what are the existing databases from which it retrieves information and what machine learning techniques are used in order to produce new knowledge. We also introduce a new technique for graph exploration that is aimed to speed-up the network cover time under the condition that the analyzed graph is stellar; if this condition is satisfied, the improvement in the performance compared to the conventional exploration technique is extremely appealing. We show that the stellar structure is highly recurrent for sub-networks in CHIMeRA generated by queries, which made this technique even more interesting. Finally, we describe the convenience in using the CHIMeRA network for research purposes and what it could become in a very near future.


The ability to represent the transport and fate of an oil slick at the sea surface is a formidable task. By using an accurate numerical representation of oil evolution and movement in seawater, the possibility to asses and reduce the oil-spill pollution risk can be greatly improved. The blowing of the wind on the sea surface generates ocean waves, which give rise to transport of pollutants by wave-induced velocities that are known as Stokes’ Drift velocities. The Stokes’ Drift transport associated to a random gravity wave field is a function of the wave Energy Spectra that statistically fully describe it and that can be provided by a wave numerical model. Therefore, in order to perform an accurate numerical simulation of the oil motion in seawater, a coupling of the oil-spill model with a wave forecasting model is needed. In this Thesis work, the coupling of the MEDSLIK-II oil-spill numerical model with the SWAN wind-wave numerical model has been performed and tested. In order to improve the knowledge of the wind-wave model and its numerical performances, a preliminary sensitivity study to different SWAN model configuration has been carried out. The SWAN model results have been compared with the ISPRA directional buoys located at Venezia, Ancona and Monopoli and the best model settings have been detected. Then, high resolution currents provided by a relocatable model (SURF) have been used to force both the wave and the oil-spill models and its coupling with the SWAN model has been tested. The trajectories of four drifters have been simulated by using JONSWAP parametric spectra or SWAN directional-frequency energy output spectra and results have been compared with the real paths traveled by the drifters.


In questa tesi si è studiato l’insorgere di eventi critici in un semplice modello neurale del tipo Integrate and Fire, basato su processi dinamici stocastici markoviani definiti su una rete. Il segnale neurale elettrico è stato modellato da un flusso di particelle. Si è concentrata l’attenzione sulla fase transiente del sistema, cercando di identificare fenomeni simili alla sincronizzazione neurale, la quale può essere considerata un evento critico. Sono state studiate reti particolarmente semplici, trovando che il modello proposto ha la capacità di produrre effetti "a cascata" nell’attività neurale, dovuti a Self Organized Criticality (auto organizzazione del sistema in stati instabili); questi effetti non vengono invece osservati in Random Walks sulle stesse reti. Si è visto che un piccolo stimolo random è capace di generare nell’attività della rete delle fluttuazioni notevoli, in particolar modo se il sistema si trova in una fase al limite dell’equilibrio. I picchi di attività così rilevati sono stati interpretati come valanghe di segnale neurale, fenomeno riconducibile alla sincronizzazione.


Natural Language Processing (NLP) has seen tremendous improvements over the last few years. Transformer architectures achieved impressive results in almost any NLP task, such as Text Classification, Machine Translation, and Language Generation. As time went by, transformers continued to improve thanks to larger corpora and bigger networks, reaching hundreds of billions of parameters. Training and deploying such large models has become prohibitively expensive, such that only big high tech companies can afford to train those models. Therefore, a lot of research has been dedicated to reducing a model’s size. In this thesis, we investigate the effects of Vocabulary Transfer and Knowledge Distillation for compressing large Language Models. The goal is to combine these two methodologies to further compress models without significant loss of performance. In particular, we designed different combination strategies and conducted a series of experiments on different vertical domains (medical, legal, news) and downstream tasks (Text Classification and Named Entity Recognition). Four different methods involving Vocabulary Transfer (VIPI) with and without a Masked Language Modelling (MLM) step and with and without Knowledge Distillation are compared against a baseline that assigns random vectors to new elements of the vocabulary. Results indicate that VIPI effectively transfers information of the original vocabulary and that MLM is beneficial. It is also noted that both vocabulary transfer and knowledge distillation are orthogonal to one another and may be applied jointly. The application of knowledge distillation first before subsequently applying vocabulary transfer is recommended. Finally, model performance due to vocabulary transfer does not always show a consistent trend as the vocabulary size is reduced. Hence, the choice of vocabulary size should be empirically selected by evaluation on the downstream task similar to hyperparameter tuning.


Day by day, machine learning is changing our lives in ways we could not have imagined just 5 years ago. ML expertise is more and more requested and needed, though just a limited number of ML engineers are available on the job market, and their knowledge is always limited by an inherent characteristic of theirs: they are humans. This thesis explores the possibilities offered by meta-learning, a new field in ML that takes learning a level higher: models are trained on other models' training data, starting from features of the dataset they were trained on, inference times, obtained performances, to try to understand the relationship between a good model and the way it was obtained. The so-called metamodel was trained on data collected by OpenML, the largest ML metadata platform that's publicly available today. Datasets were analyzed to obtain meta-features that describe them, which were then tied to model performances in a regression task. The obtained metamodel predicts the expected performances of a given model type (e.g., a random forest) on a given ML task (e.g., classification on the UCI census dataset). This research was then integrated into a custom-made AutoML framework, to show how meta-learning is not an end in itself, but it can be used to further progress our ML research. Encoding ML engineering expertise in a model allows better, faster, and more impactful ML applications across the whole world, while reducing the cost that is inevitably tied to human engineers.


Combinatorial decision and optimization problems belong to numerous applications, such as logistics and scheduling, and can be solved with various approaches. Boolean Satisfiability and Constraint Programming solvers are some of the most used ones and their performance is significantly influenced by the model chosen to represent a given problem. This has led to the study of model reformulation methods, one of which is tabulation, that consists in rewriting the expression of a constraint in terms of a table constraint. To apply it, one should identify which constraints can help and which can hinder the solving process. So far this has been performed by hand, for example in MiniZinc, or automatically with manually designed heuristics, in Savile Row. Though, it has been shown that the performances of these heuristics differ across problems and solvers, in some cases helping and in others hindering the solving procedure. However, recent works in the field of combinatorial optimization have shown that Machine Learning (ML) can be increasingly useful in the model reformulation steps. This thesis aims to design a ML approach to identify the instances for which Savile Row’s heuristics should be activated. Additionally, it is possible that the heuristics miss some good tabulation opportunities, so we perform an exploratory analysis for the creation of a ML classifier able to predict whether or not a constraint should be tabulated. The results reached towards the first goal show that a random forest classifier leads to an increase in the performances of 4 different solvers. The experimental results in the second task show that a ML approach could improve the performance of a solver for some problem classes.