In this thesis work, a cosmic-ray telescope was set up in the INFN laboratories in Bologna using smaller size replicas of CMS Drift Tubes chambers, called MiniDTs, to test and develop new electronics for the CMS Phase-2 upgrade. The MiniDTs were assembled in INFN National Laboratory in Legnaro, Italy. Scintillator tiles complete the telescope, providing a signal independent of the MiniDTs for offline analysis. The telescope readout is a test system for the CMS Phase-2 upgrade data acquisition design. The readout is based on the early prototype of a radiation-hard FPGA-based board developed for the High Luminosity LHC CMS upgrade, called On Board electronics for Drift Tubes. Once the set-up was operational, we developed an online monitor to display in real-time the most important observables to check the quality of the data acquisition. We performed an offline analysis of the collected data using a custom version of CMS software tools, which allowed us to estimate the time pedestal and drift velocity in each chamber, evaluate the efficiency of the different DT cells, and measure the space and time resolution of the telescope system.
La massa del quark top è qui misurata per mezzo dei dati raccolti dall’esperimento CMS in collisioni protone-protone ad LHC, con energia nel centro di massa pari ad 8 TeV. Il campione di dati raccolto corrisponde ad una luminosità integrata pari a 18.2 /fb. La misura è effettuata su eventi con un numero di jet almeno pari a 6, di cui almeno due b-taggati (ovvero identificati come prodotto dell’adronizzazione di due quark bottom). Il valore di massa trovato è di (173.95 +- 0.43 (stat)) GeV/c2, in accordo con la media mondiale. The top quark mass is here measured by using the data that have been collected with the CMS experiment in proton-proton collisions at the LHC, at a center-of-mass energy of 8 TeV. The dataset which was used, corresponds to an integrated luminosiy of 18.2 /fb. The mass measurement is carried out by using events characterized by six or more jets, two of which identified as being originated by the hadronization of bottom quarks. The result of the measurement of the top quark mass performed here is: (173.95 +- 0.43 (stat)) GeV/c2, in accordance with the recently published world average.
The scientific success of the LHC experiments at CERN highly depends on the availability of computing resources which efficiently store, process, and analyse the amount of data collected every year. This is ensured by the Worldwide LHC Computing Grid infrastructure that connect computing centres distributed all over the world with high performance network. LHC has an ambitious experimental program for the coming years, which includes large investments and improvements both for the hardware of the detectors and for the software and computing systems, in order to deal with the huge increase in the event rate expected from the High Luminosity LHC (HL-LHC) phase and consequently with the huge amount of data that will be produced. Since few years the role of Artificial Intelligence has become relevant in the High Energy Physics (HEP) world. Machine Learning (ML) and Deep Learning algorithms have been successfully used in many areas of HEP, like online and offline reconstruction programs, detector simulation, object reconstruction, identification, Monte Carlo generation, and surely they will be crucial in the HL-LHC phase. This thesis aims at contributing to a CMS R&D project, regarding a ML "as a Service" solution for HEP needs (MLaaS4HEP). It consists in a data-service able to perform an entire ML pipeline (in terms of reading data, processing data, training ML models, serving predictions) in a completely model-agnostic fashion, directly using ROOT files of arbitrary size from local or distributed data sources. This framework has been updated adding new features in the data preprocessing phase, allowing more flexibility to the user. Since the MLaaS4HEP framework is experiment agnostic, the ATLAS Higgs Boson ML challenge has been chosen as physics use case, with the aim to test MLaaS4HEP and the contribution done with this work.
In the upcoming years, various upgrades and improvements are planned for the CERN Large Hadron Collider (LHC) and represent the mandate of the High-Luminosity project. The upgrade will allow for a total stored beam energy of about 700 MJ, which will need, among others, an extremely efficient collimation system. This will be achieved with the addition of a hollow electron lens (HEL) system to help control the beam-halo depletion and mitigate the effects of fast beam losses. In this master thesis, we present a diffusion model of the HEL for HL-LHC. In particular, we explore several scenarios to use such a device, focusing on the halo depletion efficiency given by different noise regimes.
This thesis presents a study of the Grid data access patterns in distributed analysis in the CMS experiment at the LHC accelerator. This study ranges from the deep analysis of the historical patterns of access to the most relevant data types in CMS, to the exploitation of a supervised Machine Learning classification system to set-up a machinery able to eventually predict future data access patterns - i.e. the so-called dataset “popularity” of the CMS datasets on the Grid - with focus on specific data types. All the CMS workflows run on the Worldwide LHC Computing Grid (WCG) computing centers (Tiers), and in particular the distributed analysis systems sustains hundreds of users and applications submitted every day. These applications (or “jobs”) access different data types hosted on disk storage systems at a large set of WLCG Tiers. The detailed study of how this data is accessed, in terms of data types, hosting Tiers, and different time periods, allows to gain precious insight on storage occupancy over time and different access patterns, and ultimately to extract suggested actions based on this information (e.g. targetted disk clean-up and/or data replication). In this sense, the application of Machine Learning techniques allows to learn from past data and to gain predictability potential for the future CMS data access patterns. Chapter 1 provides an introduction to High Energy Physics at the LHC. Chapter 2 describes the CMS Computing Model, with special focus on the data management sector, also discussing the concept of dataset popularity. Chapter 3 describes the study of CMS data access patterns with different depth levels. Chapter 4 offers a brief introduction to basic machine learning concepts and gives an introduction to its application in CMS and discuss the results obtained by using this approach in the context of this thesis.
Nella fisica delle particelle, onde poter effettuare analisi dati, è necessario disporre di una grande capacità di calcolo e di storage. LHC Computing Grid è una infrastruttura di calcolo su scala globale e al tempo stesso un insieme di servizi, sviluppati da una grande comunità di fisici e informatici, distribuita in centri di calcolo sparsi in tutto il mondo. Questa infrastruttura ha dimostrato il suo valore per quanto riguarda l'analisi dei dati raccolti durante il Run-1 di LHC, svolgendo un ruolo fondamentale nella scoperta del bosone di Higgs. Oggi il Cloud computing sta emergendo come un nuovo paradigma di calcolo per accedere a grandi quantità di risorse condivise da numerose comunità scientifiche. Date le specifiche tecniche necessarie per il Run-2 (e successivi) di LHC, la comunità scientifica è interessata a contribuire allo sviluppo di tecnologie Cloud e verificare se queste possano fornire un approccio complementare, oppure anche costituire una valida alternativa, alle soluzioni tecnologiche esistenti. Lo scopo di questa tesi è di testare un'infrastruttura Cloud e confrontare le sue prestazioni alla LHC Computing Grid. Il Capitolo 1 contiene un resoconto generale del Modello Standard. Nel Capitolo 2 si descrive l'acceleratore LHC e gli esperimenti che operano a tale acceleratore, con particolare attenzione all’esperimento CMS. Nel Capitolo 3 viene trattato il Computing nella fisica delle alte energie e vengono esaminati i paradigmi Grid e Cloud. Il Capitolo 4, ultimo del presente elaborato, riporta i risultati del mio lavoro inerente l'analisi comparata delle prestazioni di Grid e Cloud.
The performances of the H → ZZ* → 4l analysis are studied in the context of the High Luminosity upgrade of the LHC collider, with the CMS detector. The high luminosity (up to L = 5 × 10^34 cm−2s−1) of the accelerator poses very challenging experimental con- ditions. In particular, the number of overlapping events per bunch crossing will increase to 140. To cope with this difficult environment, the CMS detector will be upgraded in two stages: Phase-I and Phase-II. The tools used in the analysis are the CMS Full Simulation and the fast parametrized Delphes simulation. A validation of Delphes with respect to the Full Simulation is performed, using reference Phase-I detector samples. Delphes is then used to simulate the Phase-II detector response. The Phase-II configuration is compared with the Phase-I detector and the same Phase-I detector affected by aging processes, both modeled with the Full Simulation framework. Conclusions on these three scenarios are derived: the degradation in performances observed with the “aged” scenario shows that a major upgrade of the detector is mandatory. The specific upgrade configuration studied allows to keep the same performances as in Phase-I and, in the case of the four-muons channel, even to exceed them.
L’esperimento CMS a LHC ha raccolto ingenti moli di dati durante Run-1, e sta sfruttando il periodo di shutdown (LS1) per evolvere il proprio sistema di calcolo. Tra i possibili miglioramenti al sistema, emergono ampi margini di ottimizzazione nell’uso dello storage ai centri di calcolo di livello Tier-2, che rappresentano - in Worldwide LHC Computing Grid (WLCG)- il fulcro delle risorse dedicate all’analisi distribuita su Grid. In questa tesi viene affrontato uno studio della popolarità dei dati di CMS nell’analisi distribuita su Grid ai Tier-2. Obiettivo del lavoro è dotare il sistema di calcolo di CMS di un sistema per valutare sistematicamente l’ammontare di spazio disco scritto ma non acceduto ai centri Tier-2, contribuendo alla costruzione di un sistema evoluto di data management dinamico che sappia adattarsi elasticamente alle diversi condizioni operative - rimuovendo repliche dei dati non necessarie o aggiungendo repliche dei dati più “popolari” - e dunque, in ultima analisi, che possa aumentare l’“analysis throughput” complessivo. Il Capitolo 1 fornisce una panoramica dell’esperimento CMS a LHC. Il Capitolo 2 descrive il CMS Computing Model nelle sue generalità, focalizzando la sua attenzione principalmente sul data management e sulle infrastrutture ad esso connesse. Il Capitolo 3 descrive il CMS Popularity Service, fornendo una visione d’insieme sui servizi di data popularity già presenti in CMS prima dell’inizio di questo lavoro. Il Capitolo 4 descrive l’architettura del toolkit sviluppato per questa tesi, ponendo le basi per il Capitolo successivo. Il Capitolo 5 presenta e discute gli studi di data popularity condotti sui dati raccolti attraverso l’infrastruttura precedentemente sviluppata. L’appendice A raccoglie due esempi di codice creato per gestire il toolkit attra- verso cui si raccolgono ed elaborano i dati.
In questo lavoro di tesi è stato studiato lo spettro di massa invariante del sistema J/psi pi+ pi-, m(J/psi pi+ pi-), in collisioni protone-protone a LHC, con energia nel centro di massa sqrt(s)) pari a 8 TeV, alla ricerca di nuovi stati adronici. Lo studio è stato effettuato su un campione di dati raccolti da CMS in tutto il 2012, corrispondente ad una luminosità integrata di 18.6 fb-1. Lo spettro di massa invariante m(J/psi pi+ pi-), è stato ricostruito selezionando gli eventi J/psi->mu+ mu- associati a due tracce cariche di segno opposto, assunte essere pioni, provenienti da uno stesso vertice di interazione. Nonostante l'alta statistica a disposizione e l'ampia regione di massa invariante tra 3.6 e 6.0 GeV/c^2 osservata, sono state individuate solo risonanze già note: la risonanza psi(2S) del charmonio, lo stato X(3872) ed una struttura più complessa nella regione attorno a 5 GeV/c^2, che è caratteristica della massa dei mesoni contenenti il quark beauty (mesoni B). Al fine di identificare la natura di tale struttura, è stato necessario ottenere un campione di eventi arricchito in adroni B. È stata effettuata una selezione basata sull'elevata lunghezza di decadimento, che riflette la caratteristica degli adroni B di avere una vita media relativamente lunga (ordine dei picosecondi) rispetto ad altri adroni. Dal campione così ripulito, è stato possibile distinguere tre sottostrutture nello spettro di massa invariante in esame: una a 5.36 GeV/c^2, identificata come i decadimenti B^0_s-> J/psi pi+ pi-, un'altra a 5.28 GeV/c^2 come i candidati B^0-> J/psi pi+ pi- e un'ultima allargata tra 5.1 e 5.2 GeV/c^2 data da effetti di riflessione degli scambi tra pioni e kaoni. Quest'ultima struttura è stata identificata come totalmente costituita di una combinazione di eventi B^0-> J/psi K+ pi- e B^0_s-> J/psi K+ K-.
Questa tesi si svolge nell’ambito della ricerca del bosone di Higgs supersimmetrico all’esperimento CMS del Cern, sfruttando le collisioni protone-protone dell’acceleratore LHC. Il lavoro da me svolto riguarda lo studio della parametrizzazione dell’insieme dei dati che costituiscono il fondo dell’eventuale presenza di un segnale del bosone di Higgs nel modello supersimmetrico minimale. Ho eseguito dei fit al fondo aspettato tramite il package Root, utilizzando diverse funzioni per parametrizzarne analiticamente l’andamento. Nel lavoro di tesi mostro come tali funzioni approssimano i dati e ne discuto le loro caratteristiche e differenze.
L'obiettivo di questa tesi è studiare la fattibilità dello studio della produzione associata ttH del bosone di Higgs con due quark top nell'esperimento CMS, e valutare le funzionalità e le caratteristiche della prossima generazione di toolkit per l'analisi distribuita a CMS (CRAB versione 3) per effettuare tale analisi. Nel settore della fisica del quark top, la produzione ttH è particolarmente interessante, soprattutto perchè rappresenta l'unica opportunità di studiare direttamente il vertice t-H senza dover fare assunzioni riguardanti possibili contributi dalla fisica oltre il Modello Standard. La preparazione per questa analisi è cruciale in questo momento, prima dell'inizio del Run-2 dell'LHC nel 2015. Per essere preparati a tale studio, le implicazioni tecniche di effettuare un'analisi completa in un ambito di calcolo distribuito come la Grid non dovrebbero essere sottovalutate. Per questo motivo, vengono presentati e discussi un'analisi dello stesso strumento CRAB3 (disponibile adesso in versione di pre-produzione) e un confronto diretto di prestazioni con CRAB2. Saranno raccolti e documentati inoltre suggerimenti e consigli per un team di analisi che sarà eventualmente coinvolto in questo studio. Nel Capitolo 1 è introdotta la fisica delle alte energie a LHC nell'esperimento CMS. Il Capitolo 2 discute il modello di calcolo di CMS e il sistema di analisi distribuita della Grid. Nel Capitolo 3 viene brevemente presentata la fisica del quark top e del bosone di Higgs. Il Capitolo 4 è dedicato alla preparazione dell'analisi dal punto di vista degli strumenti della Grid (CRAB3 vs CRAB2). Nel capitolo 5 è presentato e discusso uno studio di fattibilità per un'analisi del canale ttH in termini di efficienza di selezione.
Nei prossimi anni sia il Large Hadron Collider al CERN che i relativi esperimenti saranno oggetto di programmi di upgrade. Per i rivelatori una delle motivazioni dell’upgrade è l’invecchiamento che inevitabilmente ne peggiorerebbe le prestazioni in mancanza di interventi. Si sono studiati gli effetti dell’invecchiamentO del rivelatore di muoni a grande angolo di CMS sulla ricostruzione di eventi H→ 4μ: un canale centrale nel programma futuro di fisica delle alte energie e la cui identificazione è affidata essenzialmente al rivelatore di muoni. Benchè la ridondanza, insita nel progetto del rivelatore, riduca l’impatto dell’inefficienza locale sui risultati finali, si è osservato dalla simulazione che, mentre il 30% di hit persi si traduce nella perdita dell’8% di eventi H→4μ, il 30% di camere non funzionanti causa un perdita di eventi che può arrivare al 27%. Poichè la disattivazione di un’intera camera può essere l’effetto del danneggiamento dell’elettronica di lettura, la quale è attualmente situata nella caverna sperimentale ed esposta quindi alle radiazioni, questi risultati potrebbero indicare la necessità di prevedere nel programma di upgrade la sostituzione dell’elettronica con nuovi dispositivi da collocarsi fuori della caverna, al riparo dalle radiazioni.
Nowadays, data handling and data analysis in High Energy Physics requires a vast amount of computational power and storage. In particular, the world-wide LHC Com- puting Grid (LCG), an infrastructure and pool of services developed and deployed by a ample community of physicists and computer scientists, has demonstrated to be a game changer in the efficiency of data analyses during Run-I at the LHC, playing a crucial role in the Higgs boson discovery. Recently, the Cloud computing paradigm is emerging and reaching a considerable adoption level by many different scientific organizations and not only. Cloud allows to access and utilize not-owned large computing resources shared among many scientific communities. Considering the challenging requirements of LHC physics in Run-II and beyond, the LHC computing community is interested in exploring Clouds and see whether they can provide a complementary approach - or even a valid alternative - to the existing technological solutions based on Grid. In the LHC community, several experiments have been adopting Cloud approaches, and in particular the experience of the CMS experiment is of relevance to this thesis. The LHC Run-II has just started, and Cloud-based solutions are already in production for CMS. However, other approaches of Cloud usage are being thought of and are at the prototype level, as the work done in this thesis. This effort is of paramount importance to be able to equip CMS with the capability to elastically and flexibly access and utilize the computing resources needed to face the challenges of Run-III and Run-IV. The main purpose of this thesis is to present forefront Cloud approaches that allow the CMS experiment to extend to on-demand resources dynamically allocated as needed. Moreover, a direct access to Cloud resources is presented as suitable use case to face up with the CMS experiment needs. Chapter 1 presents an overview of High Energy Physics at the LHC and of the CMS experience in Run-I, as well as preparation for Run-II. Chapter 2 describes the current CMS Computing Model, and Chapter 3 provides Cloud approaches pursued and used within the CMS Collaboration. Chapter 4 and Chapter 5 discuss the original and forefront work done in this thesis to develop and test working prototypes of elastic extensions of CMS computing resources on Clouds, and HEP Computing “as a Service”. The impact of such work on a benchmark CMS physics use-cases is also demonstrated.
In questa tesi sono le descritte le fasi progettuali e costruttive del Beam Halo Monitor (BHM), un rivelatore installato sull'esperimento CMS, durante il primo lungo periodo di shutdown di LHC, che ha avuto luogo tra il 2013 ed il 2015. BHM è un rivelatore ad emissione di luce Cherenkov ed ha lo scopo di monitorare le particelle di alone prodotte dai fasci di LHC, che arrivano fino alla caverna sperimentale di CMS, ad ogni bunch crossing (25 ns). E' composto da 40 moduli, installati alle due estremità di CMS, attorno alla linea di fascio, ad una distanza di 1.8 m da questa. Ciascun modulo è costituito da un cristallo di quarzo, utilizzato come radiatore ed un fotomoltiplicatore. Sono descritte in maniera particolare le prove eseguite sui moduli che lo compongono: la caratterizzazione dei fotomoltiplicatori ed i test di direzionalità della risposta. Queste costituiscono la parte di lavoro che ho svolto personalmente. Inoltre sono descritte le fasi di installazione del rivelatore nella caverna sperimentale, a cui ho preso parte ed alcuni test preliminari per la verifica del funzionamento.
We present here a characterization of the Monte Carlo samples used at CMS in the current LHC run (Run 2, sqrt(s)=13 TeV) and we compare them to the ones used in the previous run (Run 1, sqrt(s)=8 TeV). We then use these samples to reconstruct the top quark mass from the all-hadronic decay products and we compare the efficiencies of the standard reconstruction method when applied to the two different samples. We finally find a way to improve the efficiency for 13 TeV samples by using jets reconstructed with a different algorithm, the Cambridge-Aachen algorithm.