917 resultados para LHC,CMS,Big Data


Relevância:

100.00% 100.00%

Publicador:

Resumo:

The development of Next Generation Sequencing promotes Biology in the Big Data era. The ever-increasing gap between proteins with known sequences and those with a complete functional annotation requires computational methods for automatic structure and functional annotation. My research has been focusing on proteins and led so far to the development of three novel tools, DeepREx, E-SNPs&GO and ISPRED-SEQ, based on Machine and Deep Learning approaches. DeepREx computes the solvent exposure of residues in a protein chain. This problem is relevant for the definition of structural constraints regarding the possible folding of the protein. DeepREx exploits Long Short-Term Memory layers to capture residue-level interactions between positions distant in the sequence, achieving state-of-the-art performances. With DeepRex, I conducted a large-scale analysis investigating the relationship between solvent exposure of a residue and its probability to be pathogenic upon mutation. E-SNPs&GO predicts the pathogenicity of a Single Residue Variation. Variations occurring on a protein sequence can have different effects, possibly leading to the onset of diseases. E-SNPs&GO exploits protein embeddings generated by two novel Protein Language Models (PLMs), as well as a new way of representing functional information coming from the Gene Ontology. The method achieves state-of-the-art performances and is extremely time-efficient when compared to traditional approaches. ISPRED-SEQ predicts the presence of Protein-Protein Interaction sites in a protein sequence. Knowing how a protein interacts with other molecules is crucial for accurate functional characterization. ISPRED-SEQ exploits a convolutional layer to parse local context after embedding the protein sequence with two novel PLMs, greatly surpassing the current state-of-the-art. All methods are published in international journals and are available as user-friendly web servers. They have been developed keeping in mind standard guidelines for FAIRness (FAIR: Findable, Accessible, Interoperable, Reusable) and are integrated into the public collection of tools provided by ELIXIR, the European infrastructure for Bioinformatics.

Relevância:

100.00% 100.00%

Publicador:

Resumo:

Hematological cancers are a heterogeneous family of diseases that can be divided into leukemias, lymphomas, and myelomas, often called “liquid tumors”. Since they cannot be surgically removable, chemotherapy represents the mainstay of their treatment. However, it still faces several challenges like drug resistance and low response rate, and the need for new anticancer agents is compelling. The drug discovery process is long-term, costly, and prone to high failure rates. With the rapid expansion of biological and chemical "big data", some computational techniques such as machine learning tools have been increasingly employed to speed up and economize the whole process. Machine learning algorithms can create complex models with the aim to determine the biological activity of compounds against several targets, based on their chemical properties. These models are defined as multi-target Quantitative Structure-Activity Relationship (mt-QSAR) and can be used to virtually screen small and large chemical libraries for the identification of new molecules with anticancer activity. The aim of my Ph.D. project was to employ machine learning techniques to build an mt-QSAR classification model for the prediction of cytotoxic drugs simultaneously active against 43 hematological cancer cell lines. For this purpose, first, I constructed a large and diversified dataset of molecules extracted from the ChEMBL database. Then, I compared the performance of different ML classification algorithms, until Random Forest was identified as the one returning the best predictions. Finally, I used different approaches to maximize the performance of the model, which achieved an accuracy of 88% by correctly classifying 93% of inactive molecules and 72% of active molecules in a validation set. This model was further applied to the virtual screening of a small dataset of molecules tested in our laboratory, where it showed 100% accuracy in correctly classifying all molecules. This result is confirmed by our previous in vitro experiments.

Relevância:

100.00% 100.00%

Publicador:

Resumo:

In the Era of precision medicine and big medical data sharing, it is necessary to solve the work-flow of digital radiological big data in a productive and effective way. In particular, nowadays, it is possible to extract information “hidden” in digital images, in order to create diagnostic algorithms helping clinicians to set up more personalized therapies, which are in particular targets of modern oncological medicine. Digital images generated by the patient have a “texture” structure that is not visible but encrypted; it is “hidden” because it cannot be recognized by sight alone. Thanks to artificial intelligence, pre- and post-processing software and generation of mathematical calculation algorithms, we could perform a classification based on non-visible data contained in radiological images. Being able to calculate the volume of tissue body composition could lead to creating clasterized classes of patients inserted in standard morphological reference tables, based on human anatomy distinguished by gender and age, and maybe in future also by race. Furthermore, the branch of “morpho-radiology" is a useful modality to solve problems regarding personalized therapies, which is particularly needed in the oncological field. Actually oncological therapies are no longer based on generic drugs but on target personalized therapy. The lack of gender and age therapies table could be filled thanks to morpho-radiology data analysis application.

Relevância:

100.00% 100.00%

Publicador:

Resumo:

Lo scopo del presente elaborato è ottenere dati grezzi dai maggiori offerwalls affinché si renda possibile elaborarli ed analizzarli per metterli a disposizione delle figure che si occupano di account management di un potenziale Ad Network quale è MyAppFree. Il primo Ad Network competitor a venire integrato nel presente tool di Business Intelligence è OfferToro, seguito da AdGem, il quale è attualmente in fase di integrazione. Prima di presentare i risultati del tool, a cui è stato dedicato l’ultimo capitolo dell’elaborato, sono stati approfonditi ed analizzati ampiamente i concetti fondamentali per la comprensione del progetto insieme agli strumenti utilizzati per la costituzione dell’architettura software. Successivamente, viene presentata l'architettura dei singoli microservizi oltre a quella sistemistica generale, la quale tratta come le parti che compongono iBiT, interagiscono tra loro. Infine, l’ultima parte della trattazione è dedicata al funzionamento del Front End Side per la figura account manager, che rappresenta l’utente finale del progetto. Unita alle analisi dei risultati ottenuti tramite una fase di benchmark testing, metrica che misura un insieme ripetibile di risultati quantificabili che serve come punto di riferimento perché prodotti e servizi possano essere confrontati. Lo scopo dei risultati dei test di benchmark è quello di confrontare le versioni presenti e future del software tramite i rispettivi benchmark.

Relevância:

100.00% 100.00%

Publicador:

Resumo:

Negli ultimi anni, a causa della crescente tendenza verso i Big Data, l’apprendimento automatico è diventato un approccio di previsione fondamentale perché può prevedere i prezzi delle case in modo accurato in base agli attributi delle abitazioni. In questo elaborato, verranno messe in pratica alcune tecniche di machine learning con l’obiettivo di effettuare previsioni sui prezzi delle abitazioni. Ad esempio, si può pensare all’acquisto di una nuova casa, saranno tanti i fattori di cui si dovrà preoccuparsi, la posizione, i metri quadrati, l’inquinamento dell’aria, il numero di stanze, il numero dei bagni e così via. Tutti questi fattori possono influire in modo più o meno pesante sul prezzo di quell’abitazione. E’ proprio in casi come questi che può essere applicata l’intelligenza artificiale, nello specifico il machine learning, per riuscire a trovare un modello che approssimi nel miglior modo un prezzo, data una serie di caratteristiche. In questa tesi verrà dimostrato come è possibile utilizzare l’apprendimento automatico per effettuare delle stime il più preciso possibile dei prezzi delle case. La tesi è divisa in 5 capitoli, nel primo capitolo verranno introdotti i concetti di base su cui si basa l’elaborato e alcune spiegazioni dei singoli modelli. Nel secondo capitolo, invece, viene trattato l’ambiente di lavoro utilizzato, il linguaggio e le relative librerie utilizzate. Il terzo capitolo contiene un’analisi esplorativa sul dataset utilizzato e vengono effettuate delle operazioni per preparare i dati agli algoritmi che verranno applicati in seguito. Nel capitolo 4 vengono creati i diversi modelli ed effettuate le previsioni sui prezzi mentre nel capitolo 5 vengono analizzati i risultati ottenuti e riportate le conclusioni.

Relevância:

100.00% 100.00%

Publicador:

Resumo:

La ricostruzione delle traiettorie delle particelle prodotte dai vertici di interazione a LHC è di fondamentale importanza per tutti gli esperimenti. Questo passo è uno dei più dispendiosi in termini di tempo e calcolo computazionale nella catena di ricostruzione dell’evento e diventa sempre più complesso con l’aumentare del numero di collisioni. L’esperimento CMS adotta un rivelatore di tracciamento con tecnologia al silicio, dove la parte più interna sfrutta rivelatori con geometria a pixel, mentre la parte esterna utilizza delle strisce di silicio. Per quanto riguarda la ricostruzione nel rivelatore a pixel, sono stati sviluppati diversi algoritmi ottimizzati per fronteggiare l’alto rate di acquisizione dati, sfruttando anche il calcolo parallelo su GPU, con un’efficienza di tracciamento comparabile o superiore agli algoritmi precedentemente utilizzati. Questi nuovi algoritmi sono alla base del software Patatrack per la ricostruzione delle traiettorie. Il lavoro descritto in questa tesi punta ad adattare Patatrack ad una geometria diversa e più complessa di quella di CMS e di valutarne le prestazioni di fisica e computazionali. Sono stati utilizzati i dati forniti dalla TrackML challenge, il cui scopo è incentivare lo sviluppo di nuovi algoritmi di ricostruzione di tracce per gli esperimenti in fisica delle alte energie. E' stato condotto uno studio approfondito della nuova geometria per potervi successivamente adattare il software esistente. Infine, la catena di ricostruzione è stata modificata per poter utilizzare i dati forniti dalla TrackML challenge e permettere la ricostruzione delle traiettorie.

Relevância:

100.00% 100.00%

Publicador:

Resumo:

Negli ultimi anni la necessità di processare e mantenere dati di qualsiasi natura è aumentata considerevolmente, in aggiunta a questo, l’obsolescenza del modello centralizzato ha contribuito alla sempre più frequente adozione del modello distribuito. Inevitabile dunque l’aumento di traffico che attraversa i nodi appartenenti alle infrastrutture, un traffico sempre più in aumento e che con l’avvento dell’IoT, dei Big Data, del Cloud Computing, del Serverless Computing etc., ha raggiunto picchi elevatissimi. Basti pensare che se prima i dati erano contenuti in loco, oggi non è assurdo pensare che l’archiviazione dei propri dati sia completamente affidata a terzi. Così come cresce, quindi, il traffico che attraversa i nodi facenti parte di un’infrastruttura, cresce la necessità che questo traffico sia filtrato e gestito dai nodi stessi. L’obbiettivo di questa tesi è quello di estendere un Message-oriented Middleware, in grado di garantire diverse qualità di servizio per la consegna di messaggi, in modo da accelerarne la fase di routing verso i nodi destinazione. L’estensione consiste nell’aggiungere al Message-oriented Middleware, precedentemente implementato, la funzione di intercettare i pacchetti in arrivo (che nel caso del middleware in questione possono rappresentare la propagazione di eventi) e redirigerli verso un nuovo nodo in base ad alcuni parametri. Il Message-oriented Middleware oggetto di tesi sarà considerato il message broker di un modello pub/sub, pertanto la redirezione deve avvenire con tempi molto bassi di latenza e, a tal proposito, deve avvenire senza l’uscita dal kernel space del sistema operativo. Per questo motivo si è deciso di utilizzare eBPF, in particolare il modulo XDP, che permette di scrivere programmi che eseguono all’interno del kernel.

Relevância:

100.00% 100.00%

Publicador:

Resumo:

Negli ultimi anni, a causa degli enormi progressi dell’informatica e della sempre crescente quantità di dati generati, si è sentito sempre più il bisogno di trovare nuove tecniche, approcci e algoritmi per la ricerca dei dati. Infatti, la quantità di informazioni da memorizzare è diventata tale che ormai si sente sempre più spesso parlare di "Big Data". Questo nuovo scenario ha reso sempre più inefficaci gli approcci tradizionali alla ricerca di dati. Recentemente sono state quindi proposte nuove tecniche di ricerca, come ad esempio le ricerche Nearest Neighbor. In questo elaborato sono analizzate le prestazioni della ricerca di vicini in uno spazio vettoriale utilizzando come sistema di data storage Elasticsearch su un’infrastruttura cloud. In particolare, sono stati analizzati e messi a confronto i tempi di ricerca delle ricerche Nearest Neighbor esatte e approssimate, valutando anche la perdita di precisione nel caso di ricerche approssimate, utilizzando due diverse metriche di distanza: la similarità coseno e il prodotto scalare.

Relevância:

100.00% 100.00%

Publicador:

Resumo:

L'insufficienza cardiaca è una delle malattie cardiovascolari più comuni, nonché quella con maggiori tassi di riospedalizzazione. Nonostante numerosi pazienti siano sottoposti a impianto di defibrillatori cardiaci, come pacemaker e ICD, questo non è sufficiente a diminuire i casi di ricovero. L'innovazione tecnologica dei dispositivi impiantabili li ha resi compatibili con l'utilizzo del monitoraggio remoto che avviene attraverso la trasmissione di un enorme quantità di dati eterogenei, noti come Big Data. Questi offrono la possibilità di rilevare numerosi parametri da cui è possibile valutare il funzionamento del dispositivo e implementare algoritmi di medicina predittiva. In questo elaborato sono analizzati quattro casi studio (cardioMEMS, TRIAGE-HF, SELENE HF, multiSENSE), con lo scopo di confrontare gli algoritmi predittivi in essi sviluppati. Da questi studi, condotti su un insieme ristretto di campioni, è emerso che lo scompenso è predetto correttamente, ma con una previsione di riospedalizzazione a seguito di intervento che differisce in ogni studio clinico. Nello studio MultiSENSE, l'algoritmo ha previsto il 70% delle ospedalizzazioni, con un tempo medio di rilevamento di 34 giorni e 1,47 allarmi inspiegabili per anno-paziente. Questo rispetto al 65,5% e a un tempo medio di 42 giorni e rispetto a 0,63 allarmi inspiegabili per anno-paziente, nel SELENE HF. Nel caso del Triage-HF il tasso di ospedalizzazione è dello 0,2% per anno-paziente, in quanto lo studio è basato sull'associazione tra l'algoritmo e i sintomi che caratterizzano lo scompenso. Al contrario degli altri studi, lo studio cardioMEMS si è occupato di sviluppare una nuova tecnologia: un dispositivo wireless impiantabile; infatti, risulta l'unico studio con un monitoraggio remoto invasivo. Considerando la presenza di numerosi gradi di peggioramento dello scompenso e di differenti dispositivi impiantabili cardiaci è difficile creare un unico algoritmo che includa tutte le tipologie di pazienti.

Relevância:

100.00% 100.00%

Publicador:

Resumo:

Con il lancio di nuove applicazioni tecnologiche come l'Internet of Things, Big Data, Cloud computing e tecnologie mobili che stanno accelerando in maniera spropositata la velocità di cambiamento, i comportamenti, le abitudini e i modi di vivere sono completamente mutati nel favorire un mondo di tecnologie digitali che agevolino le operazioni quotidiane. Questi progressi stanno velocemente cambiando il modo in cui le aziende fanno business, con grandi ripercussioni in tutto quello che è il contesto aziendale, ma non solo. L’avvento della Digital Transformation ha incrementato questi fenomeni e la si potrebbe definire come causa scatenante di tutti i mutamenti che stiamo vivendo. La velocità e l’intensità del cambiamento ha effetti disruptive rispetto al passato, colpendo numerosi settori economici ed abitudini dei consumatori. L’obiettivo di questo elaborato è di analizzare la trasformazione digitale applicata al caso dell’azienda Alfa, comprendendone le potenzialità. In particolare, si vogliono studiare i principali risvolti portati da tale innovazione, le più importanti iniziative adottate in merito alle nuove tecnologie implementate e i benefici che queste portano in campo strategico, di business e cultura aziendale.

Relevância:

100.00% 100.00%

Publicador:

Resumo:

L’Intelligenza Artificiale negli ultimi anni sta plasmando il futuro dell’umanità in quasi tutti i settori. È già il motore principale di diverse tecnologie emergenti come i big data, la robotica e l’IoT e continuerà ad agire come innovatore tecnologico nel futuro prossimo. Le recenti scoperte e migliorie sia nel campo dell’hardware che in quello matematico hanno migliorato l’efficienza e ridotto i tempi di esecuzione dei software. È in questo contesto che sta evolvendo anche il Natural Language Processing (NLP), un ramo dell’Intelligenza Artificiale che studia il modo in cui fornire ai computer l'abilità di comprendere un testo scritto o parlato allo stesso modo in cui lo farebbe un essere umano. Le ambiguità che distinguono la lingua naturale dalle altre rendono ardui gli studi in questo settore. Molti dei recenti sviluppi algoritmici su NLP si basano su tecnologie inventate decenni fa. La ricerca in questo settore è quindi in continua evoluzione. Questa tesi si pone l'obiettivo di sviluppare la logica di una chatbot help-desk per un'azienda privata. Lo scopo è, sottoposta una domanda da parte di un utente, restituire la risposta associata presente in una collezione domande-risposte. Il problema che questa tesi affronta è sviluppare un modello di NLP in grado di comprendere il significato semantico delle domande in input, poiché esse possono essere formulate in molteplici modi, preservando il contenuto semantico a discapito della sintassi. A causa delle ridotte dimensioni del dataset italiano proprietario su cui testare il modello chatbot, sono state eseguite molteplici sperimentazioni su un ulteriore dataset italiano con task affine. Attraverso diversi approcci di addestramento, tra cui apprendimento metrico, sono state raggiunte alte accuratezze sulle più comuni metriche di valutazione, confermando le capacità del modello proposto e sviluppato.

Relevância:

100.00% 100.00%

Publicador:

Resumo:

The idea of Grid Computing originated in the nineties and found its concrete applications in contexts like the SETI@home project where a lot of computers (offered by volunteers) cooperated, performing distributed computations, inside the Grid environment analyzing radio signals trying to find extraterrestrial life. The Grid was composed of traditional personal computers but, with the emergence of the first mobile devices like Personal Digital Assistants (PDAs), researchers started theorizing the inclusion of mobile devices into Grid Computing; although impressive theoretical work was done, the idea was discarded due to the limitations (mainly technological) of mobile devices available at the time. Decades have passed, and now mobile devices are extremely more performant and numerous than before, leaving a great amount of resources available on mobile devices, such as smartphones and tablets, untapped. Here we propose a solution for performing distributed computations over a Grid Computing environment that utilizes both desktop and mobile devices, exploiting the resources from day-to-day mobile users that alternatively would end up unused. The work starts with an introduction on what Grid Computing is, the evolution of mobile devices, the idea of integrating such devices into the Grid and how to convince device owners to participate in the Grid. Then, the tone becomes more technical, starting with an explanation on how Grid Computing actually works, followed by the technical challenges of integrating mobile devices into the Grid. Next, the model, which constitutes the solution offered by this study, is explained, followed by a chapter regarding the realization of a prototype that proves the feasibility of distributed computations over a Grid composed by both mobile and desktop devices. To conclude future developments and ideas to improve this project are presented.

Relevância:

100.00% 100.00%

Publicador:

Resumo:

Il presente studio analizza l’attuale tendenza del sistema televisivo statunitense all’ibridazione con i modelli affermati già nell’era dominata dai network prima, e dalla CATV poi. Dopo una mappatura storica che permette di comprendere e apprezzare i continui cambiamenti dell’industria televisiva, lo scritto si concentra sull’analisi delle varie strategie manageriali (e sulle retoriche) che stanno alla base delle prime fasi dei servizi non lineari. Si esaminano inoltre le modalità che governano ora i tentativi di recupero di esperienze che sembravano ormai superate per lasciare spazio proprio ai modelli OTT. Infatti, data la non sostenibilità sul lungo periodo delle forme economiche, distributive, produttive, etc., adottate delle piattaforme streaming come Netflix, Amazon Prime Video e Disney+, queste cercano ora di ricostruire una dimensione lineare, alla cui matrice troviamo la weekly release, la pubblicità, la sincronizzazione sociale, la diretta e altro ancora – si pensi ai casi Pluto TV e Peacock TV, esempi di servizi HVOD (Hybrid Video on Demand) che stanno tracciando dei nuovi percorsi pur senza dimenticare ciò che ha funzionato in passato.

Relevância:

60.00% 60.00%

Publicador:

Resumo:

The purpose of the work was to realize a high-speed digital data transfer system for RPC muon chambers in the CMS experiment on CERN’s new LHC accelerator. This large scale system took many years and many stages of prototyping to develop, and required the participation of tens of people. The system interfaces to Frontend Boards (FEB) at the 200,000-channel detector and to the trigger and readout electronics in the control room of the experiment. The distance between these two is about 80 metres and the speed required for the optic links was pushing the limits of available technology when the project was started. Here, as in many other aspects of the design, it was assumed that the features of readily available commercial components would develop in the course of the design work, just as they did. By choosing a high speed it was possible to multiplex the data from some the chambers into the same fibres to reduce the number of links needed. Further reduction was achieved by employing zero suppression and data compression, and a total of only 660 optical links were needed. Another requirement, which conflicted somewhat with choosing the components a late as possible was that the design needed to be radiation tolerant to an ionizing dose of 100 Gy and to a have a moderate tolerance to Single Event Effects (SEEs). This required some radiation test campaigns, and eventually led to ASICs being chosen for some of the critical parts. The system was made to be as reconfigurable as possible. The reconfiguration needs to be done from a distance as the electronics is not accessible except for some short and rare service breaks once the accelerator starts running. Therefore reconfigurable logic is extensively used, and the firmware development for the FPGAs constituted a sizable part of the work. Some special techniques needed to be used there too, to achieve the required radiation tolerance. The system has been demonstrated to work in several laboratory and beam tests, and now we are waiting to see it in action when the LHC will start running in the autumn 2008.

Relevância:

60.00% 60.00%

Publicador:

Resumo:

The RPC Detector Control System (RCS) is the main subject of this PhD work. The project, involving the Lappeenranta University of Technology, the Warsaw University and INFN of Naples, is aimed to integrate the different subsystems for the RPC detector and its trigger chain in order to develop a common framework to control and monitoring the different parts. In this project, I have been strongly involved during the last three years on the hardware and software development, construction and commissioning as main responsible and coordinator. The CMS Resistive Plate Chambers (RPC) system consists of 912 double-gap chambers at its start-up in middle of 2008. A continuous control and monitoring of the detector, the trigger and all the ancillary sub-systems (high voltages, low voltages, environmental, gas, and cooling), is required to achieve the operational stability and reliability of a so large and complex detector and trigger system. Role of the RPC Detector Control System is to monitor the detector conditions and performance, control and monitor all subsystems related to RPC and their electronics and store all the information in a dedicated database, called Condition DB. Therefore the RPC DCS system has to assure the safe and correct operation of the sub-detectors during all CMS life time (more than 10 year), detect abnormal and harmful situations and take protective and automatic actions to minimize consequential damages. The analysis of the requirements and project challenges, the architecture design and its development as well as the calibration and commissioning phases represent themain tasks of the work developed for this PhD thesis. Different technologies, middleware and solutions has been studied and adopted in the design and development of the different components and a big challenging consisted in the integration of these different parts each other and in the general CMS control system and data acquisition framework. Therefore, the RCS installation and commissioning phase as well as its performance and the first results, obtained during the last three years CMS cosmic runs, will be