917 resultados para big data.
Resumo:
L’elaborazione di quantità di dati sempre crescente ed in tempi ragionevoli è una delle principali sfide tecnologiche del momento. La difficoltà non risiede esclusivamente nel disporre di motori di elaborazione efficienti e in grado di eseguire la computazione coordinata su un’enorme mole di dati, ma anche nel fornire agli sviluppatori di tali applicazioni strumenti di sviluppo che risultino intuitivi nell’utilizzo e facili nella messa in opera, con lo scopo di ridurre il tempo necessario a realizzare concretamente un’idea di applicazione e abbassare le barriere all’ingresso degli strumenti software disponibili. Questo lavoro di tesi prende in esame il progetto RAM3S, il cui intento è quello di semplificare la realizzazione di applicazioni di elaborazione dati basate su piattaforme di Stream Processing quali Spark, Storm, Flinke e Samza, e si occupa di esaudire il suo scopo originale fornendo un framework astratto ed estensibile per la definizione di applicazioni di stream processing, capaci di eseguire indistintamente sulle piattaforme disponibili sul mercato.
Resumo:
Biology is now a “Big Data Science” thanks to technological advancements allowing the characterization of the whole macromolecular content of a cell or a collection of cells. This opens interesting perspectives, but only a small portion of this data may be experimentally characterized. From this derives the demand of accurate and efficient computational tools for automatic annotation of biological molecules. This is even more true when dealing with membrane proteins, on which my research project is focused leading to the development of two machine learning-based methods: BetAware-Deep and SVMyr. BetAware-Deep is a tool for the detection and topology prediction of transmembrane beta-barrel proteins found in Gram-negative bacteria. These proteins are involved in many biological processes and primary candidates as drug targets. BetAware-Deep exploits the combination of a deep learning framework (bidirectional long short-term memory) and a probabilistic graphical model (grammatical-restrained hidden conditional random field). Moreover, it introduced a modified formulation of the hydrophobic moment, designed to include the evolutionary information. BetAware-Deep outperformed all the available methods in topology prediction and reported high scores in the detection task. Glycine myristoylation in Eukaryotes is the binding of a myristic acid on an N-terminal glycine. SVMyr is a fast method based on support vector machines designed to predict this modification in dataset of proteomic scale. It uses as input octapeptides and exploits computational scores derived from experimental examples and mean physicochemical features. SVMyr outperformed all the available methods for co-translational myristoylation prediction. In addition, it allows (as a unique feature) the prediction of post-translational myristoylation. Both the tools here described are designed having in mind best practices for the development of machine learning-based tools outlined by the bioinformatics community. Moreover, they are made available via user-friendly web servers. All this make them valuable tools for filling the gap between sequential and annotated data.
Resumo:
Il progetto ANTE riguarda i nuovi sistemi di traduzione automatica (TA) e la loro applicazione nel mondo delle imprese. Lo studio prende spunto dai recenti sviluppi legati all’intelligenza artificiale e ai Big Data che negli ultimi anni hanno permesso alla TA di raggiungere livelli qualitativi molto elevati, al punto tale da essere impiegata da grandi multinazionali per raggiungere nuove quote di mercato. La TA può rispondere positivamente anche ai bisogni delle imprese di piccole dimensioni e a basso tenore tecnologico, migliorando la qualità delle comunicazioni multilingue attraverso delle traduzioni in tempi brevi e a costi contenuti. Lo studio si propone quindi di contribuire al rafforzamento della competitività internazionale delle piccole e medie imprese (PMI) emiliano- romagnole, migliorando la loro capacità di comunicazione in una o più lingue straniere attraverso l’introduzione e l’utilizzo efficace e consapevole di soluzioni ICT di ultima generazione e fornire, così, nuove opportunità di internazionalizzazione.
Resumo:
The multi-faced evolution of network technologies ranges from big data centers to specialized network infrastructures and protocols for mission-critical operations. For instance, technologies such as Software Defined Networking (SDN) revolutionized the world of static configuration of the network - i.e., by removing the distributed and proprietary configuration of the switched networks - centralizing the control plane. While this disruptive approach is interesting from different points of view, it can introduce new unforeseen vulnerabilities classes. One topic of particular interest in the last years is industrial network security, an interest which started to rise in 2016 with the introduction of the Industry 4.0 (I4.0) movement. Networks that were basically isolated by design are now connected to the internet to collect, archive, and analyze data. While this approach got a lot of momentum due to the predictive maintenance capabilities, these network technologies can be exploited in various ways from a cybersecurity perspective. Some of these technologies lack security measures and can introduce new families of vulnerabilities. On the other side, these networks can be used to enable accurate monitoring, formal verification, or defenses that were not practical before. This thesis explores these two fields: by introducing monitoring, protections, and detection mechanisms where the new network technologies make it feasible; and by demonstrating attacks on practical scenarios related to emerging network infrastructures not protected sufficiently. The goal of this thesis is to highlight this lack of protection in terms of attacks on and possible defenses enabled by emerging technologies. We will pursue this goal by analyzing the aforementioned technologies and by presenting three years of contribution to this field. In conclusion, we will recapitulate the research questions and give answers to them.
Resumo:
The development of Next Generation Sequencing promotes Biology in the Big Data era. The ever-increasing gap between proteins with known sequences and those with a complete functional annotation requires computational methods for automatic structure and functional annotation. My research has been focusing on proteins and led so far to the development of three novel tools, DeepREx, E-SNPs&GO and ISPRED-SEQ, based on Machine and Deep Learning approaches. DeepREx computes the solvent exposure of residues in a protein chain. This problem is relevant for the definition of structural constraints regarding the possible folding of the protein. DeepREx exploits Long Short-Term Memory layers to capture residue-level interactions between positions distant in the sequence, achieving state-of-the-art performances. With DeepRex, I conducted a large-scale analysis investigating the relationship between solvent exposure of a residue and its probability to be pathogenic upon mutation. E-SNPs&GO predicts the pathogenicity of a Single Residue Variation. Variations occurring on a protein sequence can have different effects, possibly leading to the onset of diseases. E-SNPs&GO exploits protein embeddings generated by two novel Protein Language Models (PLMs), as well as a new way of representing functional information coming from the Gene Ontology. The method achieves state-of-the-art performances and is extremely time-efficient when compared to traditional approaches. ISPRED-SEQ predicts the presence of Protein-Protein Interaction sites in a protein sequence. Knowing how a protein interacts with other molecules is crucial for accurate functional characterization. ISPRED-SEQ exploits a convolutional layer to parse local context after embedding the protein sequence with two novel PLMs, greatly surpassing the current state-of-the-art. All methods are published in international journals and are available as user-friendly web servers. They have been developed keeping in mind standard guidelines for FAIRness (FAIR: Findable, Accessible, Interoperable, Reusable) and are integrated into the public collection of tools provided by ELIXIR, the European infrastructure for Bioinformatics.
Resumo:
Hematological cancers are a heterogeneous family of diseases that can be divided into leukemias, lymphomas, and myelomas, often called “liquid tumors”. Since they cannot be surgically removable, chemotherapy represents the mainstay of their treatment. However, it still faces several challenges like drug resistance and low response rate, and the need for new anticancer agents is compelling. The drug discovery process is long-term, costly, and prone to high failure rates. With the rapid expansion of biological and chemical "big data", some computational techniques such as machine learning tools have been increasingly employed to speed up and economize the whole process. Machine learning algorithms can create complex models with the aim to determine the biological activity of compounds against several targets, based on their chemical properties. These models are defined as multi-target Quantitative Structure-Activity Relationship (mt-QSAR) and can be used to virtually screen small and large chemical libraries for the identification of new molecules with anticancer activity. The aim of my Ph.D. project was to employ machine learning techniques to build an mt-QSAR classification model for the prediction of cytotoxic drugs simultaneously active against 43 hematological cancer cell lines. For this purpose, first, I constructed a large and diversified dataset of molecules extracted from the ChEMBL database. Then, I compared the performance of different ML classification algorithms, until Random Forest was identified as the one returning the best predictions. Finally, I used different approaches to maximize the performance of the model, which achieved an accuracy of 88% by correctly classifying 93% of inactive molecules and 72% of active molecules in a validation set. This model was further applied to the virtual screening of a small dataset of molecules tested in our laboratory, where it showed 100% accuracy in correctly classifying all molecules. This result is confirmed by our previous in vitro experiments.
Resumo:
In the Era of precision medicine and big medical data sharing, it is necessary to solve the work-flow of digital radiological big data in a productive and effective way. In particular, nowadays, it is possible to extract information “hidden” in digital images, in order to create diagnostic algorithms helping clinicians to set up more personalized therapies, which are in particular targets of modern oncological medicine. Digital images generated by the patient have a “texture” structure that is not visible but encrypted; it is “hidden” because it cannot be recognized by sight alone. Thanks to artificial intelligence, pre- and post-processing software and generation of mathematical calculation algorithms, we could perform a classification based on non-visible data contained in radiological images. Being able to calculate the volume of tissue body composition could lead to creating clasterized classes of patients inserted in standard morphological reference tables, based on human anatomy distinguished by gender and age, and maybe in future also by race. Furthermore, the branch of “morpho-radiology" is a useful modality to solve problems regarding personalized therapies, which is particularly needed in the oncological field. Actually oncological therapies are no longer based on generic drugs but on target personalized therapy. The lack of gender and age therapies table could be filled thanks to morpho-radiology data analysis application.
Resumo:
Lo scopo del presente elaborato è ottenere dati grezzi dai maggiori offerwalls affinché si renda possibile elaborarli ed analizzarli per metterli a disposizione delle figure che si occupano di account management di un potenziale Ad Network quale è MyAppFree. Il primo Ad Network competitor a venire integrato nel presente tool di Business Intelligence è OfferToro, seguito da AdGem, il quale è attualmente in fase di integrazione. Prima di presentare i risultati del tool, a cui è stato dedicato l’ultimo capitolo dell’elaborato, sono stati approfonditi ed analizzati ampiamente i concetti fondamentali per la comprensione del progetto insieme agli strumenti utilizzati per la costituzione dell’architettura software. Successivamente, viene presentata l'architettura dei singoli microservizi oltre a quella sistemistica generale, la quale tratta come le parti che compongono iBiT, interagiscono tra loro. Infine, l’ultima parte della trattazione è dedicata al funzionamento del Front End Side per la figura account manager, che rappresenta l’utente finale del progetto. Unita alle analisi dei risultati ottenuti tramite una fase di benchmark testing, metrica che misura un insieme ripetibile di risultati quantificabili che serve come punto di riferimento perché prodotti e servizi possano essere confrontati. Lo scopo dei risultati dei test di benchmark è quello di confrontare le versioni presenti e future del software tramite i rispettivi benchmark.
Resumo:
Negli ultimi anni, a causa della crescente tendenza verso i Big Data, l’apprendimento automatico è diventato un approccio di previsione fondamentale perché può prevedere i prezzi delle case in modo accurato in base agli attributi delle abitazioni. In questo elaborato, verranno messe in pratica alcune tecniche di machine learning con l’obiettivo di effettuare previsioni sui prezzi delle abitazioni. Ad esempio, si può pensare all’acquisto di una nuova casa, saranno tanti i fattori di cui si dovrà preoccuparsi, la posizione, i metri quadrati, l’inquinamento dell’aria, il numero di stanze, il numero dei bagni e così via. Tutti questi fattori possono influire in modo più o meno pesante sul prezzo di quell’abitazione. E’ proprio in casi come questi che può essere applicata l’intelligenza artificiale, nello specifico il machine learning, per riuscire a trovare un modello che approssimi nel miglior modo un prezzo, data una serie di caratteristiche. In questa tesi verrà dimostrato come è possibile utilizzare l’apprendimento automatico per effettuare delle stime il più preciso possibile dei prezzi delle case. La tesi è divisa in 5 capitoli, nel primo capitolo verranno introdotti i concetti di base su cui si basa l’elaborato e alcune spiegazioni dei singoli modelli. Nel secondo capitolo, invece, viene trattato l’ambiente di lavoro utilizzato, il linguaggio e le relative librerie utilizzate. Il terzo capitolo contiene un’analisi esplorativa sul dataset utilizzato e vengono effettuate delle operazioni per preparare i dati agli algoritmi che verranno applicati in seguito. Nel capitolo 4 vengono creati i diversi modelli ed effettuate le previsioni sui prezzi mentre nel capitolo 5 vengono analizzati i risultati ottenuti e riportate le conclusioni.
Resumo:
Negli ultimi anni la necessità di processare e mantenere dati di qualsiasi natura è aumentata considerevolmente, in aggiunta a questo, l’obsolescenza del modello centralizzato ha contribuito alla sempre più frequente adozione del modello distribuito. Inevitabile dunque l’aumento di traffico che attraversa i nodi appartenenti alle infrastrutture, un traffico sempre più in aumento e che con l’avvento dell’IoT, dei Big Data, del Cloud Computing, del Serverless Computing etc., ha raggiunto picchi elevatissimi. Basti pensare che se prima i dati erano contenuti in loco, oggi non è assurdo pensare che l’archiviazione dei propri dati sia completamente affidata a terzi. Così come cresce, quindi, il traffico che attraversa i nodi facenti parte di un’infrastruttura, cresce la necessità che questo traffico sia filtrato e gestito dai nodi stessi. L’obbiettivo di questa tesi è quello di estendere un Message-oriented Middleware, in grado di garantire diverse qualità di servizio per la consegna di messaggi, in modo da accelerarne la fase di routing verso i nodi destinazione. L’estensione consiste nell’aggiungere al Message-oriented Middleware, precedentemente implementato, la funzione di intercettare i pacchetti in arrivo (che nel caso del middleware in questione possono rappresentare la propagazione di eventi) e redirigerli verso un nuovo nodo in base ad alcuni parametri. Il Message-oriented Middleware oggetto di tesi sarà considerato il message broker di un modello pub/sub, pertanto la redirezione deve avvenire con tempi molto bassi di latenza e, a tal proposito, deve avvenire senza l’uscita dal kernel space del sistema operativo. Per questo motivo si è deciso di utilizzare eBPF, in particolare il modulo XDP, che permette di scrivere programmi che eseguono all’interno del kernel.
Resumo:
Negli ultimi anni, a causa degli enormi progressi dell’informatica e della sempre crescente quantità di dati generati, si è sentito sempre più il bisogno di trovare nuove tecniche, approcci e algoritmi per la ricerca dei dati. Infatti, la quantità di informazioni da memorizzare è diventata tale che ormai si sente sempre più spesso parlare di "Big Data". Questo nuovo scenario ha reso sempre più inefficaci gli approcci tradizionali alla ricerca di dati. Recentemente sono state quindi proposte nuove tecniche di ricerca, come ad esempio le ricerche Nearest Neighbor. In questo elaborato sono analizzate le prestazioni della ricerca di vicini in uno spazio vettoriale utilizzando come sistema di data storage Elasticsearch su un’infrastruttura cloud. In particolare, sono stati analizzati e messi a confronto i tempi di ricerca delle ricerche Nearest Neighbor esatte e approssimate, valutando anche la perdita di precisione nel caso di ricerche approssimate, utilizzando due diverse metriche di distanza: la similarità coseno e il prodotto scalare.
Resumo:
L'insufficienza cardiaca è una delle malattie cardiovascolari più comuni, nonché quella con maggiori tassi di riospedalizzazione. Nonostante numerosi pazienti siano sottoposti a impianto di defibrillatori cardiaci, come pacemaker e ICD, questo non è sufficiente a diminuire i casi di ricovero. L'innovazione tecnologica dei dispositivi impiantabili li ha resi compatibili con l'utilizzo del monitoraggio remoto che avviene attraverso la trasmissione di un enorme quantità di dati eterogenei, noti come Big Data. Questi offrono la possibilità di rilevare numerosi parametri da cui è possibile valutare il funzionamento del dispositivo e implementare algoritmi di medicina predittiva. In questo elaborato sono analizzati quattro casi studio (cardioMEMS, TRIAGE-HF, SELENE HF, multiSENSE), con lo scopo di confrontare gli algoritmi predittivi in essi sviluppati. Da questi studi, condotti su un insieme ristretto di campioni, è emerso che lo scompenso è predetto correttamente, ma con una previsione di riospedalizzazione a seguito di intervento che differisce in ogni studio clinico. Nello studio MultiSENSE, l'algoritmo ha previsto il 70% delle ospedalizzazioni, con un tempo medio di rilevamento di 34 giorni e 1,47 allarmi inspiegabili per anno-paziente. Questo rispetto al 65,5% e a un tempo medio di 42 giorni e rispetto a 0,63 allarmi inspiegabili per anno-paziente, nel SELENE HF. Nel caso del Triage-HF il tasso di ospedalizzazione è dello 0,2% per anno-paziente, in quanto lo studio è basato sull'associazione tra l'algoritmo e i sintomi che caratterizzano lo scompenso. Al contrario degli altri studi, lo studio cardioMEMS si è occupato di sviluppare una nuova tecnologia: un dispositivo wireless impiantabile; infatti, risulta l'unico studio con un monitoraggio remoto invasivo. Considerando la presenza di numerosi gradi di peggioramento dello scompenso e di differenti dispositivi impiantabili cardiaci è difficile creare un unico algoritmo che includa tutte le tipologie di pazienti.
Resumo:
Con il lancio di nuove applicazioni tecnologiche come l'Internet of Things, Big Data, Cloud computing e tecnologie mobili che stanno accelerando in maniera spropositata la velocità di cambiamento, i comportamenti, le abitudini e i modi di vivere sono completamente mutati nel favorire un mondo di tecnologie digitali che agevolino le operazioni quotidiane. Questi progressi stanno velocemente cambiando il modo in cui le aziende fanno business, con grandi ripercussioni in tutto quello che è il contesto aziendale, ma non solo. L’avvento della Digital Transformation ha incrementato questi fenomeni e la si potrebbe definire come causa scatenante di tutti i mutamenti che stiamo vivendo. La velocità e l’intensità del cambiamento ha effetti disruptive rispetto al passato, colpendo numerosi settori economici ed abitudini dei consumatori. L’obiettivo di questo elaborato è di analizzare la trasformazione digitale applicata al caso dell’azienda Alfa, comprendendone le potenzialità. In particolare, si vogliono studiare i principali risvolti portati da tale innovazione, le più importanti iniziative adottate in merito alle nuove tecnologie implementate e i benefici che queste portano in campo strategico, di business e cultura aziendale.
Resumo:
L’Intelligenza Artificiale negli ultimi anni sta plasmando il futuro dell’umanità in quasi tutti i settori. È già il motore principale di diverse tecnologie emergenti come i big data, la robotica e l’IoT e continuerà ad agire come innovatore tecnologico nel futuro prossimo. Le recenti scoperte e migliorie sia nel campo dell’hardware che in quello matematico hanno migliorato l’efficienza e ridotto i tempi di esecuzione dei software. È in questo contesto che sta evolvendo anche il Natural Language Processing (NLP), un ramo dell’Intelligenza Artificiale che studia il modo in cui fornire ai computer l'abilità di comprendere un testo scritto o parlato allo stesso modo in cui lo farebbe un essere umano. Le ambiguità che distinguono la lingua naturale dalle altre rendono ardui gli studi in questo settore. Molti dei recenti sviluppi algoritmici su NLP si basano su tecnologie inventate decenni fa. La ricerca in questo settore è quindi in continua evoluzione. Questa tesi si pone l'obiettivo di sviluppare la logica di una chatbot help-desk per un'azienda privata. Lo scopo è, sottoposta una domanda da parte di un utente, restituire la risposta associata presente in una collezione domande-risposte. Il problema che questa tesi affronta è sviluppare un modello di NLP in grado di comprendere il significato semantico delle domande in input, poiché esse possono essere formulate in molteplici modi, preservando il contenuto semantico a discapito della sintassi. A causa delle ridotte dimensioni del dataset italiano proprietario su cui testare il modello chatbot, sono state eseguite molteplici sperimentazioni su un ulteriore dataset italiano con task affine. Attraverso diversi approcci di addestramento, tra cui apprendimento metrico, sono state raggiunte alte accuratezze sulle più comuni metriche di valutazione, confermando le capacità del modello proposto e sviluppato.
Resumo:
The idea of Grid Computing originated in the nineties and found its concrete applications in contexts like the SETI@home project where a lot of computers (offered by volunteers) cooperated, performing distributed computations, inside the Grid environment analyzing radio signals trying to find extraterrestrial life. The Grid was composed of traditional personal computers but, with the emergence of the first mobile devices like Personal Digital Assistants (PDAs), researchers started theorizing the inclusion of mobile devices into Grid Computing; although impressive theoretical work was done, the idea was discarded due to the limitations (mainly technological) of mobile devices available at the time. Decades have passed, and now mobile devices are extremely more performant and numerous than before, leaving a great amount of resources available on mobile devices, such as smartphones and tablets, untapped. Here we propose a solution for performing distributed computations over a Grid Computing environment that utilizes both desktop and mobile devices, exploiting the resources from day-to-day mobile users that alternatively would end up unused. The work starts with an introduction on what Grid Computing is, the evolution of mobile devices, the idea of integrating such devices into the Grid and how to convince device owners to participate in the Grid. Then, the tone becomes more technical, starting with an explanation on how Grid Computing actually works, followed by the technical challenges of integrating mobile devices into the Grid. Next, the model, which constitutes the solution offered by this study, is explained, followed by a chapter regarding the realization of a prototype that proves the feasibility of distributed computations over a Grid composed by both mobile and desktop devices. To conclude future developments and ideas to improve this project are presented.