761 resultados para Query


Relevância:

10.00% 10.00%

Publicador:

Resumo:

This paper presents our work at 2016 FIRE CHIS. Given a CHIS query and a document associated with that query, the task is to classify the sentences in the document as relevant to the query or not; and further classify the relevant sentences to be supporting, neutral or opposing to the claim made in the query. In this paper, we present two different approaches to do the classification. With the first approach, we implement two models to satisfy the task. We first implement an information retrieval model to retrieve the sentences that are relevant to the query; and then we use supervised learning method to train a classification model to classify the relevant sentences into support, oppose or neutral. With the second approach, we only use machine learning techniques to learn a model and classify the sentences into four classes (relevant & support, relevant & neutral, relevant & oppose, irrelevant & neutral). Our submission for CHIS uses the first approach.

Relevância:

10.00% 10.00%

Publicador:

Resumo:

I big data sono caratterizzati dalle ben note 4v: volume, velocità, veracità e varietà. Quest'ultima risulta di importanza critica nei sistemi schema-less, dove il concetto di schema non è rigido. In questo contesto rientrano i database NoSQL, i quali offrono modelli dati diversi dal classico modello dati relazionale, ovvero: documentale, wide-column, grafo e key-value. Si parla di multistore quando ci si riferisce all'uso di database con modelli dati diversi che vengono esposti con un'unica interfaccia di interrogazione, sia per sfruttare caratteristiche di un modello dati che per le maggiori performance dei database NoSQL in contesti distribuiti. Fare analisi sui dati all'interno di un multistore risulta molto più complesso: i dati devono essere integrati e va ripristinata la consistenza. A questo scopo nasce la necessità di approcci più soft, chiamati pay-as-you-go: l'integrazione è leggera e incrementale, aggira la complessità degli approcci di integrazione tradizionali e restituisce risposte best-effort o approssimative. Seguendo tale filosofia, nasce il concetto di dataspace come rappresentazione logica e di alto livello dei dataset disponibili. Obiettivo di questo lavoro tesi è studiare, progettare e realizzare una modalità di interrogazione delle sorgenti dati eterogenee in contesto multistore con l'intento di fare analisi situazionali, considerando le problematiche di varietà e appoggiandosi all'integrazione fornita dal dataspace. Lo scopo finale è di sviluppare un prototipo che esponga un'interfaccia per interrogare il dataspace con la semantica GPSJ, ovvero la classe di query più comune nelle applicazioni OLAP. Un'interrogazione nel dataspace dovrà essere tradotta in una serie di interrogazioni nelle sorgenti e, attraverso un livello middleware, i risultati parziali dovranno essere integrati tra loro in modo che il risultato dell'interrogazione sia corretto e allo stesso tempo completo.

Relevância:

10.00% 10.00%

Publicador:

Resumo:

Dopo lo sviluppo dei primi casi di Covid-19 in Cina nell’autunno del 2019, ad inizio 2020 l’intero pianeta è precipitato in una pandemia globale che ha stravolto le nostre vite con conseguenze che non si vivevano dall’influenza spagnola. La grandissima quantità di paper scientifici in continua pubblicazione sul coronavirus e virus ad esso affini ha portato alla creazione di un unico dataset dinamico chiamato CORD19 e distribuito gratuitamente. Poter reperire informazioni utili in questa mole di dati ha ulteriormente acceso i riflettori sugli information retrieval systems, capaci di recuperare in maniera rapida ed efficace informazioni preziose rispetto a una domanda dell'utente detta query. Di particolare rilievo è stata la TREC-COVID Challenge, competizione per lo sviluppo di un sistema di IR addestrato e testato sul dataset CORD19. Il problema principale è dato dal fatto che la grande mole di documenti è totalmente non etichettata e risulta dunque impossibile addestrare modelli di reti neurali direttamente su di essi. Per aggirare il problema abbiamo messo a punto nuove soluzioni self-supervised, a cui abbiamo applicato lo stato dell'arte del deep metric learning e dell'NLP. Il deep metric learning, che sta avendo un enorme successo soprattuto nella computer vision, addestra il modello ad "avvicinare" tra loro immagini simili e "allontanare" immagini differenti. Dato che sia le immagini che il testo vengono rappresentati attraverso vettori di numeri reali (embeddings) si possano utilizzare le stesse tecniche per "avvicinare" tra loro elementi testuali pertinenti (e.g. una query e un paragrafo) e "allontanare" elementi non pertinenti. Abbiamo dunque addestrato un modello SciBERT con varie loss, che ad oggi rappresentano lo stato dell'arte del deep metric learning, in maniera completamente self-supervised direttamente e unicamente sul dataset CORD19, valutandolo poi sul set formale TREC-COVID attraverso un sistema di IR e ottenendo risultati interessanti.

Relevância:

10.00% 10.00%

Publicador:

Resumo:

Most of the existing open-source search engines, utilize keyword or tf-idf based techniques to find relevant documents and web pages relative to an input query. Although these methods, with the help of a page rank or knowledge graphs, proved to be effective in some cases, they often fail to retrieve relevant instances for more complicated queries that would require a semantic understanding to be exploited. In this Thesis, a self-supervised information retrieval system based on transformers is employed to build a semantic search engine over the library of Gruppo Maggioli company. Semantic search or search with meaning can refer to an understanding of the query, instead of simply finding words matches and, in general, it represents knowledge in a way suitable for retrieval. We chose to investigate a new self-supervised strategy to handle the training of unlabeled data based on the creation of pairs of ’artificial’ queries and the respective positive passages. We claim that by removing the reliance on labeled data, we may use the large volume of unlabeled material on the web without being limited to languages or domains where labeled data is abundant.

Relevância:

10.00% 10.00%

Publicador:

Resumo:

This article presents the results of a systematic critical review of interdisciplinary literature concerned with digital text (or e-text) uses in education and proposes recommendations for how e-texts can be implemented for impactful learning. A variety of e-texts can be found in the repertoire of educational resources accessible to students, and in the constantly changing terrain of educational technologies, they are rapidly evolving, presenting new opportunities and affordances for student learning. We highlight some of the ways in which academic studies have examined e-texts as part of teaching and learning practices, placing a particular emphasis on aspects of learning such as recall, comprehension, retention of information and feedback. We also review diverse practices associated with uses of e-text tools such as note-taking, annotation, bookmarking, hypertexts and highlighting. We argue that evidence-based studies into e-texts are overwhelmingly structured around reinforcing the existing dichotomy pitting print-based (‘traditional’) texts against e-texts. In this article, we query this approach and instead propose to focus on factors such as students’ level of awareness of their options in accessing learning materials and whether they are instructed and trained in how to take full advantage of the capabilities of e-texts, both of which have been found to affect learning performance.

Relevância:

10.00% 10.00%

Publicador:

Resumo:

Utilizzando un servizio basato sulla posizione milioni di utenti acconsentono ogni giorno all'utilizzo e alla memorizzazione, da parte delle aziende fornitrici, dei propri dati personali. La legislazione attuale consente agli utilizzatori di questi servizi un discreto grado di protezione attraverso l'anonimizzazione dei dati. Esistono tuttavia situazioni in cui queste informazioni sono a rischio: se un malintenzionato dovesse penetrare con successo nel server in cui questi dati sono memorizzati potrebbe comunque essere in grado di accedere ai dati sensibili di un utente. Attraverso alcune tecniche, infatti, è possibile risalire a chi sono riferite le informazioni attraverso dei quasi-identifier. La soluzione può essere di approssimare i dati sulla posizione di un utente in modo da non offrire una visione troppo precisa a un possibile avversario nel caso in cui esso riesca a recuperarli. Allo scopo di comprendere i parametri con cui offuscare l'utente è stato scritto uno script in grado di simulare l'attività di diversi utenti circolanti per la città di New York. Questi ultimi simuleranno delle richieste ad un ipotetico servizio basato sulla posizione ad intervalli regolari. Queste richieste simulano il refresh automatico che uno smartphone compie. Attraverso i dati di queste ultime sarà possibile capire quali utenti si trovino in prossimità l'uno dell'altro, in modo da confondere le reciproche informazioni. Questo sistema fa sì che un avversario veda ridotte le sue possibilità di risalire ai dati relativi all'utente. Al ridursi dell'intervallo di esecuzione delle query si avrà un percorso più definito che però comporterà una maggiore quantità di dati recuperati. All'aumentare del raggio si avrà una maggiore incertezza nella posizione che ridurrà però il valore che i dati portano per un fornitore di servizi. Bilanciare quindi il valore economico dei dati e la protezione a cui è sottoposto un utente è fondamentale per comprendere i valori di offuscamento utilizzabili.

Relevância:

10.00% 10.00%

Publicador:

Resumo:

Questo elaborato mostra lo sviluppo di un plugin per la visualizzazione in Grafana di eventi provenienti dalla piattaforma semantica SEPA (SPARQL Event Processing Architecture). La principale funzione svolta dal SEPA è quella di notificare in modo asincrono i propri client rispetto al cambiamento dei risultati di una query che interroga il sottostante grafo RDF. La piattaforma trova il suo utilizzo in quei contesti caratterizzati da dati dinamici, eterogenei e non strutturati e viene impiegata principalmente come strumento per abilitare l’interoperabilità in domini come per esempio l’Internet of Things. Nasce quindi l’esigenza di disporre di strumenti per il monitoraggio e la visualizzazione di dati real-time. Grafana risulta in questo caso lo strumento ideale data la sua flessibilità, che affiancata alla sua natura open source, lo rende particolarmente interessante per lo sviluppo della soluzione proposta da VAIMEE, spinoff dell’Università di Bologna, ospitato presso il CesenaLab, luogo dove è stato svolto questo lavoro di tesi.

Relevância:

10.00% 10.00%

Publicador:

Resumo:

The Neural Networks customized and tested in this thesis (WaldoNet, FlowNet and PatchNet) are a first exploration and approach to the Template Matching task. The possibilities of extension are therefore many and some are proposed below. During my thesis, I have analyzed the functioning of the classical algorithms and adapted with deep learning algorithms. The features extracted from both the template and the query images resemble the keypoints of the SIFT algorithm. Then, instead of similarity function or keypoints matching, WaldoNet and PatchNet use the convolutional layer to compare the features, while FlowNet uses the correlational layer. In addition, I have identified the major challenges of the Template Matching task (affine/non-affine transformations, intensity changes...) and solved them with a careful design of the dataset.

Relevância:

10.00% 10.00%

Publicador:

Resumo:

Gli obiettivi di questi tesi sono lo studio comparativo di alcuni DBMS non relazionali e il confronto di diverse soluzioni di modellazione logica e fisica per database non relazionali. Utilizzando come sistemi di gestione due DBMS Document-based non relazionali, MongoDB e CouchDB, ed un DBMS relazionale, Oracle, sarà effettuata un’analisi di diverse soluzione di modellazione logica dei dati in database documentali e uno studio mirato alla scelta degli attributi sui quali costruire indici. In primo luogo verrà definito un semplice caso di studio su cui effettuare i confronto, basato su due entità in relazione 1:N, sulle quali sarà costruito un opportuno carico di lavoro. Idatabase non relazionali sono schema-less, senza schema fisso, ed esiste una libertà maggiore di modellazione. In questo lavoro di tesi i dati verranno modellati secondo le tecniche del Referencing ed Embedding che consistono rispettivamente nell’inserimento di una chiave (riferimento) oppure di un intero sotto-documento (embedding) all’interno di un documento per poter esprimere il concetto di relazione tra diverse entità. Per studiare l’opportunità di indicizzare un attributo, ciascuna entità sarà poi composta da due triplette uguali di attributi definiti con differenti livelli di selettività, con la differenza che su ciascun attributo della seconda sarà costruito un indice. Il carico di lavoro sarà costituito da query definite in modo da poter testare le diverse modellazioni includendo anche predicati di join che non sono solitamente contemplati in modelli documentali. Per ogni tipo di database verranno eseguite le query e registrati i tempi, in modo da poter confrontare le performance dei diversi DBMS sulla base delle operazioni CRUD.

Relevância:

10.00% 10.00%

Publicador:

Resumo:

Il presente elaborato vuole guidare il lettore lungo l’itinerario che ha previsto la cura e il rilascio di un’applicazione web a tema di e-learning. Greenwich, questo il nome della piattaforma, vuole essere un efficiente strumento di supporto online alla didattica del corso di Basi di Dati dell’Università di Bologna. Lo scopo primario dell’applicazione web è, infatti, quello di fornire agli studenti un mezzo per eseguire query mongoDB in maniera semplice, mirata e su richiesta del docente. Salvo un’approfondita ricerca culturale riguardante il contesto in cui si sviluppa l’applicazione, l’obiettivo primario della trattazione rimane quello di descrivere in modo ordinato i momenti impattanti che hanno segnato, passo dopo passo, le fasi di crescita di Greenwich, raggruppati in tre macro fasi caratteristiche: progettazione, implementazione e validazione.

Relevância:

10.00% 10.00%

Publicador:

Resumo:

I sistemi decentralizzati hanno permesso agli utenti di condividere informazioni senza la presenza di un intermediario centralizzato che possiede la sovranità sui dati scambiati, rischi di sicurezza e la possibilità di colli di bottiglia. Tuttavia, sono rari i sistemi pratici per il recupero delle informazioni salvate su di essi che non includano una componente centralizzata. In questo lavoro di tesi viene presentato lo sviluppo di un'applicazione il cui scopo è quello di consentire agli utenti di caricare immagini in un'architettura totalmente decentralizzata, grazie ai Decentralized File Storage e alla successiva ricerca e recupero di tali oggetti attraverso una Distributed Hash Table (DHT) in cui sono memorizzati i necessari Content IDentifiers (CID).\\ L'obiettivo principale è stato quello di trovare una migliore allocazione delle immagini all'interno del DHT attraverso l'uso dell'International Standard Content Code (ISCC), ovvero uno standard ISO che, attraverso funzioni hash content-driven, locality-sensitive e similarity-preserving, assegna i CID IPFS delle immagini ai nodi del DHT in modo efficiente, per ridurre il più possibile i salti tra i nodi e recuperare immagini coerenti con la query eseguita. Verranno, poi, analizzati i risultati ottenuti dall'allocazione dei CID delle immagini nei nodi mettendo a confronto ISCC e hash crittografico SHA-256, per verificare se ISCC rappresenti meglio la somiglianza tra le immagini allocando le immagini simili in nodi vicini tra loro.