17 resultados para twitter, conversation retrieval

em AMS Tesi di Laurea - Alm@DL - Università di Bologna


Relevância:

100.00% 100.00%

Publicador:

Relevância:

20.00% 20.00%

Publicador:

Resumo:

The central objective of research in Information Retrieval (IR) is to discover new techniques to retrieve relevant information in order to satisfy an Information Need. The Information Need is satisfied when relevant information can be provided to the user. In IR, relevance is a fundamental concept which has changed over time, from popular to personal, i.e., what was considered relevant before was information for the whole population, but what is considered relevant now is specific information for each user. Hence, there is a need to connect the behavior of the system to the condition of a particular person and his social context; thereby an interdisciplinary sector called Human-Centered Computing was born. For the modern search engine, the information extracted for the individual user is crucial. According to the Personalized Search (PS), two different techniques are necessary to personalize a search: contextualization (interconnected conditions that occur in an activity), and individualization (characteristics that distinguish an individual). This movement of focus to the individual's need undermines the rigid linearity of the classical model overtaken the ``berry picking'' model which explains that the terms change thanks to the informational feedback received from the search activity introducing the concept of evolution of search terms. The development of Information Foraging theory, which observed the correlations between animal foraging and human information foraging, also contributed to this transformation through attempts to optimize the cost-benefit ratio. This thesis arose from the need to satisfy human individuality when searching for information, and it develops a synergistic collaboration between the frontiers of technological innovation and the recent advances in IR. The search method developed exploits what is relevant for the user by changing radically the way in which an Information Need is expressed, because now it is expressed through the generation of the query and its own context. As a matter of fact the method was born under the pretense to improve the quality of search by rewriting the query based on the contexts automatically generated from a local knowledge base. Furthermore, the idea of optimizing each IR system has led to develop it as a middleware of interaction between the user and the IR system. Thereby the system has just two possible actions: rewriting the query, and reordering the result. Equivalent actions to the approach was described from the PS that generally exploits information derived from analysis of user behavior, while the proposed approach exploits knowledge provided by the user. The thesis went further to generate a novel method for an assessment procedure, according to the "Cranfield paradigm", in order to evaluate this type of IR systems. The results achieved are interesting considering both the effectiveness achieved and the innovative approach undertaken together with the several applications inspired using a local knowledge base.

Relevância:

20.00% 20.00%

Publicador:

Relevância:

20.00% 20.00%

Publicador:

Resumo:

Il problema relativo alla predizione, la ricerca di pattern predittivi all‘interno dei dati, è stato studiato ampiamente. Molte metodologie robuste ed efficienti sono state sviluppate, procedimenti che si basano sull‘analisi di informazioni numeriche strutturate. Quella testuale, d‘altro canto, è una tipologia di informazione fortemente destrutturata. Quindi, una immediata conclusione, porterebbe a pensare che per l‘analisi predittiva su dati testuali sia necessario sviluppare metodi completamente diversi da quelli ben noti dalle tecniche di data mining. Un problema di predizione può essere risolto utilizzando invece gli stessi metodi : dati testuali e documenti possono essere trasformati in valori numerici, considerando per esempio l‘assenza o la presenza di termini, rendendo di fatto possibile una utilizzazione efficiente delle tecniche già sviluppate. Il text mining abilita la congiunzione di concetti da campi di applicazione estremamente eterogenei. Con l‘immensa quantità di dati testuali presenti, basti pensare, sul World Wide Web, ed in continua crescita a causa dell‘utilizzo pervasivo di smartphones e computers, i campi di applicazione delle analisi di tipo testuale divengono innumerevoli. L‘avvento e la diffusione dei social networks e della pratica di micro blogging abilita le persone alla condivisione di opinioni e stati d‘animo, creando un corpus testuale di dimensioni incalcolabili aggiornato giornalmente. Le nuove tecniche di Sentiment Analysis, o Opinion Mining, si occupano di analizzare lo stato emotivo o la tipologia di opinione espressa all‘interno di un documento testuale. Esse sono discipline attraverso le quali, per esempio, estrarre indicatori dello stato d‘animo di un individuo, oppure di un insieme di individui, creando una rappresentazione dello stato emotivo sociale. L‘andamento dello stato emotivo sociale può condizionare macroscopicamente l‘evolvere di eventi globali? Studi in campo di Economia e Finanza Comportamentale assicurano un legame fra stato emotivo, capacità nel prendere decisioni ed indicatori economici. Grazie alle tecniche disponibili ed alla mole di dati testuali continuamente aggiornati riguardanti lo stato d‘animo di milioni di individui diviene possibile analizzare tali correlazioni. In questo studio viene costruito un sistema per la previsione delle variazioni di indici di borsa, basandosi su dati testuali estratti dalla piattaforma di microblogging Twitter, sotto forma di tweets pubblici; tale sistema include tecniche di miglioramento della previsione basate sullo studio di similarità dei testi, categorizzandone il contributo effettivo alla previsione.

Relevância:

20.00% 20.00%

Publicador:

Resumo:

Gli ultimi anni hanno visto una crescita esponenziale nell’uso dei social media (recensioni, forum, discussioni, blog e social network); le persone e le aziende utilizzano sempre più le informazioni (opinioni e preferenze) pubblicate in questi mezzi per il loro processo decisionale. Tuttavia, il monitoraggio e la ricerca di opinioni sul Web da parte di un utente o azienda risulta essere un problema molto arduo a causa della proliferazione di migliaia di siti; in più ogni sito contiene un enorme volume di testo non sempre decifrabile in maniera ottimale (pensiamo ai lunghi messaggi di forum e blog). Inoltre, è anche noto che l’analisi soggettiva delle informazioni testuali è passibile di notevoli distorsioni, ad esempio, le persone tendono a prestare maggiore attenzione e interesse alle opinioni che risultano coerenti alle proprie attitudini e preferenze. Risulta quindi necessario l’utilizzo di sistemi automatizzati di Opinion Mining, per superare pregiudizi soggettivi e limitazioni mentali, al fine di giungere ad una metodologia di Sentiment Analysis il più possibile oggettiva.

Relevância:

20.00% 20.00%

Publicador:

Resumo:

Over the time, Twitter has become a fundamental source of information for news. As a one step forward, researchers have tried to analyse if the tweets contain predictive power. In the past, in financial field, a lot of research has been done to propose a function which takes as input all the tweets for a particular stock or index s, analyse them and predict the stock or index price of s. In this work, we take an alternative approach: using the stock price and tweet information, we investigate following questions. 1. Is there any relation between the amount of tweets being generated and the stocks being exchanged? 2. Is there any relation between the sentiment of the tweets and stock prices? 3. What is the structure of the graph that describes the relationships between users?

Relevância:

20.00% 20.00%

Publicador:

Resumo:

Negli anni la funzione dei social network è cambiata molte volte. Alle origini i social network erano uno strumento di connessione tra amici, ora sono siti internet in cui le persone mettono informazioni e quando un social network ha milioni di utenti, diventa un’incredibile sorgente di dati. Twitter è uno dei siti internet più visitati, e viene descritto come “the SMS of internet”, perchè è un social network che permette ai suoi utenti di inviare e leggere messaggi corti, di 140 caratteri, chiamati “tweets”. Con il passare del tempo Twitter `e diventato una fonte fondamentale di notizie. Il suo grande numero di utenti permette alle notizie di espandersi nella rete in modo virale. Molte persone hanno cercato di analizzare il potere dei tweet, come il contenuto positivo o negativo, mentre altri hanno cercato di capire se avessero un potere predittivo. In particolare nel mondo finanziario, sono state avviate molte ricerche per verificare l’esistenza di una effettiva correlazione tra i tweets e la fluttuazione del mercato azionario. L’effettiva presenza di tale relazione unita a un modello predittivo, potrebbe portare allo sviluppo di un modello che analizzando i tweets presenti nella rete, relativi a un titolo azionario, dia informazioni sulle future variazioni del titolo stesso. La nostra attenzione si è rivolata alla ricerca e validazione statistica di tale correlazione. Sono stati effettuati test su singole azioni, sulla base dei dati disponibili, poi estesi a tutto il dataset per vedere la tendenza generale e attribuire maggior valore al risultato. Questa ricerca è caratterizzata dal suo dataset di tweet che analizza un periodo di oltre 2 anni, uno dei periodi più lunghi mai analizzati. Si è cercato di fornire maggior valore ai risultati trovati tramite l’utilizzo di validazioni statistiche, come il “permutation test”, per validare la relazione tra tweets di un titolo con i relativi valori azionari, la rimozione di una percentuale di eventi importanti, per mostrare la dipendenza o indipendenza dei dati dagli eventi più evidenti dell’anno e il “granger causality test”, per capire la direzione di una previsione tra serie. Sono stati effettuati anche test con risultati fallimentari, dai quali si sono ricavate le direzioni per i futuri sviluppi di questa ricerca.

Relevância:

20.00% 20.00%

Publicador:

Resumo:

I Social Network sono una fonte di informazioni di natura spontanea, non guidata, provviste di posizione spaziale e prodotte in tempo reale. Il Social Sensing si basa sull'idea che gruppi di persone possano fornire informazioni, su eventi che accadono nelle loro vicinanze, simili a quelle ottenibili da sensori. La letteratura in merito all’utilizzo dei Social Media per il rilevamento di eventi catastrofici mostra una struttura comune: acquisizione, filtraggio e classificazione dei dati. La piattaforma usata, nella maggior parte dei lavori e da noi, è Twitter. Proponiamo un sistema di rilevamento di eventi per l’Emilia Romagna, tramite l’analisi di tweet geolocalizzati. Per l’acquisizione dei dati abbiamo utilizzato le Twitter API. Abbiamo effettuato due passaggi per il filtraggio dei tweet. Primo, selezione degli account di provenienza dei tweet, se non sono personali è improbabile che siano usati per dare informazioni e non vanno tenuti in considerazione. Secondo, il contenuto dei tweet, vengono scartati se presentano termini scurrili, parole come “buon giorno” e un numero di tag, riferiti ad altri utenti, superiore a quattro. La rilevazione di un valore anomalo rispetto all'insieme delle osservazioni che stiamo considerando (outlier), è il primo indice di un evento eccezionale. Per l’analisi siamo ricorsi all’outlier detection come indice di rilevamento di un evento. Fatta questa prima analisi si controlla che ci sia un effettivo picco di tweet in una zona della regione. Durante il periodo di attività non sono accaduti eventi straordinari, abbiamo quindi simulato un avvenimento per testare l'efficacia del nostro sistema. La maggior difficoltà è che i dati geolocalizzati sono in numero molto esiguo, è quindi difficile l'identificazione dei picchi. Per migliorare il sistema si propone: il passaggio a streaming dei tweet e un aumento della velocità di filtraggio; la automatizzazione dei filtri; l'implementazione di un modulo finale che operi a livello del testo.

Relevância:

20.00% 20.00%

Publicador:

Resumo:

Il lavoro di questa tesi è focalizzato sulla valutazione della sensibilità delle microonde rispetto a differenti idrometeore per le frequenze a 89 GHz e 150 GHz e nella banda di assorbimento del vapor d'acqua a 183.31 GHz. Il metodo di indagine consiste nell'utilizzo del modello di trasferimento radiativo RTTOV (Eyre, 1991) per simulare radianze dei canali dei sensori satellitari nelle microonde Advanced Microwave Sounding Unit-B (AMSU-B) e Microwave Humidity Sounder (MHS). Le simulazioni basate sul modello RTTOV si sono focalizzate su tre dataset indipendenti, forniti da ECMWF. Il primo passo tiene conto di una selezione di categorie dei profili atmosferici basato su una distinzione della fase delle idrometeore, LWP, IWP e WVP, con sottoclassi terra e oceano. La distinzione in diverse categorie permette di valutare la sensibilità di ciascuna frequenza utilizzata nelle simulazioni al variare del contenuto di acqua e ghiaccio. Un secondo approccio è usato per valutare la risposta di ciascuna frequenza nei casi di nevicate sulla terraferma. Questa indagine ha permesso lo sviluppo di un nuovo algoritmo prototipale per la stima dell'intensità di precipitazione nevosa basato su una serie di test a soglia e una equazione di combinazione lineare multipla che sfrutta una combinazione dei canali più sensibili alla snowfall: 150, 186 e 190 GHz. Una prima verifica su casi di studio pre-selezionati di snowstorm sembra fornire risultati promettenti. Infine è stato realizzato uno studio di sensibilità dell’algoritmo 183-WSL (Laviola and Levizzani, 2011) utilizzando le simulazioni di RTTOV con precipitazione/non precipitazione come predittori discreti e con le intensità di precipitazione come predittori continui. Le simulazioni RTTOV rivelano una sovrastima delle radianze in presenza di profili di pioggia e ciò potrebbe essere dovuto alle approssimazioni e parametrizzazioni adottate nel modello RTTOV-SCATT usato per la risoluzione dello scattering in presenza di precipitazione.

Relevância:

20.00% 20.00%

Publicador:

Resumo:

In questa tesi si trattano lo studio e la sperimentazione di un modello generativo retrieval-augmented, basato su Transformers, per il task di Abstractive Summarization su lunghe sentenze legali. La sintesi automatica del testo (Automatic Text Summarization) è diventata un task di Natural Language Processing (NLP) molto importante oggigiorno, visto il grandissimo numero di dati provenienti dal web e banche dati. Inoltre, essa permette di automatizzare un processo molto oneroso per gli esperti, specialmente nel settore legale, in cui i documenti sono lunghi e complicati, per cui difficili e dispendiosi da riassumere. I modelli allo stato dell’arte dell’Automatic Text Summarization sono basati su soluzioni di Deep Learning, in particolare sui Transformers, che rappresentano l’architettura più consolidata per task di NLP. Il modello proposto in questa tesi rappresenta una soluzione per la Long Document Summarization, ossia per generare riassunti di lunghe sequenze testuali. In particolare, l’architettura si basa sul modello RAG (Retrieval-Augmented Generation), recentemente introdotto dal team di ricerca Facebook AI per il task di Question Answering. L’obiettivo consiste nel modificare l’architettura RAG al fine di renderla adatta al task di Abstractive Long Document Summarization. In dettaglio, si vuole sfruttare e testare la memoria non parametrica del modello, con lo scopo di arricchire la rappresentazione del testo di input da riassumere. A tal fine, sono state sperimentate diverse configurazioni del modello su diverse tipologie di esperimenti e sono stati valutati i riassunti generati con diverse metriche automatiche.

Relevância:

20.00% 20.00%

Publicador:

Resumo:

Dopo lo sviluppo dei primi casi di Covid-19 in Cina nell’autunno del 2019, ad inizio 2020 l’intero pianeta è precipitato in una pandemia globale che ha stravolto le nostre vite con conseguenze che non si vivevano dall’influenza spagnola. La grandissima quantità di paper scientifici in continua pubblicazione sul coronavirus e virus ad esso affini ha portato alla creazione di un unico dataset dinamico chiamato CORD19 e distribuito gratuitamente. Poter reperire informazioni utili in questa mole di dati ha ulteriormente acceso i riflettori sugli information retrieval systems, capaci di recuperare in maniera rapida ed efficace informazioni preziose rispetto a una domanda dell'utente detta query. Di particolare rilievo è stata la TREC-COVID Challenge, competizione per lo sviluppo di un sistema di IR addestrato e testato sul dataset CORD19. Il problema principale è dato dal fatto che la grande mole di documenti è totalmente non etichettata e risulta dunque impossibile addestrare modelli di reti neurali direttamente su di essi. Per aggirare il problema abbiamo messo a punto nuove soluzioni self-supervised, a cui abbiamo applicato lo stato dell'arte del deep metric learning e dell'NLP. Il deep metric learning, che sta avendo un enorme successo soprattuto nella computer vision, addestra il modello ad "avvicinare" tra loro immagini simili e "allontanare" immagini differenti. Dato che sia le immagini che il testo vengono rappresentati attraverso vettori di numeri reali (embeddings) si possano utilizzare le stesse tecniche per "avvicinare" tra loro elementi testuali pertinenti (e.g. una query e un paragrafo) e "allontanare" elementi non pertinenti. Abbiamo dunque addestrato un modello SciBERT con varie loss, che ad oggi rappresentano lo stato dell'arte del deep metric learning, in maniera completamente self-supervised direttamente e unicamente sul dataset CORD19, valutandolo poi sul set formale TREC-COVID attraverso un sistema di IR e ottenendo risultati interessanti.

Relevância:

20.00% 20.00%

Publicador:

Resumo:

Most of the existing open-source search engines, utilize keyword or tf-idf based techniques to find relevant documents and web pages relative to an input query. Although these methods, with the help of a page rank or knowledge graphs, proved to be effective in some cases, they often fail to retrieve relevant instances for more complicated queries that would require a semantic understanding to be exploited. In this Thesis, a self-supervised information retrieval system based on transformers is employed to build a semantic search engine over the library of Gruppo Maggioli company. Semantic search or search with meaning can refer to an understanding of the query, instead of simply finding words matches and, in general, it represents knowledge in a way suitable for retrieval. We chose to investigate a new self-supervised strategy to handle the training of unlabeled data based on the creation of pairs of ’artificial’ queries and the respective positive passages. We claim that by removing the reliance on labeled data, we may use the large volume of unlabeled material on the web without being limited to languages or domains where labeled data is abundant.

Relevância:

20.00% 20.00%

Publicador:

Resumo:

La tesi ha lo scopo di ricercare, esaminare ed implementare un sistema di Machine Learning, un Recommendation Systems per precisione, che permetta la racommandazione di documenti di natura giuridica, i quali sono già stati analizzati e categorizzati appropriatamente, in maniera ottimale, il cui scopo sarebbe quello di accompagnare un sistema già implementato di Information Retrieval, istanziato sopra una web application, che permette di ricercare i documenti giuridici appena menzionati.

Relevância:

20.00% 20.00%

Publicador:

Resumo:

Nel corso dell’elaborato verranno utilizzate tecniche e strumenti di analisi automatica di dati aventi carattere testuale. Lo scopo del lavoro di tesi consisterà nel condurre text mining e sentiment analysis su dei messaggi al fine di comprenderne il significato, con interesse particolare sulle emozioni ed i sentimenti in essi contenuti per riuscire ad estrapolare informazioni di interesse.