Abstractive Long Document Summarization: Studio e Sperimentazione di Modelli Generativi Retrieval-Augmented
Contribuinte(s) |
Moro, Gianluca Ragazzi, Luca |
---|---|
Data(s) |
07/10/2021
|
Resumo |
In questa tesi si trattano lo studio e la sperimentazione di un modello generativo retrieval-augmented, basato su Transformers, per il task di Abstractive Summarization su lunghe sentenze legali. La sintesi automatica del testo (Automatic Text Summarization) è diventata un task di Natural Language Processing (NLP) molto importante oggigiorno, visto il grandissimo numero di dati provenienti dal web e banche dati. Inoltre, essa permette di automatizzare un processo molto oneroso per gli esperti, specialmente nel settore legale, in cui i documenti sono lunghi e complicati, per cui difficili e dispendiosi da riassumere. I modelli allo stato dell’arte dell’Automatic Text Summarization sono basati su soluzioni di Deep Learning, in particolare sui Transformers, che rappresentano l’architettura più consolidata per task di NLP. Il modello proposto in questa tesi rappresenta una soluzione per la Long Document Summarization, ossia per generare riassunti di lunghe sequenze testuali. In particolare, l’architettura si basa sul modello RAG (Retrieval-Augmented Generation), recentemente introdotto dal team di ricerca Facebook AI per il task di Question Answering. L’obiettivo consiste nel modificare l’architettura RAG al fine di renderla adatta al task di Abstractive Long Document Summarization. In dettaglio, si vuole sfruttare e testare la memoria non parametrica del modello, con lo scopo di arricchire la rappresentazione del testo di input da riassumere. A tal fine, sono state sperimentate diverse configurazioni del modello su diverse tipologie di esperimenti e sono stati valutati i riassunti generati con diverse metriche automatiche. |
Formato |
application/pdf |
Identificador |
http://amslaurea.unibo.it/24283/1/tesi_veronika_folin.pdf Folin, Veronika (2021) Abstractive Long Document Summarization: Studio e Sperimentazione di Modelli Generativi Retrieval-Augmented. [Laurea], Università di Bologna, Corso di Studio in Ingegneria e scienze informatiche [L-DM270] - Cesena <http://amslaurea.unibo.it/view/cds/CDS8615/> |
Idioma(s) |
it |
Publicador |
Alma Mater Studiorum - Università di Bologna |
Relação |
http://amslaurea.unibo.it/24283/ |
Direitos |
Free to read info:eu-repo/semantics/embargoedAccess end:2022-09-30 |
Palavras-Chave | #Natural Language Processing,Abstractive Summarization,Legal Analytics,Language Models,Deep Learning,Transformer,Text Summarization #Ingegneria e scienze informatiche [L-DM270] - Cesena |
Tipo |
PeerReviewed info:eu-repo/semantics/bachelorThesis |