Abstractive Long Document Summarization: Studio e Sperimentazione di Modelli Generativi Retrieval-Augmented


Autoria(s): Folin, Veronika
Contribuinte(s)

Moro, Gianluca

Ragazzi, Luca

Data(s)

07/10/2021

Resumo

In questa tesi si trattano lo studio e la sperimentazione di un modello generativo retrieval-augmented, basato su Transformers, per il task di Abstractive Summarization su lunghe sentenze legali. La sintesi automatica del testo (Automatic Text Summarization) è diventata un task di Natural Language Processing (NLP) molto importante oggigiorno, visto il grandissimo numero di dati provenienti dal web e banche dati. Inoltre, essa permette di automatizzare un processo molto oneroso per gli esperti, specialmente nel settore legale, in cui i documenti sono lunghi e complicati, per cui difficili e dispendiosi da riassumere. I modelli allo stato dell’arte dell’Automatic Text Summarization sono basati su soluzioni di Deep Learning, in particolare sui Transformers, che rappresentano l’architettura più consolidata per task di NLP. Il modello proposto in questa tesi rappresenta una soluzione per la Long Document Summarization, ossia per generare riassunti di lunghe sequenze testuali. In particolare, l’architettura si basa sul modello RAG (Retrieval-Augmented Generation), recentemente introdotto dal team di ricerca Facebook AI per il task di Question Answering. L’obiettivo consiste nel modificare l’architettura RAG al fine di renderla adatta al task di Abstractive Long Document Summarization. In dettaglio, si vuole sfruttare e testare la memoria non parametrica del modello, con lo scopo di arricchire la rappresentazione del testo di input da riassumere. A tal fine, sono state sperimentate diverse configurazioni del modello su diverse tipologie di esperimenti e sono stati valutati i riassunti generati con diverse metriche automatiche.

Formato

application/pdf

Identificador

http://amslaurea.unibo.it/24283/1/tesi_veronika_folin.pdf

Folin, Veronika (2021) Abstractive Long Document Summarization: Studio e Sperimentazione di Modelli Generativi Retrieval-Augmented. [Laurea], Università di Bologna, Corso di Studio in Ingegneria e scienze informatiche [L-DM270] - Cesena <http://amslaurea.unibo.it/view/cds/CDS8615/>

Idioma(s)

it

Publicador

Alma Mater Studiorum - Università di Bologna

Relação

http://amslaurea.unibo.it/24283/

Direitos

Free to read

info:eu-repo/semantics/embargoedAccess end:2022-09-30

Palavras-Chave #Natural Language Processing,Abstractive Summarization,Legal Analytics,Language Models,Deep Learning,Transformer,Text Summarization #Ingegneria e scienze informatiche [L-DM270] - Cesena
Tipo

PeerReviewed

info:eu-repo/semantics/bachelorThesis