Sviluppo di Metodi di Soft Labeling per la Multi-Document Summarization in Ambito Legale


Autoria(s): Rubboli, Luca
Contribuinte(s)

Moro, Gianluca

Ragazzi, Luca

Data(s)

01/12/2022

Resumo

In questo elaborato viene trattata l’analisi del problema di soft labeling applicato alla multi-document summarization, in particolare vengono testate varie tecniche per estrarre frasi rilevanti dai documenti presi in dettaglio, al fine di fornire al modello di summarization quelle di maggior rilievo e più informative per il riassunto da generare. Questo problema nasce per far fronte ai limiti che presentano i modelli di summarization attualmente a disposizione, che possono processare un numero limitato di frasi; sorge quindi la necessità di filtrare le informazioni più rilevanti quando il lavoro si applica a documenti lunghi. Al fine di scandire la metrica di importanza, vengono presi come riferimento metodi sintattici, semantici e basati su rappresentazione a grafi AMR. Il dataset preso come riferimento è Multi-LexSum, che include tre granularità di summarization di testi legali. L’analisi in questione si compone quindi della fase di estrazione delle frasi dai documenti, della misurazione delle metriche stabilite e del passaggio al modello stato dell’arte PRIMERA per l’elaborazione del riassunto. Il testo ottenuto viene poi confrontato con il riassunto target già fornito, considerato come ottimale; lavorando in queste condizioni l’obiettivo è di definire soglie ottimali di upper-bound per l’accuratezza delle metriche, che potrebbero ampliare il lavoro ad analisi più dettagliate qualora queste superino lo stato dell’arte attuale.

Formato

application/pdf

Identificador

http://amslaurea.unibo.it/27379/1/tesi_t_luca_rubboli2_studio_unibo_it.pdf

Rubboli, Luca (2022) Sviluppo di Metodi di Soft Labeling per la Multi-Document Summarization in Ambito Legale. [Laurea], Università di Bologna, Corso di Studio in Ingegneria e scienze informatiche [L-DM270] - Cesena <http://amslaurea.unibo.it/view/cds/CDS8615/>

Idioma(s)

it

Publicador

Alma Mater Studiorum - Università di Bologna

Relação

http://amslaurea.unibo.it/27379/

Direitos

cc_by_nc_nd4

Palavras-Chave #Natural Language Processing,Soft Labeling,Multi-Document Summarization,Dominio Legale,Transformers #Ingegneria e scienze informatiche [L-DM270] - Cesena
Tipo

PeerReviewed

info:eu-repo/semantics/bachelorThesis