Biblioteca Digital

End-to-end Deep Metric Learning con Vision-Language Model per il Fashion Image Captioning

**Autoria(s):** Gennari, Riccardo
Contribuinte(s)	Moro, Gianluca Salvatori, Stefano
Data(s)	18/03/2022
Resumo	L'image captioning è un task di machine learning che consiste nella generazione di una didascalia, o caption, che descriva le caratteristiche di un'immagine data in input. Questo può essere applicato, ad esempio, per descrivere in dettaglio i prodotti in vendita su un sito di e-commerce, migliorando l'accessibilità del sito web e permettendo un acquisto più consapevole ai clienti con difficoltà visive. La generazione di descrizioni accurate per gli articoli di moda online è importante non solo per migliorare le esperienze di acquisto dei clienti, ma anche per aumentare le vendite online. Oltre alla necessità di presentare correttamente gli attributi degli articoli, infatti, descrivere i propri prodotti con il giusto linguaggio può contribuire a catturare l'attenzione dei clienti. In questa tesi, ci poniamo l'obiettivo di sviluppare un sistema in grado di generare una caption che descriva in modo dettagliato l'immagine di un prodotto dell'industria della moda dato in input, sia esso un capo di vestiario o un qualche tipo di accessorio. A questo proposito, negli ultimi anni molti studi hanno proposto soluzioni basate su reti convoluzionali e LSTM. In questo progetto proponiamo invece un'architettura encoder-decoder, che utilizza il modello Vision Transformer per la codifica delle immagini e GPT-2 per la generazione dei testi. Studiamo inoltre come tecniche di deep metric learning applicate in end-to-end durante l'addestramento influenzino le metriche e la qualità delle caption generate dal nostro modello.
Formato	application/pdf
Identificador	http://amslaurea.unibo.it/25772/1/gennari_riccardo_tesi.pdf Gennari, Riccardo (2022) End-to-end Deep Metric Learning con Vision-Language Model per il Fashion Image Captioning. [Laurea], Università di Bologna, Corso di Studio in Ingegneria e scienze informatiche [L-DM270] - Cesena <http://amslaurea.unibo.it/view/cds/CDS8615/>
Idioma(s)	it
Publicador	Alma Mater Studiorum - Università di Bologna
Relação	http://amslaurea.unibo.it/25772/
Direitos	cc_by_nc_nd4 info:eu-repo/semantics/embargoedAccess end:2024-02-29
Palavras-Chave	#Image Captioning,Machine Learning,Deep Neural Networks,Transformers,Python #Ingegneria e scienze informatiche [L-DM270] - Cesena
Tipo	PeerReviewed info:eu-repo/semantics/bachelorThesis

Acesso ao item digital