End-to-end Deep Metric Learning con Vision-Language Model per il Fashion Image Captioning
| Contribuinte(s) |
Moro, Gianluca Salvatori, Stefano |
|---|---|
| Data(s) |
18/03/2022
|
| Resumo |
L'image captioning è un task di machine learning che consiste nella generazione di una didascalia, o caption, che descriva le caratteristiche di un'immagine data in input. Questo può essere applicato, ad esempio, per descrivere in dettaglio i prodotti in vendita su un sito di e-commerce, migliorando l'accessibilità del sito web e permettendo un acquisto più consapevole ai clienti con difficoltà visive. La generazione di descrizioni accurate per gli articoli di moda online è importante non solo per migliorare le esperienze di acquisto dei clienti, ma anche per aumentare le vendite online. Oltre alla necessità di presentare correttamente gli attributi degli articoli, infatti, descrivere i propri prodotti con il giusto linguaggio può contribuire a catturare l'attenzione dei clienti. In questa tesi, ci poniamo l'obiettivo di sviluppare un sistema in grado di generare una caption che descriva in modo dettagliato l'immagine di un prodotto dell'industria della moda dato in input, sia esso un capo di vestiario o un qualche tipo di accessorio. A questo proposito, negli ultimi anni molti studi hanno proposto soluzioni basate su reti convoluzionali e LSTM. In questo progetto proponiamo invece un'architettura encoder-decoder, che utilizza il modello Vision Transformer per la codifica delle immagini e GPT-2 per la generazione dei testi. Studiamo inoltre come tecniche di deep metric learning applicate in end-to-end durante l'addestramento influenzino le metriche e la qualità delle caption generate dal nostro modello. |
| Formato |
application/pdf |
| Identificador |
http://amslaurea.unibo.it/25772/1/gennari_riccardo_tesi.pdf Gennari, Riccardo (2022) End-to-end Deep Metric Learning con Vision-Language Model per il Fashion Image Captioning. [Laurea], Università di Bologna, Corso di Studio in Ingegneria e scienze informatiche [L-DM270] - Cesena <http://amslaurea.unibo.it/view/cds/CDS8615/> |
| Idioma(s) |
it |
| Publicador |
Alma Mater Studiorum - Università di Bologna |
| Relação |
http://amslaurea.unibo.it/25772/ |
| Direitos |
cc_by_nc_nd4 info:eu-repo/semantics/embargoedAccess end:2024-02-29 |
| Palavras-Chave | #Image Captioning,Machine Learning,Deep Neural Networks,Transformers,Python #Ingegneria e scienze informatiche [L-DM270] - Cesena |
| Tipo |
PeerReviewed info:eu-repo/semantics/bachelorThesis |