2 resultados para LIP

em AMS Tesi di Laurea - Alm@DL - Università di Bologna


Relevância:

10.00% 10.00%

Publicador:

Resumo:

This thesis examines the state of audiovisual translation (AVT) in the aftermath of the COVID-19 emergency, highlighting new trends with regards to the implementation of AI technologies as well as their strengths, constraints, and ethical implications. It starts with an overview of the current AVT landscape, focusing on future projections about its evolution and its critical aspects such as the worsening working conditions lamented by AVT professionals – especially freelancers – in recent years and how they might be affected by the advent of AI technologies in the industry. The second chapter delves into the history and development of three AI technologies which are used in combination with neural machine translation in automatic AVT tools: automatic speech recognition, speech synthesis and deepfakes (voice cloning and visual deepfakes for lip syncing), including real examples of start-up companies that utilize them – or are planning to do so – to localize audiovisual content automatically or semi-automatically. The third chapter explores the many ethical concerns around these innovative technologies, which extend far beyond the field of translation; at the same time, it attempts to revindicate their potential to bring about immense progress in terms of accessibility and international cooperation, provided that their use is properly regulated. Lastly, the fourth chapter describes two experiments, testing the efficacy of the currently available tools for automatic subtitling and automatic dubbing respectively, in order to take a closer look at their perks and limitations compared to more traditional approaches. This analysis aims to help discerning legitimate concerns from unfounded speculations with regards to the AI technologies which are entering the field of AVT; the intention behind it is to humbly suggest a constructive and optimistic view of the technological transformations that appear to be underway, whilst also acknowledging their potential risks.

Relevância:

10.00% 10.00%

Publicador:

Resumo:

Associare nomi propri a volti di persona è un compito importante, fondamentale nella quotidianità di tutti i giorni. Nonostante questa operazione avvenga quasi sempre in maniera automatica, essa coinvolge una rete neurale complessa ed articolata. Diversi studi offrono strategie che possono aiutare in questo compito; in particolare, è stato riportato che rafforzare i nomi con stimoli cross-modali, ossia presentando più input sensoriali esterni contemporaneamente, può costituire un vantaggio per il recupero in memoria dei nomi stessi. Lo scopo di questa tesi è stato quello di svolgere un’analisi di sensibilità tramite un modello neuro-computazionale su MatLab di ispirazione biologica. Nello specifico sono stati considerati due macro-network: uno per i volti, l’altro per i nomi propri; quest’ultimo in particolare a sua volta si compone di tre aree uni-sensoriali, ciascuna delle quali corrisponde ad un modo specifico con cui codificare un nome (traccia audio, lip reading, name tag). Questi network sono stati dunque implementati attraverso una configurazione articolata su due strati: si potrebbe infatti pensare alla fase di addestramento, basata su un algoritmo hebbiano, come un primo layer del processo, seguito così da un secondo layer, dato invece dalla fase di utilizzo. Dalle simulazioni svolte sembra emergere che addestrare in maniera efficiente le connessioni fra le aree uni-sensoriali dei nomi, ricreando così un'integrazione multi-sensoriale, sia un fattore fondamentale per favorire non solo il ricordo di un nome in sé, ma anche processi mnemonici-associativi che coinvolgono anche lo stimolo visivo di un volto. Le evidenze prodotte risultano inoltre qualitativamente coerenti con analoghi esperimenti in vivo.