New experiments on speaker diarization for unsupervised speaking style voice building for speech synthesis
Data(s) |
01/03/2014
|
---|---|
Resumo |
El uso universal de síntesis de voz en diferentes aplicaciones requeriría un desarrollo sencillo de las nuevas voces con poca intervención manual. Teniendo en cuenta la cantidad de datos multimedia disponibles en Internet y los medios de comunicación, un objetivo interesante es el desarrollo de herramientas y métodos para construir automáticamente las voces de estilo de varios de ellos. En un trabajo anterior se esbozó una metodología para la construcción de este tipo de herramientas, y se presentaron experimentos preliminares con una base de datos multiestilo. En este artículo investigamos más a fondo esta tarea y proponemos varias mejoras basadas en la selección del número apropiado de hablantes iniciales, el uso o no de filtros de reducción de ruido, el uso de la F0 y el uso de un algoritmo de detección de música. Hemos demostrado que el mejor sistema usando un algoritmo de detección de música disminuye el error de precisión 22,36% relativo para el conjunto de desarrollo y 39,64% relativo para el montaje de ensayo en comparación con el sistema base, sin degradar el factor de mérito. La precisión media para el conjunto de prueba es 90.62% desde 76.18% para los reportajes de 99,93% para los informes meteorológicos. |
Formato |
application/pdf |
Identificador | |
Idioma(s) |
eng |
Publicador |
E.T.S.I. Telecomunicación (UPM) |
Relação |
http://oa.upm.es/37410/1/INVE_MEM_2014_193777.pdf http://journal.sepln.org/sepln/ojs/ojs/index.php/pln/article/view/4906 TIN2011-28169-C05-03 DPI2010-21247-C02-02 info:eu-repo/grantAgreement/EC/FP7/FP7-ICT-2011-7 287678 S2009/TIC-1542 |
Direitos |
http://creativecommons.org/licenses/by-nc-nd/3.0/es/ info:eu-repo/semantics/openAccess |
Fonte |
Procesamiento del Lenguaje Natural, ISSN 1135-5948, 2014-03, Vol. 52 |
Palavras-Chave | #Telecomunicaciones |
Tipo |
info:eu-repo/semantics/article Artículo PeerReviewed |