CeVIO与HTS声源

这是一篇非常小众的文章,不知道是否能钓到碰巧能够看懂并且愿意给出指导意见的大触。

 

在歌唱合成领域,UTAU能与Vocaloid和CeVIO竞争的一大要素,就是其制作声源的便利性——人人都可以制作自己的声源。作为商业软件的V和C要靠卖声源盈利,自然做不到这一点。

V目前应该没人能做到自制声源,就不提了。

我研究C比较多,由于C总体上是基于HTS的(语音合成部分是改进版HTS,歌唱合成部分是HTS魔改的SVSS,即Sinsy),所以其声源格式非常类似于普通的HTS声源(.htsvoice,常见于OpenJTalk)。若要做到自制声源,首先当然是要尝试一下能否将普通的HTS声源和Sinsy声源塞进CeVIO。

……

当然结果是失败的。尽管还未能精确地定位问题本质,但通过分析两种声源的格式差异,可以看出不同:

  HTS语音  C语音  Sinsy歌唱  C歌唱 
STREAM   MCP,LF0,LPF   MGC,LF0,BAP   MGC,LF0,LPF   MGC,LF0,BAP,VIB  

 

目前标准的日语HTS声源通常是MCP,LF0(log F0),LPF(low-pass filter)三个STREAM。而C声源则不使用LPF,而是用了STRAIGHT Decoder里的BAP STREAM。由于HTS官方代码里不含STRAIGHT(这东西是搭配Matlab用的,显然C自己照着实现了一套),这就导致C声源不可能跑在标准HTS和Sinsy上,也可能由于C阉割了LPF所以普通HTS声源无法放到C上使用;另一个不同之处就是(MGCEP )MCP与MGC(mel generalized cepstral),这应该是表示同一个东西,但是既然名字不同,那格式可能会有所不同。根据这个帖子,STRAIGHT里的MGC应该是经过了某种量化,而标准由SPTK产生的HTS声源里的MCP可能是没有这种操作的。希望有时间有精力的专家能够继续研究。

所以现在想找一个使用STRAIGHT训练出来的带BAP stream的声源来试一下,但是貌似这个多用于英语和其他语种的训练,目前常见的几款演示用HTS日语声源(包括Mei、Tohoku和名工大m001)都是LPF(显然)。所以研究至此就无法继续了。

 

 参考资料:

《Voice Training HTS》:https://www.slideshare.net/danilosoba1/voice-training-hts

http://hts.sp.nitech.ac.jp/hts-users/spool/2013/msg00026.html

http://hts.sp.nitech.ac.jp/hts-users/spool/2011/msg00322.html

 

添加评论

Loading