个人测试 源素材约2k条(站名、服务语等,平均单条1-10s;约7:3划分训练集和测试集) 均为8k/8bit+单声道pcm(训练时用audition调整电平并更改采样率以适配tacotron和vits)情况下 用tacotron2+hifigan训练约750epoch 在合成2-5字语音时效果尚可(适合站名语音合成) 但vits无论如何语音质量都不理想 另外记得VITS应该只提供english和japanese的cleaner吧...?是现在出了新的方案了么...个人也不太懂机器学习 也是从前人的colab笔记上一点点看的 这半年涌现了越来越多的项目 有点跟不上了...
[ 本帖最后由 minkgu 于 2023-7-4 16:34 编辑 ]