[教程] 一种报站音频制作的新思路

和县长江

健康

會員編號: 143461
帖子總數: 316
下载积分: 7267 分
膜仔通汇: 310 先令
註冊日期: 2012-7-25

1号车/楼主# 发布时间 2023-7-4 13:35 发私信引用

一种报站音频制作的新思路

🎃 使用 Win10 发送

前言：本文是推荐一种新玩具，供大佬们闲暇时间娱乐，最终结果很可能不尽人意（主要是我没有大量数据做测试）
   如果您觉得录音更好或是有现成的，比如咸鱼上的北上广的.bin音频文件。那么，本文您可以选择性阅读，即不读。

起因：由于最近在捣鼓AI能模拟音色音调发声的，最终我找到了两个Mockingbird 和VITS
对比： Mockingbird 和 VITS 都具有本地建立和机器学习建模的功能，但是条件非常严苛，那就是时间，或是金钱换时间。
   如果你的电脑是RTX 4080或是RTX 6000 Ada，那么本地进行也不是不可以。
         Mockingbird 和 VITS 目前最大的区别那就是VITS提供了线上快速微调（个人知识浅薄，无法研究它们的算法谁更好）
所以本文着重推荐使用VITS

前提准备：魔法以及Google Drive账号
数据准备：从 10条以上的短音频（2秒以10秒以内的.mp3或是.wav）             从 3分钟以上的长音频（单个音频只能包含单说话人）
      从 3分钟以上的视频（单个视频只能包含单说话人）
      通过输入 bilibili视频链接（单个视频只能包含单说话人）
      具体要求：https://github.com/Plachtaa/VITS-fast-fine-tuning/blob/main/DATA.MD
准备好数据后，上传至自己的Google Drive中。
项目执行：使用Google Colab，先复制一份副本，在副本中执行操作：

      接下来，只需按照Colab笔记中执行即可。
               TIPs：1. 可以同时点击STEP1、STEP1.5、STEP2、STEP3、STEP3.5、STEP4、STEP5的执行按钮（图中红框位置）

                        2. 实验发现目前使用CJ模型+勾选ADD_AUXILIARY （笔记中有提示，但我还是想先拿出来）
                        3. 选择Google Drive上传（Colab可以免费使用，但是GPU有时间限额，说不定突然你就被限额了，下面的步骤你就跑不了了）

STEP2.1、STEP2.2、STEP2.3也都选择第二个选项，记得修改PATH。

                           STEP2.4只需上传包含bilibili 链接的.txt文本文件，所以就不需要准备音频数据和Google Drive帐号了。
                        4. STEP4执行时底部会出现 TensorBoard界面，选择Audio就可以实时听到机器学习后生成的音频文件，当感觉效果不错时就可以停                   止STEP4了。
               同时Epoch至少要达60轮以上，效果才会有。
                     5. STEP5 建议选择第二个，上传至Google Drive中（可能会与上面关于bilibili建议内容有冲突）
最后只需下载如下三个文件放入inference目录下即可

原文：https://github.com/Plachtaa/VITS-fast-fine-tuning/blob/main/README_ZH.md
如有不懂可以去B站搜视频教程，虽然目前版本更新，但大体操作流程相同。

最后的最后挖两个大坑：1.c/c++或C#开发OMSI的plugin教程
2.基于Arcgis（矢量数据或是SHP数据）对OMSI-Editor进行二次开发即自动化生成道路。
坑大人懒，所以可能永远填不完。但是总得需要个目标。

PS：第一次提交该帖子居然炸了，什么都没留下（是文件过大，直接超时，希望猫大解决一下或是限制一下上传文件大小）

[ 本帖最后由和县长江于 2023-7-4 14:07 编辑 ]

001.mp3 (111.06 KB)

2023-7-4 13:35, 下載次數: 4 , 阅读权限: 20

源数据来源于海峡报站软件

ceshi.mp3 (346.54 KB)

2023-7-4 13:35, 下載次數: 3 , 阅读权限: 20

效果并不理想，毕竟只有

和县长江

健康

會員編號: 143461
帖子總數: 316
下载积分: 7267 分
膜仔通汇: 310 先令
註冊日期: 2012-7-25

2号车/沙发# 发布时间 2023-7-4 14:09 发私信引用

🎃 使用 Win10 发送

此贴不敢编辑，只要一编辑必丢失一半文字
希望有大佬能解答一下发帖时的浏览按钮在哪，就是找不到，只好从图床弄图片了
第一次发主题帖，问题很多，不要介意测试数据只用了10条数据，所以效果并不是很好，大佬们可以用50条数据做测试

[ 本帖最后由和县长江于 2023-7-4 14:17 编辑 ]

minkgu

健康

會員編號: 387613
帖子總數: 202
下载积分: 27370 分
膜仔通汇: 211 先令
註冊日期: 2019-6-2

3号车/板凳# 发布时间 2023-7-4 16:27 发私信引用

🎃 使用 Win7 发送

个人测试源素材约2k条(站名、服务语等，平均单条1-10s；约7:3划分训练集和测试集) 均为8k/8bit+单声道pcm(训练时用audition调整电平并更改采样率以适配tacotron和vits)情况下用tacotron2+hifigan训练约750epoch 在合成2-5字语音时效果尚可（适合站名语音合成）但vits无论如何语音质量都不理想另外记得VITS应该只提供english和japanese的cleaner吧...？是现在出了新的方案了么...个人也不太懂机器学习也是从前人的colab笔记上一点点看的这半年涌现了越来越多的项目有点跟不上了...

[ 本帖最后由 minkgu 于 2023-7-4 16:34 编辑 ]

和县长江

健康

會員編號: 143461
帖子總數: 316
下载积分: 7267 分
膜仔通汇: 310 先令
註冊日期: 2012-7-25

4号车#站票 发布时间 2023-7-4 16:47 发私信引用

回复 3号车/板凳# 的帖子

🎃 使用 Win10 发送

随着python跟新换代，pytorch也会更新，同时GPU的算力也提高了，那么相对应的浮点运算会更精准，机器学习效果就更好了

[ 本帖最后由和县长江于 2023-7-19 23:41 编辑 ]