模载联合支援站
 English
发新主题

[教程] 一种报站音频制作的新思路

一种报站音频制作的新思路

🎃 使用 Win10 发送


前言:本文是推荐一种新玩具,供大佬们闲暇时间娱乐,最终结果很可能不尽人意(主要是我没有大量数据做测试)
      如果您觉得录音更好或是有现成的,比如咸鱼上的北上广的.bin音频文件。那么,本文您可以选择性阅读,即不读。

起因:由于最近在捣鼓AI能模拟音色音调发声的,最终我找到了两个Mockingbird VITS
对比: Mockingbird VITS 都具有本地建立和机器学习建模的功能,但是条件非常严苛,那就是时间,或是金钱换时间。
       如果你的电脑是RTX 4080或是RTX 6000 Ada,那么本地进行也不是不可以。
            Mockingbird VITS 目前最大的区别那就是VITS提供了线上快速微调(个人知识浅薄,无法研究它们的算法谁更好)
所以本文着重推荐使用VITS


前提准备:魔法以及Google Drive账号
数据准备: 10条以上的短音频(2秒以10秒以内的.mp3或是.wav
                    从 3分钟以上的长音频(单个音频只能包含单说话人)
          从 3分钟以上的视频(单个视频只能包含单说话人)
          通过输入 bilibili视频链接(单个视频只能包含单说话人)
          具体要求:https://github.com/Plachtaa/VITS-fast-fine-tuning/blob/main/DATA.MD

准备好数据后,上传至自己的Google Drive中。
项目执行:使用Google Colab,先复制一份副本,在副本中执行操作:
                 
          接下来,只需按照Colab笔记中执行即可。
                 TIPs1. 可以同时点击STEP1STEP1.5STEP2STEP3STEP3.5STEP4STEP5的执行按钮(图中红框位置)
                       

                           2. 实验发现目前使用CJ模型+勾选ADD_AUXILIARY (笔记中有提示,但我还是想先拿出来)
                           3. 选择Google Drive上传(Colab可以免费使用,但是GPU有时间限额,说不定突然你就被限额了,下面的步骤你就跑不了了)


                             

                               STEP2.1STEP2.2STEP2.3也都选择第二个选项,记得修改PATH
                                 

                              STEP2.4只需上传包含bilibili 链接的.txt文本文件,所以就不需要准备音频数据和Google Drive帐号了。
                          4. STEP4执行时底部会出现 TensorBoard界面,选择Audio就可以实时听到机器学习后生成的音频文件,当感觉效果不错时就可以停                      止STEP4了。
                 同时Epoch至少要达60轮以上,效果才会有。
                         5. STEP5 建议选择第二个,上传至Google Drive中(可能会与上面关于bilibili建议内容有冲突)
最后只需下载如下三个文件放入inference目录下即可
      

原文:https://github.com/Plachtaa/VITS-fast-fine-tuning/blob/main/README_ZH.md
如有不懂可以去B站搜视频教程,虽然目前版本更新,但大体操作流程相同。





最后的最后挖两个大坑:1.c/c++C#开发OMSIplugin教程
                                     2.基于Arcgis(矢量数据或是SHP数据)对OMSI-Editor进行二次开发即自动化生成道路。
坑大人懒,所以可能永远填不完。但是总得需要个目标。


PS:第一次提交该帖子居然炸了,什么都没留下(是文件过大,直接超时,希望猫大解决一下或是限制一下上传文件大小)

[ 本帖最后由 和县长江 于 2023-7-4 14:07 编辑 ]
001.mp3 (111.06 KB)

2023-7-4 13:35, 下載次數: 4 , 阅读权限: 20

源数据来源于海峡报站软件

ceshi.mp3 (346.54 KB)

2023-7-4 13:35, 下載次數: 3 , 阅读权限: 20

效果并不理想,毕竟只有

楼主回复

🎃 使用 Win10 发送


此贴不敢编辑,只要一编辑必丢失一半文字
希望有大佬能解答一下发帖时的浏览按钮在哪,就是找不到,只好从图床弄图片了
第一次发主题帖,问题很多,不要介意测试数据只用了10条数据,所以效果并不是很好,大佬们可以用50条数据做测试

[ 本帖最后由 和县长江 于 2023-7-4 14:17 编辑 ]

🎃 使用 Win7 发送


个人测试 源素材约2k条(站名、服务语等,平均单条1-10s;约7:3划分训练集和测试集) 均为8k/8bit+单声道pcm(训练时用audition调整电平并更改采样率以适配tacotron和vits)情况下 用tacotron2+hifigan训练约750epoch 在合成2-5字语音时效果尚可(适合站名语音合成) 但vits无论如何语音质量都不理想 另外记得VITS应该只提供english和japanese的cleaner吧...?是现在出了新的方案了么...个人也不太懂机器学习 也是从前人的colab笔记上一点点看的 这半年涌现了越来越多的项目 有点跟不上了...

[ 本帖最后由 minkgu 于 2023-7-4 16:34 编辑 ]

楼主回复 回复 3号车/板凳# 的帖子

🎃 使用 Win10 发送


随着python跟新换代,pytorch也会更新,同时GPU的算力也提高了,那么相对应的浮点运算会更精准,机器学习效果就更好了

[ 本帖最后由 和县长江 于 2023-7-19 23:41 编辑 ]
发新主题