干声获取

飞书用户4312

飞书用户7171

2024年8月8日创建

1344

2514

注意：请在获取干声前确保你的数据来源合法合规！！！

一、歌声录制规范

1.
音频保存为单声道wav格式，至少44100Hz x 16bit（推荐录制为48000Hz x 24bit便于后续升级）​

2.
逐首录制歌曲，每首单独保存文件​

3.
检查音频频谱，确保16kHz内频谱清晰完整，响度不超过0db。若否，建议更换录音设备​

4.
仅录制人声歌声干声，不带混响和伴奏​

5.
尽量降低背景噪声和空间反射​

6.
单个音频内歌曲和演唱仅使用一种语言​

7.
如果一首歌的两个部分完全相同，建议只录制一个部分​

8.
不演唱语音或说唱部分​

9.
不使用声部重叠或和声​

10.
不保留咳嗽，笑声或环境杂音等与演唱无关的声音。但需要保留呼吸​

11.
为后续便于标注，建议演唱已有歌曲，且不缺漏歌词​

12.
避免耳机中的音乐泄露​

13.
每个音频的开头和结尾至少保留一秒静音片段​

14.
建议录制一首后对照此列表检查音频​

15.
不同质量音频频谱样例附于此文档末尾​

16.

电脑录音教程：Adobe Audition 基础教程之录音篇

二、单人模型数据集​
单人声学模型数据​
单人声学模型数据应满足以下条件​
1.总长度约为1~3h的获得授权的，符合录制规范的，由单人演唱的干声素材 （质量第一，数量第二）​
#经测试1小时歌声数据在sofa流程下也表现良好，半小时也可一试​
2.按演唱语言对歌声进行分类。如果需要多声线，则同时按语言和声线进行分类。每类单独存放于一个文件夹，并参考多说话人训练章节​
3.如想达到较好的效果，建议数据覆盖更广的音域、曲速和发音，更强的声音表现力，更多样的歌曲风格（如流行，古风，摇滚，抒情等）但尽量保证单类内所有素材的风格、声线相近。数据中需要至少含有一些长音，以免声库出现长音断音​
4.歌声最佳，单人模型不推荐使用说话语音作为训练素材​
5.最终的声学模型会非常还原你的干声，请确保干声高质量​
#这里的“非常还原”不仅是音质，还包括完全的歌声特色，除了音准以外的所有优缺点(例如音域感情力度等)。所以可以跑调，但情感要到位​
6.若预计总数据时长较少，建议在选曲时注意覆盖语言内较为稀少的发音音素，例如中文的iong, uai等，日语的ky，jy等​
单人唱法模型数据​
单人唱法模型数据应满足以下条件​
1.总长度约为1h以上的获得授权的，符合录制规范的，由单人演唱的干声素材 ​
2.如想达到较好的效果，建议覆盖更广的音域、曲速和发音。尽量保证所有素材的风格相近​
#也可以挑选唱法(张力气声等)比较稳定且平均的数据进行唱法模型训练​
3.歌声最佳，请勿使用说话语音数据作为训练素材，​
如果执意使用非歌声数据进行训练，唱法模块仅建议开启dur​
4.唱法模型中的自动音高(可选)模型会学习音频的音高特征，对歌声的唱功，表现力，音准等要求较高​
5.声学模型数据可以直接作为唱法模型数据使用。如果有进行分类，保持一致​
TIPS：关于声库转制​
如果需要将utau等拼接声库转制为diffsinger声库，建议使用其原始采样作为训练数据以使声库效果较为自然​

三、多说话人声学/唱法模型数据集​
多说话人训练，即在一次训练中使用多个数据集共同训练。​
导出冻结模型（单人单声线声库）时，每个说话人音色互不影响，且能优化发音，音域等。​
导出混合声学模型（即多声线声库）时，可以自由调整声线混合比例。​
1.如果进行多说话人训练，单人数据集时长要求可以降低，声学允许使用一定量的语音数据。所有数据需要以相同标准进行响度匹配​
2.若单人素材干声风格/声线多样，推荐多文件夹分类，每种风格/声线数据集在训练时作为一个说话人进行多人组合模型训练，并导出混合模型。数据总量满足2~3h要求即可。​
3.多说话人训练能够使没有某语种数据的说话人获得演唱此语种的能力​
​

图1-1 优秀频谱展示（48k频谱，非44.1k频谱）

common.docs_name - LarkCCM_Docs_Menu_Image

干声获取​

干声获取