AI声音克隆需要准备多少语音样本？

建议准备300条左右的短音频录音，每条时长2至10秒，确保语音清晰、语速均匀且只有你自己的声音。语料质量优于数量，也可使用长视频替代，工具会自动剪切成短音频。

声音克隆模型训练需要什么硬件条件？

可选择Google Colab云端训练或本地训练。云端免费版约3小时可能被终止，建议长音频控制在20分钟内。本地训练需要配备独立显卡，如3080Ti约4小时可完成调试，深度训练5000次epochs可能需要数天。

别再被同质化的内容淹没！用 AI 克隆技术打造你独特的声音品牌！

约 2638 字大约 9 分钟...

每个人的声音都是独一无二的，克隆自己的声音可以用于制作高度个性化的内容，如播客、视频、音乐等。

你的声音是个人品牌的重要组成部分。利用人工智能，你可以不需要亲自录音就能生成大量优质音频内容，节省时间的同时确保内容质量和一致性。市场上虽有众多第三方语音生成技术，但它们大多数使用通用或他人的声音，导致内容缺乏个性化特质。例如，「注意看，这个男人叫小帅」的声音已经在众多影视作品中被重复使用。与之不同，AI 克隆技术能提供前所未有的个性化和定制体验。

艾什莉的播客就是一个典型例子，她利用 AI 生成了根据当日新闻热点定制的讲稿，再用 AI 克隆的自己的声音进行朗读，配上背景音乐，既经济又高效。

我使用了 VITS-fast-fine-tuning 来克隆我的声音。这款工具能从短音频、长音频或视频中克隆特定角色的声音，只需几小时即可完成预训练的 VITS 模型的微调。微调后的模型不仅能进行声线转换，还能完成中、日、英三种语言的文本到语音的转换。

收集语音样本

克隆声音的第一步是准备自己的声音样本。确保录音中只有你的声音，且语音清晰、语速均匀。录音完成后，需检查 final_annotation 等 txt 文件的音频转写情况，确认停顿和文字是否正确。

为增加语音样本的多样性，选择不同主题和领域的文本材料。我使用的文本来自标贝数据集，该数据集包含 10000 条文本和对应的读音。我选了 300 条用于短音频录制，每条录音时长在 2 至 10 秒之间。语料的质量优于数量，如果需要，可以减少语料条数或使用长视频。VITS-fast-fine-tuning 工具会自动将长音频剪切成短音频。

云端训练模型

关于模型的微调和部署，你可以参考官方 GitHub 页面的详细操作指南。

在 Google Colab 进行模型微调时，可能会因长时间未连接或超出免费配置限制而中断。为防止数据丢失，应提前选择「STEP 5 下载模型」的下载选项。在 Colab 进行云端训练时，建议长音频时长控制在 20 分钟以内，max_epochs 设置为 100。如需进一步提升模型质量，可继续训练模型，再进行 100 次 epochs。

我曾在 Colab 上用 8 分钟的 B 站视频进行训练，但三小时后由于超出免费额度被终止。后来我在配备了 3080Ti 的本地设备上进行训练，4 小时后便完成了调试。

本地训练模型

如果需要进行深入的模型调整，比如执行 5000 次 epochs，可能需要数天的时间。为此，你可以参考 LOCAL.md 来在本地环境进行训练。而针对其中可能存在的不明确部分，以下补充具体步骤和建议。

第 0 步：预先确认本地环境的 Python 版本为 3.8，并且已经安装了 Microsoft C++ 生成工具和 ffmpeg。这样可以预防潜在错误。在启动本地运行之前，执行 pip install --upgrade numpy 来更新 numpy 版本。
第 6 步：鉴于 wget 下载命令在 Windows 中可能不起作用，建议手动下载 sampled_audio4ft_v2.zip，随后将文件解压至运行路径。
第 7 步 (下载模型与配置)：
- C 模型（纯中文）：下载 HuggingFace 平台上的 D_0.pth、G_0.pth 和 config.json。
- CJ 模型（中日）：下载 D_0-p.pth、G_0-p.pth 和 config.json。
- CJE 模型（中日英）：下载 D_trilingual.pth、G_trilingual.pth 和 uma_trilingual.json。
- 选择上方一种模型进行下载。完成下载后，将 G 模型重命名为 G_0.pth，将 D 模型重命名为 D_0.pth，并将配置文件 .json 重命名为 finetune_speaker.json。G_0.pth 和 D_0.pth 放入 pretrained_models 目录，finetune_speaker.json 放入 config 目录。特别注意，要保证 json 文件是直接下载而非复制粘贴，以防后续步骤中打开 inference 出现问题。
第 8 步：由于 LOCAL.md 教程中未包含在线视频，所以需要将相关视频文件下载到本地。

第 9 步：运行以下命令：

python scripts/video2audio.py
python scripts/denoise_audio.py

python scripts/long_audio_transcribe.py --languages C --whisper_size large-v2
python scripts/short_audio_transcribe.py --languages C --whisper_size large-v2

python scripts/resample.py

第 10 步：执行 python preprocess_v2.py --add_auxiliary_data True --languages C。
第 11 步：
- 开始训练：python finetune_speaker_v2.py -m ./OUTPUT_MODEL --max_epochs 5000 --drop_speaker_embed True。
- 如果训练过程中断，要继续训练，执行 python finetune_speaker_v2.py -m ./OUTPUT_MODEL --max_epochs 10000 --drop_speaker_embed False --cont True。

别再被同质化的内容淹没！用 AI 克隆技术打造你独特的声音品牌！

收集语音样本

云端训练模型

本地训练模型

文字生成语音

声音微调

生成声音与原声无关

语音克隆的「口音」问题

常见问题

无法启动 inference

长音频识别问题

录音中出现 zh

长句读音含糊