#<#1226385237534310481> 克隆上传音频最佳实践
1 messages · Page 1 of 1 (latest)
AI-generated Answer for sunshine254866
以下为在 ElevenLabs 进行语音克隆(IVC/PVC)时,上传训练音频的官方最佳实践要点(精简版):
-
明确克隆类型与所需时长
- Instant Voice Cloning:推荐总时长约 1–2 分钟;不建议超过 3 分钟,过长可能无益甚至有害。(elevenlabs.io)
- Professional Voice Cloning:最低约 30 分钟;最佳为 1–3 小时,理想接近 2–3 小时。(elevenlabs.io)
-
文件与编码建议
- 接受多种格式,但强烈建议使用 MP3,码率 ≥192 kbps;使用无压缩 WAV 基本无额外质量提升,应把重心放在录音本身质量。(help.elevenlabs.io)
-
录音环境与内容
- 仅保留单一说话人、无伴奏/无噪声、避免房间混响与长时间静音;整体音质与音色应保持一致。(help.elevenlabs.io)
- IVC 会“模仿它听到的一切”(语速、语调、口水音、噪声等),请尽量提供干净且一致的声音表现。(elevenlabs.io)
-
样本数量与拼接
- 关键是“总时长”和“一致性”,而非片段数量;IVC 超过 2–3 分钟通常提升有限,反而可能影响稳定性。(help.elevenlabs.io)
-
说话风格与语言匹配
- 训练样本的说话风格会被复制到生成结果,尽量只提供一种目标风格的录音。(elevenlabs.io)
- PVC 训练尽量使用你计划主要生成的目标语言的录音。(elevenlabs.io)
-
音量与电平
- IVC 推荐整体响度在 −23 至 −18 dB RMS、真峰值约 −3 dB,避免过大或过小音量。(elevenlabs.io)
-
噪声清理与多说话人处理
- 上传前可用 ElevenLabs Voice Isolator 去除背景噪声;如素材包含多人说话,PVC 流程支持在上传后进行分离和清理。(elevenlabs.io)
-
合规与授权
- 在创建克隆前需确认你拥有相应权利与被克隆者的同意;如对合法性有疑问,请参考服务条款与 AI 安全信息。(elevenlabs.io)
-
快速检查清单(上传前)
- MP3 ≥192 kbps;单人清晰语音;无音乐/噪声/混响;风格与目标一致;音量在推荐范围;IVC 控制在 1–2 分钟,PVC 尽量 1–3 小时。(help.elevenlabs.io)
如需更详细的分步操作,请参阅官方
克隆后使用声音配音时某些片段会出现一直延音十几秒的问题,通常是什么原因?