#<#1226385237534310481> 克隆上传音频最佳实践

1 messages · Page 1 of 1 (latest)

hollow edgeBOT
#
AI-generated Answer for sunshine254866

以下为在 ElevenLabs 进行语音克隆(IVC/PVC)时,上传训练音频的官方最佳实践要点(精简版):

  • 明确克隆类型与所需时长

    • Instant Voice Cloning:推荐总时长约 1–2 分钟;不建议超过 3 分钟,过长可能无益甚至有害。(elevenlabs.io)
    • Professional Voice Cloning:最低约 30 分钟;最佳为 1–3 小时,理想接近 2–3 小时。(elevenlabs.io)
  • 文件与编码建议

    • 接受多种格式,但强烈建议使用 MP3,码率 ≥192 kbps;使用无压缩 WAV 基本无额外质量提升,应把重心放在录音本身质量。(help.elevenlabs.io)
  • 录音环境与内容

    • 仅保留单一说话人、无伴奏/无噪声、避免房间混响与长时间静音;整体音质与音色应保持一致。(help.elevenlabs.io)
    • IVC 会“模仿它听到的一切”(语速、语调、口水音、噪声等),请尽量提供干净且一致的声音表现。(elevenlabs.io)
  • 样本数量与拼接

    • 关键是“总时长”和“一致性”,而非片段数量;IVC 超过 2–3 分钟通常提升有限,反而可能影响稳定性。(help.elevenlabs.io)
  • 说话风格与语言匹配

    • 训练样本的说话风格会被复制到生成结果,尽量只提供一种目标风格的录音。(elevenlabs.io)
    • PVC 训练尽量使用你计划主要生成的目标语言的录音。(elevenlabs.io)
  • 音量与电平

    • IVC 推荐整体响度在 −23 至 −18 dB RMS、真峰值约 −3 dB,避免过大或过小音量。(elevenlabs.io)
  • 噪声清理与多说话人处理

    • 上传前可用 ElevenLabs Voice Isolator 去除背景噪声;如素材包含多人说话,PVC 流程支持在上传后进行分离和清理。(elevenlabs.io)
  • 合规与授权

    • 在创建克隆前需确认你拥有相应权利与被克隆者的同意;如对合法性有疑问,请参考服务条款与 AI 安全信息。(elevenlabs.io)
  • 快速检查清单(上传前)

    • MP3 ≥192 kbps;单人清晰语音;无音乐/噪声/混响;风格与目标一致;音量在推荐范围;IVC 控制在 1–2 分钟,PVC 尽量 1–3 小时。(help.elevenlabs.io)

如需更详细的分步操作,请参阅官方

languid cliff
#

克隆后使用声音配音时某些片段会出现一直延音十几秒的问题,通常是什么原因?