OmniVoice:多语言方言声音克隆与合成解决方案
小米最新开源的OmniVoice模型,是一款领先的多语言零样本文本到语音(TTS)模型,支持超过600种语言和方言。该模型基于创新的扩散语言模型架构,能够以极快的速度生成高质量的语音,并提供语音克隆和声音设计功能。
主要特点:
- 超广语言覆盖:支持600+语言和方言,实现零样本TTS的广泛覆盖。
- 零样本语音克隆:仅需3-10秒参考音频,即可复刻音色,质量顶尖。
- 自由语音设计:通过文本指令控制性别、年龄、音高、口音/方言等,无需参考音。
- 极速推理:实时推理速度(RTF)低至0.025,比实时快40倍,适合批量与实时场景。
- 精细发音控制:支持笑声、叹气等非语言标记,支持拼音/音标强制纠音。
- 架构简洁高效:采用扩散语言模型结构,兼顾音质、速度与扩展性。
- 易用部署:一键启动Web UI,提供离线整合包,方便本地部署和二次开发。
OmniVoice完全开源,可在GitHub上获取,支持本地离线运行、二次开发与商用。

特别支持以下方言:陕西话、河南话、四川话、贵州话、云南话、桂林话、济南话、石家庄话、甘肃话、宁夏话、青岛话、东北话。
📂 资源目录
OmniVoice.zip [7.9 GB]