小米开源全新TTS模型:多语言方言声音克隆,合成速度快至3-10秒

软件与游戏

资源简介

小米最新开源的OmniVoice模型,支持600+语言方言,实现快速声音克隆和合成,适用于多种场景,具有高效、易用等亮点。

已有 7 人浏览发布 2026-05-30更新 2026-06-11

网盘直链在单次购买成功后展示;若已开通会员且在有效期内,可在右侧用每日取链次数免费获取(不另扣单篇费)。

OmniVoice:多语言方言声音克隆与合成解决方案

小米最新开源的OmniVoice模型,是一款领先的多语言零样本文本到语音(TTS)模型,支持超过600种语言和方言。该模型基于创新的扩散语言模型架构,能够以极快的速度生成高质量的语音,并提供语音克隆和声音设计功能。

主要特点:

  • 超广语言覆盖:支持600+语言和方言,实现零样本TTS的广泛覆盖。
  • 零样本语音克隆:仅需3-10秒参考音频,即可复刻音色,质量顶尖。
  • 自由语音设计:通过文本指令控制性别、年龄、音高、口音/方言等,无需参考音。
  • 极速推理:实时推理速度(RTF)低至0.025,比实时快40倍,适合批量与实时场景。
  • 精细发音控制:支持笑声、叹气等非语言标记,支持拼音/音标强制纠音。
  • 架构简洁高效:采用扩散语言模型结构,兼顾音质、速度与扩展性。
  • 易用部署:一键启动Web UI,提供离线整合包,方便本地部署和二次开发。

OmniVoice完全开源,可在GitHub上获取,支持本地离线运行、二次开发与商用。

特别支持以下方言:陕西话、河南话、四川话、贵州话、云南话、桂林话、济南话、石家庄话、甘肃话、宁夏话、青岛话、东北话。

📂 资源目录

OmniVoice.zip  [7.9 GB]