作者: · 发布: · 更新:

Multi-lingual large voice generation model, providing inference, training and deployment full-stack ability.

来源:GitHub中文项目

Fun-CosyVoice 3.0是一款基于大型语言模型 (LLM) 的高级文本转语音 (TTS) 系统,在内容一致性、说话人相似度和韵律自然度方面均超越了其前代产品 (CosyVoice 2.0)。它专为实际应用场景下的零样本多语言语音合成而设计。

主要特点

  • 语言覆盖范围:涵盖 9 种常用语言(中文、英文、日文、韩文、德文、西班牙文、法文、意大利文、俄文),18 种以上中文方言/口音(广东、闽南、四川、东北、陕西、上海、天津、山东、宁夏、甘肃等),同时支持多语言/跨语言零样本语音克隆。
  • 内容一致性和自然性:在内容一致性、说话人相似性和韵律自然性方面达到最先进的性能。
  • 发音修复:支持对汉语拼音和英语 CMU 音素进行发音修复,提供更大的可控性,因此适合生产使用。
  • 文本规范化:无需传统前端模块即可支持读取数字、特殊符号和各种文本格式。
  • 双流传输:支持文本输入流和音频输出流,在保持高质量音频输出的同时,延迟可低至 150 毫秒。
  • 指令支持:支持各种指令,例如语言、方言、情绪、速度、音量等。
资源下载
提示:如链接失效,请在评论区留言

相关阅读和学习路线

如果你想继续沿着“GitHub 开源项目”这个方向学习,可以先从下面这些站内内容建立路线,再回到本文判断具体资源是否适合自己。

补充阅读建议

如果你是通过搜索进入这篇内容,可以先确认它解决的问题、适用阶段和后续可复用的步骤,再决定是否继续深入。

继续学习入口

颜资源站长
颜资源站长 已发布 490 篇文章

资深互联网从业者,专注AI工具研究与实战应用。长期跟踪ChatGPT、Claude、Stable Diffusion等前沿AI技术,擅长将复杂的技术概念转化为通俗易懂的教程。运营颜资源小站,致力于为中文用户提供高质量的AI教程、开源项目推荐和数字资源整理。