Fun-CosyVoice 3.0是一款基于大型语言模型 (LLM) 的高级文本转语音 (TTS)

作者：颜资源站长 · 发布：2026-01-27 · 更新：2026-07-02

Multi-lingual large voice generation model, providing inference, training and deployment full-stack ability.

来源：GitHub中文项目

Fun-CosyVoice 3.0是一款基于大型语言模型 (LLM) 的高级文本转语音 (TTS) 系统，在内容一致性、说话人相似度和韵律自然度方面均超越了其前代产品 (CosyVoice 2.0)。它专为实际应用场景下的零样本多语言语音合成而设计。

语言覆盖范围：涵盖 9 种常用语言（中文、英文、日文、韩文、德文、西班牙文、法文、意大利文、俄文），18 种以上中文方言/口音（广东、闽南、四川、东北、陕西、上海、天津、山东、宁夏、甘肃等），同时支持多语言/跨语言零样本语音克隆。
内容一致性和自然性：在内容一致性、说话人相似性和韵律自然性方面达到最先进的性能。
发音修复：支持对汉语拼音和英语 CMU 音素进行发音修复，提供更大的可控性，因此适合生产使用。
文本规范化：无需传统前端模块即可支持读取数字、特殊符号和各种文本格式。
双流传输：支持文本输入流和音频输出流，在保持高质量音频输出的同时，延迟可低至 150 毫秒。
指令支持：支持各种指令，例如语言、方言、情绪、速度、音量等。

资源下载

提示：如链接失效，请在评论区留言

颜资源站长已发布 627 篇文章

资深互联网从业者，专注AI工具研究与实战应用。长期跟踪ChatGPT、Claude、Stable Diffusion等前沿AI技术，擅长将复杂的技术概念转化为通俗易懂的教程。运营颜资源小站，致力于为中文用户提供高质量的AI教程、开源项目推荐和数字资源整理。

评论(0)