Multi-lingual large voice generation model, providing inference, training and deployment full-stack ability.
来源:GitHub中文项目
Fun-CosyVoice 3.0是一款基于大型语言模型 (LLM) 的高级文本转语音 (TTS) 系统,在内容一致性、说话人相似度和韵律自然度方面均超越了其前代产品 (CosyVoice 2.0)。它专为实际应用场景下的零样本多语言语音合成而设计。
- 语言覆盖范围:涵盖 9 种常用语言(中文、英文、日文、韩文、德文、西班牙文、法文、意大利文、俄文),18 种以上中文方言/口音(广东、闽南、四川、东北、陕西、上海、天津、山东、宁夏、甘肃等),同时支持多语言/跨语言零样本语音克隆。
- 内容一致性和自然性:在内容一致性、说话人相似性和韵律自然性方面达到最先进的性能。
- 发音修复:支持对汉语拼音和英语 CMU 音素进行发音修复,提供更大的可控性,因此适合生产使用。
- 文本规范化:无需传统前端模块即可支持读取数字、特殊符号和各种文本格式。
- 双流传输:支持文本输入流和音频输出流,在保持高质量音频输出的同时,延迟可低至 150 毫秒。
- 指令支持:支持各种指令,例如语言、方言、情绪、速度、音量等。

评论(0)