今天给大家介绍一款非常强大的开源语音合成模型 —— Qwen3-TTS,这是阿里云通义千问团队开发的全系列 TTS 模型,支持稳定、富有表现力的语音生成,流式输出,自由式声音设计,以及生动的声音克隆,让你轻松打造属于自己的私有语音助手。

项目概述

Qwen3-TTS 是 Qwen 团队在阿里云开发的开源语音生成系列模型,提供全面的语音克隆、声音设计、超高质量人声合成和自然语言语音控制能力。开发者可以自由选择使用 Python 包、DashScope API 或 vLLM 部署,支持 10 种主流语言及多种方言音色。

GitHub 数据:⭐ 7,800+ Stars | 🍴 970+ Forks | 📜 Apache 2.0 开源协议

核心特性

🆕 最新功能

  • Qwen3-TTS-Tokenizer-12Hz – 自研 12Hz 声学压缩,高效建模,端到端合成延迟低至 97ms
  • 流式生成 – 单字符输入即可输出首包音频,满足实时交互场景
  • 自然语言声音控制 – 支持用自然语言指令控制音色、情感、韵律等多维声学属性

💡 主要功能

  • 10 种语言 – 中文、英语、日语、韩语、德语、法语、俄语、葡萄牙语、西班牙语、意大利语
  • 声音克隆 – 3 秒参考音频即可快速克隆,支持本地文件、URL、Base64
  • 声音设计 – 根据自然语言描述生成目标音色
  • 9 款精选音色 – Vivian、Serena、Uncle_Fu、Dylan、Eric、Ryan、Aiden、Ono_Anna、Sohee
  • 多模态理解 – 根据文本语义自适应调整语调、节奏和情感表达
  • vLLM 支持 – 官方提供 vLLM-Omni 部署方案

已发布模型

  • Qwen3-TTS-12Hz-1.7B-VoiceDesign – 根据描述进行声音设计,支持指令控制
  • Qwen3-TTS-12Hz-1.7B-CustomVoice – 9 款精选音色,支持指令控制
  • Qwen3-TTS-12Hz-1.7B-Base – 3 秒快速克隆,可用于微调
  • Qwen3-TTS-12Hz-0.6B-CustomVoice / Base – 轻量版,适合资源受限场景

部署方式

Python 包(推荐)

conda create -n qwen3-tts python=3.12 -y
conda activate qwen3-tts
pip install -U qwen-tts

本地 Web UI 演示

# CustomVoice 模型
qwen-tts-demo Qwen/Qwen3-TTS-12Hz-1.7B-CustomVoice --ip 0.0.0.0 --port 8000

# VoiceDesign 模型
qwen-tts-demo Qwen/Qwen3-TTS-12Hz-1.7B-VoiceDesign --ip 0.0.0.0 --port 8000

# Base 模型(声音克隆)
qwen-tts-demo Qwen/Qwen3-TTS-12Hz-1.7B-Base --ip 0.0.0.0 --port 8000

然后访问 http://<你的IP>:8000 即可体验。

模型下载

国内用户推荐使用 ModelScope:

pip install -U modelscope
modelscope download --model Qwen/Qwen3-TTS-12Hz-1.7B-CustomVoice --local_dir ./Qwen3-TTS-12Hz-1.7B-CustomVoice

海外用户可使用 Hugging Face 下载。

DashScope API

阿里云提供 DashScope API,支持实时语音合成,无需本地部署。详见官方文档:通义千问 TTS 实时 API。

隐私与开源

Qwen3-TTS 完全开源,支持本地部署,数据无需上传。模型权重可通过 Hugging Face 或 ModelScope 获取,可离线运行。

Qwen3-TTS 是目前最全面的开源 TTS 解决方案之一,无论你是想搭建有声书朗读、视频配音、语音助手,还是多语言播报系统,它都能满足你的需求。完全开源免费,支持本地部署,保护你的数据隐私。如果你正在寻找一个功能强大、易于部署的语音合成工具,Qwen3-TTS 绝对值得一试!

 

资源下载
提示:如链接失效,请在评论区留言