Qwen3-TTS基础模型，支持10种语言，具备3秒快速语音克隆、自然语言指令控制语音属性及低至97ms的流式合成延迟，适用于多场景语音生成需求。【此简介由AI生成】

SsystemAdd pipeline tag, paper link, and sample usage for Qwen3-TTS (#2 )

文件	最后提交记录	最后更新时间
speech_tokenizer	Upload folder using huggingface_hub	3 个月前
.gitattributes	initial commit	3 个月前
README.md	Add pipeline tag, paper link, and sample usage for Qwen3-TTS (#2) - Add pipeline tag, paper link, and sample usage for Qwen3-TTS (dab70521e0956e3db91fb887d36c9a07d21ebc0b) Co-authored-by: Niels Rogge <nielsr@users.noreply.huggingface.co>	3 个月前
config.json	Upload folder using huggingface_hub	3 个月前
generation_config.json	Upload folder using huggingface_hub	3 个月前
merges.txt	Upload folder using huggingface_hub	3 个月前
model.safetensorsLFS	Upload folder using huggingface_hub	3 个月前
preprocessor_config.json	Upload folder using huggingface_hub	3 个月前
tokenizer_config.json	Upload folder using huggingface_hub	3 个月前
vocab.json	Upload folder using huggingface_hub	3 个月前

自动翻译

license: apache-2.0 pipeline_tag: text-to-speech language:

zh
en
ja
ko
de
fr
ru
pt
es
it tags:
audio
tts
voice-clone

Qwen3-TTS-12Hz-0.6B-Base

Qwen3-TTS 技术报告 | GitHub 仓库 | Hugging Face 演示

Qwen3-TTS 是一系列先进的多语言、可控、稳健且支持流式传输的文本转语音模型。该模型在涵盖 10 种语言的超过 500 万小时语音数据上进行训练，支持业界领先的 3 秒语音克隆和基于描述的控制功能。

本特定检查点是0.6B Base 模型，能够通过用户提供的音频输入实现快速语音克隆。

快速入门

安装

pip install -U qwen-tts
# Optional: for optimized performance
pip install -U flash-attn --no-build-isolation

示例用法（声音克隆）

要克隆声音并使用 Base 模型合成新内容，您可以使用以下代码片段：

import torch
import soundfile as sf
from qwen_tts import Qwen3TTSModel

# Load the model
model = Qwen3TTSModel.from_pretrained(
    "Qwen/Qwen3-TTS-12Hz-0.6B-Base",
    device_map="cuda:0",
    dtype=torch.bfloat16,
    attn_implementation="flash_attention_2",
)

# Reference audio for cloning
ref_audio = "https://qianwen-res.oss-cn-beijing.aliyuncs.com/Qwen3-TTS-Repo/clone.wav"
ref_text  = "Okay. Yeah. I resent you. I love you. I respect you. But you know what? You blew it! And thanks to you."

# Generate speech
wavs, sr = model.generate_voice_clone(
    text="I am solving the equation: x = [-b ± √(b²-4ac)] / 2a? Nobody can — it's a disaster (◍•͈⌔•͈◍), very sad!",
    language="English",
    ref_audio=ref_audio,
    ref_text=ref_text,
)

# Save the resulting audio
sf.write("output_voice_clone.wav", wavs[0], sr)

概述

简介

Qwen3-TTS 覆盖 10 种主要语言（中文、英语、日语、韩语、德语、法语、俄语、葡萄牙语、西班牙语、意大利语）以及多种方言语音，以满足全球应用需求。主要特点：

强大的语音表征能力：搭载自研的 Qwen3-TTS-Tokenizer-12Hz，实现高效的声学压缩与高维语义建模。
通用端到端架构：采用离散多码本 LM 架构，实现全信息端到端语音建模。
极致低延迟流式生成：端到端合成延迟低至 97ms，满足实时交互场景的严苛需求。
智能文本理解与语音控制：支持自然语言指令驱动的语音生成，可灵活控制多维度声学属性。

模型架构

引用

如果您觉得本工作有用，请考虑引用相关技术报告：

@article{Qwen3-TTS,
  title={Qwen3-TTS Technical Report},
  author={Hangrui Hu and Xinfa Zhu and Ting He and Dake Guo and Bin Zhang and Xiong Wang and Zhifang Guo and Ziyue Jiang and Hongkun Hao and Zishan Guo and Xinyu Zhang and Pei Zhang and Baosong Yang and Jin Xu and Jingren Zhou and Junyang Lin},
  journal={arXiv preprint arXiv:2601.15621},
  year={2026}
}