可用于生成高质量日语语音,支持零样本语音克隆及通过输入文本中的特定表情符号控制说话风格、情绪和音效。项目基于Rectified Flow Diffusion Transformer架构,采用连续潜变量作为生成目标,提升了合成语音质量与稳定性。【此简介由AI生成】
license: mit language:
- ja pipeline_tag: text-to-speech tags:
- speech
- voice
- tts
Irodori-TTS-500M-v2
Irodori-TTS-500M-v2 是一个基于整流流扩散Transformer(RF-DiT)架构的日语文本转语音模型。其架构和训练设计在很大程度上借鉴了 Echo-TTS,以连续潜变量作为生成目标。它支持从参考音频进行零样本声音克隆。
该模型的一大特色是基于表情符号的风格与音效控制——通过在输入文本中插入特定表情符号,您可以控制生成音频中的说话风格、情感乃至音效。
🌟 主要特性
- 流匹配文本转语音: 基于连续DACVAE潜变量的整流流扩散Transformer,用于高质量日语语音合成。
- 声音克隆: 从简短的参考音频片段进行零样本声音克隆。
- 基于表情符号的风格控制: 通过在输入文本中直接嵌入表情符号来控制说话风格、情感和音效。完整的支持表情符号及其效果列表,请参见
EMOJI_ANNOTATIONS.md。
✨ v2 版本新特性
此版本相比原始 Irodori-TTS-500M 带来了多项改进:
- 升级的VAE: 将音频VAE更换为 Aratako/Semantic-DACVAE-Japanese-32dim,能够生成更高质量的日语语音。
- 扩展训练: 训练步数增加了2.5倍,从而实现了更好的收敛性、稳定性和整体音频保真度。
- 数据与预处理改进: 实施了优化的文本预处理流程和更严格的数据过滤,以增强模型的鲁棒性和输出质量。
🏗️ 模型架构
该模型(约5亿参数)由三个主要组件构成:
- 文本编码器: 基于 llm-jp/llm-jp-3-150m 初始化的 token 嵌入,其后是带有 RoPE 的自注意力 + SwiGLU transformer 层。
- 参考潜变量编码器: 通过自注意力 + SwiGLU 层对分块的参考音频潜变量进行编码,以实现说话人/风格条件控制。
- 扩散 Transformer: 包含联合注意力的 DiT 块,采用低秩 AdaLN(时间步条件自适应层归一化)、半 RoPE 和 SwiGLU MLP。
音频通过 Aratako/Semantic-DACVAE-Japanese-32dim 编解码器(32维)表示为连续潜变量序列,可实现高质量 48kHz 波形重建。
🎧 音频样本
1. 标准 TTS
基本的日语文本转语音生成(无需参考音频)。
| 案例 | 文本 | 生成音频 |
|---|---|---|
| 样本 1 | "お電話ありがとうございます。ただいま電話が大変混み合っております。恐れ入りますが、発信音のあとに、ご用件をお話しください。" | |
| 样本 2 | "その森には、古い言い伝えがありました。月が最も高く昇る夜、静かに耳を澄ませば、風の歌声が聞こえるというのです。私は半信半疑でしたが、その夜、確かに誰かが私を呼ぶ声を聞いたのです。" |
2. 表情符号标注控制
使用表情符号控制说话风格和效果的示例。支持的表情符号完整列表,请参见 EMOJI_ANNOTATIONS.md。
| 案例 | 文本(含表情符号) | 生成音频 |
|---|---|---|
| 样本 1 | なーに、どうしたの?…え?もっと近づいてほしい?…👂😮💨👂😮💨こういうのが好きなんだ? | |
| 样本 2 | うぅ…😭そんなに酷いこと、言わないで…😭 | |
| 样本 3 | 🤧🤧ごめんね、風邪引いちゃってて🤧…大丈夫、ただの風邪だからすぐ治るよ🥺 |
3. 声音克隆(零样本)
以下是从参考音频片段克隆声音的示例。
| 案例 | 参考音频 | 生成音频 |
|---|---|---|
| 示例 1 | ||
| 示例 2 |
🚀 使用方法
有关推理代码、安装说明和训练脚本,请参考 GitHub 仓库:
📊 训练数据与标注
该模型在高质量日语语音数据集上进行训练,v2 版本进一步优化了数据筛选。为实现基于表情符号的风格控制,训练文本中添加了表情符号标注。这些标注是使用基于 Qwen/Qwen3-Omni-30B-A3B-Instruct 微调的模型自动生成和标记的。
⚠️ 局限性
- 仅支持日语:当前模型仅支持日语文本输入。
- 表情符号控制:尽管基于表情符号的风格控制增加了表现力,但其效果可能因上下文而异,并非始终完全一致。
- 音频质量:质量取决于训练数据的特性。对于训练数据中代表性不足的声音或说话风格,性能可能会有所差异。
- 汉字读音准确性:与同等规模的其他 TTS 模型相比,该模型准确读取汉字的能力相对较弱。您可能需要事先将复杂汉字转换为平假名或片假名。
📜 许可证与伦理限制
许可证
本模型基于 MIT 许可证发布。
伦理限制
除许可条款外,还应遵守以下伦理限制:
- 禁止冒充:未经本人明确同意,不得使用本模型克隆或冒充任何个人(如配音演员、名人、公众人物)的声音。
- 禁止虚假信息:不得使用本模型生成旨在误导他人或传播虚假信息的深度伪造内容或合成语音。
- 免责声明:开发者对本模型的任何滥用不承担责任。用户对确保其生成内容的使用符合其所在司法管辖区的适用法律法规负有全部责任。
🙏 致谢
本项目基于以下成果开发:
- Echo-TTS — 架构和训练设计参考
- DACVAE — 音频变分自编码器
- llm-jp/llm-jp-3-150m — 分词器和嵌入权重初始化
我们还要特别感谢 Respair 为表情符号标注功能提供的灵感。
🖊️ 引用
如果您在研究或项目中使用 Irodori-TTS-v2,请按以下方式引用:
@misc{irodori-tts-v2,
author = {Chihiro Arata},
title = {Irodori-TTS: A Flow Matching-based Text-to-Speech Model with Emoji-driven Style Control},
year = {2026},
publisher = {Hugging Face},
journal = {Hugging Face repository},
howpublished = {\url{https://huggingface.co/Aratako/Irodori-TTS-500M-v2}}
}