| [feat] 增加DS V4 SFT数据集加载和SFT训练样例配置 | 8 天前 |
| [fix] fix fake_backend with ep | 9 天前 |
| DeepSeek-V4支持BSND shape下的序列切分 | 去除MindSpeed算子依赖 | 23 天前 |
| [fix] tune DeepSeek V4 expert parallel degree | 1 天前 |
| [fix] 适配 CANN 9.0.0、torch_npu 2.10.0 和 triton_ascend 3.2.1 | 20 天前 |
| [feat] 增加DS V4 SFT数据集加载和SFT训练样例配置 | 8 天前 |
| [fix] preserve MoE w13 values when exporting HF weights | 22 小时前 |
| [fix] 修复 swap optimizer checkpoint 保存加载 | 22 天前 |
| fix: use module-level LOSS_SCALE global instead of class attribute | 14 天前 |
| [fix] fix fake_backend with ep | 9 天前 |