Star351
77
代码介绍
代码
Issues8
Pull Requests21
流水线
Actions
讨论
Wiki
项目成员675
分析
项目设置
Star351
77
  1. torchtitan-npu
  2. /
  3. torchtitan_npu
cann-robotcann-robot[fix] preserve MoE w13 values when exporting HF weights
3ad84212创建于 22 小时前历史提交
文件最后提交记录最后更新时间
config
[feat] 增加DS V4 SFT数据集加载和SFT训练样例配置8 天前
converters
[fix] fix fake_backend with ep9 天前
distributed
DeepSeek-V4支持BSND shape下的序列切分 | 去除MindSpeed算子依赖23 天前
models
[fix] tune DeepSeek V4 expert parallel degree1 天前
ops
[fix] 适配 CANN 9.0.0、torch_npu 2.10.0 和 triton_ascend 3.2.120 天前
patches
[feat] 增加DS V4 SFT数据集加载和SFT训练样例配置8 天前
tools
[fix] preserve MoE w13 values when exporting HF weights22 小时前
__init__.py
[fix] 修复 swap optimizer checkpoint 保存加载22 天前
entry.py
fix: use module-level LOSS_SCALE global instead of class attribute14 天前
train.py
[fix] fix fake_backend with ep9 天前