0
代码介绍
代码
Issues
Pull Requests
流水线
Actions
讨论
Wiki
项目成员
分析
项目设置
0
  1. mindformers
  2. /
  3. research
  4. /
  5. deepseek2
Yyinglailin"sft 梯度累加 对齐 megatron"
c0796712创建于 2024年11月6日历史提交
文件最后提交记录最后更新时间
convert_weight.py
fix code static check 1 年前
deepseek2.md
update model performance. 1 年前
deepseek2.py
"sft 梯度累加 对齐 megatron" 1 年前
deepseek2_config.py
[Bugfix] fix deepseekv2 train 1 年前
deepseek2_layer.py
fix code static check 1 年前
deepseek2_transformer.py
fix code static check 1 年前
finetune_deepseek2_236B.yaml
[Bugfix] fix deepseekv2 train 1 年前
predict_deepseek2_236B.yaml
fix prediction yaml 1 年前
run_deepseek2.py
fix code static check 1 年前