Star
69
Fork
136
代码
介绍
代码
Issues
9
Pull Requests
22
流水线
Actions
讨论
Wiki
项目成员
34
分析
项目设置
Star
69
Fork
136
2.2.0
MindSpeed-RL
/
configs
/
model
下载当前目录
ascend-robot
fix grpo loss&reward
af24c19d
创建于
2025年10月10日
历史提交
文件
最后提交记录
最后更新时间
deepseekv3_671b.yaml
!588
back core0.8.0
8 个月前
qwen25_32b.yaml
fix grpo loss&reward
7 个月前
qwen25_7b.yaml
!490
security fix
10 个月前
qwen3_235b_a22b.yaml
!588
back core0.8.0
8 个月前
qwen3_30b_a3b.yaml
!588
back core0.8.0
8 个月前
qwen3_32b.yaml
!489
支持qwen3 32b模型dapo
10 个月前
qwen3_8b.yaml
!474
grpo qwen3-8b A3
10 个月前
templates.json
!383
[pytorch][feature]Add DPO Algorithm to MindSpeed-RL
10 个月前