GRPO 使用指南
目录
简介
以 MindSpeed MM 仓库复现 Group Relative Policy Optimization (GRPO) 后训练方法为例来帮助用户快速入门,后续规划支持多个模型。
支持模型
性能数据
| 模型 | 数据集 | 机器型号 | GBS | n_samples | max_prompt_length | max_response_length | max_num_batched_tokens | 端到端 tps |
|---|---|---|---|---|---|---|---|---|
| Qwen2.5VL-7B | geo3k | Atlas 200T A2 Box16 | 512 | 5 | 1024 | 2048 | 8192 | 142.42 |
| Qwen2.5VL-32B | geo3k | Atlas 200T A2 Box16 | 256 | 5 | 1024 | 2048 | 8192 | 88.32 |
| Qwen2.5VL-7B | 非公开数据集 | Atlas 200T A2 Box16 | 16 | 4 | 18,000 | 512 | 19,000 | 428.38 |
| Qwen2.5VL-32B | 非公开数据集 | Atlas 200T A2 Box16 | 32 | 8 | 18,000 | 512 | 20,000 | 99.65 |
| Qwen3VL-8B | geo3k | Atlas 200T A2 Box16 | 512 | 5 | 1024 | 2048 | 8192 | 429 |
| Qwen3VL-8B | geo3k | Atlas 200T A3 Box8 | 512 | 5 | 1024 | 2048 | 8192 | 364*2 |
| Qwen3VL-30B | geo3k | Atlas 200T A2 Box16 | 64 | 5 | 1024 | 2048 | 8192 | 21.76 |
| Qwen3VL-30B | geo3k | Atlas 200T A3 Box8 | 64 | 5 | 1024 | 2048 | 8192 | 19.1*2 |
| Qwen3VL-30B | geo3k | Atlas 200T A2 Box16 | 64 | 5 | 16384 | 1024 | 18000 | 275 |
| Qwen3VL-30B | geo3k | Atlas 200T A3 Box8 | 64 | 5 | 16384 | 1024 | 18000 | 267*2 |
| 注:非公开数据集性能结果仅供参考。 |