GRPO 使用指南

目录

简介

以 MindSpeed MM 仓库复现 Group Relative Policy Optimization (GRPO) 后训练方法为例来帮助用户快速入门,后续规划支持多个模型。

支持模型

性能数据

模型 数据集 机器型号 GBS n_samples max_prompt_length max_response_length max_num_batched_tokens 端到端 tps
Qwen2.5VL-7B geo3k Atlas 200T A2 Box16 512 5 1024 2048 8192 142.42
Qwen2.5VL-32B geo3k Atlas 200T A2 Box16 256 5 1024 2048 8192 88.32
Qwen2.5VL-7B 非公开数据集 Atlas 200T A2 Box16 16 4 18,000 512 19,000 428.38
Qwen2.5VL-32B 非公开数据集 Atlas 200T A2 Box16 32 8 18,000 512 20,000 99.65
Qwen3VL-8B geo3k Atlas 200T A2 Box16 512 5 1024 2048 8192 429
Qwen3VL-8B geo3k Atlas 200T A3 Box8 512 5 1024 2048 8192 364*2
Qwen3VL-30B geo3k Atlas 200T A2 Box16 64 5 1024 2048 8192 21.76
Qwen3VL-30B geo3k Atlas 200T A3 Box8 64 5 1024 2048 8192 19.1*2
Qwen3VL-30B geo3k Atlas 200T A2 Box16 64 5 16384 1024 18000 275
Qwen3VL-30B geo3k Atlas 200T A3 Box8 64 5 16384 1024 18000 267*2
:非公开数据集性能结果仅供参考。