日志打点指标说明

强化学习算法迭代打印日志说明如下：

时间相关指标说明

指标	说明
`timing/all`	一次迭代总时间
`timing/update`	一次迭代中actor model进行update耗时
`timing/rollout`	一次迭代中actor model进行rollout耗时
`timing/old_log_p`	一次迭代中actor model计算log_p耗时
`timing/reference_model`	一次迭代中reference model计算log_p耗时
`timing/resharding_to_train`	权重转到训练mode耗时
`timing/resharding_to_infer`	权重转到推理mode耗时
`timing/adv`	计算advantages耗时
`timing/non_overlap_reference_model`	reference model计算log_p耗时的未被掩盖时间
`timing/non_overlap_rule_reward`	rule_reward耗时的未被掩盖时间
`timing/non_overlap_reward_model`	reward_model耗时的未被掩盖时间
`timing/non_overlap_adv`	advantages计算耗时的未被掩盖时间
`timing/rule_reward`	rule reward打分耗时
`timing/reward_model`	reward model打分耗时
`timing/ref_onload`	reference model计算log_p过程中，onload耗时
`timing/ref_offload`	reference model计算log_p过程中，offload耗时
`timing/critic_model`	一次迭代中critic model计算values耗时
`timing/update_critic`	一次迭代中critic model进行update耗时

算法基本指标说明

指标	说明
`actor/entropy`	策略熵，表示策略的随机性或探索能力
`actor/kl_loss`	kl散度，衡量当前策略与参考策略（如旧策略或参考模型）之间的偏离程度
`actor/pg_loss`	pg_loss，基于优势函数的策略梯度目标函数值，表示当前策略对提升奖励的学习能力。
`actor/pg_clipfrac`	actor model裁剪机制生效的比例，反映了策略更新幅度的稳定性
`actor/ppo_kl`	PPO算法的实际 KL 散度
`grad_norm`	梯度范数，表示当前反向传播中参数梯度的整体幅度
`{verifier_function}_rewards/mean`	规则奖励打分的平均总奖励值
`actor/lr`	actor model学习率，优化器当前使用的学习率
`response_length/mean`	平均生成长度，模型生成回复（response）的平均 token 数
`response_length/min`	最短生成长度，当前 batch 中生成最短的 response 长度
`response_length/max`	最长生成长度，当前 batch 中生成最长的 response 长度
`prompt_length/mean`	平均输入长度，输入 prompt 的平均长度
`prompt_length/max`	最长输入长度，当前 batch 中最长的 prompt长度
`prompt_length/min`	最短输入长度，当前 batch 中最短的 prompt长度
`global_batch_size`	每次训练迭代所处理的总prompt数量
`n_samples_per_prompt`	每条prompt在rollout阶段生成的response数量
`world_size`	在分布式训练中集群中总的设备数量（并行训练的总进程数）
`e2e_tps`	端到端的tokens/p/s指标
`update_tps`	训练的tokens/p/s指标
`vllm_tps`	推理的tokens/p/s指标

GRPO算法相关指标

指标	说明
`grpo/score/mean`	开启奖励模型时的reward均值
`grpo/score/max`	奖励模型及规则奖励对同一个样本的reward最大值
`grpo/score/min`	奖励模型及规则奖励对同一个样本的reward最小值
`grpo/rewards/mean`	规则奖励的reward均值；奖励模型对样本的reward经过归一化后的均值
`grpo/rewards/max`	规则奖励的reward最大值；奖励模型对样本的reward经过归一化后的最大值
`grpo/rewards/min`	规则奖励的reward最小值；奖励模型对样本的reward经过归一化后的最小值

PPO算法相关指标

指标	说明
`critic/lr`	critic model学习率，优化器当前使用的学习率
`critic/vf_loss`	vf_loss，基于优势函数的策略梯度目标函数值，表示当前策略对提升奖励的学习能力。
`critic/vf_clipfrac`	PPO中critic model裁剪机制生效的比例，反映了策略更新幅度的稳定性
`critic/vf_clipfrac`	PPO中critic model裁剪机制生效的比例，反映了策略更新幅度的稳定性
`critic/score/mean`	开启奖励模型时的reward均值
`critic/score/max`	奖励模型及规则奖励对同一个样本的reward最大值
`critic/score/min`	奖励模型及规则奖励对同一个样本的reward最小值
`critic/rewards/mean`	规则奖励的reward均值；奖励模型对样本的reward经过归一化后的均值
`critic/rewards/max`	规则奖励的reward最大值；奖励模型对样本的reward经过归一化后的最大值
`critic/rewards/min`	规则奖励的reward最小值；奖励模型对样本的reward经过归一化后的最小值
`critic/advantages/mean`	优势值均值；奖励模型对样本的reward经过归一化后的均值
`critic/advantages/max`	优势值最大值；奖励模型对样本的reward经过归一化后的最大值
`critic/advantages/min`	优势值最小值；奖励模型对样本的reward经过归一化后的最小值
`critic/returns/mean`	所有未来奖励的折扣和均值；奖励模型对样本的reward经过归一化后的均值
`critic/returns/max`	所有未来奖励的折扣和最大值；奖励模型对样本的reward经过归一化后的最大值
`critic/returns/min`	所有未来奖励的折扣和最小值；奖励模型对样本的reward经过归一化后的最小值
`critic/values/mean`	当前状态下未来收益均值；奖励模型对样本的reward经过归一化后的均值
`critic/values/max`	当前状态下未来收益均值最大值；奖励模型对样本的reward经过归一化后的最大值
`critic/values/min`	当前状态下未来收益均值最小值；奖励模型对样本的reward经过归一化后的最小值