日志打点指标说明

强化学习算法迭代打印日志说明如下:

时间相关指标说明

指标 说明
timing/all 一次迭代总时间
timing/update 一次迭代中actor model进行update耗时
timing/rollout 一次迭代中actor model进行rollout耗时
timing/old_log_p 一次迭代中actor model计算log_p耗时
timing/reference_model 一次迭代中reference model计算log_p耗时
timing/resharding_to_train 权重转到训练mode耗时
timing/resharding_to_infer 权重转到推理mode耗时
timing/adv 计算advantages耗时
timing/non_overlap_reference_model reference model计算log_p耗时的未被掩盖时间
timing/non_overlap_rule_reward rule_reward耗时的未被掩盖时间
timing/non_overlap_reward_model reward_model耗时的未被掩盖时间
timing/non_overlap_adv advantages计算耗时的未被掩盖时间
timing/rule_reward rule reward打分耗时
timing/reward_model reward model打分耗时
timing/ref_onload reference model计算log_p过程中,onload耗时
timing/ref_offload reference model计算log_p过程中,offload耗时
timing/critic_model 一次迭代中critic model计算values耗时
timing/update_critic 一次迭代中critic model进行update耗时

算法基本指标说明

指标 说明
actor/entropy 策略熵,表示策略的随机性或探索能力
actor/kl_loss kl散度,衡量当前策略与参考策略(如旧策略或参考模型)之间的偏离程度
actor/pg_loss pg_loss,基于优势函数的策略梯度目标函数值,表示当前策略对提升奖励的学习能力。
actor/pg_clipfrac actor model裁剪机制生效的比例,反映了策略更新幅度的稳定性
actor/ppo_kl PPO算法的实际 KL 散度
grad_norm 梯度范数,表示当前反向传播中参数梯度的整体幅度
{verifier_function}_rewards/mean 规则奖励打分的平均总奖励值
actor/lr actor model学习率,优化器当前使用的学习率
response_length/mean 平均生成长度,模型生成回复(response)的平均 token 数
response_length/min 最短生成长度,当前 batch 中生成最短的 response 长度
response_length/max 最长生成长度,当前 batch 中生成最长的 response 长度
prompt_length/mean 平均输入长度,输入 prompt 的平均长度
prompt_length/max 最长输入长度,当前 batch 中最长的 prompt长度
prompt_length/min 最短输入长度,当前 batch 中最短的 prompt长度
global_batch_size 每次训练迭代所处理的总prompt数量
n_samples_per_prompt 每条prompt在rollout阶段生成的response数量
world_size 在分布式训练中集群中总的设备数量(并行训练的总进程数)
e2e_tps 端到端的tokens/p/s指标
update_tps 训练的tokens/p/s指标
vllm_tps 推理的tokens/p/s指标

GRPO算法相关指标

指标 说明
grpo/score/mean 开启奖励模型时的reward均值
grpo/score/max 奖励模型及规则奖励对同一个样本的reward最大值
grpo/score/min 奖励模型及规则奖励对同一个样本的reward最小值
grpo/rewards/mean 规则奖励的reward均值;奖励模型对样本的reward经过归一化后的均值
grpo/rewards/max 规则奖励的reward最大值;奖励模型对样本的reward经过归一化后的最大值
grpo/rewards/min 规则奖励的reward最小值;奖励模型对样本的reward经过归一化后的最小值

PPO算法相关指标

指标 说明
critic/lr critic model学习率,优化器当前使用的学习率
critic/vf_loss vf_loss,基于优势函数的策略梯度目标函数值,表示当前策略对提升奖励的学习能力。
critic/vf_clipfrac PPO中critic model裁剪机制生效的比例,反映了策略更新幅度的稳定性
critic/vf_clipfrac PPO中critic model裁剪机制生效的比例,反映了策略更新幅度的稳定性
critic/score/mean 开启奖励模型时的reward均值
critic/score/max 奖励模型及规则奖励对同一个样本的reward最大值
critic/score/min 奖励模型及规则奖励对同一个样本的reward最小值
critic/rewards/mean 规则奖励的reward均值;奖励模型对样本的reward经过归一化后的均值
critic/rewards/max 规则奖励的reward最大值;奖励模型对样本的reward经过归一化后的最大值
critic/rewards/min 规则奖励的reward最小值;奖励模型对样本的reward经过归一化后的最小值
critic/advantages/mean 优势值均值;奖励模型对样本的reward经过归一化后的均值
critic/advantages/max 优势值最大值;奖励模型对样本的reward经过归一化后的最大值
critic/advantages/min 优势值最小值;奖励模型对样本的reward经过归一化后的最小值
critic/returns/mean 所有未来奖励的折扣和均值;奖励模型对样本的reward经过归一化后的均值
critic/returns/max 所有未来奖励的折扣和最大值;奖励模型对样本的reward经过归一化后的最大值
critic/returns/min 所有未来奖励的折扣和最小值;奖励模型对样本的reward经过归一化后的最小值
critic/values/mean 当前状态下未来收益均值;奖励模型对样本的reward经过归一化后的均值
critic/values/max 当前状态下未来收益均值最大值;奖励模型对样本的reward经过归一化后的最大值
critic/values/min 当前状态下未来收益均值最小值;奖励模型对样本的reward经过归一化后的最小值