ascend-robotdoc: add License and dir_structure

目录结构

概述

MindSpeed RL是基于昇腾生态的强化学习加速框架，提供端到端的RL训推解决方案。本文档详细说明仓库的目录结构与各模块功能。

目录结构总览

MindSpeed-RL/
├── ci/                       # CI/CD流水线脚本
├── cli/                      # 命令行入口脚本
├── configs/                  # 训练配置文件
├── docs/                     # 项目文档
├── examples/                 # 训练示例脚本
├── mindspeed_rl/             # 核心RL训练框架
├── tests/                    # 测试用例
├── verl_npu/                 # verl昇腾NPU适配层
├── setup.py                  # 安装脚本
├── requirements.txt          # 依赖列表
├── README.md                 # 项目说明
├── LICENSE                   # 许可证
├── OWNERS                    # 仓库维护者
└── SECURITYNOTE.md           # 安全声明

各目录详细说明

ci

CI/CD流水线相关脚本。

文件/目录	说明
`access_control_test.py`	访问控制测试脚本

cli

命令行入口脚本，提供各训练算法的启动入口。

文件/目录	说明
`train_dapo.py`	DAPO算法训练入口
`train_dpo.py`	DPO算法训练入口
`train_grpo.py`	GRPO算法训练入口
`train_ppo.py`	PPO算法训练入口
`preprocess_data.py`	数据预处理入口
`eplb_generate_map_ds.py`	EPLB映射数据集生成入口

configs

训练配置文件目录，包含模型、数据集、算法等YAML配置。

文件/目录	说明
`checkpoint/`	检查点配置目录
`checkpoint/model_cfg.json`	模型检查点配置
`datasets/`	数据集配置目录
`datasets/deepscaler.yaml`	DeepScaler数据集配置
`datasets/math_17k.yaml`	MATH-17K数据集配置
`datasets/orca_rlhf.yaml`	Orca-RLHF数据集配置
`model/`	模型配置目录
`model/qwen25_7b.yaml`	Qwen2.5-7B模型配置
`model/qwen25_32b.yaml`	Qwen2.5-32B模型配置
`model/qwen3_8b.yaml`	Qwen3-8B模型配置
`model/qwen3_32b.yaml`	Qwen3-32B模型配置
`model/qwen3_30b_a3b.yaml`	Qwen3-30B-A3B模型配置
`model/qwen3_235b_a22b.yaml`	Qwen3-235B-A22B模型配置
`model/deepseekv3_671b.yaml`	DeepSeek-V3-671B模型配置
`model/templates.json`	模型模板配置
`tools/`	工具配置目录
`tools/retool_config.yaml`	ReTool配置
`tools/search_tool_config.yaml`	SearchTool配置
`grpo_qwen25_7b_A3.yaml`	GRPO + Qwen2.5-7B A3配置
`grpo_qwen25_32b_A2.yaml`	GRPO + Qwen2.5-32B A2配置
`grpo_qwen25_32b_A3.yaml`	GRPO + Qwen2.5-32B A3配置
`grpo_qwen3_8b_A3.yaml`	GRPO + Qwen3-8B A3配置
`grpo_qwen3_235b_a22b_A2.yaml`	GRPO + Qwen3-235B-A22B A2配置
`grpo_lora_qwen25_32b_A2.yaml`	GRPO LoRA + Qwen2.5-32B A2配置
`grpo_deepseek_r1_671b_A2.yaml`	GRPO + DeepSeek-R1-671B A2配置
`grpo_deepseek_r1_671b_A3.yaml`	GRPO + DeepSeek-R1-671B A3配置
`grpo_deepseek_r1_671b_A3_eplb.yaml`	GRPO + DeepSeek-R1-671B A3 EPLB配置
`dapo_qwen25_32b_A3.yaml`	DAPO + Qwen2.5-32B A3配置
`dapo_qwen25_32b_A2_20k.yaml`	DAPO + Qwen2.5-32B A2 20K配置
`dapo_qwen25_32b_A3_32k.yaml`	DAPO + Qwen2.5-32B A3 32K配置
`dapo_qwen25_7b_A2_multi_turn.yaml`	DAPO + Qwen2.5-7B A2多轮配置
`dapo_qwen3_30b_a3b_A3.yaml`	DAPO + Qwen3-30B-A3B A3配置
`dapo_qwen3_32b_A3.yaml`	DAPO + Qwen3-32B A3配置
`ppo_qwen25_32b_A3.yaml`	PPO + Qwen2.5-32B A3配置
`dpo_qwen3_30b_a3b_A3.yaml`	DPO + Qwen3-30B-A3B A3配置

docs

项目文档目录，包含算法说明、特性指南、解决方案等。

文件/目录	说明
`zh/`	中文文档目录
`zh/algorithms/`	算法说明文档
`zh/algorithms/grpo.md`	GRPO算法使用指南
`zh/algorithms/dapo.md`	DAPO算法使用指南
`zh/algorithms/ppo.md`	PPO算法使用指南
`zh/algorithms/dpo.md`	DPO算法使用指南
`zh/features/`	特性说明文档
`zh/features/README.md`	特性总览
`zh/features/integrated_worker.md`	训推共卡特性
`zh/features/resharding.md`	权重重切分特性
`zh/features/remove_padding.md`	填充移除特性
`zh/features/context_parallel.md`	长序列并行特性
`zh/features/partial_rollout.md`	Partial Rollout特性
`zh/features/expert_parallel.md`	专家并行特性
`zh/features/EPLB.md`	EPLB特性
`zh/features/vpp.md`	VPP特性
`zh/features/offload.md`	Offload特性
`zh/features/recompute.md`	重计算特性
`zh/features/norm_recompute.md`	Norm重计算特性
`zh/features/activation_function_recompute.md`	激活函数重计算特性
`zh/features/chunked_prefill.md`	Chunked Prefill特性
`zh/features/acl_graph.md`	ACL Graph特性
`zh/features/grpo_lora.md`	GRPO LoRA特性
`zh/features/grpo_yaml.md`	GRPO YAML配置说明
`zh/features/ppo_yaml.md`	PPO YAML配置说明
`zh/features/multi_turn.md`	多轮迭代训练特性
`zh/features/data_module_design.md`	数据调度模块设计
`zh/features/task_queue.md`	任务队列特性
`zh/features/log_metrics.md`	指标日志特性
`zh/features/logging_wandb_tensorboard.md`	WandB/TensorBoard日志特性
`zh/features/logging_swanlab.md`	SwanLab日志特性
`zh/features/profiler.md`	性能调优特性
`zh/features/msprobe.md`	精度分析特性
`zh/features/deterministic_computation.md`	确定性计算特性
`zh/features/reuse_fp32_param.md`	FP32参数复用特性
`zh/features/swap_attention.md`	Attention Swap特性
`zh/features/swap_optimizer.md`	Optimizer Swap特性
`zh/features/runtime_env.md`	运行时环境配置
`zh/features/vLLM_prefix_cache.md`	vLLM前缀缓存特性
`zh/figures/`	文档图片资源目录
`zh/install_guide.md`	安装指南
`zh/solutions/`	解决方案文档
`zh/solutions/r1_zero_qwen25_7b.md`	R1-Zero + Qwen2.5-7B方案
`zh/solutions/r1_zero_qwen25_32b.md`	R1-Zero + Qwen2.5-32B方案
`zh/solutions/r1_zero_deepseek_671b.md`	R1-Zero + DeepSeek-671B方案
`en/`	英文文档目录
`en/TODO`	英文文档待办

examples

训练示例脚本目录，提供各算法在不同模型上的Shell启动脚本。

文件/目录	说明
`grpo/`	GRPO算法示例
`grpo/grpo_trainer_qwen25_7b.sh`	GRPO + Qwen2.5-7B训练脚本
`grpo/grpo_trainer_qwen25_32b.sh`	GRPO + Qwen2.5-32B训练脚本
`grpo/grpo_trainer_qwen3_8b.sh`	GRPO + Qwen3-8B训练脚本
`grpo/grpo_trainer_qwen3_235b_a22b.sh`	GRPO + Qwen3-235B-A22B训练脚本
`grpo/grpo_trainer_deepseek_r1_671b.sh`	GRPO + DeepSeek-R1-671B训练脚本
`dapo/`	DAPO算法示例
`dapo/dapo_trainer_qwen25_32b.sh`	DAPO + Qwen2.5-32B训练脚本
`dapo/dapo_trainer_qwen25_32b_20k.sh`	DAPO + Qwen2.5-32B 20K训练脚本
`dapo/dapo_trainer_qwen25_32b_32k.sh`	DAPO + Qwen2.5-32B 32K训练脚本
`dapo/dapo_trainer_qwen3_30b_a3b.sh`	DAPO + Qwen3-30B-A3B训练脚本
`dapo/dapo_trainer_qwen3_32b.sh`	DAPO + Qwen3-32B训练脚本
`ppo/`	PPO算法示例
`ppo/ppo_trainer_qwen25_32b.sh`	PPO + Qwen2.5-32B训练脚本
`dpo/`	DPO算法示例
`dpo/dpo_trainer_qwen3_30b_a3b.sh`	DPO + Qwen3-30B-A3B训练脚本
`eplb/`	EPLB示例
`eplb/eplb.sh`	EPLB启动脚本
`eplb/grpo_trainer_deepseek_r1_671b_eplb.sh`	GRPO + DeepSeek-R1-671B EPLB训练脚本
`eplb/collect_json_file.sh`	JSON文件收集脚本
`multi_turn/`	多轮训练示例
`multi_turn/dapo_trainer_qwen25_7b_multi_turn.sh`	DAPO + Qwen2.5-7B多轮训练脚本
`data/`	数据预处理示例
`data/preprocess_data.sh`	数据预处理脚本

mindspeed_rl

核心RL训练框架，包含模型、训练器、数据集、工作器等核心模块。

文件/目录	说明
`__init__.py`	包初始化文件
`config_cls/`	配置类定义与校验
`config_cls/base_config.py`	基础配置类
`config_cls/rl_config.py`	RL训练配置类
`config_cls/megatron_config.py`	Megatron配置类
`config_cls/generate_config.py`	生成配置类
`config_cls/data_handler_config.py`	数据处理配置类
`config_cls/mindstudio_config.py`	MindStudio配置类
`config_cls/validate_config.py`	配置校验
`datasets/`	数据集加载与预处理模块
`datasets/base_dataset.py`	基础数据集类
`datasets/build_dataset.py`	数据集构建
`datasets/data_handler.py`	数据处理器
`datasets/dataloader.py`	数据加载器
`datasets/data_samplers.py`	数据采样器
`datasets/formatter.py`	数据格式化
`datasets/handler_utils.py`	数据处理工具函数
`datasets/indexed_dataset.py`	索引数据集
`datasets/prompt_dataset.py`	提示数据集
`datasets/multimodal_dataset.py`	多模态数据集
`datasets/mm_utils.py`	多模态工具函数
`datasets/preprocess_data.py`	数据预处理
`datasets/templates.py`	数据模板
`datasets/utils.py`	数据集工具函数
`models/`	模型定义模块
`models/actor.py`	Actor模型
`models/actor_rollout_hybrid.py`	Actor-Rollout混合模型
`models/critic.py`	Critic模型
`models/reference.py`	Reference模型
`models/reward.py`	Reward模型
`models/math_dapo.py`	DAPO数学验证模型
`models/math_verify.py`	数学验证模型
`models/rule_verifier.py`	规则验证器
`models/base/`	模型基类
`models/base/base_inference_engine.py`	推理引擎基类
`models/base/base_training_engine.py`	训练引擎基类
`models/loss/`	损失函数模块
`models/loss/base_loss_func.py`	损失函数基类
`models/loss/critic_loss_func.py`	Critic损失函数
`models/loss/ppo_actor_loss_func.py`	PPO Actor损失函数
`models/loss/grpo_actor_loss_func.py`	GRPO Actor损失函数
`models/loss/dapo_actor_loss_func.py`	DAPO Actor损失函数
`models/loss/reference_loss_func.py`	Reference损失函数
`models/loss/reward_loss_func.py`	Reward损失函数
`models/loss/logprob_computer.py`	对数概率计算器
`models/loss/loss_func_factory.py`	损失函数工厂
`models/loss/loss_register.py`	损失函数注册
`models/orm/`	ORM模型模块
`models/orm/orm_model.py`	ORM模型
`models/rollout/`	Rollout模块
`models/rollout/vllm_engine.py`	vLLM推理引擎
`models/rollout/vllm_adapter/`	vLLM适配器
`models/rollout/vllm_adapter/engine_core.py`	vLLM引擎核心适配
`models/rollout/vllm_adapter/fused_moe.py`	MoE融合适配
`models/rollout/vllm_adapter/megatron_weight_loaders.py`	Megatron权重加载适配
`models/rollout/vllm_adapter/vllm_parallel_state.py`	vLLM并行状态适配
`models/rollout/vllm_adapter/patch/`	vLLM补丁
`models/rollout/vllm_adapter/patch/qwen2_5_vl_reuse_vit_patch.py`	Qwen2.5-VL ViT复用补丁
`models/rollout/vllm_adapter/patch/qwen2_5_vl_visionmlp_patch.py`	Qwen2.5-VL VisionMLP补丁
`models/rollout/vllm_adapter/patch/rotary_embedding_patch.py`	旋转嵌入补丁
`tools/`	工具集成模块
`tools/base_tool.py`	工具基类
`tools/retool.py`	ReTool工具
`tools/search_tool.py`	SearchTool工具
`tools/utils/`	工具辅助模块
`tools/utils/execution_pool.py`	执行池
`tools/utils/schemas.py`	工具Schema定义
`tools/utils/tool_parser.py`	工具解析器
`tools/utils/tool_registry.py`	工具注册表
`tools/utils/tool_utils.py`	工具工具函数
`trainer/`	训练器实现模块
`trainer/base.py`	训练器基类
`trainer/grpo_trainer_hybrid.py`	GRPO混合训练器
`trainer/dapo_trainer_hybrid.py`	DAPO混合训练器
`trainer/ppo_trainer_hybrid.py`	PPO混合训练器
`trainer/utils/`	训练器辅助模块
`trainer/utils/compute_utils.py`	计算工具函数
`trainer/utils/data_strategy.py`	数据策略
`trainer/utils/training.py`	训练辅助函数
`trainer/utils/parallel_state.py`	并行状态管理
`trainer/utils/transfer_dock.py`	数据传输中转站
`trainer/utils/mm_transfer_dock.py`	多模态数据传输中转站
`utils/`	通用工具函数模块
`utils/compute.py`	计算工具函数
`utils/context_parallel.py`	上下文并行工具
`utils/loggers.py`	日志工具
`utils/metrics.py`	指标工具
`utils/optimizer_module.py`	优化器模块
`utils/pad_process.py`	填充处理
`utils/remove_padding.py`	填充移除
`utils/seqLen_balancing.py`	序列长度均衡
`utils/tokenizer.py`	分词器工具
`utils/torch_functional.py`	PyTorch函数式工具
`utils/utils.py`	通用工具函数
`utils/zmq_communication.py`	ZMQ通信工具
`utils/math_eval_toolkit/`	数学评估工具包
`utils/math_eval_toolkit/grader.py`	数学评分器
`utils/math_eval_toolkit/parser.py`	数学解析器
`utils/transfer_queue/`	传输队列模块
`utils/transfer_queue/tq_client.py`	传输队列客户端
`utils/transfer_queue/tq_data.py`	传输队列数据
`utils/transfer_queue/tq_mgr.py`	传输队列管理器
`utils/transfer_queue/tq_utils.py`	传输队列工具函数
`workers/`	分布式工作器模块
`workers/base_worker.py`	工作器基类
`workers/actor_hybrid_worker.py`	Actor混合工作器
`workers/critic_worker.py`	Critic工作器
`workers/reference_worker.py`	Reference工作器
`workers/reward_worker.py`	Reward工作器
`workers/rule_reward.py`	规则奖励工作器
`workers/dynamic_sampling.py`	动态采样工作器
`workers/integrated_worker.py`	集成工作器（训推共卡）
`workers/vit_worker.py`	ViT工作器
`workers/eplb/`	EPLB模块
`workers/eplb/eplb.py`	EPLB实现
`workers/resharding/`	权重重切分模块
`workers/resharding/megatron_sharding_manager.py`	Megatron分片管理器
`workers/resharding/megatron_off_loader.py`	Megatron卸载器
`workers/resharding/memory_buffer.py`	内存缓冲区
`workers/resharding/vllm_weight_container.py`	vLLM权重容器
`workers/resharding/weight_adaptor.py`	权重适配器
`workers/resharding/utils.py`	重切分工具函数
`workers/scheduler/`	调度器模块
`workers/scheduler/launcher.py`	任务启动器
`workers/scheduler/launcher_ms.py`	MindSpeed任务启动器
`workers/scheduler/scheduler_ms.py`	MindSpeed调度器

tests

测试用例目录，包含单元测试、系统测试和verl示例测试。

文件/目录	说明
`conftest.py`	测试配置
`run_coverage.sh`	覆盖率运行脚本
`ut/`	单元测试目录
`ut/config/`	配置模块单元测试
`ut/config/test_config.py`	配置类测试
`ut/datasets/`	数据集模块单元测试
`ut/datasets/test_data_handler.py`	数据处理器测试
`ut/datasets/test_formatter.py`	格式化测试
`ut/datasets/test_handler_utils.py`	数据处理工具测试
`ut/datasets/test_indexed_dataset.py`	索引数据集测试
`ut/datasets/test_multimodal_dataset.py`	多模态数据集测试
`ut/datasets/test_prompt_dataset.py`	提示数据集测试
`ut/models/`	模型模块单元测试
`ut/models/test_actor.py`	Actor模型测试
`ut/models/test_actor_rollout_hybrid.py`	Actor-Rollout混合模型测试
`ut/models/test_critic.py`	Critic模型测试
`ut/models/test_reference.py`	Reference模型测试
`ut/models/test_reward.py`	Reward模型测试
`ut/models/test_math_dapo.py`	DAPO数学模型测试
`ut/models/test_verifier.py`	验证器测试
`ut/models/base/`	模型基类测试
`ut/models/base/test_base_training_engine.py`	训练引擎基类测试
`ut/models/loss/`	损失函数单元测试
`ut/models/loss/test_base_loss_func.py`	损失函数基类测试
`ut/models/loss/test_critic_loss_func.py`	Critic损失函数测试
`ut/models/loss/test_ppo_loss_func.py`	PPO损失函数测试
`ut/models/loss/test_grpo_loss_func.py`	GRPO损失函数测试
`ut/models/loss/test_dapo_loss_func.py`	DAPO损失函数测试
`ut/models/loss/test_dapo_actor_loss_func.py`	DAPO Actor损失函数测试
`ut/models/loss/test_loss_register.py`	损失函数注册测试
`ut/utils/`	工具模块单元测试
`ut/utils/test_compute_utils.py`	计算工具测试
`ut/utils/test_tokenizer.py`	分词器测试
`ut/utils/test_pad_process.py`	填充处理测试
`ut/utils/test_torch_functional.py`	PyTorch函数式测试
`ut/utils/test_utils.py`	通用工具测试
`ut/utils/test_logger.py`	日志测试
`ut/utils/test_grader.py`	评分器测试
`ut/utils/test_parser.py`	解析器测试
`ut/utils/test_parallel_state.py`	并行状态测试
`ut/utils/test_training.py`	训练辅助测试
`ut/utils/test_transfer_queue.py`	传输队列测试
`ut/utils/test_zmq_commnunication.py`	ZMQ通信测试
`ut/workers/`	工作器模块单元测试
`ut/workers/test_base_worker.py`	工作器基类测试
`ut/workers/scheduler/`	调度器测试
`ut/workers/scheduler/test_launcher.py`	启动器测试
`ut/features/`	特性单元测试
`ut/features/reuse_fp32_param/`	FP32参数复用测试
`ut/features/reuse_fp32_param/test_reuse_fp32_param.py`	FP32参数复用测试
`st/`	系统测试目录
`st/st_run.sh`	系统测试运行脚本
`st/configs/`	系统测试配置
`st/configs/model/`	系统测试模型配置
`st/configs/model/qwen25_7b.yaml`	Qwen2.5-7B测试配置
`st/configs/model/llama32-1b.yaml`	Llama3.2-1B测试配置
`st/configs/test_grpo_trainer_qwen25_7b_integrated.yaml`	GRPO集成测试配置
`st/configs/test_dapo_trainer_qwen25_7b_integrated.yaml`	DAPO集成测试配置
`st/configs/test_ppo_trainer_qwen25_7b_integrated.yaml`	PPO集成测试配置
`st/datasets/`	数据集系统测试
`st/datasets/test_preprocess_data.py`	数据预处理测试
`st/datasets/test_orca_rlhf.yaml`	Orca-RLHF测试配置
`st/datasets/test_module_entry_preprocess_data.sh`	数据预处理入口测试脚本
`st/resharding/`	重切分系统测试
`st/resharding/test_resharding.py`	重切分测试
`st/resharding/test_module_entry_resharding_tp_expand.sh`	TP扩展重切分测试脚本
`st/resharding/test_module_entry_resharding_tp_reduce.sh`	TP缩减重切分测试脚本
`st/train_engine/`	训练引擎系统测试
`st/train_engine/test_module_entry_ray_grpo_qwen25_7b_tp4_integrated.sh`	GRPO集成测试脚本
`st/train_engine/test_module_entry_ray_dapo_qwen25_7b_tp4_integrated.sh`	DAPO集成测试脚本
`st/train_engine/test_module_entry_ray_ppo_qwen25_7b_tp4_integrated.sh`	PPO集成测试脚本
`st/mindstudio/`	MindStudio系统测试
`st/mindstudio/check_and_clean_mindstudio_output.py`	MindStudio输出清理脚本
`test_tools/`	测试工具
`test_tools/dist_test.py`	分布式测试工具
`verl_examples/`	verl示例测试目录
`verl_examples/configs/`	verl测试配置
`verl_examples/configs/test_grpo_qwen25_7b_fsdp_int8_A2.sh`	GRPO + Qwen2.5-7B FSDP Int8测试
`verl_examples/configs/test_grpo_qwen3_235b_A2.sh`	GRPO + Qwen3-235B测试
`verl_examples/configs/test_dapo_qwen25_32b_fsdp2_A+X_4k.sh`	DAPO + Qwen2.5-32B FSDP2测试
`verl_examples/configs/...`	其他verl测试配置脚本
`verl_examples/dapo/`	DAPO verl示例
`verl_examples/dapo/dapo_qwen25_32b_fsdp2_A+X.sh`	DAPO + Qwen2.5-32B FSDP2脚本
`verl_examples/dapo/...`	其他DAPO verl示例脚本
`verl_examples/grpo/`	GRPO verl示例
`verl_examples/grpo/grpo_qwen3_235b_A2.sh`	GRPO + Qwen3-235B脚本
`verl_examples/grpo/...`	其他GRPO verl示例脚本
`verl_examples/gspo/`	GSPO verl示例
`verl_examples/gspo/gspo_qwen3_32b_A3.sh`	GSPO + Qwen3-32B脚本
`verl_examples/flash_rl/`	FlashRL verl示例
`verl_examples/flash_rl/grpo_qwen25_7b_fsdp_int8_A2.sh`	GRPO + Qwen2.5-7B FSDP Int8脚本
`verl_examples/retool/`	ReTool verl示例
`verl_examples/retool/run_qwen2_7b_dapo_npu.sh`	ReTool + Qwen2-7B DAPO NPU脚本
`verl_examples/data_preprocess/`	数据预处理verl示例
`verl_examples/data_preprocess/deepscaler_json_to_parquet.py`	DeepScaler JSON转Parquet脚本

verl_npu

verl昇腾NPU适配层，包含对verl/vLLM/Megatron/Transformers等组件的patch文件与插件。

文件/目录	说明
`README.MD`	verl_npu说明文档
`setup.py`	verl_npu安装脚本
`requirements-npu-sgl.txt`	NPU SGL依赖列表
`ci/`	CI/CD脚本
`ci/access_control_test_verl.py`	verl访问控制测试
`docs/`	verl_npu文档
`docs/quick_start.md`	快速入门
`docs/mindspeed.md`	MindSpeed说明
`docs/partial_rollout.md`	Partial Rollout说明
`docs/quantized_rollout.md`	量化Rollout说明
`docs/deterministic_computation.md`	确定性计算说明
`docs/sglang_readme.md`	SGLang说明
`docs/retool_zh.md`	ReTool中文说明
`docs/model/`	模型文档
`docs/model/deepseek671b-v3.md`	DeepSeek-671B-V3模型说明
`docs/model/deepseekv3.2.md`	DeepSeek-V3.2模型说明
`docs/model/gptoss.md`	GPT-OSS模型说明
`verl_npu/`	verl_npu核心代码
`verl_npu/plugin.py`	插件入口
`verl_npu/patch/`	Patch文件目录
`verl_npu/patch/mbridge/`	MBridge补丁
`verl_npu/patch/megatron-bridge/`	Megatron Bridge补丁
`verl_npu/patch/megatron-core/`	Megatron Core补丁
`verl_npu/patch/mindspeed/`	MindSpeed补丁
`verl_npu/patch/transformers/`	Transformers补丁
`verl_npu/patch/verl/`	verl补丁
`verl_npu/patch/vllm/`	vLLM补丁
`verl_npu/patch/vllm_ascend/`	vLLM Ascend补丁
`verl_npu/patch_summary/`	Patch摘要
`verl_npu/patch_summary/patch_summary.py`	Patch摘要生成
`verl_npu/patch_summary/patch_summary.yaml`	Patch摘要配置
`verl_npu/utils/`	verl_npu工具
`verl_npu/utils/pkg_version.py`	包版本工具
`verl_tests/`	verl测试目录
`verl_tests/st/`	verl系统测试
`verl_tests/st/st_run.sh`	系统测试运行脚本
`verl_tests/st/baseline_results/`	基线结果
`verl_tests/st/baseline_results/moonlight-16b-megatron.json`	Moonlight-16B Megatron基线
`verl_tests/st/baseline_results/qwen3-8b-fsdp.json`	Qwen3-8B FSDP基线
`verl_tests/st/train_engine/`	训练引擎测试
`verl_tests/st/train_engine/moonlight-16b-megatron.sh`	Moonlight-16B Megatron测试脚本
`verl_tests/st/train_engine/qwen3-8b-fsdp.sh`	Qwen3-8B FSDP测试脚本
`verl_tests/test_tools/`	verl测试工具
`verl_tests/test_tools/conftest.py`	测试配置
`verl_tests/test_tools/acquire_json.py`	JSON获取工具
`verl_tests/test_tools/test_ci_st.py`	CI系统测试

根目录文件说明

文件	说明
`setup.py`	Python包安装脚本，用于pip安装mindspeed_rl
`requirements.txt`	Python依赖列表
`README.md`	项目说明文档
`LICENSE`	Apache 2.0开源许可证
`OWNERS`	仓库维护者列表
`SECURITYNOTE.md`	安全声明文档
`.gitignore`	Git忽略规则