| 文件 | 最后提交记录 | 最后更新时间 |
|---|---|---|
[fix] 修复preseparatenpu故障等级的处理逻辑问题,新增subhealthy故障等级映射。 Co-authored-by: 吕有辉<lvyouhui@huawei.com> # message auto-generated for no-merge-commit merge: !327 merge fault_code into master [fix] 修复preseparatenpu故障等级的处理逻辑问题,新增subhealthy故障等级映射。 Created-by: codeDogPro Commit-by: 吕有辉 Merged-by: towncharlie Description: ## **1. 合入背景** https://gitcode.com/Ascend/MindIE-PyMotor/issues/208 ## **2. 修改内容** 预隔离故障不影响当前的推理业务,根据是否有实例处在这个节点上来分配这个故障类型的故障等级。 ## **3. 资料变更** 涉及 ## **4. 接口变更** 不涉及 ## **5. 测试结果** 预隔离故障已修复问题   PreSeparateNPU故障现在会在该节点有实例使用时降级为L2故障,不做隔离和其他策略。 ## **6. CheckList** > PR提交人对以下CheckList自检项进行全量自检,自检通过或不涉及,均修改 [ ] 为 [x] [ ] 代码注释完备 [ ] 正确记录维测日志 [ ] 是否有UT用例 [ ] 若涉及多线程场景,考虑了并发场景,不存在死锁问题 See merge request: Ascend/MindIE-PyMotor!327 | 1 天前 | |
docs: 重构 docs/zh 文档目录结构,统一分类体系 Co-authored-by: 吕有辉<lvyouhui@huawei.com> # message auto-generated for no-merge-commit merge: !263 merge pcp_cross_node into master docs: 重构 docs/zh 文档目录结构,统一分类体系 Created-by: codeDogPro Commit-by: 吕有辉 Merged-by: towncharlie Description: ## **1. 合入背景** https://gitcode.com/Ascend/MindIE-PyMotor/issues/173 ## 背景 docs/zh/ 下文档日渐增多但缺乏统一分类体系,主要问题: 1. **developer_guide/ 三类内容混在一起**:设计文档、用户部署指南(docker-only)、贡献工具(build_docs)混放 2. **features/ (顶层) 和 user_guide/features/ 同名异义**:前者是设计概念说明,后者是特性部署操作指南,读者容易混淆 3. **features/ (顶层) 与 developer_guide/ 中的设计文档内容性质相同**,却分散在两处 4. **user_guide/ 顶层 13 个 md 文件平铺**,缺少二级分类 ## 方案 将 docs/zh/ 重构为 **5 个一级板块**,每个板块有唯一受众和内容定位: docs/zh/ ├── index.md # 首页 ├── architecture.md # 架构概览 ├── release_note.md # 版本说明 │ ├── user_guide/ # 【用户手册】 │ ├── quick_start.md # 快速开始 │ ├── environment_preparation.md # 环境准备 │ ├── deployment/ # 部署 │ │ ├── k8s/ │ │ │ ├── deploy_mode_guide.md # K8s · 部署模式说明 │ │ │ ├── pd_disaggregation_deployment.md # K8s · PD 分离部署 │ │ │ ├── pd_hybrid_deployment.md # K8s · PD 混部部署 │ │ │ ├── config_reference.md # K8s · 配置参考 │ │ │ └── update_config_whitelist.md # K8s · 更新配置白名单 │ │ └── docker/ │ │ ├── single_container.md # Docker · 单容器部署 │ │ └── multi_container.md # Docker · 多容器部署 │ ├── features/ # 特性指南 │ │ ├── EPD_disaggregation.md # EPD 分离 │ │ ├── KV_cache_affinity.md # KV Cache 亲和 │ │ ├── KV_pool.md # KV Pool │ │ ├── manual_instance_scaling.md # 手动扩缩容 │ │ ├── standby.md # 主备倒换 │ │ └── tracing.md # 链路追踪 │ ├── operations/ │ │ ├── log_config_guide.md # 日志配置 │ │ └── cli_to_engine_config_guide.md # 命令行转换工具 │ └── troubleshooting/ # 故障排查 │ └── solutions_to_common_problems.md │ ├── design/ # 【特性设计文档】 │ ├── pd_disaggregation.md # PD 分离 │ ├── fault_tolerance/ # 可靠性 │ │ ├── overview.md # 能力总览 │ │ ├── scale_p2d.md # ScaleP2D 故障恢复 │ │ └── fault_manager.md # FaultManager 设计 │ ├── manual_scaling.md # 手动扩缩容 │ ├── crd_deployment.md # CRD 部署设计 │ └── metrics.md # Metrics 可观测性 │ ├── developer_guide/ # 【开发者指南】 │ ├── build_docs.md # 本地构建文档 │ ├── make_image.md # 镜像制作 │ └── components/ # 组件实现设计 │ ├── controller.md │ ├── coordinator.md │ ├── engine_server.md │ └── node_manager.md │ └── api_reference/ # 【API 参考】 ├── interface_description.md # 接口说明 ├── service_interface.md # 服务接口 ├── management_and_monitoring_interfaces.md # 管理与监控接口 └── observability_interface.md # Observability 接口 ### 核心设计原则 | 板块 | 受众 | 判断标准 | |------|------|---------| | user_guide/ | 使用者 | "我要部署/配置/排查某个东西" | | design/ | 深度用户/二次开发者 | "我要理解某个特性/模块怎么设计的" | | developer_guide/ | 本项目贡献者 | "我要构建/修改这个项目本身" | | api_reference/ | 调用方 | "我要查这个接口的参数和返回值" | ### 具体变更 | # | 操作 | 说明 | |---|------|------| | 1 | features/(顶层) → design/ | 合并 PD分离、可靠性、ScaleP2D | | 2 | developer_guide/ 中设计文档 → design/ | FaultManager、手动扩缩容、CRD、Metrics | | 3 | developer_guide/docker_only/ → user_guide/docker/ | 本质是用户部署指南,非开发者文档 | | 4 | user_guide/ 平铺文件 → 二级目录 | deployment/ features/ operations/ troubleshooting/ | | 5 | user_guide/solutions_to_common_problems.md → troubleshooting/ | 为未来拆分为多文件留空间 | | 6 | 更新 .nav.yaml | 补全 release_note、observability_interface;移除不存在的文件 | | 7 | 修复 ~30 处失效相对链接 | service_deployment→deployment, features/→design/ 等 | ## **2. 修改内容** > 请<ins>**描述修改内容的具体实现**</ins>,涉及哪些组件之间进行交互,可以用1、2、3、...进行罗列。 > 如果是需求或者重构类的PR,需要<ins>**补充详细设计文档**</ins>(说明上下游组件关系、时序图、类图、DFX能力等内容)。 ## **3. 资料变更** 涉及 ## **4. 接口变更** 不涉及 ## **5. 测试结果**   ## **6. CheckList** > PR提交人对以下CheckList自检项进行全量自检,自检通过或不涉及,均修改 [ ] 为 [x] [ ] 代码注释完备 [ ] 正确记录维测日志 [ ] 是否有UT用例 [ ] 若涉及多线程场景,考虑了并发场景,不存在死锁问题 See merge request: Ascend/MindIE-PyMotor!263 | 8 天前 | |
docs: 重构 docs/zh 文档目录结构,统一分类体系 Co-authored-by: 吕有辉<lvyouhui@huawei.com> # message auto-generated for no-merge-commit merge: !263 merge pcp_cross_node into master docs: 重构 docs/zh 文档目录结构,统一分类体系 Created-by: codeDogPro Commit-by: 吕有辉 Merged-by: towncharlie Description: ## **1. 合入背景** https://gitcode.com/Ascend/MindIE-PyMotor/issues/173 ## 背景 docs/zh/ 下文档日渐增多但缺乏统一分类体系,主要问题: 1. **developer_guide/ 三类内容混在一起**:设计文档、用户部署指南(docker-only)、贡献工具(build_docs)混放 2. **features/ (顶层) 和 user_guide/features/ 同名异义**:前者是设计概念说明,后者是特性部署操作指南,读者容易混淆 3. **features/ (顶层) 与 developer_guide/ 中的设计文档内容性质相同**,却分散在两处 4. **user_guide/ 顶层 13 个 md 文件平铺**,缺少二级分类 ## 方案 将 docs/zh/ 重构为 **5 个一级板块**,每个板块有唯一受众和内容定位: docs/zh/ ├── index.md # 首页 ├── architecture.md # 架构概览 ├── release_note.md # 版本说明 │ ├── user_guide/ # 【用户手册】 │ ├── quick_start.md # 快速开始 │ ├── environment_preparation.md # 环境准备 │ ├── deployment/ # 部署 │ │ ├── k8s/ │ │ │ ├── deploy_mode_guide.md # K8s · 部署模式说明 │ │ │ ├── pd_disaggregation_deployment.md # K8s · PD 分离部署 │ │ │ ├── pd_hybrid_deployment.md # K8s · PD 混部部署 │ │ │ ├── config_reference.md # K8s · 配置参考 │ │ │ └── update_config_whitelist.md # K8s · 更新配置白名单 │ │ └── docker/ │ │ ├── single_container.md # Docker · 单容器部署 │ │ └── multi_container.md # Docker · 多容器部署 │ ├── features/ # 特性指南 │ │ ├── EPD_disaggregation.md # EPD 分离 │ │ ├── KV_cache_affinity.md # KV Cache 亲和 │ │ ├── KV_pool.md # KV Pool │ │ ├── manual_instance_scaling.md # 手动扩缩容 │ │ ├── standby.md # 主备倒换 │ │ └── tracing.md # 链路追踪 │ ├── operations/ │ │ ├── log_config_guide.md # 日志配置 │ │ └── cli_to_engine_config_guide.md # 命令行转换工具 │ └── troubleshooting/ # 故障排查 │ └── solutions_to_common_problems.md │ ├── design/ # 【特性设计文档】 │ ├── pd_disaggregation.md # PD 分离 │ ├── fault_tolerance/ # 可靠性 │ │ ├── overview.md # 能力总览 │ │ ├── scale_p2d.md # ScaleP2D 故障恢复 │ │ └── fault_manager.md # FaultManager 设计 │ ├── manual_scaling.md # 手动扩缩容 │ ├── crd_deployment.md # CRD 部署设计 │ └── metrics.md # Metrics 可观测性 │ ├── developer_guide/ # 【开发者指南】 │ ├── build_docs.md # 本地构建文档 │ ├── make_image.md # 镜像制作 │ └── components/ # 组件实现设计 │ ├── controller.md │ ├── coordinator.md │ ├── engine_server.md │ └── node_manager.md │ └── api_reference/ # 【API 参考】 ├── interface_description.md # 接口说明 ├── service_interface.md # 服务接口 ├── management_and_monitoring_interfaces.md # 管理与监控接口 └── observability_interface.md # Observability 接口 ### 核心设计原则 | 板块 | 受众 | 判断标准 | |------|------|---------| | user_guide/ | 使用者 | "我要部署/配置/排查某个东西" | | design/ | 深度用户/二次开发者 | "我要理解某个特性/模块怎么设计的" | | developer_guide/ | 本项目贡献者 | "我要构建/修改这个项目本身" | | api_reference/ | 调用方 | "我要查这个接口的参数和返回值" | ### 具体变更 | # | 操作 | 说明 | |---|------|------| | 1 | features/(顶层) → design/ | 合并 PD分离、可靠性、ScaleP2D | | 2 | developer_guide/ 中设计文档 → design/ | FaultManager、手动扩缩容、CRD、Metrics | | 3 | developer_guide/docker_only/ → user_guide/docker/ | 本质是用户部署指南,非开发者文档 | | 4 | user_guide/ 平铺文件 → 二级目录 | deployment/ features/ operations/ troubleshooting/ | | 5 | user_guide/solutions_to_common_problems.md → troubleshooting/ | 为未来拆分为多文件留空间 | | 6 | 更新 .nav.yaml | 补全 release_note、observability_interface;移除不存在的文件 | | 7 | 修复 ~30 处失效相对链接 | service_deployment→deployment, features/→design/ 等 | ## **2. 修改内容** > 请<ins>**描述修改内容的具体实现**</ins>,涉及哪些组件之间进行交互,可以用1、2、3、...进行罗列。 > 如果是需求或者重构类的PR,需要<ins>**补充详细设计文档**</ins>(说明上下游组件关系、时序图、类图、DFX能力等内容)。 ## **3. 资料变更** 涉及 ## **4. 接口变更** 不涉及 ## **5. 测试结果**   ## **6. CheckList** > PR提交人对以下CheckList自检项进行全量自检,自检通过或不涉及,均修改 [ ] 为 [x] [ ] 代码注释完备 [ ] 正确记录维测日志 [ ] 是否有UT用例 [ ] 若涉及多线程场景,考虑了并发场景,不存在死锁问题 See merge request: Ascend/MindIE-PyMotor!263 | 8 天前 | |
docs: 重构 docs/zh 文档目录结构,统一分类体系 Co-authored-by: 吕有辉<lvyouhui@huawei.com> # message auto-generated for no-merge-commit merge: !263 merge pcp_cross_node into master docs: 重构 docs/zh 文档目录结构,统一分类体系 Created-by: codeDogPro Commit-by: 吕有辉 Merged-by: towncharlie Description: ## **1. 合入背景** https://gitcode.com/Ascend/MindIE-PyMotor/issues/173 ## 背景 docs/zh/ 下文档日渐增多但缺乏统一分类体系,主要问题: 1. **developer_guide/ 三类内容混在一起**:设计文档、用户部署指南(docker-only)、贡献工具(build_docs)混放 2. **features/ (顶层) 和 user_guide/features/ 同名异义**:前者是设计概念说明,后者是特性部署操作指南,读者容易混淆 3. **features/ (顶层) 与 developer_guide/ 中的设计文档内容性质相同**,却分散在两处 4. **user_guide/ 顶层 13 个 md 文件平铺**,缺少二级分类 ## 方案 将 docs/zh/ 重构为 **5 个一级板块**,每个板块有唯一受众和内容定位: docs/zh/ ├── index.md # 首页 ├── architecture.md # 架构概览 ├── release_note.md # 版本说明 │ ├── user_guide/ # 【用户手册】 │ ├── quick_start.md # 快速开始 │ ├── environment_preparation.md # 环境准备 │ ├── deployment/ # 部署 │ │ ├── k8s/ │ │ │ ├── deploy_mode_guide.md # K8s · 部署模式说明 │ │ │ ├── pd_disaggregation_deployment.md # K8s · PD 分离部署 │ │ │ ├── pd_hybrid_deployment.md # K8s · PD 混部部署 │ │ │ ├── config_reference.md # K8s · 配置参考 │ │ │ └── update_config_whitelist.md # K8s · 更新配置白名单 │ │ └── docker/ │ │ ├── single_container.md # Docker · 单容器部署 │ │ └── multi_container.md # Docker · 多容器部署 │ ├── features/ # 特性指南 │ │ ├── EPD_disaggregation.md # EPD 分离 │ │ ├── KV_cache_affinity.md # KV Cache 亲和 │ │ ├── KV_pool.md # KV Pool │ │ ├── manual_instance_scaling.md # 手动扩缩容 │ │ ├── standby.md # 主备倒换 │ │ └── tracing.md # 链路追踪 │ ├── operations/ │ │ ├── log_config_guide.md # 日志配置 │ │ └── cli_to_engine_config_guide.md # 命令行转换工具 │ └── troubleshooting/ # 故障排查 │ └── solutions_to_common_problems.md │ ├── design/ # 【特性设计文档】 │ ├── pd_disaggregation.md # PD 分离 │ ├── fault_tolerance/ # 可靠性 │ │ ├── overview.md # 能力总览 │ │ ├── scale_p2d.md # ScaleP2D 故障恢复 │ │ └── fault_manager.md # FaultManager 设计 │ ├── manual_scaling.md # 手动扩缩容 │ ├── crd_deployment.md # CRD 部署设计 │ └── metrics.md # Metrics 可观测性 │ ├── developer_guide/ # 【开发者指南】 │ ├── build_docs.md # 本地构建文档 │ ├── make_image.md # 镜像制作 │ └── components/ # 组件实现设计 │ ├── controller.md │ ├── coordinator.md │ ├── engine_server.md │ └── node_manager.md │ └── api_reference/ # 【API 参考】 ├── interface_description.md # 接口说明 ├── service_interface.md # 服务接口 ├── management_and_monitoring_interfaces.md # 管理与监控接口 └── observability_interface.md # Observability 接口 ### 核心设计原则 | 板块 | 受众 | 判断标准 | |------|------|---------| | user_guide/ | 使用者 | "我要部署/配置/排查某个东西" | | design/ | 深度用户/二次开发者 | "我要理解某个特性/模块怎么设计的" | | developer_guide/ | 本项目贡献者 | "我要构建/修改这个项目本身" | | api_reference/ | 调用方 | "我要查这个接口的参数和返回值" | ### 具体变更 | # | 操作 | 说明 | |---|------|------| | 1 | features/(顶层) → design/ | 合并 PD分离、可靠性、ScaleP2D | | 2 | developer_guide/ 中设计文档 → design/ | FaultManager、手动扩缩容、CRD、Metrics | | 3 | developer_guide/docker_only/ → user_guide/docker/ | 本质是用户部署指南,非开发者文档 | | 4 | user_guide/ 平铺文件 → 二级目录 | deployment/ features/ operations/ troubleshooting/ | | 5 | user_guide/solutions_to_common_problems.md → troubleshooting/ | 为未来拆分为多文件留空间 | | 6 | 更新 .nav.yaml | 补全 release_note、observability_interface;移除不存在的文件 | | 7 | 修复 ~30 处失效相对链接 | service_deployment→deployment, features/→design/ 等 | ## **2. 修改内容** > 请<ins>**描述修改内容的具体实现**</ins>,涉及哪些组件之间进行交互,可以用1、2、3、...进行罗列。 > 如果是需求或者重构类的PR,需要<ins>**补充详细设计文档**</ins>(说明上下游组件关系、时序图、类图、DFX能力等内容)。 ## **3. 资料变更** 涉及 ## **4. 接口变更** 不涉及 ## **5. 测试结果**   ## **6. CheckList** > PR提交人对以下CheckList自检项进行全量自检,自检通过或不涉及,均修改 [ ] 为 [x] [ ] 代码注释完备 [ ] 正确记录维测日志 [ ] 是否有UT用例 [ ] 若涉及多线程场景,考虑了并发场景,不存在死锁问题 See merge request: Ascend/MindIE-PyMotor!263 | 8 天前 | |
docs: 重构 docs/zh 文档目录结构,统一分类体系 Co-authored-by: 吕有辉<lvyouhui@huawei.com> # message auto-generated for no-merge-commit merge: !263 merge pcp_cross_node into master docs: 重构 docs/zh 文档目录结构,统一分类体系 Created-by: codeDogPro Commit-by: 吕有辉 Merged-by: towncharlie Description: ## **1. 合入背景** https://gitcode.com/Ascend/MindIE-PyMotor/issues/173 ## 背景 docs/zh/ 下文档日渐增多但缺乏统一分类体系,主要问题: 1. **developer_guide/ 三类内容混在一起**:设计文档、用户部署指南(docker-only)、贡献工具(build_docs)混放 2. **features/ (顶层) 和 user_guide/features/ 同名异义**:前者是设计概念说明,后者是特性部署操作指南,读者容易混淆 3. **features/ (顶层) 与 developer_guide/ 中的设计文档内容性质相同**,却分散在两处 4. **user_guide/ 顶层 13 个 md 文件平铺**,缺少二级分类 ## 方案 将 docs/zh/ 重构为 **5 个一级板块**,每个板块有唯一受众和内容定位: docs/zh/ ├── index.md # 首页 ├── architecture.md # 架构概览 ├── release_note.md # 版本说明 │ ├── user_guide/ # 【用户手册】 │ ├── quick_start.md # 快速开始 │ ├── environment_preparation.md # 环境准备 │ ├── deployment/ # 部署 │ │ ├── k8s/ │ │ │ ├── deploy_mode_guide.md # K8s · 部署模式说明 │ │ │ ├── pd_disaggregation_deployment.md # K8s · PD 分离部署 │ │ │ ├── pd_hybrid_deployment.md # K8s · PD 混部部署 │ │ │ ├── config_reference.md # K8s · 配置参考 │ │ │ └── update_config_whitelist.md # K8s · 更新配置白名单 │ │ └── docker/ │ │ ├── single_container.md # Docker · 单容器部署 │ │ └── multi_container.md # Docker · 多容器部署 │ ├── features/ # 特性指南 │ │ ├── EPD_disaggregation.md # EPD 分离 │ │ ├── KV_cache_affinity.md # KV Cache 亲和 │ │ ├── KV_pool.md # KV Pool │ │ ├── manual_instance_scaling.md # 手动扩缩容 │ │ ├── standby.md # 主备倒换 │ │ └── tracing.md # 链路追踪 │ ├── operations/ │ │ ├── log_config_guide.md # 日志配置 │ │ └── cli_to_engine_config_guide.md # 命令行转换工具 │ └── troubleshooting/ # 故障排查 │ └── solutions_to_common_problems.md │ ├── design/ # 【特性设计文档】 │ ├── pd_disaggregation.md # PD 分离 │ ├── fault_tolerance/ # 可靠性 │ │ ├── overview.md # 能力总览 │ │ ├── scale_p2d.md # ScaleP2D 故障恢复 │ │ └── fault_manager.md # FaultManager 设计 │ ├── manual_scaling.md # 手动扩缩容 │ ├── crd_deployment.md # CRD 部署设计 │ └── metrics.md # Metrics 可观测性 │ ├── developer_guide/ # 【开发者指南】 │ ├── build_docs.md # 本地构建文档 │ ├── make_image.md # 镜像制作 │ └── components/ # 组件实现设计 │ ├── controller.md │ ├── coordinator.md │ ├── engine_server.md │ └── node_manager.md │ └── api_reference/ # 【API 参考】 ├── interface_description.md # 接口说明 ├── service_interface.md # 服务接口 ├── management_and_monitoring_interfaces.md # 管理与监控接口 └── observability_interface.md # Observability 接口 ### 核心设计原则 | 板块 | 受众 | 判断标准 | |------|------|---------| | user_guide/ | 使用者 | "我要部署/配置/排查某个东西" | | design/ | 深度用户/二次开发者 | "我要理解某个特性/模块怎么设计的" | | developer_guide/ | 本项目贡献者 | "我要构建/修改这个项目本身" | | api_reference/ | 调用方 | "我要查这个接口的参数和返回值" | ### 具体变更 | # | 操作 | 说明 | |---|------|------| | 1 | features/(顶层) → design/ | 合并 PD分离、可靠性、ScaleP2D | | 2 | developer_guide/ 中设计文档 → design/ | FaultManager、手动扩缩容、CRD、Metrics | | 3 | developer_guide/docker_only/ → user_guide/docker/ | 本质是用户部署指南,非开发者文档 | | 4 | user_guide/ 平铺文件 → 二级目录 | deployment/ features/ operations/ troubleshooting/ | | 5 | user_guide/solutions_to_common_problems.md → troubleshooting/ | 为未来拆分为多文件留空间 | | 6 | 更新 .nav.yaml | 补全 release_note、observability_interface;移除不存在的文件 | | 7 | 修复 ~30 处失效相对链接 | service_deployment→deployment, features/→design/ 等 | ## **2. 修改内容** > 请<ins>**描述修改内容的具体实现**</ins>,涉及哪些组件之间进行交互,可以用1、2、3、...进行罗列。 > 如果是需求或者重构类的PR,需要<ins>**补充详细设计文档**</ins>(说明上下游组件关系、时序图、类图、DFX能力等内容)。 ## **3. 资料变更** 涉及 ## **4. 接口变更** 不涉及 ## **5. 测试结果**   ## **6. CheckList** > PR提交人对以下CheckList自检项进行全量自检,自检通过或不涉及,均修改 [ ] 为 [x] [ ] 代码注释完备 [ ] 正确记录维测日志 [ ] 是否有UT用例 [ ] 若涉及多线程场景,考虑了并发场景,不存在死锁问题 See merge request: Ascend/MindIE-PyMotor!263 | 8 天前 | |
docs: 重构 docs/zh 文档目录结构,统一分类体系 Co-authored-by: 吕有辉<lvyouhui@huawei.com> # message auto-generated for no-merge-commit merge: !263 merge pcp_cross_node into master docs: 重构 docs/zh 文档目录结构,统一分类体系 Created-by: codeDogPro Commit-by: 吕有辉 Merged-by: towncharlie Description: ## **1. 合入背景** https://gitcode.com/Ascend/MindIE-PyMotor/issues/173 ## 背景 docs/zh/ 下文档日渐增多但缺乏统一分类体系,主要问题: 1. **developer_guide/ 三类内容混在一起**:设计文档、用户部署指南(docker-only)、贡献工具(build_docs)混放 2. **features/ (顶层) 和 user_guide/features/ 同名异义**:前者是设计概念说明,后者是特性部署操作指南,读者容易混淆 3. **features/ (顶层) 与 developer_guide/ 中的设计文档内容性质相同**,却分散在两处 4. **user_guide/ 顶层 13 个 md 文件平铺**,缺少二级分类 ## 方案 将 docs/zh/ 重构为 **5 个一级板块**,每个板块有唯一受众和内容定位: docs/zh/ ├── index.md # 首页 ├── architecture.md # 架构概览 ├── release_note.md # 版本说明 │ ├── user_guide/ # 【用户手册】 │ ├── quick_start.md # 快速开始 │ ├── environment_preparation.md # 环境准备 │ ├── deployment/ # 部署 │ │ ├── k8s/ │ │ │ ├── deploy_mode_guide.md # K8s · 部署模式说明 │ │ │ ├── pd_disaggregation_deployment.md # K8s · PD 分离部署 │ │ │ ├── pd_hybrid_deployment.md # K8s · PD 混部部署 │ │ │ ├── config_reference.md # K8s · 配置参考 │ │ │ └── update_config_whitelist.md # K8s · 更新配置白名单 │ │ └── docker/ │ │ ├── single_container.md # Docker · 单容器部署 │ │ └── multi_container.md # Docker · 多容器部署 │ ├── features/ # 特性指南 │ │ ├── EPD_disaggregation.md # EPD 分离 │ │ ├── KV_cache_affinity.md # KV Cache 亲和 │ │ ├── KV_pool.md # KV Pool │ │ ├── manual_instance_scaling.md # 手动扩缩容 │ │ ├── standby.md # 主备倒换 │ │ └── tracing.md # 链路追踪 │ ├── operations/ │ │ ├── log_config_guide.md # 日志配置 │ │ └── cli_to_engine_config_guide.md # 命令行转换工具 │ └── troubleshooting/ # 故障排查 │ └── solutions_to_common_problems.md │ ├── design/ # 【特性设计文档】 │ ├── pd_disaggregation.md # PD 分离 │ ├── fault_tolerance/ # 可靠性 │ │ ├── overview.md # 能力总览 │ │ ├── scale_p2d.md # ScaleP2D 故障恢复 │ │ └── fault_manager.md # FaultManager 设计 │ ├── manual_scaling.md # 手动扩缩容 │ ├── crd_deployment.md # CRD 部署设计 │ └── metrics.md # Metrics 可观测性 │ ├── developer_guide/ # 【开发者指南】 │ ├── build_docs.md # 本地构建文档 │ ├── make_image.md # 镜像制作 │ └── components/ # 组件实现设计 │ ├── controller.md │ ├── coordinator.md │ ├── engine_server.md │ └── node_manager.md │ └── api_reference/ # 【API 参考】 ├── interface_description.md # 接口说明 ├── service_interface.md # 服务接口 ├── management_and_monitoring_interfaces.md # 管理与监控接口 └── observability_interface.md # Observability 接口 ### 核心设计原则 | 板块 | 受众 | 判断标准 | |------|------|---------| | user_guide/ | 使用者 | "我要部署/配置/排查某个东西" | | design/ | 深度用户/二次开发者 | "我要理解某个特性/模块怎么设计的" | | developer_guide/ | 本项目贡献者 | "我要构建/修改这个项目本身" | | api_reference/ | 调用方 | "我要查这个接口的参数和返回值" | ### 具体变更 | # | 操作 | 说明 | |---|------|------| | 1 | features/(顶层) → design/ | 合并 PD分离、可靠性、ScaleP2D | | 2 | developer_guide/ 中设计文档 → design/ | FaultManager、手动扩缩容、CRD、Metrics | | 3 | developer_guide/docker_only/ → user_guide/docker/ | 本质是用户部署指南,非开发者文档 | | 4 | user_guide/ 平铺文件 → 二级目录 | deployment/ features/ operations/ troubleshooting/ | | 5 | user_guide/solutions_to_common_problems.md → troubleshooting/ | 为未来拆分为多文件留空间 | | 6 | 更新 .nav.yaml | 补全 release_note、observability_interface;移除不存在的文件 | | 7 | 修复 ~30 处失效相对链接 | service_deployment→deployment, features/→design/ 等 | ## **2. 修改内容** > 请<ins>**描述修改内容的具体实现**</ins>,涉及哪些组件之间进行交互,可以用1、2、3、...进行罗列。 > 如果是需求或者重构类的PR,需要<ins>**补充详细设计文档**</ins>(说明上下游组件关系、时序图、类图、DFX能力等内容)。 ## **3. 资料变更** 涉及 ## **4. 接口变更** 不涉及 ## **5. 测试结果**   ## **6. CheckList** > PR提交人对以下CheckList自检项进行全量自检,自检通过或不涉及,均修改 [ ] 为 [x] [ ] 代码注释完备 [ ] 正确记录维测日志 [ ] 是否有UT用例 [ ] 若涉及多线程场景,考虑了并发场景,不存在死锁问题 See merge request: Ascend/MindIE-PyMotor!263 | 8 天前 |
设计文档
面向 需要深入理解特性原理的读者,涵盖特性的设计思路、架构决策与概念说明。
内容侧重
- 特性要解决什么问题、怎么设计的
- 架构层面的取舍与决策依据
- 特性间的关联与整体视图
与开发者指南的区别
| 设计文档 | 开发者指南 |
|---|---|
| 特性原理与设计说明 | 软件实现细节 |
| 面向深度用户、架构师 | 面向代码贡献者 |
| 侧重 "为什么这么设计" | 侧重 "代码怎么写出来的" |
如果你需要查看组件类图、数据流、内部实现细节,请查看 开发者指南。