1025ef7b创建于 3 天前历史提交

文件	最后提交记录	最后更新时间
ras_monitor.py	feat(IPv6): A3 单栈 PD 推理 Co-authored-by: LinWei100<linwei100@huawei.com> # message auto-generated for no-merge-commit merge: !330 merge feat/a3-ipv6-pd-inference into master feat(IPv6): A3 单栈 PD 推理 Created-by: LinWei100 Commit-by: LinWei100 Merged-by: towncharlie Description: ## 1. 合入背景 > 请描述为什么要做这个PR内的改动。\ > 如涉及，请关联前序PR或同特性/需求下的其他PR。\ > 如果是修复之前PR引入的问题，请关联引入问题的PR。\ > 请通过#ISSUE ID关联issue。\ > 注意：`Fixes #ISSUE ID`会自动关闭issue，如问题部分解决请不要使用`Fixes`，可以用`Fix part of #ISSUE ID`替代. ## 2. 修改内容 > 请<ins>描述修改内容的具体实现</ins>，涉及哪些组件之间进行交互，可以用1、2、3、...进行罗列。 > 如果是需求或者重构类的PR，需要<ins>补充详细设计文档</ins>（说明上下游组件关系、时序图、类图、DFX能力等内容）。 ## 3. 资料变更 > 请确认<ins>是否涉及资料变更</ins>。\ > 如涉及，需要在PR中体现，并简要说明修改内容。\ > 如不涉及，需填写“不涉及”。 ## 4. 接口变更 > 请确认<ins>是否涉及跨代码仓或者客户面可见的接口变更</ins>。\ > 如涉及，需详细说明接口以及对应的变更内容，同时需要在资料中体现。\ > 如不涉及，需填写“不涉及”。 ## 5. 测试结果 > 需体现<ins>测试场景，测试方法以及测试结果</ins>。\ > 测试用例设计时需考虑硬件、部署方式、功能、性能、精度、显存等维度。 ## 6. CheckList > PR提交人对以下CheckList自检项进行全量自检，自检通过或不涉及，均修改 [ ] 为 [x] [ ] 代码注释完备 [ ] 正确记录维测日志 [ ] 是否有UT用例 [ ] 若涉及多线程场景，考虑了并发场景，不存在死锁问题 See merge request: Ascend/MindIE-PyMotor!330	3 天前
readme.md	doc tools问题整改 Co-authored-by: xiao-qing123<xiaoqing14@h-partners.com> # message auto-generated for no-merge-commit merge: !74 merge dev into master doc tools问题整改 Created-by: xiao-qing123 Commit-by: xiao-qing123 Merged-by: ascend-robot Description: Fixes [#57](https://gitcode.com/Ascend/MindIE-PyMotor/issues/57) 1、Doc Tools四类问题修改 2、docs目录文档内容格式（接口格式等）整改 See merge request: Ascend/MindIE-PyMotor!74	2 个月前

ras_monitor MindIE-pyMotor 中的部署指南

概述

出于PD实例可靠性增强的目的，MindIE-pyMotor 提供一个参考脚本 ras_monitor 进行大EP服务的健康状态监控和快速重启，ras_monitor 启动后，当软件故障发生导致服务不可用时，该脚本20分钟左右可检测到并启动自动重拉。本文档提供快速部署 ras_monitor 的完整配置部署示例。

适用范围说明：

适用机器：Atlas 800I A2/A3，Atlas 900I A3 机器
适用场景：大EP出现挂死等服务不可用且不可自恢复的场景

1. 准备软件或数据

1.1 前提条件

硬件: Atlas 800I A3 推理服务器
软件:
- NPU 驱动和固件已安装 (npu-smi info 可正常显示)
- Kubernetes 集群就绪 (kubectl get Node -A)
- Docker 已安装并运行 (docker ps)

1.2 获取ras_monitor脚本及其依赖文件

从链接获取最新的ras_monitor脚本

2. 部署步骤

2.1 登陆master节点，将 准备软件或数据 下载的 "ras_monitor.py" 脚本上传到 “examples/deployer” 路径下。

2.2 执行以下命令拉起ras_monitor脚本进行后台监控： nohup python3 ras_monitor.py --config_dir ../infer_engines/vllm

若预期记录ras_monitor日志，可通过linux的重定向文件记录，例如： nohup python3 ras_monitor.py --config_dir ../infer_engines/vllm > ras_monitor_result.txt 2>&1 &

3.说明

参数说明

由于故障发生一段时间后，ras_monitor 执行服务重拉时将调用 deploy.py，上述2.2中 ras_monitor 的输入参数建议与服务拉起时执行 deploy.py 脚本的输入参数保持一致，否则可能导致重拉失败。具体 deploy.py 的参数介绍见链接。

其他

1、由于 ras_monitor 的定位为大 EP 的健康伴侣，与大 EP 的启动执行脚本 deploy.py 解耦。若 ras_monitor 先启动，用户需在 examples/deployer 目录下手动执行 python3 deploy.py --config_dir ../infer_engines/vllm（或使用 --user_config_path 与 --env_config_path 指定配置文件）拉起服务后，ras_monitor 才进入监控流程，否则将一直等待服务拉起并 ready。

2、若在 ras_monitor 监控过程中客户有修改配置的诉求，若在执行 bash delete 删除服务后，客户未终止ras_monitor 进程，ras_monitor 作为自动化脚本可能会误判认为服务异常，执行重拉。因此，建议在 bash delete 执行后，手动停止ras_monitor 进程以防止误重启。