| 文件 | 最后提交记录 | 最后更新时间 |
|---|---|---|
coordinator多进程版本合入主干 Co-authored-by: ganglv<lvgang1@huawei.com> Co-authored-by: tobking<wangjun292@huawei.com> Co-authored-by: j00813896<jiangwentao7@huawei.com> # message auto-generated for no-merge-commit merge: !251 merge br_home_base_multiprocess into master coordinator多进程版本合入主干 Created-by: tobking Commit-by: tobking;j00813896;ganglv Merged-by: ascend-robot Description: ## **1. 合入背景** > 请描述为什么要做这个PR内的改动。\ > 如涉及,请关联前序PR或同特性/需求下的其他PR。\ > 如果是修复之前PR引入的问题,请关联引入问题的PR。\ > 请通过#ISSUE ID关联issue。\ > 注意: Fixes #ISSUE ID会自动关闭issue,如问题部分解决请不要使用Fixes,可以用Fix part of #ISSUE ID替代. coordinator优化为多进程版本,提升高QPS场景下推理性能 [#158](https://gitcode.com/Ascend/MindIE-pyMotor-private/issues/158) ## **2. 修改内容** > 请<ins>**描述修改内容的具体实现**</ins>,涉及哪些组件之间进行交互,可以用1、2、3、...进行罗列。 > 如果是需求或者重构类的PR,需要<ins>**补充详细设计文档**</ins>(说明上下游组件关系、时序图、类图、DFX能力等内容)。 1.coordinator拆分为mgmt,scheduler,infer 三种独立进程 2.coordinator主进程为deamon进程,其负责拉起上述三种子进程 ## **3. 资料变更** > 请确认<ins>**是否涉及资料变更**</ins>。\ > 如涉及,需要在PR中体现,并简要说明修改内容。\ > 如不涉及,需填写“不涉及”。 涉及,userconfig新增多进程相关配置项 ## **4. 接口变更** > 请确认<ins>**是否涉及跨代码仓或者客户面可见的接口变更**</ins>。\ > 如涉及,需详细说明接口以及对应的变更内容,同时需要在资料中体现。\ > 如不涉及,需填写“不涉及”。 不涉及 ## **5. 测试结果** > 需体现<ins>**测试场景,测试方法以及测试结果**</ins>。\ > 测试用例设计时需考虑硬件、部署方式、功能、性能、精度、显存等维度。 ## **6. CheckList** > PR提交人对以下CheckList自检项进行全量自检,自检通过或不涉及,均修改 [ ] 为 [x] [x] 代码注释完备 [x] 正确记录维测日志 [x] 是否有UT用例 [x] 若涉及多线程场景,考虑了并发场景,不存在死锁问题 See merge request: Ascend/MindIE-pyMotor-private!251 | 3 个月前 | |
[Feature] Metrics 语义聚合与 AggregationScope 改造 Co-authored-by: yilunh<hanyilun1@huawei.com> # message auto-generated for no-merge-commit merge: !199 merge metrics into master [Feature] Metrics 语义聚合与 AggregationScope 改造 Created-by: yilunh Commit-by: yilunh Merged-by: towncharlie Description: ## **1. 合入背景** <span style="font-size:16px;">Coordinator 周期性从各 Engine Endpoint 拉取 Prometheus 文本指标,经解析、多级聚合后,通过 HTTP 对外暴露。改造前存在以下问题: 1、MetricsCollector._aggregate_single_metric以指标名硬编码策略(如仅 kv_cache_usage_perc 取均值,其余求和),扩展成本高、易出错。 2、跨实例服务级聚合未区分 INSTANCE / ROLE / SERVICE视图,带 PD role 语义的指标(如 TTFT)在 role 级或实例级场景可能被错误过滤或无法正确 histmerge。 3、缺少统一的 histogram 后处理(分位数、均值)与派生比率(如 prefix cache hit rate)。</span> fixes [#143](https://gitcode.com/Ascend/MindIE-PyMotor/issues/143) ## **2. 修改内容** <span style="font-size:16px;">将 Coordinator 指标聚合从按指标名硬编码修改为语义驱动聚合 + 显式聚合范围(INSTANCE/ROLE/SERVICE): 1、 新增 semantic metrics 新增 metric_registry.py(语义注册表)、aggregation_engine.py(聚合逻辑)、metric_types.py(轻量数据结构) MetricsCollector 委托 SemanticAggregationEngine 完成 merge 与 post_process(分位数、mean、prefix cache hit rate 等) 移除 _aggregate_single_metric内硬编码 sum/mean 分支 2、aggregation 前新增 scope 选择 新增 AggregationScope 、AggregationContext 仅 SERVICE 级跨实例聚合应用role_scope 与 deploy_mode(如 PD 下 TTFT 仅 decode;CPCD 下 TTFT 不过滤 role) ROLE 读路径补充 post_process;</span> type=full → SERVICE(过滤 pdRole)→ post_process type=role → ROLE(不过滤)→ post_process type=instance → INSTANCE (不过滤) type=node → NODE (不过滤,预留) type=dp → 无 scope (不聚合)   ## **3. 资料变更** 不涉及 ## **4. 接口变更** 不涉及 ## **5. 测试结果** > 需体现<ins>**测试场景,测试方法以及测试结果**</ins>。\ > 测试用例设计时需考虑硬件、部署方式、功能、性能、精度、显存等维度。 ## **6. CheckList** > PR提交人对以下CheckList自检项进行全量自检,自检通过或不涉及,均修改 [ ] 为 [x] [ ] 代码注释完备 [ ] 正确记录维测日志 [ ] 是否有UT用例 [ ] 若涉及多线程场景,考虑了并发场景,不存在死锁问题 See merge request: Ascend/MindIE-PyMotor!199 | 26 天前 | |
[metrics] 新增TPS指标,优化Motor专属metrics条目软件架构。增加counter类指标继承逻辑,提高可靠性 Co-authored-by: 吕有辉<lvyouhui@huawei.com> # message auto-generated for no-merge-commit merge: !212 merge metrics_optimize into master [metrics] 新增TPS指标,优化Motor专属metrics条目软件架构。增加counter类指标继承逻辑,提高可靠性 Created-by: codeDogPro Commit-by: 吕有辉 Merged-by: towncharlie Description: ## **1. 合入背景** https://gitcode.com/Ascend/MindIE-PyMotor/issues/147 ## **2. 修改内容** https://gitcode.com/Ascend/MindIE-PyMotor/issues/147 ## **3. 资料变更** 涉及资料新增 ## **4. 接口变更** 不涉及 ## **5. 测试结果** counter类数据继承逻辑: 重启前:  重启后:  正确继承数据 TPS展示: /metrics?type=role  ## **6. CheckList** > PR提交人对以下CheckList自检项进行全量自检,自检通过或不涉及,均修改 [ ] 为 [x] [x] 代码注释完备 [x] 正确记录维测日志 [x] 是否有UT用例 [x] 若涉及多线程场景,考虑了并发场景,不存在死锁问题 See merge request: Ascend/MindIE-PyMotor!212 | 24 天前 | |
删除coordinator中depoly mode冗余配置,可靠性加强 Co-authored-by: tobking<wangjun292@huawei.com> # message auto-generated for no-merge-commit merge: !272 merge br_decouple_add_0603 into master 删除coordinator中depoly mode冗余配置,可靠性加强 Created-by: tobking Commit-by: tobking Merged-by: towncharlie Description: ## **1. 合入背景** > 请描述为什么要做这个PR内的改动。\ > 如涉及,请关联前序PR或同特性/需求下的其他PR。\ > 如果是修复之前PR引入的问题,请关联引入问题的PR。\ > 请通过#ISSUE ID关联issue。\ > 注意: Fixes #ISSUE ID会自动关闭issue,如问题部分解决请不要使用Fixes,可以用Fix part of #ISSUE ID替代. [#178](https://gitcode.com/Ascend/MindIE-PyMotor/issues/178) ## **2. 修改内容** > 请<ins>**描述修改内容的具体实现**</ins>,涉及哪些组件之间进行交互,可以用1、2、3、...进行罗列。 > 如果是需求或者重构类的PR,需要<ins>**补充详细设计文档**</ins>(说明上下游组件关系、时序图、类图、DFX能力等内容)。 删除coordinator的depoly_mode冗余配置,代码流程根据connector确认走CPCD还是CDP ## **3. 资料变更** > 请确认<ins>**是否涉及资料变更**</ins>。\ > 如涉及,需要在PR中体现,并简要说明修改内容。\ > 如不涉及,需填写“不涉及”。 userconfig中删除coordinator的depoly_mode ## **4. 接口变更** > 请确认<ins>**是否涉及跨代码仓或者客户面可见的接口变更**</ins>。\ > 如涉及,需详细说明接口以及对应的变更内容,同时需要在资料中体现。\ > 如不涉及,需填写“不涉及”。 不涉及 ## **5. 测试结果** > 需体现<ins>**测试场景,测试方法以及测试结果**</ins>。\ > 测试用例设计时需考虑硬件、部署方式、功能、性能、精度、显存等维度。 ## **6. CheckList** > PR提交人对以下CheckList自检项进行全量自检,自检通过或不涉及,均修改 [ ] 为 [x] [x] 代码注释完备 [x] 正确记录维测日志 [x] 是否有UT用例 [x] 若涉及多线程场景,考虑了并发场景,不存在死锁问题 See merge request: Ascend/MindIE-PyMotor!272 | 17 天前 | |
删除coordinator中depoly mode冗余配置,可靠性加强 Co-authored-by: tobking<wangjun292@huawei.com> # message auto-generated for no-merge-commit merge: !272 merge br_decouple_add_0603 into master 删除coordinator中depoly mode冗余配置,可靠性加强 Created-by: tobking Commit-by: tobking Merged-by: towncharlie Description: ## **1. 合入背景** > 请描述为什么要做这个PR内的改动。\ > 如涉及,请关联前序PR或同特性/需求下的其他PR。\ > 如果是修复之前PR引入的问题,请关联引入问题的PR。\ > 请通过#ISSUE ID关联issue。\ > 注意: Fixes #ISSUE ID会自动关闭issue,如问题部分解决请不要使用Fixes,可以用Fix part of #ISSUE ID替代. [#178](https://gitcode.com/Ascend/MindIE-PyMotor/issues/178) ## **2. 修改内容** > 请<ins>**描述修改内容的具体实现**</ins>,涉及哪些组件之间进行交互,可以用1、2、3、...进行罗列。 > 如果是需求或者重构类的PR,需要<ins>**补充详细设计文档**</ins>(说明上下游组件关系、时序图、类图、DFX能力等内容)。 删除coordinator的depoly_mode冗余配置,代码流程根据connector确认走CPCD还是CDP ## **3. 资料变更** > 请确认<ins>**是否涉及资料变更**</ins>。\ > 如涉及,需要在PR中体现,并简要说明修改内容。\ > 如不涉及,需填写“不涉及”。 userconfig中删除coordinator的depoly_mode ## **4. 接口变更** > 请确认<ins>**是否涉及跨代码仓或者客户面可见的接口变更**</ins>。\ > 如涉及,需详细说明接口以及对应的变更内容,同时需要在资料中体现。\ > 如不涉及,需填写“不涉及”。 不涉及 ## **5. 测试结果** > 需体现<ins>**测试场景,测试方法以及测试结果**</ins>。\ > 测试用例设计时需考虑硬件、部署方式、功能、性能、精度、显存等维度。 ## **6. CheckList** > PR提交人对以下CheckList自检项进行全量自检,自检通过或不涉及,均修改 [ ] 为 [x] [x] 代码注释完备 [x] 正确记录维测日志 [x] 是否有UT用例 [x] 若涉及多线程场景,考虑了并发场景,不存在死锁问题 See merge request: Ascend/MindIE-PyMotor!272 | 17 天前 | |
Fix 解决vllm-ascend中扩展指标带空格导致的解析失败,调整grafana dashboard json Co-authored-by: LinWei100<linwei100@huawei.com> # message auto-generated for no-merge-commit merge: !339 merge fix/metric-parse into master Fix 解决vllm-ascend中扩展指标带空格导致的解析失败,调整grafana dashboard json Created-by: LinWei100 Commit-by: LinWei100 Merged-by: towncharlie Description: ## **1. 合入背景** > 请描述为什么要做这个PR内的改动。\ > 如涉及,请关联前序PR或同特性/需求下的其他PR。\ > 如果是修复之前PR引入的问题,请关联引入问题的PR。\ > 请通过#ISSUE ID关联issue。\ > 注意: Fixes #ISSUE ID会自动关闭issue,如问题部分解决请不要使用Fixes,可以用Fix part of #ISSUE ID替代. ## **2. 修改内容** > 请<ins>**描述修改内容的具体实现**</ins>,涉及哪些组件之间进行交互,可以用1、2、3、...进行罗列。 > 如果是需求或者重构类的PR,需要<ins>**补充详细设计文档**</ins>(说明上下游组件关系、时序图、类图、DFX能力等内容)。 ## **3. 资料变更** > 请确认<ins>**是否涉及资料变更**</ins>。\ > 如涉及,需要在PR中体现,并简要说明修改内容。\ > 如不涉及,需填写“不涉及”。 ## **4. 接口变更** > 请确认<ins>**是否涉及跨代码仓或者客户面可见的接口变更**</ins>。\ > 如涉及,需详细说明接口以及对应的变更内容,同时需要在资料中体现。\ > 如不涉及,需填写“不涉及”。 ## **5. 测试结果** > 需体现<ins>**测试场景,测试方法以及测试结果**</ins>。\ > 测试用例设计时需考虑硬件、部署方式、功能、性能、精度、显存等维度。 ## **6. CheckList** > PR提交人对以下CheckList自检项进行全量自检,自检通过或不涉及,均修改 [ ] 为 [x] [ ] 代码注释完备 [ ] 正确记录维测日志 [ ] 是否有UT用例 [ ] 若涉及多线程场景,考虑了并发场景,不存在死锁问题 See merge request: Ascend/MindIE-PyMotor!339 | 2 天前 |
| 文件 | 最后提交记录 | 最后更新时间 |
|---|---|---|
| 3 个月前 | ||
| 26 天前 | ||
| 24 天前 | ||
| 17 天前 | ||
| 17 天前 | ||
| 2 天前 |