Star24

Star24

towncharlie【docs】文档测试问题修改

1fea20c5创建于 4月30日历史提交

MindIE PyMotor架构

MindIE PyMotor简介

MindIE PyMotor 是面向大语言模型（LLM）分布式推理，如PD分离推理（Prefill 与 Decode 阶段分离）的请求调度框架。它通过开放、可扩展的推理服务化平台架构，向下对接 vLLM-Ascend，旨在满足大语言模型的高性能推理需求。

核心能力

MindIE PyMotor主要提供以下两个方面的能力：

PD分离的请求调度：主要将外部的客户请求分发到负载最低的 Prefill/Decode 实例上，起到负载均衡的作用。
RAS（Reliability, Availability and Serviceability）：增强 PD 分离服务的可靠性、可用性和可服务性。

系统架构

MindIE PyMotor 及其周边组件的交互架构图如下所示：

图1 MindIE PyMotor架构图

架构图

关键组件与模块说明

MindIE PyMotor核心组件定义如下：

1. Coordinator

作为用户推理请求的统一入口，负责接收高并发请求，执行请求调度、管理与转发，是整个集群的数据流枢纽。

Endpoint：对外提供 RESTful 接口，包括业务面接口OpenAI接口; 管理面接口：健康探针、Metrics等。
Router：提供请求路由转发能力。
Scheduler：负载均衡调度器。
RequestManager：请求管理器，请求全局信息统计与管理。
InstanceManager：同步实例的健康状态，辅助负载均衡调度，隔离故障实例。

2. Controller

作为集群的状态管控器和决策大脑，负责全局业务状态管控及 RAS 能力决策。

FaultManager：故障管理模块，负责接收故障上报并执行隔离、重启、自愈恢复等操作。
InsManager：实例管理器，负责 PD 实例身份（Prefill 或 Decode）的分配与动态调整。
CCAEReporter：运维管理信息上报，将实例状态及 Metrics 信息同步至CCAE等运维管理平台。
EventPusher：事件推送器，同步实例状态信息给Coordinator。

3. Deployer

基于Kubernetes的推理服务部署参考脚本，提供服务启动、停止、弹性伸缩等能力。

Deploy：一键启动服务、停止脚本工具。
Probe：健康探针配置脚本。
LogCollector：k8s日志收集脚本。
BootHelper：容器启动脚本，自动配置环境变量。

4. EngineServer

节点推理服务入口，提供统一的RESTful EndPoints，包括OpenAI接口、Metrics等。北向对接Coordinator和Controller，南向对接vLLM/SGLang/MindIE框架。（当前版本仅支持vLLM）

5. NodeManager

节点级服务管理器，提供如下能力：

节点级服务进程启动：向Controller注册，获取实例身份，并拉起本节点的推理服务进程(EngineServer, vLLM等)。
节点级健康状态管理：监控推理服务子进程状态，并向Controller上报健康状态和心跳。

4. 周边组件

vLLM-Ascend: vLLM加速引擎，提供模型实例加速能力。
MindCluster: 昇腾集群使能组件，提供Kubernetes底层支持能力，PD分离 CRD定义和配套Operator
CCAE(可选)：华为算存网一体化运维可视化平台。