提供AI推理场景下的端到端加速解决方案。该方案包含智能路由模块、推理后端模块、全局 KV Cache 管理模块,实现推理吞吐量提升和时延降低,为 AI 服务部署提供高效、可靠的技术支撑
Updates
- [26-06] 推理后端切换为 LeaderWorkerSet(LWS)部署编排,原生支持多 DP 协同;PD-Orchestrator 的 elastic-scaler 新增 APA 扩缩算法,支持多样指标扩缩;Hermes-router 新增基于算力饱和度与时延预测的路由策略;cache-indexer 实现 L3 级 KV-aware 感知,与 Mooncake 联动支撑全局 KVCache 索引;eagle-eye 新增权重分发及灵衢网络动态指标获取;InferNex 新增 Helm 部署前置校验工具,覆盖 NPU 驱动、硬件资源及网络通信等环境检查,提前发现部署风险。
- [26-05] 新增 InferNex-Bridge 组件,兼容 KServe 接入 InferNex 推理套件,支持 LLMInferenceService 与 InferNexService 双 CRD 声明式部署,适配层自动完成编排与路由打通。
- [26-03] 新增PD-Orchestrator组件,支持动态PD组扩缩容;智能路由新增容灾能力,包含自动切流、故障感知以及请求重试;推理后端组件重构更新,支持配置不同版本vLLM推理引擎、非huggingface模型。
- [25-12] 新增推理可观测子组件;智能路由基于GIE基础框架实现网关插件。
- [25-09] 发布AI推理集成部署alpha版本!支持KVCache aware等策略的智能路由Hermes-router、xPyD分离模式推理引擎、全局KVCache元数据管理、Mooncake分布式KVCache管理体系集成等特性。
Overview
本项目基于主流LLM推理技术栈及K8s官方项目GIE(Gateway API Inference Extension)构建,集成了以下K8s原生的高性能、可扩展子特性,旨在提升推理吞吐量并降低时延,为AI服务部署提供高效、可靠的技术支撑。
智能路由系统(Hermes-router):基于GIE基础框架实现的网关插件,具备动态请求分发与负载均衡能力;支持多样化算力负载感知、KV命中感知、请求压力感知、请求长度感知、语义感知等多维度感知能力,用户可利用内置的策略扩展(KVCache aware策略、PD长短请求分桶策略)实现推理请求的最佳节点路由。
xPyD分离推理引擎:基于 vLLM 高性能推理引擎构建的 AI 推理后端,支持 xPyD 架构、推理节点自动发现(Proxy Server)、Mooncake KVCache 存储及多实例灵活部署;推理引擎由 LeaderWorkerSet(LWS)承载部署,原生支持多 DP 协同,并可通过 dataParallelSize 与 dataParallelSizeLocal 配置 DP 负载均衡策略。
PD-Orchestrator:面向PD分离场景的弹性编排组件,集成潮汐算法、扩缩容决策框架与动态PD组扩缩容能力,支持指标与事件驱动的资源伸缩、成组及组内按比例或自定义策略伸缩,并开放用户自定义决策与资源管理逻辑扩展。
分布式KVCache管理:利用Mooncake Hccl Transfer Engine实现PD节点间KVCache的高速传输。
全局KVCache索引(cache-indexer):基于vLLM的KV Event机制并提供RESTful接口,构建分布式全局KVCache元数据前缀树,赋能路由KV-aware感知能力,实现全局KVCache资源的高效利用。
推理可观测体系(eagle-eye):基于Prometheus标准数据采集和上报格式,提供推理场景的关键观测指标,覆盖业务运行时指标、系统运行时指标和资源健康度指标;通过NATS异步消息队列发布订阅模式,提供关键业务运行态指标的实时(毫秒级)可观测能力,支撑关键加速模块的近实时决策能力。
Dependent Components
本集成部署方案包含以下子组件及其版本信息:
| 组件名称 | 版本 | 可选 | 说明 |
|---|---|---|---|
| inference-backend | latest | 必选 | 基于vllm/vllm-ascend的推理引擎后端 |
| pd-orchestrator | latest | 必选 | PD动态扩缩容组件 |
| Hermes-router | latest | 可选 | 智能路由系统 |
| cache-indexer | latest | 可选 | 分布式全局KVCache元数据管理组件 |
| eagle-eye | latest | 可选 | 可观测体系 |
| vLLM-Ascend | 0.18.0 | 可选 | 推理引擎框架。用户可配置其他版本vLLM-Ascend镜像。 |
| Mooncake | 0.3.8 | 可选 | 分布式KVCache管理。随vLLM-Ascend镜像版本变动。 |
注:部分组件为可选组件,需通过配置启用。详细配置请参考详细配置章节。
Quick Start
Prerequisites
- Kubernetes v1.29.0及以上版本(推荐 v1.33.0及以上)。
- 已安装npu-operator组件。
- 已安装LWS组件,。
- 集群中需要安装metrics server v0.8.0及以上版本。
Binary Deployment
-
拉取项目安装包。
helm pull oci://cr.openfuyao.cn/charts/infernex --version xxx其中
xxx需替换为具体项目安装包版本,如0.0.0-latest。拉取得到的安装包为压缩包形式。 -
解压安装包。
tar -xzvf infernex-xxx.tgz其中
xxx需替换为具体项目安装包版本,如0.0.0-latest。 -
安装部署。
以命名空间
ai-inference、release名称infernex为例,在infernex同级目录下执行如下命令:helm install -n ai-inference infernex ./infernex
Source Deployment
-
从仓库拉取项目。
git clone https://gitcode.com/openFuyao/InferNex.git -
安装部署。
以命名空间
ai-inference、release名称infernex为例,在InferNex同级目录下执行如下命令:cd InferNex/charts/infernex helm dependency build helm install -n ai-inference infernex .
Configuration
详细配置说明请参考InferNex用户手册的配置AI推理集成部署章节。
Performance
- 工具&智能体应用场景:典型负载为预先设计、篇幅较长且在不同请求间高度重复的系统提示词。使用 Mooncake toolagent trace 验证,共 23608 条请求,理论前缀命中率约 63%,输入/输出均值约 8596/182 token。以随机路由为性能基线,开启 KVCache 感知路由后,聚合侧 TTFT 平均降幅约 37%、E2EL 平均降幅约 9%,PD 侧 TTFT 平均降幅约 24%、E2EL 平均降幅约 19%,性能显著提升。
- 多轮对话系统提示词复用场景:多用户多轮、每用户独立长规则(系统提示复用),960 条请求 / 32 用户,系统提示 4096 token、问题 128 token,并发 16 条/秒。以随机路由为性能基线,开启 KVCache 感知路由后,聚合侧 TTFT 平均降幅约 46%、E2EL 平均降幅约 17%,PD 侧 TTFT 平均降幅约 27%、E2EL 平均降幅约 20%,其中聚合场景性能显著提升,PD 场景平均延迟亦有明显改善。
- 长短文本请求场景:在覆盖博客文章、报告撰写等场景等4种数据集测试中,保持总NPU卡数一致的情况下,以使用同构配置(4组1P1D)的Random策略为性能基线,采用异构配置(2个PD组,资源配比差异化)的PD Bucket策略TPS提升幅度为16%~28%,性能显著提升。
- 推理可观测体系:Pod资源占用CPU <20m,MEM 3000~3500M;秒级上报功能发布方平均采集时长<10ms,订阅方平均日志接收时延<1ms。详细可见eagle-eye性能测试报告.
详细可见InferNex性能测试报告。
Components
- InferNex-Checker:InferNex 前置校验工具,在 install 前检查硬件、K8s 集群及配置环境,提前发现部署风险。
- InferNex-Bridge:InferNex 接入 KServe 的适配层,支持
LLMInferenceService/InferNexService双 CRD 声明式部署 InferNex,详见 组件 README。
Roadmap
- [26-06] Hermes-router 智能路由支持基于实例资源饱和状态的感知与调度、PD 分离架构下的实例间二级调度。
- [26-06] InferNex-Deployer 完善持续集成链路,增加强大模型 PD 分离与多实例部署的生产级验证。
- [26-06] Elastic-scaler 侧重作业分发加速(权重、镜像、进程启动),支撑高性能弹性场景,同时补齐事件信号驱动的伸缩与算力感知策略。
- [26-X] Eagle-Eye 近实时可观测将扩展动态网络资源指标,延伸硬件健康与亚健康感知,适配 A5 代际规格并推进错误码标准化。
- [26-X] KVCacheX 覆盖 Cache-indexer / conductor 与灵衢使能等相关方向;规划纳入 DSA 与 Hybrid Attention KV offloading 等能力的迭代增强。
- [26-X] 规划 KServe 对接适配,便于统一管理 predictive、LLM 等不同类型推理 Serving 及 InferNex、llm-d 等算力栈流量;并与 vLLM-ascend 社区协同发布基于 InferNex 的推荐部署案例。