提供AI推理场景下的端到端加速解决方案。该方案包含智能路由模块、推理后端模块、全局 KV Cache 管理模块，实现推理吞吐量提升和时延降低，为 AI 服务部署提供高效、可靠的技术支撑

文件	最后提交记录	最后更新时间
build	fix: add license and pip source for huggingface-download image	4 个月前
charts	feat(inference-gateway): add enable_http10 toggle for HTTP/1.0 clients Add an EnvoyFilter (gated by inferenceGateway.enable_http10, default false) that sets accept_http_10/default_host_for_http_10 on the gateway HTTP connection manager, so HTTP/1.0 and HTTP/0.9 clients that omit the Host header can reach the inference gateway. The toggle relies on the upstream `alias: inferenceGateway` on the inference-gateway dependency so the camelCase values key flows to the subchart. Co-Authored-By: Claude Opus 4.8 (1M context) <noreply@anthropic.com>	12 天前
component	fix: improve slow card detection parsing and cross-node metrics display Co-authored-by: zxyyy0119_admin<xueyizhu@huawei.com>	9 小时前
examples	feat(examples): add GLM-5.1/5.2 and MiniMax-M2.7 vLLM reference configs Add three example values.yaml covering distinct quantization schemes and PD/aggregated topologies, all built on the hermes-router random profile: - GLM-5.1 (w4a8): PD-disaggregated, TP8 prefill / TP2 decode. - GLM-5.2 (w8a8): aggregated, TP8 x DP4 with mooncake KV transfer, Ascend quantization and deepseek_mtp speculative decoding. - MiniMax-M2.7 (w8a8-QuaRot): PD-disaggregated, TP8 prefill / TP8 decode, Ascend quantization. Each config wires up the inference gateway, hermes-router and vLLM backend with model-specific engine args, serving as ready-to-deploy references.	1 个月前
scripts	feat: add perf scripts Co-authored-by: lileqi<lileqi@huawei.com>	3 个月前
.gitignore	feat: kserve adaptor for deploying infernex Co-authored-by: xinhongchen<chenxinhong8@huawei.com>	2 个月前
LICENSE	chore: add license related files	7 个月前
OAT.xml	feat: kserve adaptor for deploying infernex Co-authored-by: xinhongchen<chenxinhong8@huawei.com>	2 个月前
README-en.md	feat: update readme with infernex specification sheet Co-authored-by: shichangzhang064<zhangshichang@h-partners.com>	27 天前
README-zh.md	feat: update readme with infernex specification sheet Co-authored-by: shichangzhang064<zhangshichang@h-partners.com>	27 天前
huggingface-download.dockerignore	update: update three-party image address and add huggingface download image dockerfile	4 个月前

InferNex

提供openFuyao AI推理服务化框架的端到端一键式集成部署

Updates

[26-06] 推理后端切换为 LeaderWorkerSet（LWS）部署编排，原生支持多 DP 协同；PD-Orchestrator 的 elastic-scaler 新增 APA 扩缩算法，支持多样指标扩缩；Hermes-router 新增基于算力饱和度与时延预测的路由策略；cache-indexer 实现 L3 级 KV-aware 感知，与 Mooncake 联动支撑全局 KVCache 索引；eagle-eye 新增权重分发及灵衢网络动态指标获取；InferNex 新增 Helm 部署前置校验工具，覆盖 NPU 驱动、硬件资源及网络通信等环境检查，提前发现部署风险。
[26-05] 新增 InferNex-Bridge 组件，兼容 KServe 接入 InferNex 推理套件，支持 LLMInferenceService 与 InferNexService 双 CRD 声明式部署，适配层自动完成编排与路由打通。
[26-03] 新增PD-Orchestrator组件，支持动态PD组扩缩容；智能路由新增容灾能力，包含自动切流、故障感知以及请求重试；推理后端组件重构更新，支持配置不同版本vLLM推理引擎、非huggingface模型。
[25-12] 新增推理可观测子组件；智能路由基于GIE基础框架实现网关插件。
[25-09] 发布AI推理集成部署alpha版本！支持KVCache aware等策略的智能路由Hermes-router、xPyD分离模式推理引擎、全局KVCache元数据管理、Mooncake分布式KVCache管理体系集成等特性。

Overview

本项目基于主流LLM推理技术栈及K8s官方项目GIE（Gateway API Inference Extension）构建，集成了以下K8s原生的高性能、可扩展子特性，旨在提升推理吞吐量并降低时延，为AI服务部署提供高效、可靠的技术支撑。

智能路由系统（Hermes-router）：基于GIE基础框架实现的网关插件，具备动态请求分发与负载均衡能力；支持多样化算力负载感知、KV命中感知、请求压力感知、请求长度感知、语义感知等多维度感知能力，用户可利用内置的策略扩展（KVCache aware策略、PD长短请求分桶策略）实现推理请求的最佳节点路由。

xPyD分离推理引擎：基于 vLLM 高性能推理引擎构建的 AI 推理后端，支持 xPyD 架构、推理节点自动发现（Proxy Server）、Mooncake KVCache 存储及多实例灵活部署；推理引擎由 LeaderWorkerSet（LWS）承载部署，原生支持多 DP 协同，并可通过 dataParallelSize 与 dataParallelSizeLocal 配置 DP 负载均衡策略。

PD-Orchestrator：面向PD分离场景的弹性编排组件，集成潮汐算法、扩缩容决策框架与动态PD组扩缩容能力，支持指标与事件驱动的资源伸缩、成组及组内按比例或自定义策略伸缩，并开放用户自定义决策与资源管理逻辑扩展。

分布式KVCache管理：利用Mooncake Hccl Transfer Engine实现PD节点间KVCache的高速传输。

全局KVCache索引（cache-indexer）：基于vLLM的KV Event机制并提供RESTful接口，构建分布式全局KVCache元数据前缀树，赋能路由KV-aware感知能力，实现全局KVCache资源的高效利用。

推理可观测体系（eagle-eye）：基于Prometheus标准数据采集和上报格式，提供推理场景的关键观测指标，覆盖业务运行时指标、系统运行时指标和资源健康度指标；通过NATS异步消息队列发布订阅模式，提供关键业务运行态指标的实时（毫秒级）可观测能力，支撑关键加速模块的近实时决策能力。

Dependent Components

本集成部署方案包含以下子组件及其版本信息：

组件名称	版本	可选	说明
inference-backend	latest	必选	基于vllm/vllm-ascend的推理引擎后端
pd-orchestrator	latest	必选	PD动态扩缩容组件
Hermes-router	latest	可选	智能路由系统
cache-indexer	latest	可选	分布式全局KVCache元数据管理组件
eagle-eye	latest	可选	可观测体系
vLLM-Ascend	0.18.0	可选	推理引擎框架。用户可配置其他版本vLLM-Ascend镜像。
Mooncake	0.3.8	可选	分布式KVCache管理。随vLLM-Ascend镜像版本变动。

注：部分组件为可选组件，需通过配置启用。详细配置请参考详细配置章节。

Quick Start

Prerequisites

Kubernetes v1.29.0及以上版本（推荐 v1.33.0及以上）。
已安装npu-operator组件。
已安装LWS组件，。
集群中需要安装metrics server v0.8.0及以上版本。

Binary Deployment

拉取项目安装包。
```
helm pull oci://cr.openfuyao.cn/charts/infernex --version xxx
```
其中xxx需替换为具体项目安装包版本，如0.0.0-latest。拉取得到的安装包为压缩包形式。
解压安装包。
```
tar -xzvf infernex-xxx.tgz
```
其中xxx需替换为具体项目安装包版本，如0.0.0-latest。
安装部署。

以命名空间ai-inference、release名称infernex为例，在infernex同级目录下执行如下命令：
```
helm install -n ai-inference infernex ./infernex
```

Source Deployment

从仓库拉取项目。

git clone https://gitcode.com/openFuyao/InferNex.git

安装部署。

以命名空间ai-inference、release名称infernex为例，在InferNex同级目录下执行如下命令：
```
cd InferNex/charts/infernex
helm dependency build
helm install -n ai-inference infernex .
```

Configuration

详细配置说明请参考InferNex用户手册的配置AI推理集成部署章节。

Performance

定长系统提示词复用场景：该场景模拟系统提示词固定长度且 KVCache 可复用的负载，数据集包含 120 种长度为 8k 的系统提示词，每种重复 4 次，共 480 条请求，请求时间遵循泊松分布，并发 8。以随机路由为性能基线，开启 InferNex 优化能力后，聚合部署 TTFT 平均降幅约 54%、TPS 平均提升约 20%，性能显著提升。
多轮对话场景：该场景模拟多用户与 LLM 持续对话，单个会话包含多轮请求，120 个独立用户共 480 条请求，首轮请求 16k token、每轮返回 128 token，后续每轮追加 1k token 共 4 轮，平均请求长度约 17.5k，请求时间遵循泊松分布，并发 8。以随机路由为性能基线，开启 InferNex 优化能力后，聚合部署 TTFT 平均降幅约 60%、TPS 平均提升约 44%，性能显著提升。
推理可观测体系：Pod资源占用CPU <20m，MEM 3000~3500M；秒级上报功能发布方平均采集时长<10ms，订阅方平均日志接收时延<1ms。详细可见eagle-eye性能测试报告.

各优化策略的详细性能数据及对比分析，详见 InferNex 性能测试报告。

Specification Sheet

每个 InferNex 大版本发布时，会同步给出该版本下各配套组件的理论支持版本范围及已验证组合说明。核心理念是：以 InferNex 发行版本为锚点，其余配套如推理引擎、智能路由、编排器、观测、芯片与 Kubernetes 等在规格表中声明其相对该锚点的支持关系；集成部署时以本表为优先参照。

表中「验证情况」为是表示已在对应组合上完成过有效验证；为否表示暂未验证（仍可能可用，但不作为已验收承诺）。以下组件版本皆为理论支持范围，除非备注另有说明。

Subcomponent Specification

下列为 InferNex 发行版所依赖或集成的软件组件及其相对锚点版本的支持边界（以 InferNex 26.6.0 为基线列举）。

组件	版本	验证情况	备注
推理引擎（vllm-ascend）	v0.19.0rc1	是
推理引擎（vllm-ascend）	v0.18.0	是	默认版本
推理引擎（vllm-ascend）	v0.17.0rc1	否
推理引擎（vllm-ascend）	v0.16.0rc1	否
推理引擎（vllm-ascend）	v0.15.0rc1	否
推理引擎（vllm-ascend）	v0.14.0rc1	是
推理引擎（vllm-ascend）	v0.13.0	是
开源网关（Istio）	1.29.0	否
开源网关（Istio）	1.28.0	是
智能路由（Hermes-router）	26.6.0	是
cache-indexer	26.6.0	是
PD-Orchestrator	26.6.0	是
eagle-eye	26.6.0	是
eagle-eye	0.22.0	是
eagle-eye	0.21.0	是

Hardware Pre-requesite

下列为 InferNex 所面向的推理加速硬件型号及验证情况（与组件、环境、模型规格正交，可独立组合）。

硬件型号	验证情况	备注
昇腾 910B4	是	26.6.0/0.22.2 默认 chart 目标硬件
昇腾 910B3	是
昇腾 310P	否

Environment Pre-requesite

下列为运行 InferNex 所需的集群与平台环境。

环境项	版本 / 要求	验证情况	备注
Kubernetes	1.34.0	是
Kubernetes	1.33.0	是
Kubernetes	1.29.0	否
LeaderWorkerSet（LWS Operator）	v0.8.0	是	InferNex 26.6.0（LWS）前置依赖；chart 使用 `leaderworkerset.x-k8s.io/v1`；安装见 LWS 官方文档

Model Supported

下列为 InferNex 在默认 chart/values.yaml下覆盖的模型支持范围；按用途分层，便于与组件、硬件、环境规格对照。MoE 类模型通常需配合 dataParallelSize / dataParallelSizeLocal 等多 DP 配置。

注意：以下模型规格验证中机器指 Atlas 800I A2机器，NPU卡910B3（64G）/910B4（32G）。

类型	模型	下载方式	部署规格	部署示例	备注
默认稠密基线	Qwen3-8B	Qwen3-8B	单机2卡910B4，prefill tp1 dp1, decode tp1 dp1	values.yaml	26.6.0 默认 values.yaml 部署
默认稠密基线	Qwen3-8B	Qwen3-8B	单机单卡910B4，aggregated tp1 dp1	Qwen3-8B-vLLM-aggregated-random.yaml
基础 MoE	Qwen3-Coder-30B-A3B（及 `-Instruct` 变体）	Qwen3-Coder-30B-A3B-Instruct	单机8卡910B4，prefill tp2 dp2, decode tp2 dp2	Qwen3-Coder-30B-A3B-Instruct-vLLM-pd-random.yaml	26.6.0 推荐起步Moe模型
主流 MoE 大模型	MiniMax-M2.7-w8a8-QuaRot	MiniMax-M2.7-w8a8-QuaRot	4机32卡910B3，prefill tp8 dp2, decode tp8 dp2	Minimax-m2.7-vLLM-pd-random.yaml
主流 MoE 大模型	GLM-5.1-w4a8	GLM-5.1-w4a8	4机32卡910B3，prefill tp8 dp2, decode tp2 dp8	GLM-5.1-w4a8-vLLM-pd-random.yaml	vllm-ascend 使用 nightly-main-0606 镜像
主流 MoE 大模型	GLM-5.2-w8a8	GLM-5.2-w8a8	4机32卡910B3，aggregated tp8 dp4	GLM-5.2-w8a8-vLLM-aggregated-random.yaml	vllm-ascend 使用 glm5.2-openeuler 镜像

Components

InferNex-Checker：InferNex 前置校验工具，在 install 前检查硬件、K8s 集群及配置环境，提前发现部署风险。
InferNex-Bridge：InferNex 接入 KServe 的适配层，支持 LLMInferenceService / InferNexService 双 CRD 声明式部署 InferNex，详见组件 README。

Roadmap

[26-06] Hermes-router 智能路由支持基于实例资源饱和状态的感知与调度、PD 分离架构下的实例间二级调度。
[26-06] InferNex-Deployer 完善持续集成链路，增加强大模型 PD 分离与多实例部署的生产级验证。
[26-06] Elastic-scaler 侧重作业分发加速（权重、镜像、进程启动），支撑高性能弹性场景，同时补齐事件信号驱动的伸缩与算力感知策略。
[26-X] Eagle-Eye 近实时可观测将扩展动态网络资源指标，延伸硬件健康与亚健康感知，适配 A5 代际规格并推进错误码标准化。
[26-X] KVCacheX 覆盖 Cache-indexer / conductor 与灵衢使能等相关方向；规划纳入 DSA 与 Hybrid Attention KV offloading 等能力的迭代增强。
[26-X] 规划 KServe 对接适配，便于统一管理 predictive、LLM 等不同类型推理 Serving 及 InferNex、llm-d 等算力栈流量；并与 vLLM-ascend 社区协同发布基于 InferNex 的推荐部署案例。