InferNex:基于 LLM 推理技术栈及 K8s GIE 的 AI 推理集成部署项目

提供AI推理场景下的端到端加速解决方案。该方案包含智能路由模块、推理后端模块、全局 KV Cache 管理模块,实现推理吞吐量提升和时延降低,为 AI 服务部署提供高效、可靠的技术支撑

分支14Tags5

InferNex

提供openFuyao AI推理服务化框架的端到端一键式集成部署

Docs License Helm GIE


Updates

  • [26-06] 推理后端切换为 LeaderWorkerSet(LWS)部署编排,原生支持多 DP 协同;PD-Orchestrator 的 elastic-scaler 新增 APA 扩缩算法,支持多样指标扩缩;Hermes-router 新增基于算力饱和度与时延预测的路由策略;cache-indexer 实现 L3 级 KV-aware 感知,与 Mooncake 联动支撑全局 KVCache 索引;eagle-eye 新增权重分发及灵衢网络动态指标获取;InferNex 新增 Helm 部署前置校验工具,覆盖 NPU 驱动、硬件资源及网络通信等环境检查,提前发现部署风险。
  • [26-05] 新增 InferNex-Bridge 组件,兼容 KServe 接入 InferNex 推理套件,支持 LLMInferenceService 与 InferNexService 双 CRD 声明式部署,适配层自动完成编排与路由打通。
  • [26-03] 新增PD-Orchestrator组件,支持动态PD组扩缩容;智能路由新增容灾能力,包含自动切流、故障感知以及请求重试;推理后端组件重构更新,支持配置不同版本vLLM推理引擎、非huggingface模型。
  • [25-12] 新增推理可观测子组件;智能路由基于GIE基础框架实现网关插件。
  • [25-09] 发布AI推理集成部署alpha版本!支持KVCache aware等策略的智能路由Hermes-router、xPyD分离模式推理引擎、全局KVCache元数据管理、Mooncake分布式KVCache管理体系集成等特性。

Overview

本项目基于主流LLM推理技术栈及K8s官方项目GIE(Gateway API Inference Extension)构建,集成了以下K8s原生的高性能、可扩展子特性,旨在提升推理吞吐量并降低时延,为AI服务部署提供高效、可靠的技术支撑。

智能路由系统(Hermes-router):基于GIE基础框架实现的网关插件,具备动态请求分发与负载均衡能力;支持多样化算力负载感知、KV命中感知、请求压力感知、请求长度感知、语义感知等多维度感知能力,用户可利用内置的策略扩展(KVCache aware策略、PD长短请求分桶策略)实现推理请求的最佳节点路由。

xPyD分离推理引擎:基于 vLLM 高性能推理引擎构建的 AI 推理后端,支持 xPyD 架构、推理节点自动发现(Proxy Server)、Mooncake KVCache 存储及多实例灵活部署;推理引擎由 LeaderWorkerSet(LWS)承载部署,原生支持多 DP 协同,并可通过 dataParallelSizedataParallelSizeLocal 配置 DP 负载均衡策略。

PD-Orchestrator:面向PD分离场景的弹性编排组件,集成潮汐算法、扩缩容决策框架与动态PD组扩缩容能力,支持指标与事件驱动的资源伸缩、成组及组内按比例或自定义策略伸缩,并开放用户自定义决策与资源管理逻辑扩展。

分布式KVCache管理:利用Mooncake Hccl Transfer Engine实现PD节点间KVCache的高速传输。

全局KVCache索引(cache-indexer):基于vLLM的KV Event机制并提供RESTful接口,构建分布式全局KVCache元数据前缀树,赋能路由KV-aware感知能力,实现全局KVCache资源的高效利用。

推理可观测体系(eagle-eye):基于Prometheus标准数据采集和上报格式,提供推理场景的关键观测指标,覆盖业务运行时指标、系统运行时指标和资源健康度指标;通过NATS异步消息队列发布订阅模式,提供关键业务运行态指标的实时(毫秒级)可观测能力,支撑关键加速模块的近实时决策能力。

Dependent Components

本集成部署方案包含以下子组件及其版本信息:

组件名称 版本 可选 说明
inference-backend latest 必选 基于vllm/vllm-ascend的推理引擎后端
pd-orchestrator latest 必选 PD动态扩缩容组件
Hermes-router latest 可选 智能路由系统
cache-indexer latest 可选 分布式全局KVCache元数据管理组件
eagle-eye latest 可选 可观测体系
vLLM-Ascend 0.18.0 可选 推理引擎框架。用户可配置其他版本vLLM-Ascend镜像。
Mooncake 0.3.8 可选 分布式KVCache管理。随vLLM-Ascend镜像版本变动。

注:部分组件为可选组件,需通过配置启用。详细配置请参考详细配置章节。

Quick Start

Prerequisites

  • Kubernetes v1.29.0及以上版本(推荐 v1.33.0及以上)。
  • 已安装npu-operator组件。
  • 已安装LWS组件,。
  • 集群中需要安装metrics server v0.8.0及以上版本。

Binary Deployment

  1. 拉取项目安装包。

    helm pull oci://cr.openfuyao.cn/charts/infernex --version xxx
    

    其中xxx需替换为具体项目安装包版本,如0.0.0-latest。拉取得到的安装包为压缩包形式。

  2. 解压安装包。

    tar -xzvf infernex-xxx.tgz
    

    其中xxx需替换为具体项目安装包版本,如0.0.0-latest

  3. 安装部署。

    以命名空间ai-inference、release名称infernex为例,在infernex同级目录下执行如下命令:

    helm install -n ai-inference infernex ./infernex
    

Source Deployment

  1. 从仓库拉取项目。

    git clone https://gitcode.com/openFuyao/InferNex.git
    
  2. 安装部署。

    以命名空间ai-inference、release名称infernex为例,在InferNex同级目录下执行如下命令:

    cd InferNex/charts/infernex
    helm dependency build
    helm install -n ai-inference infernex .
    

Configuration

详细配置说明请参考InferNex用户手册的配置AI推理集成部署章节。

Performance

  • 工具&智能体应用场景:典型负载为预先设计、篇幅较长且在不同请求间高度重复的系统提示词。使用 Mooncake toolagent trace 验证,共 23608 条请求,理论前缀命中率约 63%,输入/输出均值约 8596/182 token。以随机路由为性能基线,开启 KVCache 感知路由后,聚合侧 TTFT 平均降幅约 37%、E2EL 平均降幅约 9%,PD 侧 TTFT 平均降幅约 24%、E2EL 平均降幅约 19%,性能显著提升。
  • 多轮对话系统提示词复用场景:多用户多轮、每用户独立长规则(系统提示复用),960 条请求 / 32 用户,系统提示 4096 token、问题 128 token,并发 16 条/秒。以随机路由为性能基线,开启 KVCache 感知路由后,聚合侧 TTFT 平均降幅约 46%、E2EL 平均降幅约 17%,PD 侧 TTFT 平均降幅约 27%、E2EL 平均降幅约 20%,其中聚合场景性能显著提升,PD 场景平均延迟亦有明显改善。
  • 长短文本请求场景:在覆盖博客文章、报告撰写等场景等4种数据集测试中,保持总NPU卡数一致的情况下,以使用同构配置(4组1P1D)的Random策略为性能基线,采用异构配置(2个PD组,资源配比差异化)的PD Bucket策略TPS提升幅度为16%~28%,性能显著提升。
  • 推理可观测体系:Pod资源占用CPU <20m,MEM 3000~3500M;秒级上报功能发布方平均采集时长<10ms,订阅方平均日志接收时延<1ms。详细可见eagle-eye性能测试报告.

详细可见InferNex性能测试报告

Components

  • InferNex-Checker:InferNex 前置校验工具,在 install 前检查硬件、K8s 集群及配置环境,提前发现部署风险。
  • InferNex-Bridge:InferNex 接入 KServe 的适配层,支持 LLMInferenceService / InferNexService 双 CRD 声明式部署 InferNex,详见 组件 README

Roadmap

  • [26-06] Hermes-router 智能路由支持基于实例资源饱和状态的感知与调度、PD 分离架构下的实例间二级调度。
  • [26-06] InferNex-Deployer 完善持续集成链路,增加强大模型 PD 分离与多实例部署的生产级验证。
  • [26-06] Elastic-scaler 侧重作业分发加速(权重、镜像、进程启动),支撑高性能弹性场景,同时补齐事件信号驱动的伸缩与算力感知策略。
  • [26-X] Eagle-Eye 近实时可观测将扩展动态网络资源指标,延伸硬件健康与亚健康感知,适配 A5 代际规格并推进错误码标准化。
  • [26-X] KVCacheX 覆盖 Cache-indexer / conductor 与灵衢使能等相关方向;规划纳入 DSA 与 Hybrid Attention KV offloading 等能力的迭代增强。
  • [26-X] 规划 KServe 对接适配,便于统一管理 predictive、LLM 等不同类型推理 Serving 及 InferNex、llm-d 等算力栈流量;并与 vLLM-ascend 社区协同发布基于 InferNex 的推荐部署案例。

项目介绍

提供AI推理场景下的端到端加速解决方案。该方案包含智能路由模块、推理后端模块、全局 KV Cache 管理模块,实现推理吞吐量提升和时延降低,为 AI 服务部署提供高效、可靠的技术支撑

定制我的领域