ge-backend基于triton inference server框架实现对接NPU生态，快速实现传统CV\NLP等模型的服务化。

文件	最后提交记录	最后更新时间
docs	update: 更新文件 Third_Party_Open_Source_Software_List.yaml	1 个月前
example	修改文档	3 个月前
include	修改文档	3 个月前
src	修改文档	3 个月前
CMakeLists.txt	修改文档	3 个月前
CONTRIBUTING.md	修改文档	3 个月前
Dockerfile	feat: onnx支持从文件读取input、output；动态图支持多实例下多流并行；补充案例	5 个月前
LICENSE	init	6 个月前
README.md	update: 更新文件 Third_Party_Open_Source_Software_List.yaml	1 个月前
Third_Party_Open_Source_Software_List.yaml	feat: pipeline-test	4 个月前
build.sh	feat: pipeline-test	4 个月前

README

新版本特性 v2.3.0

ge-backend基于triton inference server框架实现对接NPU生态，快速实现传统CV\NLP模型的服务化。
triton inference server相关介绍请参考： https://docs.nvidia.com/deeplearning/triton-inference-server/user-guide/docs/index.html

triton inference server 提供了Custom backend 接口，允许通过自定义backend实现NPU设备接入。

将本工程编译的backend文件libnpu_ge.so安装到 {Triton-server源码安装目录}/backends/npu_ge/, 启动triton-inference-server服务端, server在拉起模型过程中根据模型设置，选择npu_ge后端对推理请求进行分发。
ge_backend 采用 GE组图方式进行推理，基于C++实现，支持GE的图优化、UB融合、多流并行等诸多特性，以便更好的为服务化模型提供更高吞吐。
模型在使用该框架时需要统一转换为Onnx格式，并基于triton-inference-server规范，配置模型相关config以及版本信息。

特性名称	介绍	支持情况
多模型	可支持一个server启动多个模型	√
多实例	模型可同时处理多个请求，此特性需搭配多流并行或多卡使用	√
多卡支持	一个模型可同时跑在多张卡上，每张卡可配置>1 的实例	√
多卡负载均衡	多卡情况下能根据每张卡上任务数量动态分配请求	目前仅支持所有请求shape一致场景
动态batch	支持input、output 的0轴为可变场景	√
GE静态图	通过shape固定，实现初始化图时分配好所有显存，提高图执行效率	√
多流并行	多实例场景下NPU支持多Stream，提高NPU利用率	√
锁核	配置每一条stream使用Cube以及Vector核心数量，以便多stream情况下提高吞吐	√
非0轴动态	支持非0轴情况下的动态shape	√ *
自动配置	支持onnx模型自动读取input、output免配置	√ *