基于GPUStack的模型服务管理增强设计
自定义昇腾本地模型库
配置文件
kadt/gpustack/conf/model-catalog-ascend.yaml
用途
用于离线部署的GPUStack环境下提供基于昇腾优化的本地模型仓库,支持模型部署开箱即优能力。
使用指导
-
使用前,请查看yaml文件,将权重路径修改为环境上的真实路径,默认使用的是/mnt/models。
-
拉起GPUStack Server时,添加参数--model-catalog-file /your_path/model-catalog-ascend.yaml。
自定义小模型服务化推理后端
配置文件
kadt/gpustack/conf/tritonserver-cann-backend.yaml
用途
用于在GPUStack上添加支持小模型推理服务化的自定义推理后端。
使用指导
- 构建小模型服务化推理后端镜像。
- 进入GPUStack管理页面->推理后端,点击添加后端,使用YAML模式方式,填入自定义后端信息,保存。
- 进入GPUStack管理页面->模型文件,添加本地模型文件。
- 使用本地模型文件进行部署,推理后端选择步骤2中添加的自定义后端,并修改后端参数,将其参数值改为空闲端口。点击保存即可拉起小模型推理服务。