README.md

基于GPUStack的模型服务管理增强设计

自定义昇腾本地模型库

配置文件

kadt/gpustack/conf/model-catalog-ascend.yaml

用途

用于离线部署的GPUStack环境下提供基于昇腾优化的本地模型仓库,支持模型部署开箱即优能力。

使用指导

  • 使用前,请查看yaml文件,将权重路径修改为环境上的真实路径,默认使用的是/mnt/models。

  • 拉起GPUStack Server时,添加参数--model-catalog-file /your_path/model-catalog-ascend.yaml。

自定义小模型服务化推理后端

配置文件

kadt/gpustack/conf/tritonserver-cann-backend.yaml

用途

用于在GPUStack上添加支持小模型推理服务化的自定义推理后端。

使用指导

  • 构建小模型服务化推理后端镜像。
  • 进入GPUStack管理页面->推理后端,点击添加后端,使用YAML模式方式,填入自定义后端信息,保存。
  • 进入GPUStack管理页面->模型文件,添加本地模型文件。
  • 使用本地模型文件进行部署,推理后端选择步骤2中添加的自定义后端,并修改后端参数,将其参数值改为空闲端口。点击保存即可拉起小模型推理服务。