yiyanzhi_akane1update local llm api docs

本地部署大模型接入指南

本文档介绍如何将本地部署的大模型接入 AKG Agents。

配置本地模型

如果您已经拥有自己部署的模型服务，只需在 ~/.akg/settings.json 中配置本地服务的 base_url 即可：

{
  "models": {
    "standard": {
      "base_url": "http://localhost:8000/v1",
      "api_key": "EMPTY",
      "model_name": "your-model-name"
    }
  },
  "default_model": "standard"
}

配置说明：

base_url: 本地模型服务的 API 地址（通常以 /v1 结尾，兼容 OpenAI API 格式）
api_key: 如果本地服务不需要认证，可以填写 "EMPTY" 或任意字符串
model_name: 您部署的模型名称

本地模型部署框架

如果您还没有部署本地模型服务，可以参考以下开源框架：

框架	官方链接
vLLM	https://github.com/vllm-project/vllm
vLLM-Ascend	https://github.com/vllm-project/vllm-ascend
vLLM-MindSpore	https://atomgit.com/mindspore/vllm-mindspore
Ollama	https://ollama.com

模型选择建议

对于 Kernel 代码生成任务，由于其对代码理解和生成能力要求较高，我们推荐使用以下类型的模型：

配置示例

{
  "models": {
    "standard": {
      "base_url": "http://localhost:8000/v1",
      "api_key": "EMPTY",
      "model_name": "deepseek-v3"
    }
  },
  "default_model": "standard"
}

验证配置

配置完成后，可以通过启动 akg_cli op 命令验证模型连接：

# Ascend NPU
akg_cli op --framework torch --backend ascend --arch ascend910b2 \
  --dsl triton_ascend --devices 0,1,2,3,4,5,6,7

# CUDA GPU
akg_cli op --framework torch --backend cuda --arch a100 \
  --dsl triton_cuda --devices 0,1,2,3,4,5,6,7

# CPU
akg_cli op --framework torch --backend cpu --arch x86_64 \
  --dsl cpp --devices 0

如果模型配置正确，系统将正常启动并响应您的请求。