错误码

错误码是通过如下宏定义的。

namespace llm_datadist {
constexpr Status LLM_SUCCESS = 0x0U;
constexpr Status LLM_FAILED = 0xFFFFFFFFU;
constexpr Status LLM_WAIT_PROC_TIMEOUT = 0x5010B001U;
constexpr Status LLM_KV_CACHE_NOT_EXIST = 0x5010B002U;
constexpr Status LLM_PARAM_INVALID = 0x5010B005U;
constexpr Status LLM_NOT_YET_LINK = 0x5010B007U;
constexpr Status LLM_ALREADY_LINK = 0x5010B008U;
constexpr Status LLM_LINK_FAILED = 0x5010B009U;
constexpr Status LLM_UNLINK_FAILED = 0x5010B00AU;
constexpr Status LLM_NOTIFY_PROMPT_UNLINK_FAILED = 0x5010B00BU;
constexpr Status LLM_CLUSTER_NUM_EXCEED_LIMIT = 0x5010B00CU;
constexpr Status LLM_PROCESSING_LINK = 0x5010B00DU;
constexpr Status LLM_DEVICE_OUT_OF_MEMORY = 0x5010B00EU;
constexpr Status LLM_EXIST_LINK = 0x5010B018U;
constexpr Status LLM_FEATURE_NOT_ENABLED = 0x5010B019U;
constexpr Status LLM_TIMEOUT = 0x5010B01AU;
constexpr Status LLM_LINK_BUSY = 0x5010B01BU;
constexpr Status LLM_OUT_OF_MEMORY = 0x5010B01CU;
}  // namespace llm_datadist

具体错误码含义如下。

枚举值 含义 是否可恢复 解决办法
LLM_SUCCESS 成功
LLM_FAILED 通用失败 保留现场,获取Host/Device日志,并备份。
LLM_WAIT_PROC_TIMEOUT 处理超时 - 如果是PullKvCachePullKvBlocks等传输相关接口报该错误,该链路不可恢复,需重新建链。
- 其他接口报该异常,加大超时时间并重试。
LLM_KV_CACHE_NOT_EXIST KV不存在 - 检查cache_id是否正确。
- 检查是否Cache已经释放。
- 检查对应全量侧报错日志中的请求是否完成。
- 检查是否存在重复拉取。
LLM_PARAM_INVALID 参数错误 基于日志排查错误原因。
LLM_NOT_YET_LINK 没有建链 上层排查Decode与Prompt建链情况。
LLM_ALREADY_LINK 重复建链 上层排查Decode与Prompt建链情况。
LLM_LINK_FAILED 建链失败 LinkLlmClusters第二个返回值中有该错误码时,需要检查对应集群之间的网络连接。
LLM_UNLINK_FAILED 断链失败 UnlinkLlmClusters第二个返回值中有该错误码时,需要检查对应集群之间的网络连接。
LLM_NOTIFY_PROMPT_UNLINK_FAILED 通知Prompt侧断链失败 1. 排查Decode与Prompt之间的网络连接。
2. 主动调Prompt侧的UnlinkLlmClusters接口清理残留资源。
LLM_CLUSTER_NUM_EXCEED_LIMIT 集群数量超过限制 检查LinkLlmClustersUnlinkLlmClusters传入参数,clusters数量不能超过16。
LLM_PROCESSING_LINK 正在处理建链 当前正在执行建链或断链操作,请稍后再试。
LLM_DEVICE_OUT_OF_MEMORY Device内存不足 检查申请的内存是否没有释放。
LLM_EXIST_LINK 设置角色时,存在未释放的链接 检查在SetRole前是否已经调用UnlinkLlmClusters断开所有的链接。
LLM_FEATURE_NOT_ENABLED 特性未使能 检查初始化LLM-DataDist时是否传入了必要option。
如果是SetRole时抛出该异常,排查初始化时是否设置了OPTION_ENABLE_SET_ROLE = "1"
LLM_TIMEOUT 处理超时 保留现场,获取Host/Device日志,并备份。
LLM_LINK_BUSY 链路忙 预留错误码,暂不会返回。
LLM_OUT_OF_MEMORY 内存不足 检查内存池或系统内存是否充足。