CopyKvCache

产品支持情况

产品 是否支持
Atlas A3 训练系列产品/Atlas A3 推理系列产品
Atlas A2 推理系列产品
Atlas A2 训练系列产品 x

函数功能

拷贝KV Cache。支持D2D,D2H的拷贝。

当期望PullKvCache和其他使用Cache的操作流水时,可以额外申请一块中转Cache。当其他流程在使用Cache时,可以先将下一次的Cache pull到中转Cache,待其他流程使用完Cache后,拷贝到指定的位置,从而通过pipeline流水将PullKvCache的耗时隐藏,减少总耗时。

公共前缀场景在新请求推理前,可以将公共前缀拷贝到新的内存中与当前请求的KV合并推理。

函数原型

Status CopyKvCache(const Cache &src_cache,
                   const Cache &dst_cache,
                   uint32_t src_batch_index = 0U,
                   uint32_t dst_batch_index = 0U,
                   uint64_t offset = 0U,
                   int64_t size = -1)

参数说明

参数名称 输入/输出 取值说明
src_cache 输入 源Cache。
dst_cache 输入 目的Cache。
src_batch_index 输入 源Cache的batch的下标。
dst_batch_index 输入 目的Cache的batch的下标。
offset 输入 拷贝偏移,单位为byte。
size 输入 设置为>0的整数,表示要拷贝的大小。
或设置为-1,表示完整拷贝。
默认为-1。

调用示例

Status ret = llm_datadist.CopyKvCache(src_cache, dst_cache, 0, 0)

返回值

  • LLM_SUCCESS:成功
  • LLM_PARAM_INVALID:参数错误
  • 其他:失败

约束说明

该接口调用之前,需要先调用Initialize接口完成初始化。只支持Device->Device与Device->Host的拷贝。