计算与通信并行功能

功能简介

大模型切分部署场景中,通过对网络中AllReduce通信算子以及上下文中可以连续切分的算子切分,从而启用通信和计算并行运行,从而达到加速分布式推理的目的。

使用约束

  • 本功能仅适用于GE图模式场景。
  • 只有网络中存在通信算子才能切分,切分时,仅对AllReduce通信算子进行切分。

使用方法

该功能通过torchair.get_npu_backend中compiler_config配置,示例如下,仅供参考不支持直接拷贝运行,参数说明参见下表。

import torch_npu, torchair
config = torchair.CompilerConfig()
# 计算与通信并行开关
config.experimental_config.cc_parallel_enable = True
npu_backend = torchair.get_npu_backend(compiler_config=config)
opt_model = torch.compile(model, backend=npu_backend)

表 1 参数说明

参数名 说明
cc_parallel_enable 图执行时是否开启计算与通信并行。False(默认值):不开启并行模式。True:开启并行模式。