计算与通信并行功能

功能简介

大模型切分部署场景中，通过对网络中AllReduce通信算子以及上下文中可以连续切分的算子切分，从而启用通信和计算并行运行，从而达到加速分布式推理的目的。

使用约束

本功能仅适用于GE图模式场景。
只有网络中存在通信算子才能切分，切分时，仅对AllReduce通信算子进行切分。

使用方法

该功能通过torchair.get_npu_backend中compiler_config配置，示例如下，仅供参考不支持直接拷贝运行，参数说明参见下表。

import torch_npu, torchair
config = torchair.CompilerConfig()
# 计算与通信并行开关
config.experimental_config.cc_parallel_enable = True
npu_backend = torchair.get_npu_backend(compiler_config=config)
opt_model = torch.compile(model, backend=npu_backend)

表 1 参数说明

参数名	说明
cc_parallel_enable	图执行时是否开启计算与通信并行。False（默认值）：不开启并行模式。True：开启并行模式。