HcclCommInitClusterInfo
产品支持情况
- Ascend 950PR/Ascend 950DT:支持
- Atlas A3 训练系列产品/Atlas A3 推理系列产品:支持
- Atlas A2 训练系列产品/Atlas A2 推理系列产品:支持
- Atlas 推理系列产品:支持
- Atlas 训练系列产品:支持
功能说明
基于rank table初始化HCCL,创建HCCL通信域。
Rank table文件是一个JSON格式的文件,配置了参与集合通信的NPU资源信息,关于rank table文件的配置可参见集群信息配置。
函数原型
HcclResult HcclCommInitClusterInfo(const char *clusterInfo, uint32_t rank, HcclComm *comm)
参数说明
| 参数名 | 输入/输出 | 描述 |
|---|---|---|
| clusterInfo | 输入 | Rank table的文件路径(含文件名),作为字符串最大长度为4096字节,含结束符。 |
| rank | 输入 | 本rank的id。 需要注意,此参数取值需要与rank table中对应的“rank_id”字段取值一致。 |
| comm | 输出 | 将初始化后的通信域以指针的信息回传给调用者。 HcclComm类型的定义可参见HcclComm。 |
返回值
HcclResult:接口成功返回HCCL_SUCCESS,其他失败。
约束说明
重复初始化会报错。
调用示例
// 设备资源初始化
aclInit(NULL);
// rank table配置文件路径
char *rankTableFile = "/path/rank_table.json";
// 指定集合通信操作使用的Device ID
aclrtSetDevice(devId);
// 创建通信域
HcclComm hcclComm;
// 此样例以devId作为当前rank的rank id
HcclCommInitClusterInfo(rankTableFile, devId, &hcclComm);
// 销毁通信域
HcclCommDestroy(hcclComm);
// 设备资源去初始化
aclFinalize();