简介
HCCL Python语言的接口用于实现图模式下的框架适配,当前仅用于TensorFlow网络在NPU执行分布式优化。
相关概念
| 概念 | 介绍 |
|---|---|
| group | 指参与集合通信的进程组,包括: - hccl_world_group:默认的全局group,包含所有参与集合通信的rank,通过rank table文件创建。 - 自定义group:hccl_world_group包含的进程组的子集,可以通过create_group接口将rank table中的rank定义成不同的group,并行执行集合通信算法。 |
| rank | group中的每个通信实体称为一个rank,每个rank都会分配一个介于0~n-1(n为NPU的数量)的唯一标识。 |
| rank size | - rank size,指整个group的rank数量。 - local rank size,指group内进程在其所在Server内的rank数量。 |
| rank id | - rank id,指进程在group中对应的rank标识序号。范围:0~(rank size-1)。对于用户自定义group,rank在本group内从0开始进行重排;对于hccl_world_group,rank id和world rank id相同。 - world rank id,指进程在hccl_world_group中对应的rank标识序号,范围:0~(rank size-1)。 - local rank id,指group内进程在其所在Server内的rank编号,范围:0~(local rank size-1)。 |