RANK_TABLE_FILE
功能描述
通过此环境变量可配置RANK_TABLE_FILE文件的路径,用于集合通信域建链。
- 未配置时,通过默认的协商流程进行集合通信域建链。
- 配置且文件全路径有效时,通过RANK_TABLE_FILE进行集合通信域建链。
此环境变量默认未配置。
Note
配置RANK_TABLE_FILE场景下,执行模型分布式训练时如果出现“RuntimeError: The Inner Error ...”的报错,建议将HCCL_CONNECT_TIMEOUT的超时时间适当增大,避免ranktable场景下无协商导致的建链超时问题,具体请参考在进行模型分布式训练时遇到报错“RuntimeError: The Inner Error ...”。
配置示例
启用ranktable文件方式建链示例:
export RANK_TABLE_FILE=/home/ranktable.json
Caution
- 配置的文件路径不存在时,会通过默认的协商流程进行集合通信域建链。
- 配置的文件路径存在,但配置信息有误时,不会通过默认的协商流程进行集合通信域建链,而是在实际通信时会进行相应的报错。
关闭ranktable文件方式建链示例:
unset RANK_TABLE_FILE
使用约束
- 配置的文件路径不能为软链接,且具有读取权限。
- 配置的文件需要为json格式,具体可参考《CANN HCCL集合通信库》中对应的“rank table配置资源信息”章节。
支持的型号
- Atlas 训练系列产品
- Atlas A2 训练系列产品
- Atlas A3 训练系列产品