Fork
0
代码
介绍
代码
Issues
Pull Requests
流水线
Actions
讨论
Wiki
项目成员
分析
项目设置
Fork
0
v2.7.1-26.0.0
pytorch
/
docs
/
zh
/
troubleshooting
/
communication_domain_link_establishment_timeout.md
下载
ascend-robot
modify document
1903d521
创建于
1月22日
历史提交
通信域建链超时
问题现象描述
关键词"
Socket Timeout
"
原因分析
模型多卡训练过程中,通信域建链超时报错。可能原因:
0卡与其他卡的网络存在异常,其他卡等待超时报错。
0卡异常退出,其他卡等待超时报错。
0卡比其他卡执行通信域建立慢,其他卡等待超时报错。
解决措施
检查0卡与其他卡网络情况。
检查0卡有没有异常退出。
检测0卡是否存在执行通信域建立操作比较慢的情况。