附录
常见问题
-
问题1
Q:训练日志显示"Checkpoint path not found"?
A:检查CKPT_LOAD_DIR是否指向正确的权重转换后路径,确认文件夹内包含.ckpt或.bin文件,否则请更正权重路径的设置。 -
问题2
Q:显示数据集加载"out of range"?
A:微调脚本未能读取到数据集,请检查脚本中DATA_PATH是否符合示例的规范。
-
问题3
Q:没有生成运行日志文件?
A:需要自行创建logs文件夹。
加入昇腾开发者生态
- 🌐 社区资源:访问昇腾开源社区获取最新模型支持
- 📈 性能优化:参考MindSpeed Profiling分析瓶颈
- 💡 定制需求:通过
model_cfg.json扩展自定义模型
线性度
基于GPT3-175B稠密大模型,从128颗NPU扩展到7968颗NPU进行MFU与线性度实验,下图是实验数据:
图中呈现了对应集群规模下的MFU值与集群整体的线性度情况。计算公式可单击如下链接进行参考: