附录

常见问题

  • 问题1
    Q:训练日志显示"Checkpoint path not found"?
    A:检查CKPT_LOAD_DIR是否指向正确的权重转换后路径,确认文件夹内包含.ckpt.bin文件,否则请更正权重路径的设置。

  • 问题2
    Q:显示数据集加载"out of range"?
    A:微调脚本未能读取到数据集,请检查脚本中DATA_PATH是否符合示例的规范。

    img_3.png

  • 问题3
    Q:没有生成运行日志文件?
    A:需要自行创建logs文件夹。

    img_1.png

加入昇腾开发者生态

  • 🌐 社区资源:访问昇腾开源社区获取最新模型支持
  • 📈 性能优化:参考MindSpeed Profiling分析瓶颈
  • 💡 定制需求:通过model_cfg.json扩展自定义模型

线性度

基于GPT3-175B稠密大模型,从128颗NPU扩展到7968颗NPU进行MFU与线性度实验,下图是实验数据:

图中呈现了对应集群规模下的MFU值与集群整体的线性度情况。计算公式可单击如下链接进行参考: