e7d0df49创建于 2025年9月19日历史提交
文件最后提交记录最后更新时间
!7379 add 03.高阶特性.md8 个月前
!7379 add 03.高阶特性.md8 个月前
!7379 add 03.高阶特性.md8 个月前
!7379 add 03.高阶特性.md8 个月前
!7379 add 03.高阶特性.md8 个月前
!7379 add 03.高阶特性.md8 个月前
!7379 add 03.高阶特性.md8 个月前
!7379 add 03.高阶特性.md8 个月前
!7379 add 03.高阶特性.md8 个月前
README.md

在线推理是指依赖深度学习框架执行推理的场景,一般用于模型训练与验证,例如调用PyTorch模型的forward接口进行推理。

在应用场景中部署模型时,一般会对模型进行离线优化,将模型转换为与硬件亲和的格式,此时模型已经脱离厚重的框架且得到优化,可以快捷地部署到推理硬件上进行推理,即为离线推理

因离线推理硬件、推理后端的不同,模型的转换与优化过程也无法统一。此教程旨在介绍如何将PyTroch模型转为ONNX模型,ONNX模型如何转为OM模型, 如何在昇腾NPU上进行推理。其他框架可能会涉及,但不作重点讲解。

ONNX离线推理流程:

  1. 在线推理:打通在线模型的推理过程,区分数据预处理、模型推理、数据后处理,为后续适配离线推理做准备
  2. ONNX的导出:使用常见框架的ONNX导出方法,得到ONNX模型
  3. ONNX转OM:使用ATC工具将ONNX转为OM模型
  4. 离线模型推理:适配OM模型进行离线推理
  5. 性能优化:常用的性能优化方案