在线推理是指依赖深度学习框架执行推理的场景,一般用于模型训练与验证,例如调用PyTorch模型的forward接口进行推理。
在应用场景中部署模型时,一般会对模型进行离线优化,将模型转换为与硬件亲和的格式,此时模型已经脱离厚重的框架且得到优化,可以快捷地部署到推理硬件上进行推理,即为离线推理。
因离线推理硬件、推理后端的不同,模型的转换与优化过程也无法统一。此教程旨在介绍如何将PyTroch模型转为ONNX模型,ONNX模型如何转为OM模型, 如何在昇腾NPU上进行推理。其他框架可能会涉及,但不作重点讲解。
ONNX离线推理流程: