大模型图模式推理案例
样例须知
- 面向熟悉Transformer模型结构的用户,例如了解注意力机制、DeepSpeed分布式计算等,以便更好地进行大模型优化和执行。
- 面向推理服务场景。
- 该案例目前支持Atlas A2 训练系列产品/Atlas A2 推理系列产品。
样例获取
| 样例名称 | 样例获取 | 样例介绍 |
|---|---|---|
| 图模式下DeepSeek-R1模型分布式推理样例 | 访问cann-recipes-infer仓中models/deepseek-r1目录,阅读README.md了解详情。 | 该样例介绍了DeepSeek-R1模型迁移、优化、执行过程,详细阐述了各种模型优化方法,如固定KV Cache大小、小算子替换为融合算子等方法。优化后的模型,可供开发者直接进行应用开发,也可为自定义的大模型进行NPU迁移提供参考。 |