| [feat]: Longcat support Attention-FFN Disaggregation(AFD)
Co-authored-by: A-Liuhao<liuhao276@hisilicon.com>
# message auto-generated for no-merge-commit merge:
!249 merge longcat_afd_0115 into master
[feat]: Longcat support Attention-FFN Disaggregation(AFD)
Created-by: A-Liuhao
Commit-by: A-Liuhao
Merged-by: cann-robot
Description: ## 描述
针对 LongCat-Flash-560B 模型,为了在 Decode 阶段进一步降低 TPOT 耗时,实现了 Attention-FFN Disaggretation(AFD) 技术方案,将 MoE 模块从整网中剥离出来进行独立部署,也即 Attention 模块 和 MoE 模块单独部署在不同的节点上,中间通过 Send/Recv 算子进行节点间的数据交互。通过充分利用核算力来降低算子执行时间和实现计算的流水掩盖,使得TPOT的进一步优化。
## 类型
- [ ] Bug 修复
- [x] 新功能
- [ ] 重构(即不是新增功能,也不是修改bug的代码变动)
- [ ] 构建过程或辅助工具的变动
- [x] 文档内容更新
## 如何测试
参照README执行模型,配置enable_afd为True,使能AFD。
## Checklist:
- [x] 我的代码遵循这个项目的代码风格
- [x] 我已经自己测试过我的代码
- [x] 我已经更新了相应的文档
- [x] 我已经在标题中正确使用了类型标签(例如:feat, fix, refactor, docs, test)
See merge request: cann/cann-recipes-infer!249 | 4 个月前 |