文件最后提交记录最后更新时间
[feat]: Longcat support Attention-FFN Disaggregation(AFD) Co-authored-by: A-Liuhao<liuhao276@hisilicon.com> # message auto-generated for no-merge-commit merge: !249 merge longcat_afd_0115 into master [feat]: Longcat support Attention-FFN Disaggregation(AFD) Created-by: A-Liuhao Commit-by: A-Liuhao Merged-by: cann-robot Description: ## 描述 针对 LongCat-Flash-560B 模型,为了在 Decode 阶段进一步降低 TPOT 耗时,实现了 Attention-FFN Disaggretation(AFD) 技术方案,将 MoE 模块从整网中剥离出来进行独立部署,也即 Attention 模块 和 MoE 模块单独部署在不同的节点上,中间通过 Send/Recv 算子进行节点间的数据交互。通过充分利用核算力来降低算子执行时间和实现计算的流水掩盖,使得TPOT的进一步优化。 ## 类型 - [ ] Bug 修复 - [x] 新功能 - [ ] 重构(即不是新增功能,也不是修改bug的代码变动) - [ ] 构建过程或辅助工具的变动 - [x] 文档内容更新 ## 如何测试 参照README执行模型,配置enable_afd为True,使能AFD。 ## Checklist: - [x] 我的代码遵循这个项目的代码风格 - [x] 我已经自己测试过我的代码 - [x] 我已经更新了相应的文档 - [x] 我已经在标题中正确使用了类型标签(例如:feat, fix, refactor, docs, test) See merge request: cann/cann-recipes-infer!2494 个月前
[feat]: Longcat support Attention-FFN Disaggregation(AFD) Co-authored-by: A-Liuhao<liuhao276@hisilicon.com> # message auto-generated for no-merge-commit merge: !249 merge longcat_afd_0115 into master [feat]: Longcat support Attention-FFN Disaggregation(AFD) Created-by: A-Liuhao Commit-by: A-Liuhao Merged-by: cann-robot Description: ## 描述 针对 LongCat-Flash-560B 模型,为了在 Decode 阶段进一步降低 TPOT 耗时,实现了 Attention-FFN Disaggretation(AFD) 技术方案,将 MoE 模块从整网中剥离出来进行独立部署,也即 Attention 模块 和 MoE 模块单独部署在不同的节点上,中间通过 Send/Recv 算子进行节点间的数据交互。通过充分利用核算力来降低算子执行时间和实现计算的流水掩盖,使得TPOT的进一步优化。 ## 类型 - [ ] Bug 修复 - [x] 新功能 - [ ] 重构(即不是新增功能,也不是修改bug的代码变动) - [ ] 构建过程或辅助工具的变动 - [x] 文档内容更新 ## 如何测试 参照README执行模型,配置enable_afd为True,使能AFD。 ## Checklist: - [x] 我的代码遵循这个项目的代码风格 - [x] 我已经自己测试过我的代码 - [x] 我已经更新了相应的文档 - [x] 我已经在标题中正确使用了类型标签(例如:feat, fix, refactor, docs, test) See merge request: cann/cann-recipes-infer!2494 个月前
[feat]: Longcat support Attention-FFN Disaggregation(AFD) Co-authored-by: A-Liuhao<liuhao276@hisilicon.com> # message auto-generated for no-merge-commit merge: !249 merge longcat_afd_0115 into master [feat]: Longcat support Attention-FFN Disaggregation(AFD) Created-by: A-Liuhao Commit-by: A-Liuhao Merged-by: cann-robot Description: ## 描述 针对 LongCat-Flash-560B 模型,为了在 Decode 阶段进一步降低 TPOT 耗时,实现了 Attention-FFN Disaggretation(AFD) 技术方案,将 MoE 模块从整网中剥离出来进行独立部署,也即 Attention 模块 和 MoE 模块单独部署在不同的节点上,中间通过 Send/Recv 算子进行节点间的数据交互。通过充分利用核算力来降低算子执行时间和实现计算的流水掩盖,使得TPOT的进一步优化。 ## 类型 - [ ] Bug 修复 - [x] 新功能 - [ ] 重构(即不是新增功能,也不是修改bug的代码变动) - [ ] 构建过程或辅助工具的变动 - [x] 文档内容更新 ## 如何测试 参照README执行模型,配置enable_afd为True,使能AFD。 ## Checklist: - [x] 我的代码遵循这个项目的代码风格 - [x] 我已经自己测试过我的代码 - [x] 我已经更新了相应的文档 - [x] 我已经在标题中正确使用了类型标签(例如:feat, fix, refactor, docs, test) See merge request: cann/cann-recipes-infer!2494 个月前
[feat]: Longcat support Attention-FFN Disaggregation(AFD) Co-authored-by: A-Liuhao<liuhao276@hisilicon.com> # message auto-generated for no-merge-commit merge: !249 merge longcat_afd_0115 into master [feat]: Longcat support Attention-FFN Disaggregation(AFD) Created-by: A-Liuhao Commit-by: A-Liuhao Merged-by: cann-robot Description: ## 描述 针对 LongCat-Flash-560B 模型,为了在 Decode 阶段进一步降低 TPOT 耗时,实现了 Attention-FFN Disaggretation(AFD) 技术方案,将 MoE 模块从整网中剥离出来进行独立部署,也即 Attention 模块 和 MoE 模块单独部署在不同的节点上,中间通过 Send/Recv 算子进行节点间的数据交互。通过充分利用核算力来降低算子执行时间和实现计算的流水掩盖,使得TPOT的进一步优化。 ## 类型 - [ ] Bug 修复 - [x] 新功能 - [ ] 重构(即不是新增功能,也不是修改bug的代码变动) - [ ] 构建过程或辅助工具的变动 - [x] 文档内容更新 ## 如何测试 参照README执行模型,配置enable_afd为True,使能AFD。 ## Checklist: - [x] 我的代码遵循这个项目的代码风格 - [x] 我已经自己测试过我的代码 - [x] 我已经更新了相应的文档 - [x] 我已经在标题中正确使用了类型标签(例如:feat, fix, refactor, docs, test) See merge request: cann/cann-recipes-infer!2494 个月前
[feat] support longcat-flash inference Co-authored-by: Wangyanzhao_13<wangyanzhao13@huawei.com> # message auto-generated for no-merge-commit merge: !124 merge longcat_dev into master [feat] support longcat-flash inference Created-by: chenyu10 Commit-by: Wangyanzhao_13 Merged-by: cann-robot Description: # Support LongCat-Flash Inference with Low Latency ---- ## 描述 新增支持 longcat-flash 低时延推理。可查看 [RFC](https://gitcode.com/cann/cann-recipes-infer/issues/58) 中的具体开发事项和方案。相关优化文档已同步更新。 ## 类型 - [ ] Bug 修复 - [x] 新功能 - [ ] 重构(即不是新增功能,也不是修改bug的代码变动) - [ ] 构建过程或辅助工具的变动 - [x] 文档内容更新 ## 如何测试 请参考 models/longcat-flash/README.md 中的步骤执行。 ## Checklist: - [x] 我的代码遵循这个项目的代码风格 - [x] 我已经自己测试过我的代码 - [x] 我已经更新了相应的文档 - [x] 我已经在标题中正确使用了类型标签(例如:feat, fix, refactor, docs, test) ## 其他信息 在这里可以添加任何与这个 Pull Request 相关的其他说明。 See merge request: cann/cann-recipes-infer!1245 个月前
[feat] support longcat-flash inference Co-authored-by: Wangyanzhao_13<wangyanzhao13@huawei.com> # message auto-generated for no-merge-commit merge: !124 merge longcat_dev into master [feat] support longcat-flash inference Created-by: chenyu10 Commit-by: Wangyanzhao_13 Merged-by: cann-robot Description: # Support LongCat-Flash Inference with Low Latency ---- ## 描述 新增支持 longcat-flash 低时延推理。可查看 [RFC](https://gitcode.com/cann/cann-recipes-infer/issues/58) 中的具体开发事项和方案。相关优化文档已同步更新。 ## 类型 - [ ] Bug 修复 - [x] 新功能 - [ ] 重构(即不是新增功能,也不是修改bug的代码变动) - [ ] 构建过程或辅助工具的变动 - [x] 文档内容更新 ## 如何测试 请参考 models/longcat-flash/README.md 中的步骤执行。 ## Checklist: - [x] 我的代码遵循这个项目的代码风格 - [x] 我已经自己测试过我的代码 - [x] 我已经更新了相应的文档 - [x] 我已经在标题中正确使用了类型标签(例如:feat, fix, refactor, docs, test) ## 其他信息 在这里可以添加任何与这个 Pull Request 相关的其他说明。 See merge request: cann/cann-recipes-infer!1245 个月前
[feat] support longcat-flash inference Co-authored-by: Wangyanzhao_13<wangyanzhao13@huawei.com> # message auto-generated for no-merge-commit merge: !124 merge longcat_dev into master [feat] support longcat-flash inference Created-by: chenyu10 Commit-by: Wangyanzhao_13 Merged-by: cann-robot Description: # Support LongCat-Flash Inference with Low Latency ---- ## 描述 新增支持 longcat-flash 低时延推理。可查看 [RFC](https://gitcode.com/cann/cann-recipes-infer/issues/58) 中的具体开发事项和方案。相关优化文档已同步更新。 ## 类型 - [ ] Bug 修复 - [x] 新功能 - [ ] 重构(即不是新增功能,也不是修改bug的代码变动) - [ ] 构建过程或辅助工具的变动 - [x] 文档内容更新 ## 如何测试 请参考 models/longcat-flash/README.md 中的步骤执行。 ## Checklist: - [x] 我的代码遵循这个项目的代码风格 - [x] 我已经自己测试过我的代码 - [x] 我已经更新了相应的文档 - [x] 我已经在标题中正确使用了类型标签(例如:feat, fix, refactor, docs, test) ## 其他信息 在这里可以添加任何与这个 Pull Request 相关的其他说明。 See merge request: cann/cann-recipes-infer!1245 个月前
[feat] support longcat-flash inference Co-authored-by: Wangyanzhao_13<wangyanzhao13@huawei.com> # message auto-generated for no-merge-commit merge: !124 merge longcat_dev into master [feat] support longcat-flash inference Created-by: chenyu10 Commit-by: Wangyanzhao_13 Merged-by: cann-robot Description: # Support LongCat-Flash Inference with Low Latency ---- ## 描述 新增支持 longcat-flash 低时延推理。可查看 [RFC](https://gitcode.com/cann/cann-recipes-infer/issues/58) 中的具体开发事项和方案。相关优化文档已同步更新。 ## 类型 - [ ] Bug 修复 - [x] 新功能 - [ ] 重构(即不是新增功能,也不是修改bug的代码变动) - [ ] 构建过程或辅助工具的变动 - [x] 文档内容更新 ## 如何测试 请参考 models/longcat-flash/README.md 中的步骤执行。 ## Checklist: - [x] 我的代码遵循这个项目的代码风格 - [x] 我已经自己测试过我的代码 - [x] 我已经更新了相应的文档 - [x] 我已经在标题中正确使用了类型标签(例如:feat, fix, refactor, docs, test) ## 其他信息 在这里可以添加任何与这个 Pull Request 相关的其他说明。 See merge request: cann/cann-recipes-infer!1245 个月前
[feat] support longcat-flash inference Co-authored-by: Wangyanzhao_13<wangyanzhao13@huawei.com> # message auto-generated for no-merge-commit merge: !124 merge longcat_dev into master [feat] support longcat-flash inference Created-by: chenyu10 Commit-by: Wangyanzhao_13 Merged-by: cann-robot Description: # Support LongCat-Flash Inference with Low Latency ---- ## 描述 新增支持 longcat-flash 低时延推理。可查看 [RFC](https://gitcode.com/cann/cann-recipes-infer/issues/58) 中的具体开发事项和方案。相关优化文档已同步更新。 ## 类型 - [ ] Bug 修复 - [x] 新功能 - [ ] 重构(即不是新增功能,也不是修改bug的代码变动) - [ ] 构建过程或辅助工具的变动 - [x] 文档内容更新 ## 如何测试 请参考 models/longcat-flash/README.md 中的步骤执行。 ## Checklist: - [x] 我的代码遵循这个项目的代码风格 - [x] 我已经自己测试过我的代码 - [x] 我已经更新了相应的文档 - [x] 我已经在标题中正确使用了类型标签(例如:feat, fix, refactor, docs, test) ## 其他信息 在这里可以添加任何与这个 Pull Request 相关的其他说明。 See merge request: cann/cann-recipes-infer!1245 个月前
[docs] fix prefetch docs Co-authored-by: keke_x<xuke99@hisilicon.com> # message auto-generated for no-merge-commit merge: !331 merge master into master [docs] fix prefetch docs Created-by: keke_x Commit-by: keke_x Merged-by: cann-robot Description: # Pull Request 模板 ---- ## 描述 请提供此Pull Request的预期功能,以方便检视。 ## 类型 - [ ] Bug 修复 - [ ] 新功能 - [ ] 重构(即不是新增功能,也不是修改bug的代码变动) - [ ] 构建过程或辅助工具的变动 - [x] 文档内容更新 ## 如何测试 描述测试这个变更的步骤,包括哪些文件需要被修改。 ## Checklist: - [x] 我的代码遵循这个项目的代码风格 - [x] 我已经自己测试过我的代码 - [x] 我已经更新了相应的文档 - [x] 我已经在标题中正确使用了类型标签(例如:feat, fix, refactor, docs, test) ## 其他信息 在这里可以添加任何与这个 Pull Request 相关的其他说明。 See merge request: cann/cann-recipes-infer!3312 个月前
[feat] support longcat-flash inference Co-authored-by: Wangyanzhao_13<wangyanzhao13@huawei.com> # message auto-generated for no-merge-commit merge: !124 merge longcat_dev into master [feat] support longcat-flash inference Created-by: chenyu10 Commit-by: Wangyanzhao_13 Merged-by: cann-robot Description: # Support LongCat-Flash Inference with Low Latency ---- ## 描述 新增支持 longcat-flash 低时延推理。可查看 [RFC](https://gitcode.com/cann/cann-recipes-infer/issues/58) 中的具体开发事项和方案。相关优化文档已同步更新。 ## 类型 - [ ] Bug 修复 - [x] 新功能 - [ ] 重构(即不是新增功能,也不是修改bug的代码变动) - [ ] 构建过程或辅助工具的变动 - [x] 文档内容更新 ## 如何测试 请参考 models/longcat-flash/README.md 中的步骤执行。 ## Checklist: - [x] 我的代码遵循这个项目的代码风格 - [x] 我已经自己测试过我的代码 - [x] 我已经更新了相应的文档 - [x] 我已经在标题中正确使用了类型标签(例如:feat, fix, refactor, docs, test) ## 其他信息 在这里可以添加任何与这个 Pull Request 相关的其他说明。 See merge request: cann/cann-recipes-infer!1245 个月前
[feat]: Longcat support Attention-FFN Disaggregation(AFD) Co-authored-by: A-Liuhao<liuhao276@hisilicon.com> # message auto-generated for no-merge-commit merge: !249 merge longcat_afd_0115 into master [feat]: Longcat support Attention-FFN Disaggregation(AFD) Created-by: A-Liuhao Commit-by: A-Liuhao Merged-by: cann-robot Description: ## 描述 针对 LongCat-Flash-560B 模型,为了在 Decode 阶段进一步降低 TPOT 耗时,实现了 Attention-FFN Disaggretation(AFD) 技术方案,将 MoE 模块从整网中剥离出来进行独立部署,也即 Attention 模块 和 MoE 模块单独部署在不同的节点上,中间通过 Send/Recv 算子进行节点间的数据交互。通过充分利用核算力来降低算子执行时间和实现计算的流水掩盖,使得TPOT的进一步优化。 ## 类型 - [ ] Bug 修复 - [x] 新功能 - [ ] 重构(即不是新增功能,也不是修改bug的代码变动) - [ ] 构建过程或辅助工具的变动 - [x] 文档内容更新 ## 如何测试 参照README执行模型,配置enable_afd为True,使能AFD。 ## Checklist: - [x] 我的代码遵循这个项目的代码风格 - [x] 我已经自己测试过我的代码 - [x] 我已经更新了相应的文档 - [x] 我已经在标题中正确使用了类型标签(例如:feat, fix, refactor, docs, test) See merge request: cann/cann-recipes-infer!2494 个月前