| 文件 | 最后提交记录 | 最后更新时间 |
|---|---|---|
[Feature][quant] support FA dynamic FP8 Co-authored-by: huyinghong 00566667<huyinghong1@huawei.com> !125 merge dev_950 into dev_950 [Feature][quant] support FA dynamic FP8 Created-by: hyh_hh Commit-by: huyinghong 00566667 Merged-by: blian Description: 接入FA FP8_DYNAMIC量化算法: 1. 读取模型权重描述文件,识别对应attn层使能FP8_DYNAMIC量化算法(后续可支持扩展FP4/FP8混合精度逐层回退),保存对应attn层的旋转矩阵 2. 为对应的attn添加FA量化算法'fa_quant':在传入FA算子前,先将Q、K进行@旋转&FP8量化 3. 当前仅torch_npu.npu_fused_infer_attention_score_v2支持FA量化 模型侧通过对应层是否包含'fa_quant"成员判断是否使能FA量化,并传入对应layout的Q/K/V,观察量化前后的加速比和精度损失情况。 参考test_quantize.py:test_add_fa_quant_with_valid_layer 1. Wan2.2-I2V-A14B测试情况:FA算子加速比1.3+ 2. hunyuan_video测试情况:FA算子加速比1.3+ See merge request: Ascend/MindIE-SD!125 | 3 个月前 | |
【docs】文档修改-增加API参考&加速API Co-authored-by: xiao-qing123<xiaoqing14@h-partners.com> # message auto-generated for no-merge-commit merge: !263 merge dev into dev 【docs】文档修改-增加API参考&加速API Created-by: xiao-qing123 Commit-by: xiao-qing123 Merged-by: ascend-robot Description: fixes [#86](https://gitcode.com/Ascend/MindIE-SD/issues/86) 1、新增API参考(社区API接口) 2、新增加速API(原社区layer层) 3、删除readme中的快速入门和单多卡并行示例内容(有单独的quick_start承载) 4、算子融合单独拆分出来,在特性章节独立存在 5、删除特性章节目录名称中的“加速特性” 6、黄区大模型检测问题修改 See merge request: Ascend/MindIE-SD!263 | 2 个月前 |
| 文件 | 最后提交记录 | 最后更新时间 |
|---|---|---|
| 3 个月前 | ||
| 2 个月前 |