MindIE-SD/mindiesd/layers/quant · Ascend/MindIE-SD - AtomGit

文件	最后提交记录	最后更新时间
__init__.py	[Feature][quant] support FA dynamic FP8 Co-authored-by: huyinghong 00566667<huyinghong1@huawei.com> !125 merge dev_950 into dev_950 [Feature][quant] support FA dynamic FP8 Created-by: hyh_hh Commit-by: huyinghong 00566667 Merged-by: blian Description: 接入FA FP8_DYNAMIC量化算法： 1. 读取模型权重描述文件，识别对应attn层使能FP8_DYNAMIC量化算法（后续可支持扩展FP4/FP8混合精度逐层回退），保存对应attn层的旋转矩阵 2. 为对应的attn添加FA量化算法'fa_quant'：在传入FA算子前，先将Q、K进行@旋转&FP8量化 3. 当前仅torch_npu.npu_fused_infer_attention_score_v2支持FA量化模型侧通过对应层是否包含'fa_quant"成员判断是否使能FA量化，并传入对应layout的Q/K/V，观察量化前后的加速比和精度损失情况。参考test_quantize.py：test_add_fa_quant_with_valid_layer 1. Wan2.2-I2V-A14B测试情况：FA算子加速比1.3+ 2. hunyuan_video测试情况：FA算子加速比1.3+ See merge request: Ascend/MindIE-SD!125	3 个月前
block_quant.py	【docs】文档修改-增加API参考&加速API Co-authored-by: xiao-qing123<xiaoqing14@h-partners.com> # message auto-generated for no-merge-commit merge: !263 merge dev into dev 【docs】文档修改-增加API参考&加速API Created-by: xiao-qing123 Commit-by: xiao-qing123 Merged-by: ascend-robot Description: fixes [#86](https://gitcode.com/Ascend/MindIE-SD/issues/86) 1、新增API参考（社区API接口） 2、新增加速API（原社区layer层） 3、删除readme中的快速入门和单多卡并行示例内容（有单独的quick_start承载） 4、算子融合单独拆分出来，在特性章节独立存在 5、删除特性章节目录名称中的“加速特性” 6、黄区大模型检测问题修改 See merge request: Ascend/MindIE-SD!263	2 个月前