文件最后提交记录最后更新时间
【新增样例】增加W4A4低精度矩阵乘算子 Co-authored-by: zhanghaobo<zhanghaobo6@huawei.com> Co-authored-by: triwooder<zhangyunsong3@huawei.com> # message auto-generated for no-merge-commit merge: !411 merge br_w4a4 into master 【新增样例】增加W4A4低精度矩阵乘算子 Created-by: init__zhb__ Commit-by: init__zhb__;triwooder;zhanghaobo Merged-by: cann-robot Description: ## 描述 【新增算子样例】基于已有及新开发组件上库W4A4低精度矩阵乘算子,其中左、右矩阵均为AscendC::int4b_t类型,在1Byte内填充两个AscendC::int4b_t数据。 ---- | Tensor | Shape | Dtype | Desrc | | --- | ----- | ----- | ----- | | x | (m,k) | AscendC::int4b_t | 输入左矩阵 | | weight | (k,n) | AscendC::int4b_t | 右矩阵(权重) | | perTokenScale | (m) | float | 按行的反量化系数 | | perChannelScale | (n) | uint64_t | 按列的反量化系数 | | output | (m, n) | bfloat16_t | 输出 | - AscendC::int4b_t底层处理方式是,在1Byte内表示两个AscendC::int4b_t类型数据,如以1Byte为基本类型视图,则左矩阵形为(m, k/2),右矩阵形为(k, n/2) - 对int4b_t支持能力: PR rebase [#417](https://gitcode.com/cann/catlass/pull/417) (包括使用"size of bits" 替代 "size of bytes" 计算扩展低精度兼容能力) - m: input_dim(token-size), k: hidden_dim, n: output_dim ## 关联的Issue ## 原因 ## 测试 LayoutB为zN排布下测试通过: ``` M N K Time(us) Status 4 64 64 9.94 succ 4 64 128 10.9 succ 18 64 128 10.72 succ 18 64 272 11.26 succ 18 64 368 11.5 succ 1028 448 64 18.18 succ 1028 448 128 15.96 succ 1028 448 272 19.12 succ 1668 3072 1280 40.86 succ 1668 3072 1536 39.78 succ 1668 3072 4096 67.64 succ 1668 3072 5120 79.8 succ ``` 测试例组合(420): ```python M = [1, 4, 18, 96, 128, 256, 1028, 1668] N = [64, 256, 448, 768, 2560, 3072] K = [16, 64, 128, 272, 368, 880, 1280, 1536, 4096, 5120] ``` ![image.png](https://raw.gitcode.com/user-images/assets/7631999/2bf100b7-eedf-4b74-9c6c-8fc4dbae0f28/image.png 'image.png') --------------------- LayoutB 为nZ排布下(需调整样例中模板参数,见README)测试通过: ``` M N K Time(us) Status 4 64 64 11.26 succ 4 64 256 11.92 succ 4 128 64 11.92 succ 4 128 64 11.92 succ 4 128 256 10.26 succ 1028 1280 2560 24.94 succ 1028 1280 3072 25.38 succ 1028 1536 64 27.36 succ 1028 1536 256 21.8 succ 1668 5120 448 52.18 succ 1668 5120 768 55.94 succ 1668 5120 2560 62.14 succ 1668 5120 3072 66.06 succ ``` 测试例组合(420): ```python M = [1, 4, 18, 96, 128, 256, 1028, 1668] K = [64, 256, 448, 768, 2560, 3072] N = [16, 64, 128, 272, 368, 880, 1280, 1536, 4096, 5120] ``` --------------------- 测试环境: - NPU: 910B2C 单卡 - CANN: 8.2.RC1(社区版) ## 文档更新 examples/38_w4a4_matmul_per_channel_msd/README.md ## 类型标签 <!-- [x] 表示选中 --> - [ ] Bug修复 - [x] 新特性 - [ ] 性能优化 - [ ] 文档更新 - [ ] 其他,请描述: See merge request: cann/catlass!4115 个月前
修正错误的license注释 Co-authored-by: yuantao<taoyuan18@huawei.com> # message auto-generated for no-merge-commit merge: !502 merge license into master 修正错误的license注释 Created-by: yuantao_ Commit-by: yuantao Merged-by: cann-robot Description: ## 描述 <!--在这里详细描述你的改动,包括改动的原因和所采取的方法。--> ## 关联的Issue <!-- 如果这个PR是为了解决特定的Issue,请在这里提供Issue链接。例如:关联Issue --> ## 原因 <!--说明此次改动的目的、解决的问题等,应与类型标签匹配 --> ## 测试 <!--描述进行了哪些测试来验证你的改动。包括但不限于二级冒烟、算子泛化等。--> ## 文档更新 <!--如果这个PR包含文档的更新,请在这里指出。例如:更新了README.md文件。--> ## 类型标签 <!-- [x] 表示选中 --> - [ ] Bug修复 - [ ] 新特性 - [ ] 性能优化 - [ ] 文档更新 - [ ] 其他,请描述: See merge request: cann/catlass!5022 个月前
add gmm-fixpipe-dequant Co-authored-by: chen_xu0513<chenxu210@huawei.com> # message auto-generated for no-merge-commit merge: !504 merge master into master add gmm-fixpipe-dequant Created-by: chen_xu0513 Commit-by: chen_xu0513 Merged-by: cann-robot Description: ## 描述 该算子支持A矩阵在m轴切分,然后和B矩阵按照group分组进行矩阵乘,之后进行Fixpipe随路反量化操作。 A/B矩阵为int8类型,scale为float,输出结果为half。<!--在这里详细描述你的改动,包括改动的原因和所采取的方法。--> ## 关联的Issue <!-- 如果这个PR是为了解决特定的Issue,请在这里提供Issue链接。--> ## 原因 <!--说明此次改动的目的、解决的问题等,应与类型标签匹配 --> ## 测试 <!--描述进行了哪些测试来验证你的改动。包括但不限于二级冒烟、算子泛化等。--> ## 文档更新 <!--如果这个PR包含文档的更新,请在这里指出。例如:更新了README.md文件。--> ## 类型标签 <!-- [x] 表示选中 --> - [ ] Bug修复 - [x] 新特性 - [ ] 性能优化 - [ ] 文档更新 - [ ] 其他,请描述: See merge request: cann/catlass!5042 个月前
add quant matmul pergroup-perblock test Co-authored-by: changjuye<changjuye1@h-partners.com> # message auto-generated for no-merge-commit merge: !519 merge br_quant_pertile into master add quant matmul pergroup-perblock test Created-by: changjuye Commit-by: changjuye Merged-by: cann-robot Description: ## 描述 添加pergroup-perblock组合量化模板 ## 关联的Issue <!-- 如果这个PR是为了解决特定的Issue,请在这里提供Issue链接。--> ## 原因 <!--说明此次改动的目的、解决的问题等,应与类型标签匹配 --> ## 测试 <!--描述进行了哪些测试来验证你的改动。包括但不限于二级冒烟、算子泛化等。--> ## 文档更新 <!--如果这个PR包含文档的更新,请在这里指出。例如:更新了README.md文件。--> ## 类型标签 <!-- [x] 表示选中 --> - [ ] Bug修复 - [ ] 新特性 - [ ] 性能优化 - [ ] 文档更新 - [x] 其他,请描述: See merge request: cann/catlass!5192 个月前