| feat: 完善attention kernel生成框架并添加测试工具
- Attention kernel生成与优化:添加AI生成代码框架、昇腾平台测试、float16数据类型优化及CPU兼容性改进
- 测试工具:添加AKG Kernels Bench Lite批量测试脚本和torch CUDA Triton批量attention测试
- 文档更新:重构triton-cuda-attention SKILL文档至v2.0,添加OpenMP并行编程约束文档
- 架构重构:将verifier模块从core层迁移至op层
- 修复与清理:修复A100 flash attention数据库引用、API 403问题,清理临时测试文件
Co-Authored-By: Claude Opus 4.6 <noreply@anthropic.com>
| 2 个月前 |
| feat: 完善attention kernel生成框架并添加测试工具
- Attention kernel生成与优化:添加AI生成代码框架、昇腾平台测试、float16数据类型优化及CPU兼容性改进
- 测试工具:添加AKG Kernels Bench Lite批量测试脚本和torch CUDA Triton批量attention测试
- 文档更新:重构triton-cuda-attention SKILL文档至v2.0,添加OpenMP并行编程约束文档
- 架构重构:将verifier模块从core层迁移至op层
- 修复与清理:修复A100 flash attention数据库引用、API 403问题,清理临时测试文件
Co-Authored-By: Claude Opus 4.6 <noreply@anthropic.com>
| 2 个月前 |
| feat: 完善attention kernel生成框架并添加测试工具
- Attention kernel生成与优化:添加AI生成代码框架、昇腾平台测试、float16数据类型优化及CPU兼容性改进
- 测试工具:添加AKG Kernels Bench Lite批量测试脚本和torch CUDA Triton批量attention测试
- 文档更新:重构triton-cuda-attention SKILL文档至v2.0,添加OpenMP并行编程约束文档
- 架构重构:将verifier模块从core层迁移至op层
- 修复与清理:修复A100 flash attention数据库引用、API 403问题,清理临时测试文件
Co-Authored-By: Claude Opus 4.6 <noreply@anthropic.com>
| 2 个月前 |
| feat: 完善attention kernel生成框架并添加测试工具
- Attention kernel生成与优化:添加AI生成代码框架、昇腾平台测试、float16数据类型优化及CPU兼容性改进
- 测试工具:添加AKG Kernels Bench Lite批量测试脚本和torch CUDA Triton批量attention测试
- 文档更新:重构triton-cuda-attention SKILL文档至v2.0,添加OpenMP并行编程约束文档
- 架构重构:将verifier模块从core层迁移至op层
- 修复与清理:修复A100 flash attention数据库引用、API 403问题,清理临时测试文件
Co-Authored-By: Claude Opus 4.6 <noreply@anthropic.com>
| 2 个月前 |
| fix: 修复 CUDA 环境下 bench_lite 测试用例
- decode_mla.py: 移除 .cpu().numpy(),改为纯 PyTorch 实现以支持 CPU/NPU/GPU
- sigmoid_scale_sum.py: 移除 torch_npu 导入
- run_torch_cuda_triton_bench_lite.py: 增加 skip_npu 逻辑,自动跳过 torch_npu 相关用例
Co-Authored-By: Claude Opus 4.6 <noreply@anthropic.com>
1
| 2 个月前 |
| feat: 完善attention kernel生成框架并添加测试工具
- Attention kernel生成与优化:添加AI生成代码框架、昇腾平台测试、float16数据类型优化及CPU兼容性改进
- 测试工具:添加AKG Kernels Bench Lite批量测试脚本和torch CUDA Triton批量attention测试
- 文档更新:重构triton-cuda-attention SKILL文档至v2.0,添加OpenMP并行编程约束文档
- 架构重构:将verifier模块从core层迁移至op层
- 修复与清理:修复A100 flash attention数据库引用、API 403问题,清理临时测试文件
Co-Authored-By: Claude Opus 4.6 <noreply@anthropic.com>
| 2 个月前 |