akg/akg_agents/benchmark/akg_kernels_bench_lite/t3 · mindspore/akg - AtomGit

yiyanzhi_akane1fix: 修复 CUDA 环境下 bench_lite 测试用例

文件	最后提交记录	最后更新时间
causal_conv1d.py	feat: 完善attention kernel生成框架并添加测试工具 - Attention kernel生成与优化：添加AI生成代码框架、昇腾平台测试、float16数据类型优化及CPU兼容性改进 - 测试工具：添加AKG Kernels Bench Lite批量测试脚本和torch CUDA Triton批量attention测试 - 文档更新：重构triton-cuda-attention SKILL文档至v2.0，添加OpenMP并行编程约束文档 - 架构重构：将verifier模块从core层迁移至op层 - 修复与清理：修复A100 flash attention数据库引用、API 403问题，清理临时测试文件 Co-Authored-By: Claude Opus 4.6 <noreply@anthropic.com>	2 个月前
decode_mla.py	fix: 修复 CUDA 环境下 bench_lite 测试用例 - decode_mla.py: 移除 .cpu().numpy()，改为纯 PyTorch 实现以支持 CPU/NPU/GPU - sigmoid_scale_sum.py: 移除 torch_npu 导入 - run_torch_cuda_triton_bench_lite.py: 增加 skip_npu 逻辑，自动跳过 torch_npu 相关用例 Co-Authored-By: Claude Opus 4.6 <noreply@anthropic.com> 1	2 个月前
layernorm_gated.py	feat: 完善attention kernel生成框架并添加测试工具 - Attention kernel生成与优化：添加AI生成代码框架、昇腾平台测试、float16数据类型优化及CPU兼容性改进 - 测试工具：添加AKG Kernels Bench Lite批量测试脚本和torch CUDA Triton批量attention测试 - 文档更新：重构triton-cuda-attention SKILL文档至v2.0，添加OpenMP并行编程约束文档 - 架构重构：将verifier模块从core层迁移至op层 - 修复与清理：修复A100 flash attention数据库引用、API 403问题，清理临时测试文件 Co-Authored-By: Claude Opus 4.6 <noreply@anthropic.com>	2 个月前