| add silent_check and silent_check_v2
Co-authored-by: huzhipeng<huzhipeng17@h-partners.com>
# message auto-generated for no-merge-commit merge:
!1006 merge 0129 into master
add silent_check and silent_check_v2
Created-by: huzhipeng
Commit-by: huzhipeng
Merged-by: cann-robot
Description: ## 描述
问题/功能描述
本次PR新增了一个名为 aclnnSilentCheck(及其改进版本 aclnnSilentCheckV2)的算子,用于在AI模型训练过程中进行静默检测。该算子通过比较输入特征值与预设的绝对/相对阈值,或基于马尔可夫不等式的动态阈值,识别潜在的数值异常(如NaN/Inf、数值溢出、剧烈跳变),并根据环境变量配置决定触发日志、告警或断点续训等分级处理,旨在提升大规模模型训练的稳定性、可观测性和容错能力。
修改方案描述
本次提交为 aclnnSilentCheck 算子创建了完整的实现框架。具体包括:1)新增了算子的L2(aclnn)和L0(l0op)层接口实现,遵循CANN标准的两段式设计,支持多种浮点数据类型;2)新增了详细的算子接口文档,完整定义了功能、参数、约束和错误码;3)新增了CMake构建文件以组织算子编译;4)新增了主机侧(Host)的单元测试代码,用于验证接口参数校验的健壮性。该算子具备确定性计算特性,其V2版本改进了检测逻辑,引入了自适应动态阈值。
## 关联的Issue
issue#568
## 类型标签
<!-- [x] 表示选中 -->
- [ ] Bug修复
- [x] 新特性
- [ ] 性能优化
- [ ] 文档更新
- [ ] 其他,请描述:
See merge request: cann/ops-math!1006 | 4 个月前 |