Fork
0
代码
介绍
代码
Issues
Pull Requests
流水线
Actions
讨论
Wiki
项目成员
分析
项目设置
Fork
0
master
ops-math
/
math
/
silent_check
下载当前目录
cann-robot
math仓的doc tools 工具检测的低错问题
dd97d7cb
创建于
4月29日
历史提交
文件
最后提交记录
最后更新时间
docs
doc Tools工具扫描问题修改 Co-authored-by: gitee-yanglulu<yanglulul@h-partners.com> # message auto-generated for no-merge-commit merge:
!1930
merge master into master doc Tools工具扫描问题修改 Created-by: gitee-yanglulu Commit-by: gitee-yanglulu Merged-by: cann-robot Description: doc Tools工具扫描问题修改 See merge request: cann/ops-math
!1930
2 个月前
op_host
add silent_check and silent_check_v2 Co-authored-by: huzhipeng<huzhipeng17@h-partners.com> # message auto-generated for no-merge-commit merge:
!1006
merge 0129 into master add silent_check and silent_check_v2 Created-by: huzhipeng Commit-by: huzhipeng Merged-by: cann-robot Description: ## 描述 问题/功能描述 本次PR新增了一个名为 aclnnSilentCheck(及其改进版本 aclnnSilentCheckV2)的算子,用于在AI模型训练过程中进行静默检测。该算子通过比较输入特征值与预设的绝对/相对阈值,或基于马尔可夫不等式的动态阈值,识别潜在的数值异常(如NaN/Inf、数值溢出、剧烈跳变),并根据环境变量配置决定触发日志、告警或断点续训等分级处理,旨在提升大规模模型训练的稳定性、可观测性和容错能力。 修改方案描述 本次提交为 aclnnSilentCheck 算子创建了完整的实现框架。具体包括:1)新增了算子的L2(aclnn)和L0(l0op)层接口实现,遵循CANN标准的两段式设计,支持多种浮点数据类型;2)新增了详细的算子接口文档,完整定义了功能、参数、约束和错误码;3)新增了CMake构建文件以组织算子编译;4)新增了主机侧(Host)的单元测试代码,用于验证接口参数校验的健壮性。该算子具备确定性计算特性,其V2版本改进了检测逻辑,引入了自适应动态阈值。 ## 关联的Issue issue
#568
## 类型标签 <!-- [x] 表示选中 --> - [ ] Bug修复 - [x] 新特性 - [ ] 性能优化 - [ ] 文档更新 - [ ] 其他,请描述: See merge request: cann/ops-math
!1006
4 个月前
tests
fix: compile with opbase source Co-authored-by: wangrui<wangrui124@huawei.com> # message auto-generated for no-merge-commit merge:
!1193
merge br_reduce into master fix: compile with opbase source Created-by: wangrui_ Commit-by: wangrui Merged-by: cann-robot Description: ## 描述 <!--在这里详细描述你的改动,包括改动的原因和所采取的方法。--> compile with opbase source 1. 本仓下载opbase仓源码 2. 查找头文件,优先使用本地下载的路径 3. 不查找lib库,并移除lib库依赖 ## 关联的Issue <!-- 如果这个PR是为了解决特定的Issue,请在这里提供Issue链接。--> <!-- 如果这个PR是为了解决特定的问题单,请在这里描述问题单单号。--> ## 测试 <!--描述进行了哪些测试来验证你的改动。包括但不限于二级冒烟、算子泛化等。--> ## 文档更新 <!--如果这个PR包含文档的更新,请在这里指出。例如:更新了README.md文件。--> ## 类型标签 <!-- [x] 表示选中 --> - [ ] Bug修复 - [x] 新特性 - [ ] 性能优化 - [ ] 文档更新 - [ ] 其他,请描述: See merge request: cann/ops-math
!1193
3 个月前
CMakeLists.txt
add silent_check and silent_check_v2 Co-authored-by: huzhipeng<huzhipeng17@h-partners.com> # message auto-generated for no-merge-commit merge:
!1006
merge 0129 into master add silent_check and silent_check_v2 Created-by: huzhipeng Commit-by: huzhipeng Merged-by: cann-robot Description: ## 描述 问题/功能描述 本次PR新增了一个名为 aclnnSilentCheck(及其改进版本 aclnnSilentCheckV2)的算子,用于在AI模型训练过程中进行静默检测。该算子通过比较输入特征值与预设的绝对/相对阈值,或基于马尔可夫不等式的动态阈值,识别潜在的数值异常(如NaN/Inf、数值溢出、剧烈跳变),并根据环境变量配置决定触发日志、告警或断点续训等分级处理,旨在提升大规模模型训练的稳定性、可观测性和容错能力。 修改方案描述 本次提交为 aclnnSilentCheck 算子创建了完整的实现框架。具体包括:1)新增了算子的L2(aclnn)和L0(l0op)层接口实现,遵循CANN标准的两段式设计,支持多种浮点数据类型;2)新增了详细的算子接口文档,完整定义了功能、参数、约束和错误码;3)新增了CMake构建文件以组织算子编译;4)新增了主机侧(Host)的单元测试代码,用于验证接口参数校验的健壮性。该算子具备确定性计算特性,其V2版本改进了检测逻辑,引入了自适应动态阈值。 ## 关联的Issue issue
#568
## 类型标签 <!-- [x] 表示选中 --> - [ ] Bug修复 - [x] 新特性 - [ ] 性能优化 - [ ] 文档更新 - [ ] 其他,请描述: See merge request: cann/ops-math
!1006
4 个月前
README.md
math仓的doc tools 工具检测的低错问题 Co-authored-by: caiwenwen<caiwenwen6@h-partners.com> # message auto-generated for no-merge-commit merge:
!2461
merge master into master math仓的doc tools 工具检测的低错问题 Created-by: caiwenwen Commit-by: caiwenwen Merged-by: cann-robot Description: ## 描述 处理math仓的doc tools 工具检测的低错问题,包括markdown低错、htlm标签合入、链接是否可以正常跳转 ## 关联的Issue #关联issue
#1262
## 测试 <!--描述进行了哪些测试来验证你的改动。包括但不限于二级冒烟、算子泛化等。--> ## 文档更新 更新全部文档 ## 类型标签 <!-- [x] 表示选中 --> - [ ] Bug修复 - [ ] 新特性 - [ ] 性能优化 - [x] 文档更新 - [ ] 其他,请描述: See merge request: cann/ops-math
!2461
1 个月前
README.md
SilentCheck
本目录仅包含SilentCheck算子对应的aclnn接口;如您想要贡献该算子的AscendC实现,请参考
贡献流程
。