文件最后提交记录最后更新时间
add silent_check and silent_check_v2 Co-authored-by: huzhipeng<huzhipeng17@h-partners.com> # message auto-generated for no-merge-commit merge: !1006 merge 0129 into master add silent_check and silent_check_v2 Created-by: huzhipeng Commit-by: huzhipeng Merged-by: cann-robot Description: ## 描述 问题/功能描述 本次PR新增了一个名为 aclnnSilentCheck(及其改进版本 aclnnSilentCheckV2)的算子,用于在AI模型训练过程中进行静默检测。该算子通过比较输入特征值与预设的绝对/相对阈值,或基于马尔可夫不等式的动态阈值,识别潜在的数值异常(如NaN/Inf、数值溢出、剧烈跳变),并根据环境变量配置决定触发日志、告警或断点续训等分级处理,旨在提升大规模模型训练的稳定性、可观测性和容错能力。 修改方案描述 本次提交为 aclnnSilentCheck 算子创建了完整的实现框架。具体包括:1)新增了算子的L2(aclnn)和L0(l0op)层接口实现,遵循CANN标准的两段式设计,支持多种浮点数据类型;2)新增了详细的算子接口文档,完整定义了功能、参数、约束和错误码;3)新增了CMake构建文件以组织算子编译;4)新增了主机侧(Host)的单元测试代码,用于验证接口参数校验的健壮性。该算子具备确定性计算特性,其V2版本改进了检测逻辑,引入了自适应动态阈值。 ## 关联的Issue issue#568 ## 类型标签 <!-- [x] 表示选中 --> - [ ] Bug修复 - [x] 新特性 - [ ] 性能优化 - [ ] 文档更新 - [ ] 其他,请描述: See merge request: cann/ops-math!10064 个月前
add silent_check and silent_check_v2 Co-authored-by: huzhipeng<huzhipeng17@h-partners.com> # message auto-generated for no-merge-commit merge: !1006 merge 0129 into master add silent_check and silent_check_v2 Created-by: huzhipeng Commit-by: huzhipeng Merged-by: cann-robot Description: ## 描述 问题/功能描述 本次PR新增了一个名为 aclnnSilentCheck(及其改进版本 aclnnSilentCheckV2)的算子,用于在AI模型训练过程中进行静默检测。该算子通过比较输入特征值与预设的绝对/相对阈值,或基于马尔可夫不等式的动态阈值,识别潜在的数值异常(如NaN/Inf、数值溢出、剧烈跳变),并根据环境变量配置决定触发日志、告警或断点续训等分级处理,旨在提升大规模模型训练的稳定性、可观测性和容错能力。 修改方案描述 本次提交为 aclnnSilentCheck 算子创建了完整的实现框架。具体包括:1)新增了算子的L2(aclnn)和L0(l0op)层接口实现,遵循CANN标准的两段式设计,支持多种浮点数据类型;2)新增了详细的算子接口文档,完整定义了功能、参数、约束和错误码;3)新增了CMake构建文件以组织算子编译;4)新增了主机侧(Host)的单元测试代码,用于验证接口参数校验的健壮性。该算子具备确定性计算特性,其V2版本改进了检测逻辑,引入了自适应动态阈值。 ## 关联的Issue issue#568 ## 类型标签 <!-- [x] 表示选中 --> - [ ] Bug修复 - [x] 新特性 - [ ] 性能优化 - [ ] 文档更新 - [ ] 其他,请描述: See merge request: cann/ops-math!10064 个月前
add silent_check and silent_check_v2 Co-authored-by: huzhipeng<huzhipeng17@h-partners.com> # message auto-generated for no-merge-commit merge: !1006 merge 0129 into master add silent_check and silent_check_v2 Created-by: huzhipeng Commit-by: huzhipeng Merged-by: cann-robot Description: ## 描述 问题/功能描述 本次PR新增了一个名为 aclnnSilentCheck(及其改进版本 aclnnSilentCheckV2)的算子,用于在AI模型训练过程中进行静默检测。该算子通过比较输入特征值与预设的绝对/相对阈值,或基于马尔可夫不等式的动态阈值,识别潜在的数值异常(如NaN/Inf、数值溢出、剧烈跳变),并根据环境变量配置决定触发日志、告警或断点续训等分级处理,旨在提升大规模模型训练的稳定性、可观测性和容错能力。 修改方案描述 本次提交为 aclnnSilentCheck 算子创建了完整的实现框架。具体包括:1)新增了算子的L2(aclnn)和L0(l0op)层接口实现,遵循CANN标准的两段式设计,支持多种浮点数据类型;2)新增了详细的算子接口文档,完整定义了功能、参数、约束和错误码;3)新增了CMake构建文件以组织算子编译;4)新增了主机侧(Host)的单元测试代码,用于验证接口参数校验的健壮性。该算子具备确定性计算特性,其V2版本改进了检测逻辑,引入了自适应动态阈值。 ## 关联的Issue issue#568 ## 类型标签 <!-- [x] 表示选中 --> - [ ] Bug修复 - [x] 新特性 - [ ] 性能优化 - [ ] 文档更新 - [ ] 其他,请描述: See merge request: cann/ops-math!10064 个月前
add silent_check and silent_check_v2 Co-authored-by: huzhipeng<huzhipeng17@h-partners.com> # message auto-generated for no-merge-commit merge: !1006 merge 0129 into master add silent_check and silent_check_v2 Created-by: huzhipeng Commit-by: huzhipeng Merged-by: cann-robot Description: ## 描述 问题/功能描述 本次PR新增了一个名为 aclnnSilentCheck(及其改进版本 aclnnSilentCheckV2)的算子,用于在AI模型训练过程中进行静默检测。该算子通过比较输入特征值与预设的绝对/相对阈值,或基于马尔可夫不等式的动态阈值,识别潜在的数值异常(如NaN/Inf、数值溢出、剧烈跳变),并根据环境变量配置决定触发日志、告警或断点续训等分级处理,旨在提升大规模模型训练的稳定性、可观测性和容错能力。 修改方案描述 本次提交为 aclnnSilentCheck 算子创建了完整的实现框架。具体包括:1)新增了算子的L2(aclnn)和L0(l0op)层接口实现,遵循CANN标准的两段式设计,支持多种浮点数据类型;2)新增了详细的算子接口文档,完整定义了功能、参数、约束和错误码;3)新增了CMake构建文件以组织算子编译;4)新增了主机侧(Host)的单元测试代码,用于验证接口参数校验的健壮性。该算子具备确定性计算特性,其V2版本改进了检测逻辑,引入了自适应动态阈值。 ## 关联的Issue issue#568 ## 类型标签 <!-- [x] 表示选中 --> - [ ] Bug修复 - [x] 新特性 - [ ] 性能优化 - [ ] 文档更新 - [ ] 其他,请描述: See merge request: cann/ops-math!10064 个月前