算子合入说明

1、算子实现说明

  • 算子实现需要包含torch实现、原triton算子实现以及npu上的优化实现。
  • 如果算子为首次实现,可以仅包含torch实现以及npu实现。

2、算子合入策略

  • 算子合入策略根据算子的功能、性能、稳定性等因素进行评估,确保合入的算子符合MindSpeed-Ops的设计目标,需要包含UT及文档说明。
  • 算子合入前,需要先进行功能测试、性能测试和稳定性测试,确保算子的功能正常、性能满足要求、稳定性稳定,pr提交需要提供atk测试通过截图,atk使用指南 ,包含精度、性能、内存。
  • 算子合入前,需要确保npu优化算子能在竞品上也能运行,并提供与其原triton算子精度对比结果。

补充说明:若采用昇腾亲和接口优化,暂不支持竞品可执行,仓上需要有份竞品实现,便于竞品性能和精度测试

3、算子精度用例说明

  • 算子合入前,需要先编写精度UT用例,确保算子的精度符合要求。
  • 精度UT用例需要覆盖算子的所有支持输入数据类型及shape。
  • 精度UT用例需要对齐双标杆,cpu高精度实现和torch的小算子实现结果或者原triton算子实现与算子结果一致。
  • 精度UT用例需要保证在竞品上也能运行。

补充说明:若采用昇腾亲和接口优化,暂不支持竞品可执行,可以写条件跳过