ascend-robotfeat: version update & doc update

Add 算子

概述

Add 算子是一个基于 Triton 实现的高效加法操作，用于对两个张量进行逐元素加法运算。该算子充分利用了昇腾 NPU 的并行计算能力，通过 Triton 语言编写的内核实现了高性能的加法操作。

函数签名

def add(x: torch.Tensor, y: torch.Tensor) -> torch.Tensor:
    """执行两个张量的逐元素加法

    Args:
        x: 输入张量
        y: 输入张量

    Returns:
        两个张量的逐元素和
    """

参数说明

参数	类型	描述	支持的数据类型
x	torch.Tensor	第一个输入张量	float32, float16, bfloat16, int32, int64
y	torch.Tensor	第二个输入张量	float32, float16, bfloat16, int32, int64

返回值

类型	描述	支持的数据类型
torch.Tensor	两个输入张量的逐元素和，形状与输入张量相同	与输入张量相同的数据类型

实现原理

Add 算子通过以下步骤实现：

内存分配：创建一个与输入张量形状相同的输出张量
计算元素数量：获取输出张量的总元素数量
设置块大小：使用 1024 作为块大小，平衡并行度和内存访问效率
计算网格大小：根据元素数量和块大小计算所需的网格大小
启动内核：调用 Triton 内核执行并行加法操作

使用示例

import torch
from mindspeed_ops.api.triton.add import add

# 创建测试张量
x = torch.randn(1024, 1024)
y = torch.randn(1024, 1024)

# 执行加法操作
result = add(x, y)

# 验证结果
assert torch.allclose(result, x + y)
print("Add operation completed successfully!")

性能对比

方法	时间消耗
PyTorch 内置加法	基准
Triton 实现加法	约 1.0x

注：性能提升数据基于昇腾 NPU 环境测试，具体数值可能因硬件配置不同而有所差异。

适用场景

Add 算子适用于以下场景：

大规模张量加法：对于大型张量，Triton 实现的加法操作能够充分利用硬件并行能力
深度学习训练：在神经网络训练中，加法操作是最基础的运算之一，高效的实现能够提升整体训练速度
科学计算：在需要大量加法运算的科学计算任务中，该算子能够提供性能优势

注意事项

输入张量 x 和 y 必须具有相同的形状
输入张量的数据类型应该兼容加法操作
对于非常小的张量，可能不会观察到明显的性能提升，因为启动内核的开销可能超过计算收益