附录

软件中包含的公网地址

Aura 的安装包中的网址安装结束后会被清除,并不会访问,不会造成风险。

Aura 本手册中存在的公开网址和邮箱地址,SDK本身不会访问,不会造成风险。

更多公网地址请参考AgentSDK 公网地址.xlsx

环境变量使用

Aura 在运行过程中可能会使用到以下环境变量。

环境变量名称 描述
LOCAL_RANK torch分布式训练设置,用来描述当前线程在当前节点上的rank信息,取值范围为[0, 8)。
RANK torch分布式训练设置,用来描述当前线程在所有节点上的rank信息,取值范围为[0, 8)。

Aura 在启动时会使用白名单校验环境变量,只有以下环境变量将会被保留。

环境变量名称 描述
ASCEND_WORK_PATH 归一CANN运行中过程中生成文件的位置。
ASCEND_AICPU_PATH ascend-toolkit的AI CPU的安装路径。
ASCEND_HOME_PATH 同ASCEND_TOOLKIT_HOME,代表CANN-toolkit软件安装后文件存储路径。
ASCEND_OPP_PATH 算子库根目录。
ASCEND_TOOLKIT_HOME CANN-toolkit软件包安装后文件存储路径。
ASDOPS_LOG_LEVEL 算子库日志级别。
ASDOPS_LOG_PATH 算子库日志保存路径。
ASDOPS_LOG_TO_BOOST_TYPE 加速库日志目录名称。
ASDOPS_LOG_TO_FILE 算子库日志是否输出到文件。
ASDOPS_LOG_TO_FILE_FLUSH 日志写文件是否刷新。
ASDOPS_LOG_TO_STDOUT 算子库日志是否输出到控制台。
ATB_COMPARE_TILING_EVERY_KERNEL 每个Kernel运行后,比较运行前和后的NPU上tiling内容是否变化,一般用于检查是否发生tiling内存踩踏。
ATB_DEVICE_TILING_BUFFER_BLOCK_NUM Context内部DeviceTilingBuffer块数,数量与OP并行的最大并行数有关,通常使用默认值,不建议修改。
ATB_HOME_PATH nnal软件包安装后文件存储路径。
ATB_HOST_TILING_BUFFER_BLOCK_NUM Context内部HostTilingBuffer块数,数量与OP并行的最大并行数有关,通常使用默认值,不建议修改。
ATB_MATMUL_SHUFFLE_K_ENABLE Shuffle-K使能,矩阵乘的结果矩阵不同位置计算时的累加序一致/不一致。会影响matmul算子内部累加序。
ATB_OPSRUNNER_KERNEL_CACHE_GLOABL_COUNT 全局kernelCache的槽位数。槽位数增加:
  • 增加cache命中率,但降低检索效率。
  • 槽位数减少:提高检索效率,但降低cache命中率。
  • ATB_OPSRUNNER_KERNEL_CACHE_LOCAL_COUNT 本地kernelCache的槽位数。
  • 槽位数增加时:增加cache命中率,但降低检索效率。
  • 槽位数减少时:提高检索效率,但降低cache命中率。
  • ATB_OPSRUNNER_SETUP_CACHE_ENABLE 是否开启ATB的SetupCache功能。该功能在检测到operation的输入和输出tensor未发生变化时会跳过setup的大部分流程,进而提升调度侧性能。默认开启,以进行性能加速。
    ATB_STREAM_SYNC_EVERY_KERNEL_ENABLE 用于问题定位,确定报错所在的kernel。当变量配置为1时,每个Kernel的Execute结束时就做流同步。
    ATB_STREAM_SYNC_EVERY_OPERATION_ENABLE 用于问题定位,确定报错所在的Operation。当变量配置为1时,每个Operation的Execute时就做同步。
    ATB_STREAM_SYNC_EVERY_RUNNER_ENABLE 用于问题定位,确定报错所在的runner。当变量配置为1时,每个Runner的Execute时就做流同步。
    ATB_SHARE_MEMORY_NAME_SUFFIX 共享内存命名后缀,多用户同时使用通信算子时,需通过设置该值进行共享内存的区分。
    ATB_WORKSPACE_MEM_ALLOC_ALG_TYPE workspace内存分配算法选择。根据环境变量配置不同,ATB会选择不同的算法去计算workspace大小与workspace分配,用户可通过选择不同算法自行测试workspace分配情况。
    ATB_WORKSPACE_MEM_ALLOC_GLOBAL 是否使用全局中间tensor内存分配算法。开启后会对中间tensor内存进行大小计算与分配。
    HOME 当前用户的主目录路径
    LCCL_DETERMINISTIC LCCL确定性AllReduce(保序加)是否开启。需注意,开启功能在rankSize<=8时生效。开启后会有如下影响:
  • 影响部分通信算子性能。
  • 影响lccl通信算子的累加序。
  • LD_LIBRARY_PATH 动态链接库搜索路径(Linux 专用)。
    PATH 可执行文件搜索路径。
    PYTHONPATH Python 模块搜索路径。
    TOOLCHAIN_HOME toolkit工具链安装路径。

    说明

    • Aura 的运行会使用到开源软件,相关开源软件会使用的环境变量请参考对应软件说明。
    • Aura 依赖CANN,运行CANN的过程中,会生成kernel_meta等文件夹,Aura 不具有转储和删除这些文件的功能,用户可参考《CANN 环境变量参考》中的"安装配置相关" > "落盘文件配置" > "ASCEND_WORK_PATH"章节,使用环境变量进行文件统一管理。

    支持的推理后端

    Aura 支持以下推理后端:

    推理后端 描述
    vllm-ascend 基于vLLM框架的昇腾NPU适配版本,提供高性能的大模型推理能力。
    omni-infer 统一的推理框架,支持多种硬件平台的推理加速。
    SGlang 结构化生成语言推理框架,支持结构化输出和工具调用。

    支持的训练后端

    Aura 支持以下训练后端:

    训练后端 描述
    MindSpeed-RL 基于MindSpeed框架的强化学习训练后端,支持大规模分布式训练。
    verl 可验证的强化学习训练框架,支持PPO、GRPO等强化学习算法。

    支持的Agent后端

    Aura 支持以下Agent后端:

    Agent后端 描述
    rLLM 基于强化学习的大语言模型Agent框架,支持工具调用和多轮对话。
    Langchain 流行的LLM应用开发框架,提供丰富的工具链和集成能力。

    支持的模型列表

    Aura 支持以下模型:

    模型名称 参数规模 描述
    Qwen2.5-7B-Instruct 7B Qwen2.5系列指令微调模型,支持中英文对话和工具调用。
    Qwen3-Coder-30B-A3B-Instruct 30B Qwen3系列代码专用模型,专为代码生成和理解优化。
    Qwen3-32B 32B Qwen3系列通用大模型,具有强大的语言理解和生成能力。
    Qwen3-235B-BF16 235B Qwen3系列超大参数模型,BF16精度,具有卓越的性能表现。