昇腾大模型加速库
简介
MindSpeed Core是针对华为昇腾设备的大模型加速库。
大模型训练是一种非常复杂的过程,涉及到许多技术和挑战,其中大模型训练需要大量的显存资源是一个难题,对计算卡提出了不小的挑战。 为了在单个计算卡显存资源不足时,可以通过多张计算卡进行计算,业界出现了类似 Megatron、DeepSpeed 等第三方大模型加速库,对模型、输入数据等进行切分并分配到不同的计算卡上,最后再通过集合通信对结果进行汇总。
昇腾提供 MindSpeed Core 加速库,使客户大模型业务能快速迁移至昇腾设备,并且支持昇腾专有算法,确保开箱可用。更多信息请参考MindSpeed Core简介。
此外在 MindSpeed Core 加速库的基础之上也提供了大语言模型、多模态模型套件加速库:
- 📝 大语言模型库: MindSpeed LLM
- 🖼️ 多模态模型库: MindSpeed MM
代码仓目录结构
关键目录结构如下,详细目录介绍请参考目录结构文档。
MindSpeed/
├── mindspeed/ # 核心代码目录
│ ├── core/ # 核心功能模块,包含并行策略、内存管理、优化器等核心能力
│ ├── features_manager/ # 特性管理模块,统一管理各种优化特性的注册与配置
│ ├── functional/ # 功能特性模块,包含NPU数据转储、确定性计算、性能分析等
│ ├── op_builder/ # 算子构建模块,提供算子编译和注册工具
│ ├── ops/ # 算子模块,包含融合算子、自定义算子等高效实现
│ ├── args_utils.py # 参数工具,提供参数解析和验证功能
│ ├── arguments.py # 参数定义,包含分布式训练相关参数
│ ├── megatron_adapter.py # Megatron-LM适配器,实现与Megatron框架的集成
│ ├── patch_utils.py # 补丁工具,提供动态代码补丁功能
│ ├── train.py # 训练模块,提供训练流程控制
│ └── ... # 其他模块和功能
├── docs/ # 文档目录,包含中英文特性文档、用户指南等
├── tests-extend/ # 测试目录,包含扩展测试用例
└── tools/ # 工具目录,提供辅助开发和性能分析工具
最新消息
- [May 21, 2025]: 🚀 MindSpeed Core 支持Mcore 0.12.1版本。
注: 当前版本初步支持两种版本的Transformer实现。如需回溯老版本Transformer实现,需要用户配置参数
--transformer-impl local。
社区会议
- MindSpeed系列TC及SIG会议安排请查看Ascend会议中心
版本说明
当前版本推荐配套表如下:
| 软件 | 版本 |
|---|---|
| MindSpeed Core分支 | master |
| Mcore版本 | 0.12.1 |
| CANN版本 | 9.0.0 |
| PyTorch | 2.7.1 |
| torch_npu版本 | 26.0.0 |
| Python版本 | Python3.10.x |
更多具体说明请参考:版本配套表。
安装
使用源码安装
MindSpeed Core拉取源码后使用pip命令行安装pip install -e MindSpeed,具体请参考 部署文档 安装 MindSpeed Core 指定分支及其依赖软件。
获取并切换Megatron-LM版本至 core_v0.12.1 版本,可参考:
git clone https://github.com/NVIDIA/Megatron-LM.git
cd Megatron-LM
git checkout core_v0.12.1
快速上手
概述
使用MindSpeed Core仅须增加一行代码,即可在昇腾训练设备上运行Megatron-LM,并进一步参考特性介绍 使能MindSpeed的各项加速特性。
操作方法
以 GPT 模型为例:在 Megatron-LM 目录下修改pretrain_gpt.py文件,在import torch下新增一行:import mindspeed.megatron_adaptor,即如下修改:
import torch
import mindspeed.megatron_adaptor # 新增代码行
from functools import partial
from contextlib import nullcontext
import inspect
具体操作可以参考快速上手指导。
MindSpeed LLM和MindSpeed MM的快速上手指导可参考:
- 大语言模型训练
- 多模态模型训练
加速特性分级说明
MindSpeed Core 加速特性分为三个层级,用户可根据实际需求选择通过设置启动脚本中的 --optimization-level {层级} 参数来自定义开启的优化层级。该参数支持以下配置:
| 层级 | 层级名称 | 介绍 |
|---|---|---|
| 0 | 基础功能兼容 | 提供Megatron-LM框架对NPU的基本功能适配。 |
| 1 | 亲和性增强🔥 | 在L0基础上使能部分融合算子与昇腾亲和计算改写。 |
| 2 | 加速特性使能🔥🔥 | 默认值。在L0、L1基础上开启更丰富的加速特性,加速特性通常通过具体参数使能,可参考"特性介绍"章节。 |
特性介绍
MindSpeed 特性由七大模块组成,分别为:Megatron特性支持、并行策略特性、内存优化特性、亲和计算特性、通信优化特性、关键场景特性以及多模态特性。其中【Released】表示是否商用发布,原型特性为非商用发布。
-
特性的介绍中说明了对应特性的应用场景及使用说明。一般而言,在脚本中加入相关参数即可轻松使用对应特性。🛰️
-
MindSpeed 加速特性仅支持mcore,这也是Megatron在v0.6.0版本后主推分支,也是当前版本的默认分支。🛰️
-
当前大模型训练主要使用bf16数据类型,以下特性若无特殊声明原则上兼容fp16, 如使用其它数据类型遇到问题可提交issue, 我们会快速响应。🛰️
-
注意❗:在Megatron_core_r0.9.0后,alltoall dispatcher进行了调整,原版本alltoall dispatcher重命名为alltoall_seq。MindSpeed MoE特性对各分支的支持情况,见各特性说明。
各特性支持情况请查看MindSpeed Core 特性支持情况。
自定义算子
昇腾训练自定义算子统一由torch_npu提供API,以下API预计2025年Q4起不维护,请优先使用torch_npu提供的自定义算子,如有新需求或问题可提issue反馈,我们会尽快回复。
部分自定义算子设置为公开接口,公开接口设置说明请参照 MindSpeed 安全声明中的公开接口声明,具体对外接口细节参照以下算子对应的手册链接。
自定义算子支持情况请查看MindSpeed Core 自定义算子支持情况。
分支维护策略
🛠️ MindSpeed 版本分支的维护阶段如下:
| 状态 | 时间 | 说明 |
|---|---|---|
| 计划 🕐 | 1-3 个月 | 计划特性 |
| 开发 🕔 | 3 个月 | 开发特性 |
| 维护 🕚 | 6-12 个月 | 合入所有已解决的问题并发布版本,针对不同的MindSpeed 版本采取不同的维护策略,常规版本和长期支持版本维护周期分别为6个月和12个月 |
| 无维护 🕛 | 0-3 个月 | 合入所有已解决的问题,无专职维护人员,无版本发布 |
| 生命周期终止(EOL)🚫 | N/A | 分支不再接受任何修改 |
🛠️ MindSpeed 版本维护策略:
| MindSpeed版本 | 维护策略 | 当前状态 | 发布时间 | 后续状态 | EOL日期 |
|---|---|---|---|---|---|
| 26.0.0_core_r0.12.1 | 常规版本 | 维护 | 2026/03/30 | 预计2026/09/30起无维护 | |
| 2.3.0_core_r0.12.1 | 常规版本 | 维护 | 2025/12/30 | 预计2026/06/30起无维护 | |
| 2.2.0_core_r0.12.1 | 常规版本 | 停止维护 | 2025/09/30 | 2026/03/30起无维护 | |
| 2.1.0_core_r0.12.1 | 常规版本 | 停止维护 | 2025/06/30 | 2025/12/30起无维护 | |
| 2.1.0_core_r0.8.0 | 常规版本 | 停止维护 | 2025/06/30 | 2025/12/30起无维护 | |
| 2.0.0_core_r0.8.0 | 常规版本 | 停止维护 | 2025/03/30 | 2025/9/30起无维护 | |
| 1.0.0_core_r0.7.0 | 常规版本 | 停止维护 | 2024/12/30 | 2025/6/30起无维护 | |
| 1.0.0_core_r0.6.0 | 常规版本 | 停止维护 | 2024/12/30 | 2025/6/30起无维护 | |
| 1.0.RC3_core_r0.7.0 | 常规版本 | 停止维护 | 2024/09/30 | 2025/3/30起无维护 | |
| 1.0.RC3_core_r0.6.0 | 常规版本 | 停止维护 | 2024/09/30 | 2025/3/30起无维护 | |
| 1.0.RC2 | 常规版本 | 停止维护 | 2024/06/30 | 2024/12/30起无维护 | |
| 1.0.RC1 | 常规版本 | 停止维护 | 2024/03/30 | 2024/9/30起无维护 |
常见问题
| 现象 | 介绍 |
|---|---|
| Data helpers 数据预处理出错 ❗ | data_helpers数据预处理出错 |
| Torch extensions 编译卡住 ❗ | Torch extensions卡住 |
| megatron0.7.0版本长稳测试出现grad norm为nan ❗ | grad_norm_nan |
| Gloo建链失败Gloo connectFullMesh failed with ... ❗ | hccl-replace-gloo |
技术文章
安全声明
贡献指南
欢迎贡献 MindSpeed-Core!请查看贡献指南了解如何参与项目贡献。
免责声明
致MindSpeed使用者
- MindSpeed提供的所有内容仅供您用于非商业目的。
- 对于MindSpeed测试用例以及示例文件中所涉及的各模型和数据集,平台仅用于功能测试,华为不提供任何模型权重和数据集,如您使用这些数据进行训练,请您特别注意应遵守对应模型和数据集的License,如您因使用这些模型和数据集而产生侵权纠纷,华为不承担任何责任。
- 如您在使用MindSpeed过程中,发现任何问题(包括但不限于功能问题、合规问题),请在Gitee提交issue,我们将及时审视并解决。
- MindSpeed功能依赖的Megatron等第三方开源软件,均由第三方社区提供和维护,因第三方开源软件导致的问题的修复依赖相关社区的贡献和反馈。您应理解,MindSpeed仓库不保证对第三方开源软件本身的问题进行修复,也不保证会测试、纠正所有第三方开源软件的漏洞和错误。
致数据所有者
如果您不希望您的模型或数据集在MindSpeed中被提及,或希望更新MindSpeed中有关的描述,请在Gitee提交issue,我们将根据您的issue要求删除或更新您相关描述。衷心感谢您对MindSpeed的理解和贡献。
License声明
Ascend MindSpeed中涉及的模型,如模型目录下存在License的,以该License为准。如模型目录下不存在License的,以Apache 2.0许可证许可,对应许可证文本可查阅Ascend MindSpeed根目录。 MindSpeed产品的使用许可证,具体请参见LICENSE文件。 MindSpeed docs目录下的文档适用CC-BY 4.0许可证,具体请参见LICENSE文件。
致谢
🔎 MindSpeed-Core 由华为公司的下列部门联合贡献 :
华为公司:
- 昇腾计算产品部
- 计算算法部
- 计算软件平台部
- 计算技术开发部
- 公共开发部:NAIE
- 网络技术实验室
此外,MindSpeed-Core 感谢以下团队对项目的贡献:
- 微信基础架构中心
- 科大讯飞AI工程院内核技术部
感谢来自社区的每一个PR,欢迎贡献 MindSpeed-Core!