简介

概述

MindSpeed MM是面向大规模分布式训练的昇腾多模态大模型套件,同时支持多模态生成及多模态理解。它旨在为华为昇腾芯片提供端到端的多模态训练解决方案,并包含预置业界主流模型,数据工程,分布式训练及加速,预训练、微调、在线推理任务等特性。

MindSpeed MM架构

MindSpeed MM 昇腾多模态训练解决方案整体架构如下图,整体分为三个层次:

  • 昇腾基础软硬件。包括昇腾AI处理器、昇腾服务器等硬件,为海量多模态数据计算与模型训练提供强大的并行算力;CANN(Compute Architecture for Neural Networks),作为昇腾AI处理器的软件引擎,提供了高度优化的基础算子和通信库(HCCL);PyTorch + torch_npu 支持业界主流的PyTorch深度学习框架,并通过torch_npu插件将PyTorch的运算无缝对接到昇腾硬件,使得开发者能够使用熟悉的编程范式与API,发挥昇腾的算力优势

  • 分布式后端。包括分布式训练框架MindSpeed Core/Megatron和FSDP2双后端支持,提供了高效的分布式训练能力,包括数据并行、模型并行、混合并行等多种并行策略,支持大规模模型的训练与优化。

  • MindSpeed MM。提供了多模态数据处理、模型构建、分布式训练等全流程能力,充分发挥昇腾硬件的优势,支持大规模多模态模型的高效训练与部署。 MindSpeed MM架构关系如图所示

图1 MindSpeed MM架构图

alt text

功能特性

MindSpeed MM 组件组成有预置模型、套件功能、多模态优化特性

主流开源多模态模型开箱即用:支持 20+, 如 Wan、HunyuanVideo等生成模型、QwenVL、InternVL等理解模型、Qwen-Omni等全模态模型。提供了多模态生成、理解、全模态的预训练/微调/评估/在线推理启动脚本,用户可以一键启动训练任务

丰富的功能组件:分为高阶的抽象类(组装类)、原子模型类和公共组件,SoRAModel、VLModel、TransformersModel分别为多模态生成、理解、Transformers模型的高阶封装类,除此之外,还有text_decoder、audio、dit等基础的原子类;公共组件common包括了norm、rope、embedding、spec等通用组件;提供覆盖模型生命周期的完整工具链,包括:数据预处理与工程、大规模预训练、指令微调与领域适配、模型权重转换、高性能在线推理以及全面的自动化评估。

多模态加速特性:包括多维高效并行算法(DP/PP/TP/CP/EP/FSDP2)、通算掩盖、多模态负载均衡、动态显存管理(重计算、分级存储) 、长序列优化等,确保训练效率最大化。