🔥昇腾 950 NPU 架构白皮书🔥

开源项目

组件 描述 源码仓
算子库 提供了丰富的深度优化、硬件亲和的高性能算子,为神经网络在昇腾硬件上加速计算提供基础。 ops-nn
ops-math
ops-transformer
ops-cv
通信库 基于昇腾硬件的高性能通信库,提供单机多卡及多机多卡间的数据并行、模型并行通信方案。 hixl
shmem
hccl
hcomm
领域加速库 针对特定领域或场景的算子和算法的结合。 ascend-transformer-boost
sip
图引擎 面向昇腾的图编译器和执行器,提供图优化、多流并行、内存复用和模型下沉等功能。 ge
metadef
graph-autofusion
triton-inference-server-ge-backend
算子编程 CANN针对算子开发场景推出的编程语言,最大化匹配用户开发习惯,提供算子模板库,支持算子极简编程。 asc-devkit
pyasc
pypto
pto-isa
atvoss
catlass
运行时 提供了高效的硬件资源管理、媒体数据预处理、单算子加载执行、模型推理等开发接口,供开发者轻松构建高性能人工智能应用。 runtime
驱动 提供了基础驱动、设备管理、资源管理及调度、通信能力等功能,使能昇腾芯片,充分发挥硬件能力,支撑CANN上层软件高效稳定运行。 driver
工具 提供CANN平台的各种工具,如算子调试调优工具、故障定位、模型压缩等。 asc-tools
oam-tools
amct

关于社区

社区治理架构及章程

CANN 社区采用分层协作的治理模式,当前架构主要包括以下组织:

更多社区治理内容,详见:社区治理章程

参与贡献

  • 基础贡献:包含参与社区会议、社区邮件讨论、提交 Issue 、处理 Issue 任务、提交PR等。
  • 进阶贡献:包含新建 SIG、成为核心贡献者、组织会议、新建仓库、引入开源软件、发布新版本或新仓库等。

快速体验

若您希望快速体验CANN算子的调用和开发过程,请访问如下文档获取简易教程。

  • 算子调用:介绍调用算子的基本步骤,快速搭建环境,实现算子编译执行。
  • 算子开发:介绍开发算子的基本流程,一键创建算子工程目录,实现Tiling、Kernel核心交付件。

🔥一站式开发平台:您也可在对应仓库中点击“CANNLab”,在一站式在线开发环境中限时免费体验昇腾算力。🔥

实践样例

推理   |  🚈 训练 |   🔮 空间智能 |   🎮 具身智能 |   📱 鸿蒙推理

热门实践 描述
NPU DeepSeek-V4推理优化实践 DeepSeek团队发布了最新的模型DeepSeek-V4系列模型,包含DeepSeek-V4 Flash和DeepSeek-V4 Pro两种规格。在DeepSeek-V3.2的稀疏Attention(DeepSeek Sparse Attention)的基础上,在不同层间进一步通过KV Cache滑窗 (Window Cache) 和压缩算法 (KV Cache Compress),减少Attention的计算和访存开销,可以大幅提升长序列的计算效率,降低推理的成本。本实践0 Day支持了DeepSeek-V4的模型推理部署,并适配支持Atlas-A3和950PR/DT多代际昇腾芯片。
DeepSeek-V4昇腾训练支持 本文介绍 DeepSeek-V4-Flash 模型基于 CANN 平台的训练优化实践。基于 TorchTitan-NPU 框架,采用纯 FSDP + 大 EP 极简并行策略实现内存最优;创新性地使能训练入图技术,凭借 Ascend C AutoFuse 能力,获得端到端 32% 的编译收益;针对稀疏注意力结构定制高效融合算子,充分释放芯片算力。
DeepSeek-V3.2-Exp模型支持推理部署 基于Transformers库,在Atlas A3环境中Prefill阶段采用了长序列亲和的CP并行策略,Decode阶段沿用大EP并行,同时整网设计新的NPU融合Kernel和多流并行优化,实现较高的吞吐推理性能。
DeepSeek-R1 RL训练优化实践 基于开源veRL框架,搭配MindSpeed+vLLM-Ascend框架,在Atlas A3集群实现GRPO算法的高吞吐RL训练,并达到120TPS/卡的系统吞吐量。
HunyuanVideo模型推理优化实践 基于xDiT框架,在Atlas A2环境中采用了Ulysses序列并行和RingAttention序列并行测量,同时适配了TeaCache加速,实现了较优的推理性能。
VGGT模型推理优化实践 基于VGGT开源模型,完成其在Atlas A2上的推理适配,并提供其在相机位姿估计、点云三维重建、深度估计三个任务上的精度评测脚本。
Pi0模型推理优化实践 基于LeRobot库,在Atlas A2环境适配Pi0模型,通过使能融合算子、图模式、计算逻辑优化等手段,实现了较低的推理时延。
QQ音乐声伴分离鸿蒙推理优化实践 实现QQ音乐声伴分离业务模型中的BandNorm等算子在鸿蒙设备上的高性能推理部署。

社区活动

  • 社区会议日历:如果您对CANN社区的各类会议感兴趣,可访问会议日历。
  • 🔥CANN直播回放:汇聚CANN NEXT、DeepSeek-V4、CANN开源开放、CANN Insight、线下Meetup与CANNBot/TileLang课程等系列直播,涵盖前沿技术、开源生态与实操教程,专家干货随时回看。
  • 🔥昇腾AI算法挑战赛进阶赛:昇腾AI算法挑战赛旨在汇聚全球各领域的优秀开发者同台竞技。开放昇腾AI计算平台的全栈能力与API资源,鼓励开发者构建高效创新的AI模型,解决实际场景问题。
  • CANN训练营:为开发者打造“学、练、赛”成长体系:报名领取免费学习资源,每周一、四开源实践全新解读;通过算子开发者认证考核,参与社区任务赢华为三折叠等大奖。
  • 昇腾AI创新大赛-算子挑战赛:昇腾AI创新大赛-算子挑战赛旨在培养一批精通Ascend C算子开发的开发者,鼓励开发者基于CANN的基础能力进行深度创新与实践。

联系我们

  • 社区邮件订阅:选择需要订阅的组织(TSC/PMC/SIG等),填写相关信息,进行邮件订阅(邮件推送内容包含:会议通知、会议纪要、内容讨论等),如果您对相关组织有诉求或者问题,也可以通过邮箱途径联系。

  • 昇腾CANN(社交媒体)

    B站 微信公众号 知乎 CSDN
    cann_bilibili CANN微信公众号 昇腾CANN知乎 昇腾CANN_CSDN
  • cann@cann.team

相关链接