ascend-robot【轻量级 PR】：update: 更新文件 release_notes.md

MindStudio 26.0.0 版本说明

1. 版本概述

MindStudio 26.0.0 是昇腾面向AI开发者打造的全流程开发工具链，覆盖算子开发，训练开发和推理开发场景。本版本核心亮点如下：

亮点1：聚焦大模型训练场景下多核调度不合理、强化学习故障难定位、长时间训练异常难察觉等常见问题，针对性升级钓友和诊断能力；
亮点2：围绕推理落地中，量化适配周期长、线上服务调优困难等痛点，补齐全场景推理优化能力；
亮点3：针对算子开发调试周期长、内存问题难排查等开发痛点，整合工具能力、完善可视化诊断体系。

2. 配套关系

软件/硬件	版本要求
MindStudio	26.0.0
Ascend HDK版本	跟随CANN部署要求
CANN版本	9.0.0
PyTorch版本	>=2.3

3. 开源开放变更

支持msProf、msPTI、msMemScope、msServiceProfiler、msKPP、msOpGen、msKL、msSanitizer、msDebug、msOpProf、msTX工具独立安装、卸载和升级。
MindStudio工具链软件不支持从MindStudio 8.3.0版本直接升级到MindStudio 26.0.0版本。如需使用MindStudio 26.0.0版本，请直接安装对应版本的软件。

4. 新增特性

4.1 算子开发工具链

序号	特性名称	特性描述
1	msDebug支持Atlas 350core dump文件解析	支持展示Atlas 350相关寄存器和变量打印
2	msOpprof支持shmem算子库	支持通过msopprof获取shmem算子性能数据
3	msSanitizer支持shmem算子库	支持通过msSanitizer扫描shmem算子
4	算子调优以及异常检测支持triton算子	支持通过算子工具进行triton性能调优以及异常检测
5	msOpprof支持Scalar性能数据分析	msOpprof支持Scalar数据展示
6	msSanitizer支持对AscendC API执行过程的检测	支持LocalTensor越界场景的算子检测

4.2 msProbe

序号	特性名称	特性描述
1	verl训推一致性比对	msprobe支持verl训推一致性场景下的训练和推理数据比对
2	vllm支持动态启停dump	msprobe支持vllm动态启停dump
3	随机行为检查和固定	msprobe支持工程随机行为检查和随机固定

4.3 msProf

序号	特性名称	特性描述
1	Python GIL 锁检测	新增 GIL Tracer 采集与转换能力，可辅助定位 Python 线程锁竞争导致的性能瓶颈
2	wait/record 事件 HostToDevice 连线	在 HostToDevice 视图中增加 wait/record event 与 memcpyAsync event 的关联连线，便于从 Host 侧调用追踪到 Device 侧执行
3	A5与新芯片场景解析增强	增强A5代际继承硬件级 timeline 的 C 化适配，补齐 BIU/UB/CCU 等数据解析，并新增 chip 2/3/4 的 ACLGraph 场景解析支持
4	PMU 解析能力增强	解除 PMU 解析限制，支持更多 PMU 指标与自定义 PMU 场景解析

4.4 msprof-analyze

序号	特性名称	特性描述
1	融合算子前后性能对比	新增对 GE 自动融合及 inductor+triton 自动生成融合算子的前后性能对比能力，可直接识别融合后耗时占比与性能收益，帮助评估自动融合策略效果
2	Host 与集群瓶颈自动分析	新增 free_analysis、communication_bottleneck、慢节点启动等分析能力，可识别 Device 大块空闲、Host Bound/Device Bound 原因、通信慢卡及慢节点启动异常，帮助快速定界集群性能瓶颈
3	NPU/GPU 模型拆解比对	新增 calibrate_npu_gpu 能力，支持对 NPU 与 GPU profiling 数据进行自动拆解、Module 层级对齐和耗时差异分析，用于跨平台性能校准与瓶颈定位
4	Recipe 文本交付件导出	新增 Recipe 分析能力的 text 类型导出，支持将细粒度分析结果直接导出为 CSV/JSON/Excel 等文本交付件，降低对数据库工具的依赖，便于结果共享与快速查看
5	计算与通信掩盖分析增强	新增计算通信算子覆盖线性度分析能力，帮助识别计算算子对通信算子的掩盖程度，辅助定位训练链路中的真实瓶颈

4.5 msMemScope

序号	特性名称	特性描述
1	支持OOM场景保留必要信息	在检测到 OOM 返回值时，自动捕获并落盘当前显存使用快照，同时记录本次申请的完整函数调用栈
2	新增vllm框架下一键开启msmemscope显存拆解/显存快照功能	vllm框架下，可以使用本工具进行一键显存拆解，分析模块、阶段的显存占用情况

4.6 msInsight

序号	特性名称	特性描述
1	MindStudio Insight支持ftrace数据联合分析	提供一个简单易用的trace-cmd采集控制工具，能够指定CPU控制和采集时长，并将采集到的ftrace数据转换为MindStudio Insight可直接解析的格式，以便于查看Timeline并自动分析CPU调度、中断及进程/线程打断等统计信息
2	支持展示CPU与运行进程间关系	实现在粗粒度绑核脚本中增加查询CPU和运行进程的可视化能力，辅助验证绑核是否生效
3	支持展示CPU/NPU/NUMA拓扑关系	增加可视化能力，实现CPU/NPU/NUMA拓扑关系
4	支持展示容器与宿主机之间的 pid 映射关系	支持容器内使用绑核分析场景
5	MindStudio Insight支持PyTorch框架snapshot分析	mmsInsight能够导入和分析PyTorch Profiler生成的snapshot文件，提供类似于memory_viz的内存使用细节查看功能，并且能够处理更大（数十GB级）的snapshot文件，支持强化学习场景下的内存问题定位
6	支持Triton片上内存使用过程可视化	MSInsight支持展示Triton算子开发过程中UB移除问题的内存情况
7	支持Host-Device间内存拷贝专项分析	内存拷贝按流按类型统计、内存拷贝该流按类型查询详细算子信息、算子点击跳转timeline位置
8	支持ACLGraph的JSONPrint输出展示	保证相关的Record事件和Wait事件能同时结束，且Wait事件的起始时间应该小于Record时间的起始时间，展现从 Record 事件发向 Wait 事件的唤醒信息
9	支持aclgraph场景下Steam合并	实现自动合并 Stream 泳道的功能，从而减少前端需要显示的泳道数量
10	集成Python代替PyInstaller	Python解释器+集群分析工具使用的三方库+集群分析Python脚本

4.7 msPTI

序号	特性名称	特性描述
1	Runtime API 采集适配	新增对 CANN Runtime API 的采集适配，便于分析 Runtime 层接口耗时与调用链路
2	降低 LD_PRELOAD 依赖	改进 device 数据源获取方式，减少 callback 和采集场景对 LD_PRELOAD 环境变量的依赖，提升接入易用性
3	stepTraceV6 解析适配	新增 stepTraceV6 数据解析适配，补齐新格式 step trace 场景下的采集与分析支持

4.8 msMonitor

序号	特性名称	特性描述
1	npu-monitor 按算子名称筛选	支持通过 --filter 按 Kernel、Marker 等数据类型和关键字筛选采集结果，减少无关数据干扰，便于用户聚焦关键算子或打点信息
2	npu-monitor 按时长自动采集	新增 --duration 参数，可按指定时长自动结束采集并完成消费、落盘与资源释放，适合定时观测和自动化任
3	nputrace 异步解析	新增 --async-mode 参数，在完成采集后由独立流程异步执行解析，降低在线解析对训练或推理主流程的阻塞
4	轻量化 Monitor API 采集接口	新增 Monitor Python 接口，支持 start、stop、get_result、save 等调用方式，可采集 API、RuntimeAPI、AclAPI、NodeAPI、Kernel、Communication、Marker 等数据并导出 Excel，便于在脚本中集成轻量性能观测能力

4.9 msModelSlim

序号	特性名称	特性描述
1	AWQ算法支持与离群值抑制能力增强	支持 AWQ 及相关离群值抑制场景，帮助用户在精度与效率之间取得更优平衡
2	Rotation Tune/AdaptRotation支持	支持 Rotation Tune/AdaptRotation 量化能力，提升高难模型量化稳定性
3	GPTQ算法能力完善	提供 GPTQ 算法支持及相关资料/参数完善，便于用户按目标场景选择权重量化策略
4	量化精度自动调优能力	支持基于 vLLM-Ascend 与 AisBench 的量化精度自动调优，减少手工试参成本
5	一键量化推荐场景优化	优化一键量化推荐场景，提升开箱体验与配置命中率
6	敏感层分析能力增强	敏感层分析支持 Attention 结构，并补齐 mse_layer_wise 指标实现与说明
7	多模态模型量化扩展	支持多模态理解模型量化接入，并覆盖 Qwen2.5-Omni、Qwen3-Omni、Qwen3-VL 等模型
8	GLM/Qwen/DeepSeek系列适配扩展	持续补齐 GLM-4.7、GLM-5、Qwen3-Coder、Qwen3.5、DeepSeek-V3.2 等模型量化支持
9	FP4权重打包能力	增加 pack fp4 to uint8 能力，帮助用户在模型交付与部署前进行更高效的权重封装

4.10 msServiceProfiler

序号	特性名称	特性描述
1	vLLM 推理服务 Prometheus 监测集成	支持对接 Prometheus 监测系统，实现 vLLM 推理服务运行原生的 metrics 数据采集与扩展推理关键指标监测
2	自定义执行时间作为 metric 指标	支持将关键执行时间作为 metric 指标自动配置与汇总，帮助用户在关键路径上进行监测观测与汇总
3	metric 数据动态暂停与标签自动分配	支持 metric 数据动态暂停、标签自动分配、同一服务多次采集等灵活配置，便于批量比对和参数调优
4	vLLM DPLB 指标数据采集	支持 vLLM 推理服务 DPLB（请求分发）指标数据采集与展示
5	OpenTelemetry 动态对接 Trace 统一追踪	支持对接 OpenTelemetry 动态追踪，实现推理服务进程全链路 Trace 统一追踪能力，支持对单 EP 进程 Trace 信息汇总
6	自动生成 TraceID	支持自动生成 TraceID，便于跨进程推理服务的 Trace 关联分析
7	Torch Profiler 数据采集与解析	支持 Torch Profiler 数据采集与解析，增强对框架执行热点、调用栈等细节的分析能力，帮助用户定位推理服务中的性能瓶颈
8	vLLM 推理服务自动插桩采集	支持对 vLLM 推理服务进行自动插桩采集，实现关键性能数据的无侵入式采集与解析
9	SGLang 推理服务采集支持	增强对 SGLang 推理框架的采集与解析支持，实现推理关键指标采集、TorchProfiler 采集与解析
10	MindIE TorchProfiler 支持	支持对 MindIE 推理框架的 TorchProfiler 指标采集与解析
11	Profiling 数据对比	支持 Profiling 数据对比功能，实现关键指标对比、版本对比、趋势对比等对比分析，帮助用户高效进行版本差异验证
12	config.toml 支持 JSON 格式	自动调优配置文件 config.toml 支持使用 JSON 格式配置，支持 JSON 格式内嵌调优脚本配置
13	结果输出参数约束调优	支持将结果输出参数如对比长度等进行压缩约束，限定调优范围
14	NPU OOM 异常等待处理	支持调优流程中遇到 NPU out of memory 异常后等待 30 秒继续处理，增强调优流程的容错性
15	推理服务异常状态数据保留	支持检测到推理服务进入异常状态后数据保留，增强自动调优流程的可靠性

4.11 msTX

序号	特性名称	特性描述
1	所有仓统一新的优化下载机制	优化mstx下载机制

5. 变更特性

5.1 msProbe

序号	变更内容	变更影响
1	优化趋势可视化图表 tooltip 样式和数据展示	改善 tb_graph_ascend 趋势可视化的数据阅读体验
2	dump修改risk_level的默认等级为focus	减少默认dump的API数量，方便数据分析

5.2 msProf

序号	变更内容	变更影响
1	run 包安装与卸载流程调整	run 包适配安装到 CANN 整包目录，新增 --uninstall 卸载参数，并要求 --install-path 直接指向实际 cann 目录，方便与整包安装流程对齐
2	run 包命名统一	不兼容变更：run 包文件名由 Ascend-mindstudio-msprof_version_linux-archxx.run 调整为 ascend-mindstudio-msprof_version_archxx.run，依赖旧文件名的自动化脚本需要同步适配
3	性能结果展示字段与表头调整	task_time 支持展示 kernel_name，UB summary 删减冗余字段并调整表头，block Dim 重命名为 block Num。依赖旧字段名或旧表头的解析脚本需要同步更新

5.3 msprof-analyze

序号	变更内容	变更影响
1	export_type 参数语义统一为 text	cluster/recipe 相关能力将 CSV、JSON、Excel 等文本交付件统一归类为 text；module_statistic 的导出类型也由 excel 调整为 text。依赖旧参数取值或旧导出类型名称的脚本需要同步适配
2	分析结果字段与单位兼容性调整	communication_bottleneck 输出时间统一换算为微秒；Advisor 适配上游 blockDim 表头变更为 block Num。依赖旧时间单位或旧表头名的解析脚本需要同步更新

5.4 msPTI

序号	变更内容	变更影响
1	run 包安装与卸载流程调整	run 包新增 --uninstall 参数，安装脚本适配 CANN 整包构建场景，并补充卸载时删除安装脚本与 whl 包的处理逻辑
2	run 包命名规范调整	不兼容变更：run 包名称最终统一为 mindstudio-profiler-tools-interface_version_archxx.run，依赖旧文件名的自动化脚本需要同步修改
3	安装兼容性增强	非 root 用户安装场景增加目录权限处理逻辑，降低在 CANN 包目录下安装失败的概率

5.5 msMonitor

序号	变更内容	变更影响
1	Python 分发包命名调整	公开 release 中 Python 安装包名称由 msmonitor_plugin-{version}-xxx.whl 调整为 mindstudio_monitor-{version}-xxx.whl。依赖旧包名的自动化安装脚本需要同步适配
2	新增脚本内轻量采集使用方式	除 dyno 命令行方式外，用户现在可以直接通过 from msmonitor import Monitor, ActivityKind 在 Python 脚本中启停采集、获取结果并导出文件，适用场景从命令行排查扩展到自动化测试、持续性能回归和工具集成

5.6 msModelSlim

序号	变更内容	变更影响
1	移除重复且未经验证的 Qwen3 W8A8 配置（含 pd_mix 相关项）	配置来源更单一，降低误用风险；若用户使用旧配置文件，需同步替换为最新推荐配置
2	文档链接与托管路径规范化（相对路径、错误链接修复）	用户查阅资料时的跳转成功率与定位效率提升
3	敏感层分析相关指标与文档说明完善	用户在敏感层分析结果解读和参数选择时更清晰，减少试错成本
4	V1 权重描述文件中 model_quant_type 优先级调整（W8A8_DYNAMIC 高于 W8A8）	输出描述信息与真实策略更一致，便于用户准确识别量化方式

5.7 msServiceProfiler

序号	变更内容	变更影响
1	监测模块 metric 采集支持关键指标采集与展示	文档使用方式同之前版本，用户无需更新指示即可直接使用
2	推理服务使用方式变更	README与安装说明文档使用方式进行了部分修订，首次使用请参考最新版本
3	MindIE 新版本配套适配	对最新 MindIE 版本配套判断逻辑进行调整，适配新版特性
4	日志显示优化	Trace 相关日志显示模块、版本标识等进行了优化，减少冗余日志信息，提升问题定位效率

6. 修复漏洞

序号	问题描述	影响范围
1	修复某些场景下，finish命令导致工具挂掉问题	msdebug工具异常退出
2	检测main scalar的非对齐时，LD_LO指令发生漏报	mssanitizer功能问题
3	matmulleakyrelu_kernellaunch算子寄存器设置归零后，用工具拉起后核名称打印错误	mssanitizer功能问题
4	A3上triton算子使用--kernel-name参数后算子运行失败	mssanitizer功能问题
5	A3上指定卡后，用工具拉起triton算子异常	mssanitizer功能问题
6	aclnnWeightQuantMatmulAllReduceAddRmsNorm算子发生非法释放误报	mssanitizer功能问题
7	某款芯片不存在MemoryDetail功能，--help不应展示MemoryDetail参数	msopprof功能问题
8	某款芯片上执行仿真采集数据落盘的dump数据存在部分权限644问题	msopprof功能问题
9	精度dump数据包含aclnn数据，om和onnx比对功能报错	om离线模型比对功能
10	monitor监控权重梯度报错	msprobe monitor权重梯度监控功能
11	msprobe config_check 帮助信息中 -o 默认路径描述不准确	config_check 命令帮助信息
12	acc_check 和 multi_acc_check 二级参数帮助信息展示不完整	精度检查命令行帮助
13	修复 UT Mock 范围错误及断言逻辑问题，降低开发自测阶段的误报与误判	单元测试与开发自测场景
14	修复 <<<>>> 场景上报 shape 信息变化后 FFTS+ 数据关联失败的问题，恢复相关场景的正确关联	FFTS+ 解析场景
15	修复大数据量场景下 op_summary 因 task id 回绕导致的算子匹配错误问题	大数据量 op_summary 解析场景
16	修复 A5 场景下 timeline C 化导出缺少 block_detail、lower_power 以及打点数据被误过滤等问题	A5 数据采集与导出场景
17	修复 CANN 整包安装过程中 msprof 卸载脚本可能存在残留的问题	CANN 整包安装/卸载场景
18	修复 mstx_sum 与 cluster_time_summary 在缺少 STEP_TIME 数据时直接报错的问题，恢复无 step_time 场景下的分析与导出能力	集群细粒度拆解、MSTX 汇总分析场景
19	修复 calibrate_npu_gpu 导出阶段的异常与无拆解结果场景防护不足问题，提升跨平台拆解比对的稳定性	NPU/GPU 性能数据拆解比对场景
20	修复 compare 数据拆解结果中 DB 内存单位错误，以及新格式 Enqueue@xxx / Dequeue@xxx 名称适配问题，保证拆解结果口径正确	compare 数据拆解与 DB 结果读取场景
21	修复更换编译环境后编译报错的问题，恢复不同编译环境下的构建稳定性	源码编译与流水线构建场景
22	修复 socLog 最后一条数据丢失问题，降低日志分析结果缺失风险	日志采集与分析场景
23	修复 hostFreq disable 场景异常问题，提升对应监控场景稳定性	Host 频率相关采集场景
24	修复 sysCnt 整型溢出问题，避免计数异常影响结果准确性	计数统计与采集结果场景
25	修复 mstx 时间戳异常问题，提升打点时间线分析准确性	MSTX 打点与时间线分析场景
26	修复 device_mtx 死锁问题，提升并发采集和接口调用稳定性	设备侧并发采集场景
27	修复 Monitor 采集 marker 时因 msptiSubscribe 与 msptiActivityEnable 时序竞争导致的偶发 device 数据缺失问题，提升采集完整性	Monitor marker 采集场景
28	修复 monitor.save() 在输出目录不存在时保存失败的问题，确保用户可直接落盘到新建路径	Monitor API 结果保存场景
29	修复 npu-monitor 在首个 report-interval-s 到达前执行 stop 时可能出现的 GIL 死锁问题，避免提前停止导致进程卡死	npu-monitor 提前停止场景
30	修复 npu-monitor 入参为相对路径软链接时校验失败的问题，提升命令行使用兼容性	npu-monitor 命令行启动场景
31	修复 Qwen3 最佳实践 YAML 中重复 W8A8 配置且包含未经验证 pd_mix 项的问题	使用 Qwen3 最佳实践模板的量化用户
32	修复 Qwen3.5-27B 量化报错相关问题，并配套资料改进	使用 Qwen3.5-27B 量化流程的用户
33	修复 GLM-5 权重量化保存后处理报错问题（含不开启 QuaRot 场景）	使用 GLM-5 量化与导出流程的用户
34	修复安装后自动判断是否已安装 msserviceprofiler 的问题，避免用户手动卸载	安装与卸载流程
35	修复使用 torch.profiler 接口采集 NPU 设备数据时的冲突问题	Torch Profiler 数据采集
36	修复 vLLM 推理性能采集结果中数据格式不统一的问题	vLLM 数据解析
37	修复 vLLM 推理服务 prefill_gen_speed、decode_gen_speed 计算异常的问题	vLLM 性能指标计算
38	修复监测日志打印修改问题	日志记录
39	修复 vLLM 推理性能采集器提示 No default config file found to populate PROFILING_SYMBOLS_PATH 的问题	vLLM 配置加载
40	修复 sglang 采集文件默认配置下采集数据缺失 torch 调用栈信息的问题	SGLang 数据采集
41	修复 ms_serviceparam_optimizer 自动调优时 vLLM 推理服务默认访问地址为 127.0.0.1、未支持 IPv6 格式访问的问题	自动调优网络访问
42	修复 vLLM 推理性能采集器解析文件缺失问题	vLLM 数据解析
43	修复 vLLM 推理性能采集器解析 request.csv 文件中数据格式异常、部分字段为空的问题	vLLM 数据解析
44	修复 MindIE 推理使用 ais_bench 压测工具后解析结果 request.csv 中 reply_token_size 等字段值为空的问题	MindIE 数据解析

7. 已知问题

序号	问题描述	影响	规避措施	计划修复版本
1	开启Python Trace采集时，概现部分数据行格式紊乱	部分Python函数执行轨迹丢失	暂无	26.1.0
2	内存数据采集量较大时，概现工具进程崩溃，报段错误异常	概现msMemscope工具不可用	暂无	26.1.0

8. 其他

更多版本说明相关内容请根据下表获取。

工具名称	获取链接
msKPP	版本说明
msOpGen	版本说明
msDebug	版本说明
msSanitizer	版本说明
msOpProf	版本说明
msKL	版本说明
msTX	版本说明
msProf	版本说明
msProbe	版本说明
msMonitor	版本说明
msPTI	版本说明
msMemScope	版本说明
msServiceProfiler	版本说明
msInsight	版本说明
msprof-analyze	版本说明
msModelSlim	版本说明