msmodelslim/docs · Ascend/MindStudio-ModelSlim

ascend-robot[Feature][model]: Add MiniMax-M3 W8A8 quant

文件	最后提交记录	最后更新时间
assets	[Doc] 新增 msModelSlim 架构说明文档 Co-authored-by: joejoezhou<zhourongchen1@huawei.com> # message auto-generated for no-merge-commit merge: !452 merge docs/architecture into master [Doc] 新增 msModelSlim 架构说明文档 Created-by: joejoezhou Commit-by: joejoezhou Merged-by: ascend-robot Description: # 提交前请阅读 [CONTRIBUTING.md](https://gitcode.com/Ascend/msmodelslim/blob/master/docs/zh/appendix/CONTRIBUTING.md)，开发者文档：[模型接入指南](https://msmodelslim.readthedocs.io/zh-cn/latest/zh/developer_guide/integrating_models/) PR 标题前缀： `[Doc]` --- ## 1. 影响面评估 - 接口变更（按需）：无 - 输出件变更（按需）：无 - 非兼容变更（按需）：无 - SIG 评审结论（按需）： N/A（纯文档变更，无安全风险） --- ## 2. 修改描述 - 修改背景（可选）： msModelSlim 已有功能指南、算法说明、模型接入等文档，但缺少一份面向开发者的整体架构说明。新同学需要自行拼凑各章节才能理解工具的分层设计、核心概念与代码目录的对应关系，上手成本较高。 - 修改目的：在开发者指南中新增架构说明，作为阅读其他文档和接入模型前的总览入口，帮助开发者建立对 msModelSlim 设计理念与模块划分的统一认知。 - 修改内容：本 PR 交付一套完整的架构文档及配套入口，具体包括： - docs/开发者指南：新增 `docs/zh/developer_guide/architecture.md`，系统介绍设计理念、四层架构（接口层 / 应用层 / 领域层 / 基础设施层），以及量化模式、量化算法、模型适配、量化格式等核心概念 - docs/配图：新增 `docs/assets/architecture.png`，提供整体架构示意图 - docs/站点导航：在 `mkdocs.yml`「五、开发者指南」首位挂载「架构说明」，Read the Docs 侧栏可直接访问 - docs/仓库入口：在 `README.md`「自主量化」小节增加架构说明链接，引导开发者先了解整体设计再阅读接入指南 - [ ] 涉及代码双合（关联 PR 链接）：无 --- ## 3. 功能验证 > 冒烟由 CI 门禁检查，无需在此填写「冒烟是否通过」。 - [x] 功能自验（文档内容、相对路径、mkdocs 导航、README 链接均已核对） - [ ] 本地自验用例截图（纯文档 PR，无需截图） CI： docs-ci 已通过。 --- ## 4. 自检（请逐项确认，不适用标 N/A）典型安全编码问题 - [x] 是否已校验外部数据 — N/A（无代码逻辑） - [x] 是否未采集或打印敏感信息 — N/A - [x] 是否已正确设置文件权限 — N/A - [x] 是否充分考虑浮点运算溢出、除零等异常场景 — N/A - [x] 是否已对正则表达式做 ReDos 检查 — N/A DT - [x] 是否具备 UT 测试用例看护 — 未添加；纯文档变更，不涉及代码行为，无需 UT - [x] 是否需要添加冒烟：否；由 docs-ci 门禁覆盖 See merge request: Ascend/msmodelslim!452	1 个月前
en	[Bugfix] modify 950 tag and delete mxfp in support table Co-authored-by: caishengcheng<caishengcheng@huawei.com> # message auto-generated for no-merge-commit merge: !774 merge docs into master [Bugfix] modify 950 tag and delete mxfp in support table Created-by: caishengcheng Commit-by: caishengcheng Merged-by: ascend-robot Description: # PR 提交说明提交前请阅读 [CONTRIBUTING.md](https://gitcode.com/Ascend/msmodelslim/blob/master/docs/zh/contributing/contributing_guide.md)，开发者文档：[模型接入指南](../docs/zh/development_guide/integrating_models.md) PR 标题前缀：[Feature]、[Bugfix]、[Doc]、[Test]（与 CONTRIBUTING 一致）建议标题： `[Bugfix][26.1.0] modify 950 tag and delete mxfp in support table` ## 1. 影响面评估接口变更（按需）：无输出件变更（按需）：无非兼容变更（按需）： `--tag` 硬件场景标签由 `Atlas_A5_Interface` 统一更名为 `Ascend_950`；使用旧标签将无法匹配对应 lab_practice 配置，需改用 `Ascend_950`。原`Atlas_350` tag下新增 `Ascend_950`。 SIG 评审结论（按需）：无 ## 2. 修改描述修改背景（可选）：昇腾 950 相关场景标签命名不统一（`Atlas_350`、`Atlas_A5_Interface`），且 example 支持矩阵表中对外展示了 mxfp 字样，需与产品命名及对外表述对齐。修改目的：统一硬件场景标签为 `Ascend_950`，并清理支持矩阵表中的 mxfp 展示文案。修改内容： - lab_practice：相关 YAML 的 `verified_tags` 中 `Atlas_350` / `Atlas_A5_Interface` 统一改为 `Ascend_950` - example：GLM-5、MiniMax-M2、LongCat-Flash、Qwen3-VL-MoE、QwenImageEdit 等 README 支持矩阵去掉 mxfp 字样，示例命令 `--tag` 同步为 `Ascend_950` - docs：中英文一键量化 usage 文档的 tag 硬件形态说明补充 `Ascend_950` - cli / app / core：命令行帮助与注释中的硬件 tag 示例更新为 `Ascend_950`（匹配逻辑仍为大小写不敏感字符串匹配，无接口行为变更） ## 3. 功能验证冒烟由 CI 门禁检查，无需填写「冒烟是否通过」。 - [x] 功能自验 - [x] 本地自验用例截图（请勿包含个人信息；可附复现命令）复现步骤（可选）： `bash # 使用新硬件标签匹配最佳实践配置（示例） msmodelslim quant \ --model_path ${MODEL_PATH} \ --save_path ${SAVE_PATH} \ --device npu \ --model_type GLM-5.1 \ --quant_type w4a4c8 \ --tag vLLM_Ascend Ascend_950 \ --trust_remote_code True` ## 4. 自检（请逐项确认，不适用标 N/A）典型安全编码问题 - [x] 是否已校验外部数据（N/A：无新增外部输入处理） - [x] 是否未采集或打印敏感信息 - [x] 是否已正确设置文件权限（N/A） - [x] 是否充分考虑浮点运算溢出、除零等异常场景（N/A） - [x] 是否已对正则表达式做 ReDos 检查（N/A） DT - [x] 是否具备 UT 测试用例看护（N/A：本次仅为标签命名与文档表述调整；26.1.0 分支无 gemma4 相关用例文件） - [x] 是否需要添加冒烟：否 See merge request: Ascend/msmodelslim!774	7 天前
stylesheets	【docs】资料架构重构，并将资料托管至readthedocs。 Co-authored-by: keith_wa<keith_wwa@163.com> # message auto-generated for no-merge-commit merge: !109 merge pr_docs_re_copy into master 【docs】资料架构重构，并将资料托管至readthedocs。 Created-by: keith_wa Commit-by: keith_wa Merged-by: ascend-robot Description: 1. 动机 (Motivation) 内容上：优化导航结构：原目录结构逻辑不清晰、目录层级深且链接复杂。提升阅读体验：原 traditional_quantization_v0 目录下存在 20+ 个零散文档，内容分布碎片化，用户难以快速建立完整的技术全景认知。消除内容冗余：多个文档之间存在重复的依赖说明、操作流程及参数介绍，增加了维护成本及版本不一致的风险。呈现上：提供专业资料托管：原docs/目录结构不清晰、目录名/文档名不直观（英文），跳转繁琐且无搜索功能。 2. 修改点 (Changes) 2.1 重新梳理目录结构 ![image.png](https://raw.gitcode.com/user-images/assets/8444818/8bba19f9-e84e-4f71-bd5e-ffd310dde142/image.png 'image.png') 2.2. 文档整合与重构 V0及传统量化核心文档合并：将 20 多个零散文档按功能维度深度整合为 10篇核心指南： # V0框架文档导航（已停止演进）本目录文档按模型类型与任务场景重排，便于按需求快速定位。 ## 一、传统模型量化与校准 - [传统模型量化与校准](traditional_model_quantization_and_calibration.md) - 包含 PyTorch/ONNX/MindSpore 训练后量化与 QAT。 ## 二、大模型量化与压缩 - [大模型量化与校准](foundation_model_quantization_and_calibration.md) - 包含低显存量化、混合校准数据集、FA3 量化。 - [压缩与结构优化（大模型为主）](foundation_model_compression.md) - 包含稀疏量化与权重压缩、长序列压缩、权重压缩流程、低秩分解。 ## 三、训练加速与模型改造 - [训练加速与模型改造](pruning_and_distillation.md) - 包含重要性剪枝、Transformer 剪枝、Sparse tool、模型蒸馏。 - [稀疏加速训练](sparse_acceleration_training.md) - 包含宽度扩增与深度扩增模型的稀疏训练加速流程。 ## 四、工具与生态适配 - [辅助工具与专项指导](compression_utils.md) - 包含量化权重格式说明与 MindSpeed 适配器。 - [伪量化精度测试工具](fake_quantization_accuracy_testing_tool.md) - 包含 Precision Tool 使用方式与测试流程。 - [多模态生成模型推理优化](inference_optimization_for_multimodal_generative_model.md) - 包含 DiT 缓存优化与自适应采样优化流程。 - [常见代码示例](quantization_and_sparse_quantization_scenario_import_code_examples.md) - 包含常见量化/稀疏量化场景导入代码样例。 2.3 配置readthedocs文档托管： https://modelslim.readthedocs.io/zh-cn/latest/ 2.4 配置deepwiki： https://deepwiki.com/Keithwwa/ModelSlim 3. 验证： 3.1. gimini代码检视： https://github.com/Keithwwa/ModelSlim/pull/1 See merge request: Ascend/msmodelslim!109	5 个月前
zh	[Feature][model]: Add MiniMax-M3 W8A8 quant Co-authored-by: tanxiangyuu<tanxiangyu2@huawei.com> # message auto-generated for no-merge-commit merge: !720 merge minimax_m3_master into master [Feature][model]: Add MiniMax-M3 W8A8 quant Created-by: tanxiangyuu Commit-by: tanxiangyuu Merged-by: ascend-robot Description: # PR 提交说明提交前请阅读 [CONTRIBUTING.md](https://gitcode.com/Ascend/msmodelslim/blob/master/docs/zh/contributing/contributing_guide.md)，开发者文档：[模型接入指南](https://msmodelslim.readthedocs.io/zh-cn/latest/zh/development_guide/integrating_models) PR 标题前缀：[Feature]（与 CONTRIBUTING 一致） ## 1. 影响面评估接口变更（按需）：无输出件变更（按需）：无非兼容变更（按需）：无 SIG 评审结论（按需）：无 ## 2. 修改描述修改背景： MiniMax-M3（VL）是 MiniMax 最新发布的多模态大模型，采用稀疏 MoE + Dense 混合架构，支持 text/image/video 多模态输入。需要在 msmodelslim 中适配以支持 W8A8 量化。修改目的：支持 MiniMax-M3 模型的 W8A8 量化，包括 MoE 专家权重展开、RMSNorm 精度保持、稀疏注意力层检测、导出命名对齐等功能。修改内容： - infra/模型适配：新增 MiniMax-M3 模型适配器，包括： - `msmodelslim/model/minimax_m3/model_adapter.py` — 核心适配器（layer-wise 加载、iter_smooth/QuaRot/导出等接口实现） - `msmodelslim/model/minimax_m3/moe_utils.py` — MoE 工具模块，将 transformers 原生 3D 专家权重展开为 per-expert nn.Linear（gate_proj/up_proj/down_proj） - `msmodelslim/model/minimax_m3/loader.py` — 适配器加载器 - `config/config.ini` — 注册 MiniMax-M3 模型类型映射 - app/最佳实践量化：新增 W8A8 最佳实践配置 `lab_practice/minimax_m3/minimax_m3_w8a8.yaml`，包含 iter_smooth + linear_quant 流程 - infra/子图配置：修复 iter_smooth 子图路径不匹配问题，yield 内部名而非保存名 - infra/稀疏层检测：修复 `_is_sparse_layer` 从自定义字段读取失败的问题，改为直接从原始 config.json 解析 sparse_attention_freq - infra/导出命名对齐：在 `ascendv1_save_module_preprocess` 中实现完整 SAVE 方向命名转换（`model.language_model.` → `language_model.model.`、`mlp` → `block_sparse_moe`、`gate_proj` → `w1/w3/w2`、vision_tower 嵌套展开、multi_modal_projector → patch_merge_mlp 等） - infra/RMSNorm 精度：将 Gemma-style RMSNorm 的 `+1`/`-1` 转换统一在 float32 精度下进行，消除 bf16 精度损失 - infra/e_score_correction_bias：修复 MoE 层 e_score_correction_bias 导出问题，buffer 转 parameter 确保被导出概念域参考（填写提示）： - cli：命令行 quant / analyze / tune - app：最佳实践量化、量化分析、精度反馈自动调优等 - core：算法、量化服务、调度、张量量化、调优策略、最佳实践、上下文等 - infra：模型适配、调优计划/历史/缓存、测评服务等 - utils：日志、错误处理、插件等 ## 3. 功能验证 - [x] 功能自验 - [ ] 本地自验用例截图（请勿包含个人信息；可附复现命令）复现步骤（可选）： `bash # 量化命令 msmodelslim quant \ --model_path ${MODEL_PATH} \ --save_path ${SAVE_PATH} \ --device npu \ --model_type MiniMax-M3 \ --quant_type w8a8 \ --trust_remote_code True # 验证命令 mstool cmp --good-path ${GOOD_PATH} --eval-path ${SAVE_PATH} --backend msit` ## 4. 自检（请逐项确认，不适用标 N/A）典型安全编码问题 - [x] 是否已校验外部数据 - [x] 是否未采集或打印敏感信息 - [x] 是否已正确设置文件权限 - [x] 是否充分考虑浮点运算溢出、除零等异常场景 - [x] 是否已对正则表达式做 ReDos 检查 DT - [ ] 是否具备 UT 测试用例看护（路径：用例路径；未添加请说明原因） - [x] 是否需要添加冒烟：否（若「是」请说明冒烟场景及对应用途） See merge request: Ascend/msmodelslim!720	2 天前
index.md	[docs] improve the docs readability Co-authored-by: zhongzhoutan<1710115119@bjmu.edu.cn> # message auto-generated for no-merge-commit merge: !309 merge docs/docs-improvement into master [docs] improve the docs readability Created-by: tangxuanya Commit-by: zhongzhoutan Merged-by: ascend-robot Description: 感谢您贡献的Pull Request！在提交之前，请务必阅读 [CONTRIBUTING.md](https://gitcode.com/Ascend/msmodelslim/blob/master/CONTRIBUTING.md)。 Thanks for sending a pull request! BEFORE SUBMITTING, PLEASE READ [CONTRIBUTING.md](https://gitcode.com/Ascend/msmodelslim/blob/master/CONTRIBUTING.md). ## 一、Bug 修复（正确性问题） \| 文件 \| 修复内容 \| \|------\|----------\| \| [SessionConfig.md](../docs/zh/python_api_v0/unified_multimodal_generation_apis/SessionConfig.md) \| `act_method` 可选值 `'mixed'` → `'mix'`（已通过源码枚举 `ACT_METHOD` 验证） \| \| [SessionConfig.md](../docs/zh/python_api_v0/unified_multimodal_generation_apis/SessionConfig.md) \| 代码示例中 `output_path="./"` 后缺少逗号，已补全 \| \| [[onnx]run().md](../docs/zh/python_api_v0/quantization_apis/[onnx]post_training_quantization/run().md) \| 补充了被使用但未定义的变量 `input_model_path` \| \| [traditional_model_quantization_and_calibration.md](../docs/zh/feature_guide/traditional_quantization_v0/traditional_model_quantization_and_calibration.md) \| 将 `from ascend_utils.common.security import SafeWriteUmask` 移至实际使用它的代码块（diffusers 示例），而非错误放置在 resnet50 示例中 \| \| [典型模型量化支持特性设计说明书.md](../docs/zh/design/典型模型量化支持特性设计说明书.md) \| 修复两处错误的 CLI 子命令：`msmodelslim quantize` → `msmodelslim quant` \| \| [usage.md（一键量化）](../docs/zh/feature_guide/quick_quantization_v1/usage.md) \| 修复 `tag` 参数说明语法错误："则于用户交互" → "则与用户交互，询问是否"（缺少谓语动词） \| \| [quantization_quick_start.md](../docs/zh/getting_started/quantization_quick_start.md) \| 同上，`tag` 参数说明语法修复 \| --- ## 二、锚点与链接修复 \| 文件 \| 修复内容 \| \|------\|----------\| \| [integrating_multimodal_understanding_model.md](../docs/zh/developer_guide/integrating_multimodal_understanding_model.md) \| 所有带编号的标题锚点（如 `#5-校准数据准备`、`#34-辅助方法...`）已更新为与去编号后的标题一致（如 `#校准数据准备`、`#辅助方法...`） \| \| [sparse_quantization_accuracy_tuning_cases.md](../docs/zh/case_studies/sparse_quantization_accuracy_tuning_cases.md) \| 修复链接目标失效问题 \| \| [w8a8_accuracy_tuning_policy.md](../docs/zh/case_studies/w8a8_accuracy_tuning_policy.md) \| 修复链接目标失效问题 \| --- ## 三、内容优化——`integrating_multimodal_understanding_model.md` - 移除所有标题的 `1.`/`2.`/`3.x` 编号前缀（共 14 处），与文档风格保持一致 - 新增术语内联说明：Merger、DeepStack、PatchMerger、MoE、IterSmooth、QuaRot - 纯文本文件路径改为可点击的 GitCode 链接（`model_adapter.py`、`__init__.py`、`moe_utils.py` 等） - 校准数据章节（原第 5 节）从约 60 行详细说明精简为一句话 + 指向 `usage.md#dataset` 的链接，消除内容重复 - 新增 YAML 配置字段说明表格，对每个 `spec` 配置块进行解释，并附 `linear_quant.md` 和 `usage.md` 的参考链接 - FAQ 节标题去编号，锚点同步更新 - 附录：修复一处微小代码错误；精简重复的 VLM 数据加载器链接 --- ## 四、内容优化——量化算法文档 \| 文件 \| 变更内容 \| \|------\|----------\| \| [fa3_quant.md](../docs/zh/quantization_algorithms/quantization_algorithms/fa3_quant.md) \| 删除"使用说明"节中的重复 YAML 配置块；将使用说明合并至"YAML配置示例"节 \| \| [float_sparse.md](../docs/zh/quantization_algorithms/quantization_algorithms/float_sparse.md) \| 同上，删除重复 YAML 块及空的"模型适配"节 \| \| [gptq.md](../docs/zh/quantization_algorithms/quantization_algorithms/gptq.md) \| 在 YAML 示例前补充"作为Processor使用"引导语 \| \| [histogram_activation_quantization.md](../docs/zh/quantization_algorithms/quantization_algorithms/histogram_activation_quantization.md) \| 删除重复 YAML；代码路径改为 GitCode 链接；字段表格重构为 Histogram 专属约束表；修复 FAQ 中量化器查找说明，改为正确路径引用 \| \| [kvcache_quant.md](../docs/zh/quantization_algorithms/quantization_algorithms/kvcache_quant.md) \| 合并两处重复 YAML 配置块 \| \| [minmax.md](../docs/zh/quantization_algorithms/quantization_algorithms/minmax.md) \| 代码路径改为 GitCode 链接；功能介绍重构为 3 个子节；YAML 示例补全所有参数；字段说明表格扩充 \| \| [pdmix.md](../docs/zh/quantization_algorithms/quantization_algorithms/pdmix.md) \| 统一 `per-token`/`per-tensor` 写法为 ` per_token `/` per_tensor `（代码格式 + 下划线风格），全文一致 \| --- ## 五、内容优化——`quantization_result.md `- 文件目录树及说明表格中新增` optional/quarot.safetensors `条目 - 量化权重文件名从` quant_model_weight_w8a8.safetensors `泛化为` quant_model_weight_{quant_type}.safetensors`，并附说明 - 删除冗余的"注意"提示块（信息已移入表格） - 所有带编号章节标题（`#### 1. `…` #### 17.`）去掉编号 - 新增"QuaRot 导出结果"完整章节，包含目录结构、文件说明表、`quant_model_description.json `JSON 结构示例及使用场景说明 --- ## 六、example/ 目录 README 修复 \| 文件 \| 变更内容 \| \|------\|----------\| \| [Llama/README.md](../example/Llama/README.md) \|` model_type `参数说明扩展，明确` llama3.1_fp`（基础模型）和` llama3.1_instruct`（Instruct 模型）；为全部 5 条 LLaMA3.1 基础模型命令补加` --model_type llama3.1_fp `参数 \| \| [Qwen3-Next/README.md](../example/Qwen3-Next/README.md) \| transformers 版本要求说明改写；标题去编号；占位符格式改为` ${MODEL_PATH} 风格 \| \| [GLM/README.md](../example/GLM/README.md) \| "L自动回退等级" → "自动回退等级"（多余字符修复） \| \| [HunYuan/README.md](../example/HunYuan/README.md) \| "HunYuan" → "Hunyuan"（官方大小写拼写） \| \| [GLM-4.1V/README.md](../example/multimodal_vlm/GLM-4.1V/README.md) \| 首次出现"RLCS"时补充全称"基于课程采样的强化学习" \| \| [example/README.md](../example/README.md) \| 删除空的"快速开始"节 \| --- ## 七、其他文档零散修复 \| 文件 \| 变更内容 \| \|------\|----------\| \| [dir_structure.md](../docs/zh/dir_structure.md) \| "Smooth Quant" → "SmoothQuant"（官方名称） \| \| [auto_precision_tuning/usage.md](../docs/zh/feature_guide/auto_precision_tuning/usage.md) \| device `参数说明：删除指向失效链接的描述，改为"数据并行（Data Parallel，DP）逐层量化"的简明说明 \| \| [analyze_api_usage.md](../docs/zh/feature_guide/sensitive_layer_analysis/analyze_api_usage.md) \| 删除对` trust_remote_code=False `含义的错误/混淆说明 \| \| [mindspeed_adapter.md](../docs/zh/feature_guide/traditional_quantization_v0/mindspeed_adapter.md) \| 删除` dev_type='npu'` 参数上具有误导性的内联注释 \| \| [foundation_model_support_matrix.md](../docs/zh/model_support/foundation_model_support_matrix.md) \| 精简脚注 4（删除 vLLM 绕行方案描述） \| \| [典型模型量化支持特性设计说明书.md](../docs/zh/design/典型模型量化支持特性设计说明书.md) \| 新增 16 条缩写词表；修复 Use Case 名称拼写错误 \| \| [自动调优加速特性设计说明书.md](../docs/zh/design/自动调优加速特性设计说明书.md) \| 修复 Use Case 名称拼写错误 \| \| [release_notes.md](../docs/zh/appendix/release_notes.md) \| 将空的"无"替换为适当内容 \| \| [README.md](../README.md) \| 开发者指南部分新增多模态模型接入链接 \| --- ## 总体评价本次提交仅涉及文档修改，改动范围清晰、目的明确。重点亮点： - 修复 7 处正确性 Bug：错误 CLI 命令、错误枚举值、缺失变量、错位导入、失效锚点、语法错误 - 消除 5+ 个文件中的内容重复：量化算法文档及多模态接入指南均有大量冗余内容被精简 - 统一去除标题编号：4+ 个文件中的章节编号被一致移除，符合项目文档风格规范 - 无功能性变更引入：所有锚点目标变更均与去编号后的新标题保持对应，未引入回归问题 See merge request: Ascend/msmodelslim!309	3 个月前
requirements.txt	【docs】资料架构重构，并将资料托管至readthedocs。 Co-authored-by: keith_wa<keith_wwa@163.com> # message auto-generated for no-merge-commit merge: !109 merge pr_docs_re_copy into master 【docs】资料架构重构，并将资料托管至readthedocs。 Created-by: keith_wa Commit-by: keith_wa Merged-by: ascend-robot Description: 1. 动机 (Motivation) 内容上：优化导航结构：原目录结构逻辑不清晰、目录层级深且链接复杂。提升阅读体验：原 traditional_quantization_v0 目录下存在 20+ 个零散文档，内容分布碎片化，用户难以快速建立完整的技术全景认知。消除内容冗余：多个文档之间存在重复的依赖说明、操作流程及参数介绍，增加了维护成本及版本不一致的风险。呈现上：提供专业资料托管：原docs/目录结构不清晰、目录名/文档名不直观（英文），跳转繁琐且无搜索功能。 2. 修改点 (Changes) 2.1 重新梳理目录结构 ![image.png](https://raw.gitcode.com/user-images/assets/8444818/8bba19f9-e84e-4f71-bd5e-ffd310dde142/image.png 'image.png') 2.2. 文档整合与重构 V0及传统量化核心文档合并：将 20 多个零散文档按功能维度深度整合为 10篇核心指南： # V0框架文档导航（已停止演进）本目录文档按模型类型与任务场景重排，便于按需求快速定位。 ## 一、传统模型量化与校准 - [传统模型量化与校准](traditional_model_quantization_and_calibration.md) - 包含 PyTorch/ONNX/MindSpore 训练后量化与 QAT。 ## 二、大模型量化与压缩 - [大模型量化与校准](foundation_model_quantization_and_calibration.md) - 包含低显存量化、混合校准数据集、FA3 量化。 - [压缩与结构优化（大模型为主）](foundation_model_compression.md) - 包含稀疏量化与权重压缩、长序列压缩、权重压缩流程、低秩分解。 ## 三、训练加速与模型改造 - [训练加速与模型改造](pruning_and_distillation.md) - 包含重要性剪枝、Transformer 剪枝、Sparse tool、模型蒸馏。 - [稀疏加速训练](sparse_acceleration_training.md) - 包含宽度扩增与深度扩增模型的稀疏训练加速流程。 ## 四、工具与生态适配 - [辅助工具与专项指导](compression_utils.md) - 包含量化权重格式说明与 MindSpeed 适配器。 - [伪量化精度测试工具](fake_quantization_accuracy_testing_tool.md) - 包含 Precision Tool 使用方式与测试流程。 - [多模态生成模型推理优化](inference_optimization_for_multimodal_generative_model.md) - 包含 DiT 缓存优化与自适应采样优化流程。 - [常见代码示例](quantization_and_sparse_quantization_scenario_import_code_examples.md) - 包含常见量化/稀疏量化场景导入代码样例。 2.3 配置readthedocs文档托管： https://modelslim.readthedocs.io/zh-cn/latest/ 2.4 配置deepwiki： https://deepwiki.com/Keithwwa/ModelSlim 3. 验证： 3.1. gimini代码检视： https://github.com/Keithwwa/ModelSlim/pull/1 See merge request: Ascend/msmodelslim!109	5 个月前