cann-robotfeat: 新增 --experimental 构建选项以打包实验特性代码

文件	最后提交记录	最后更新时间
src	[feat]: add amct llm Co-authored-by: w00852777<wanghui432@huawei.com> Co-authored-by: fujun19<fujun19@hisilicon.com> Co-authored-by: SwaggyAlex<zhangyi601@huawei.com> Co-authored-by: li_ting<liting73@hisilicon.com> # message auto-generated for no-merge-commit merge: !102 merge master into master [feat]: add amct llm Created-by: fujun19 Commit-by: SwaggyAlex;fujun19;wuranxx;li_ting;l00968832;lianghengyi;sophia1213;Hengyi Liang;w00852777 Merged-by: cann-robot Description: ## 描述 <!--在这里详细描述你的改动，包括改动的原因和所采取的方法。--> 本 PR 新增LLM量化工具模块，用于面向大语言模型的后训练量化、精度评估和部署产物导出，主要包括： 1. 新增并整理 LLM 量化工作流能力 - 新增 `amct_pytorch/workflows` 与 `amct_pytorch/cli/llm`，覆盖 PTQ、PTQ 数据提取、部署导出、评估等流程。 - 新增通用配置解析、数据处理、模型适配、量化应用、优化器等公共模块。 - 补充 Qwen、LongCat、DeepSeek、GLM 等 LLM 模型适配与量化模块。 2. 调整 AMCT PyTorch 包结构 - 引入 `algorithms`、`common`、`quantization`、`workflows` 等更清晰的模块划分。 - 将 classic 图量化相关实现收敛到 `amct_pytorch/classic/graph_based`，保持历史能力可用。 - 修正安装包数据路径，确保 classic graph-based 相关 proto、so、配置等资源能正确打包。 3. 完善构建与测试能力 - `build.sh -u` 默认开启覆盖率采集。 - 新增 `pyproject.toml`，统一 pytest 与 coverage 配置。 - 调整 CMake UT 入口，使用 pytest 执行 `tests/unit_test` 与 `tests/amct_pytorch`。 - 大幅补充算法、配置、LLM 模型适配、量化模块、workflow 等单元测试。 4. 更新依赖、文档和样例 - 补充 LLM 相关运行依赖，如 `datasets`、`accelerate`、`compressed_tensors`、`torchao`、`einops` 等。 - 更新 README、算法说明、LLM 文档、快速安装和 PTQ 配置说明。 - 新增/整理一站式平台样例，包括 Qwen3.6-MoE、DeepSeek-V4 Flash，以及 PTQ、部署、评估、数据提取脚本。 - 将算法样例统一整理到 `examples/algorithms` 目录，提升样例可发现性和可维护性。 ## 如何测试 <!--描述测试此改动的步骤和前提条件。--> 已进行以下验证： 1. UT 与覆盖率验证 `bash build.sh -u` 结果： 1911 passed, 2 skipped, 1 xfailed, 371 warnings Coverage XML written to build/coverage.xml ## 文档更新 <!--如果这个PR包含文档的更新，请在这里指出。例如：更新了README.md文件。--> - 更新根目录 `README.md`，补充 AMCT PyTorch 当前包结构、核心能力、一站式平台快速体验入口，并修正 `amct_ops` 文档链接。 - 更新 `docs/AMCT_Pytorch_LLM.md`，补充 LLM 量化流程说明，包括 PTQ 数据提取、PTQ 执行、部署导出和评估流程。 - 更新 `docs/algorithm_brief.md`，同步当前支持的量化算法说明。 - 更新 `docs/context/ptq_config_param.md`，修正配置示例引用路径，避免文档中的样例路径不可用。 - 更新 `docs/quick_install.md` 与 `docs/README.md`，同步依赖安装、构建验证和特性说明。 - 更新 `examples/README.md`，重新整理样例入口，明确算法样例与模型端到端样例的使用路径。 - 新增/完善 Qwen3.6-MoE 与 DeepSeek-V4 Flash 一站式平台样例文档，降低用户在 Atlas A3 环境中完成 NPU 推理体验的上手成本。 ## 类型标签 <!-- [x] 表示选中 --> - [ ] Bug修复 - [x] 新特性 - [ ] 性能优化 - [ ] 文档更新 - [ ] 代码重构 - [ ] 其他，请描述： See merge request: cann/amct!102	1 个月前
README.md	feat: 新增 --experimental 构建选项以打包实验特性代码 Co-authored-by: fujun19<fujun19@hisilicon.com> # message auto-generated for no-merge-commit merge: !167 merge worktree-feat+experimental-pkg-option into master feat: 新增 --experimental 构建选项以打包实验特性代码 Created-by: fujun19 Commit-by: fujun19 Merged-by: cann-robot Description: ## 描述默认的 `--pkg` / `--torch` 构建排除 `amct_pytorch/experimental/` 目录，新增 `--experimental` 标志，使用时将实验特性纳入分发包。用法示例： `bash bash build.sh --torch --experimental bash build.sh --pkg --experimental` ## 如何测试 - `bash build.sh --help` 确认 `--experimental` 选项出现在帮助输出中 - `bash build.sh --torch` 产物中不含 `amct_pytorch/experimental` - `bash build.sh --torch --experimental` 产物中包含 `amct_pytorch/experimental` - ruff check / bash -n 语法检查通过，CodeArts Check 0 defects ## 文档更新 - `AGENTS.md`：补充 `--experimental` 构建示例 - `examples/README.md` / `README_en.md`：FlatQuant 标注实验特性，说明需要 `--experimental` 构建 - `examples/algorithms/flatquant/README_CN.md` / `README_en.md`：顶部加实验特性前置说明 ## 类型标签 - [ ] Bug修复 - [x] 新特性 - [ ] 性能优化 - [x] 文档更新 - [ ] 代码重构 - [ ] 其他，请描述： See merge request: cann/amct!167	13 天前
README_en.md	feat: 新增 --experimental 构建选项以打包实验特性代码 Co-authored-by: fujun19<fujun19@hisilicon.com> # message auto-generated for no-merge-commit merge: !167 merge worktree-feat+experimental-pkg-option into master feat: 新增 --experimental 构建选项以打包实验特性代码 Created-by: fujun19 Commit-by: fujun19 Merged-by: cann-robot Description: ## 描述默认的 `--pkg` / `--torch` 构建排除 `amct_pytorch/experimental/` 目录，新增 `--experimental` 标志，使用时将实验特性纳入分发包。用法示例： `bash bash build.sh --torch --experimental bash build.sh --pkg --experimental` ## 如何测试 - `bash build.sh --help` 确认 `--experimental` 选项出现在帮助输出中 - `bash build.sh --torch` 产物中不含 `amct_pytorch/experimental` - `bash build.sh --torch --experimental` 产物中包含 `amct_pytorch/experimental` - ruff check / bash -n 语法检查通过，CodeArts Check 0 defects ## 文档更新 - `AGENTS.md`：补充 `--experimental` 构建示例 - `examples/README.md` / `README_en.md`：FlatQuant 标注实验特性，说明需要 `--experimental` 构建 - `examples/algorithms/flatquant/README_CN.md` / `README_en.md`：顶部加实验特性前置说明 ## 类型标签 - [ ] Bug修复 - [x] 新特性 - [ ] 性能优化 - [x] 文档更新 - [ ] 代码重构 - [ ] 其他，请描述： See merge request: cann/amct!167	13 天前
requirements.txt	[feat]: add amct llm Co-authored-by: w00852777<wanghui432@huawei.com> Co-authored-by: fujun19<fujun19@hisilicon.com> Co-authored-by: SwaggyAlex<zhangyi601@huawei.com> Co-authored-by: li_ting<liting73@hisilicon.com> # message auto-generated for no-merge-commit merge: !102 merge master into master [feat]: add amct llm Created-by: fujun19 Commit-by: SwaggyAlex;fujun19;wuranxx;li_ting;l00968832;lianghengyi;sophia1213;Hengyi Liang;w00852777 Merged-by: cann-robot Description: ## 描述 <!--在这里详细描述你的改动，包括改动的原因和所采取的方法。--> 本 PR 新增LLM量化工具模块，用于面向大语言模型的后训练量化、精度评估和部署产物导出，主要包括： 1. 新增并整理 LLM 量化工作流能力 - 新增 `amct_pytorch/workflows` 与 `amct_pytorch/cli/llm`，覆盖 PTQ、PTQ 数据提取、部署导出、评估等流程。 - 新增通用配置解析、数据处理、模型适配、量化应用、优化器等公共模块。 - 补充 Qwen、LongCat、DeepSeek、GLM 等 LLM 模型适配与量化模块。 2. 调整 AMCT PyTorch 包结构 - 引入 `algorithms`、`common`、`quantization`、`workflows` 等更清晰的模块划分。 - 将 classic 图量化相关实现收敛到 `amct_pytorch/classic/graph_based`，保持历史能力可用。 - 修正安装包数据路径，确保 classic graph-based 相关 proto、so、配置等资源能正确打包。 3. 完善构建与测试能力 - `build.sh -u` 默认开启覆盖率采集。 - 新增 `pyproject.toml`，统一 pytest 与 coverage 配置。 - 调整 CMake UT 入口，使用 pytest 执行 `tests/unit_test` 与 `tests/amct_pytorch`。 - 大幅补充算法、配置、LLM 模型适配、量化模块、workflow 等单元测试。 4. 更新依赖、文档和样例 - 补充 LLM 相关运行依赖，如 `datasets`、`accelerate`、`compressed_tensors`、`torchao`、`einops` 等。 - 更新 README、算法说明、LLM 文档、快速安装和 PTQ 配置说明。 - 新增/整理一站式平台样例，包括 Qwen3.6-MoE、DeepSeek-V4 Flash，以及 PTQ、部署、评估、数据提取脚本。 - 将算法样例统一整理到 `examples/algorithms` 目录，提升样例可发现性和可维护性。 ## 如何测试 <!--描述测试此改动的步骤和前提条件。--> 已进行以下验证： 1. UT 与覆盖率验证 `bash build.sh -u` 结果： 1911 passed, 2 skipped, 1 xfailed, 371 warnings Coverage XML written to build/coverage.xml ## 文档更新 <!--如果这个PR包含文档的更新，请在这里指出。例如：更新了README.md文件。--> - 更新根目录 `README.md`，补充 AMCT PyTorch 当前包结构、核心能力、一站式平台快速体验入口，并修正 `amct_ops` 文档链接。 - 更新 `docs/AMCT_Pytorch_LLM.md`，补充 LLM 量化流程说明，包括 PTQ 数据提取、PTQ 执行、部署导出和评估流程。 - 更新 `docs/algorithm_brief.md`，同步当前支持的量化算法说明。 - 更新 `docs/context/ptq_config_param.md`，修正配置示例引用路径，避免文档中的样例路径不可用。 - 更新 `docs/quick_install.md` 与 `docs/README.md`，同步依赖安装、构建验证和特性说明。 - 更新 `examples/README.md`，重新整理样例入口，明确算法样例与模型端到端样例的使用路径。 - 新增/完善 Qwen3.6-MoE 与 DeepSeek-V4 Flash 一站式平台样例文档，降低用户在 Atlas A3 环境中完成 NPU 推理体验的上手成本。 ## 类型标签 <!-- [x] 表示选中 --> - [ ] Bug修复 - [x] 新特性 - [ ] 性能优化 - [ ] 文档更新 - [ ] 代码重构 - [ ] 其他，请描述： See merge request: cann/amct!102	1 个月前

AMCT大模型对于LLAMA2/Qwen3的FlatQuant量化

注意（试验特性）：本样例依赖 amct_pytorch/experimental/flatquant/，需使用 bash build.sh --torch --experimental 构建并安装含试验特性的包后方可运行。

1 量化前提

1.1 安装依赖

本sample依赖包可参考requirements.txt

需要注意的是torch_npu包版本需要与Python、torch包版本相匹配，需要安装CANN包

1.2 模型和数据集准备

本sample以Llama2-7b/Qwen3-8b，wikitext2数据集为示例，请用户自行下载，并在脚本中传入实际目录。

1.3 简易量化配置

本sample中使用的量化配置已经内置在工具中，可以通过下述方式获取并使用：

from amct_pytorch.experimental.flatquant.config import INT4_FLAT_QUANT_CFG

我们在量化配置中增加了'use_down_quant'配置，用来控制down_proj是否进行量化，对于down_proj量化敏感的模型，可以跳过down_proj的量化。如果需要修改详细配置，请参考资料构造需要的量化配置dict。

flatquant算法支持如下部分的量化：

真量化：self_attn中q_proj，k_proj，v_proj以及mlp中up_proj，gate_proj，down_proj部分的权重及输入共同量化（使用Kronecker product），其中输入为per token，权重为per channel，两者均为对称量化
伪量化：kv_cache及o_proj（现阶段建议关闭，参见INT4_FLAT_QUANT_CFG）

支持的量化类型以及量化配置：

字段	类型	说明	取值范围	注意事项
skip_layers	str	跳过量化的层	/	跳过量化层支持模糊匹配，当配置字符串为层名字串，或与层名一致时，跳过该层量化，不生成量化配置。字符串必须包含数字或字母
algorithm	dict	量化使用的算法配置	{'flatquant'}	参考`INT4_FLAT_QUANT_CFG`示例

2 量化示例

2.1 llama2量化

step 1. 请在当前目录执行如下命令运行示例程序，并根据实际情况修改示例程序中的模型路径：

python3 src/run_llama2_samples.py --model_path <llama2 model path>

若出现如下信息，则说明量化成功：

All done!

其中日志里如下信息为评测任务结果（百分比准确率）：

ACC: {'arc_challenge': 42.83, 'arc_easy': 70.88, 'hellaswag': 73.63, 'lambada_openai': 72.0, 'piqa': 77.48, 'winogrande': 67.88, 'acc_avg': 67.45}

如下信息为perplexity（wikitext, max length 512）：

PPL score: 5.870388984680176

如下信息为原始模型及真量化模型的推理速度（ms）:

Time diff orig: 929.0580000000001
Time diff after real quant: 139.707

脚本运行结束后，在当前目录会生成并保存校准后参数./outputs/llama2_7b/flat_matrices.pth及量化日志文件./amct_log/amct_pytorch.log。如果想直接加载校准参数则使用如下设定：

python3 src/run_llama2_samples.py --model_path <llama2 model path> --load_matrix --flat_matrix_path <matrix path, e.g. ./outputs/llama2_7b/flat_matrices.pth>

2.2 qwen3量化

step 1. 请在当前目录执行如下命令运行示例程序，并根据实际情况修改示例程序中的模型路径：

python3 src/run_qwen_samples.py --model_path <qwen3-8b model path>

若出现如下信息，则说明量化成功：

All done!

示例展示的是模型量化前后根据prompt生成的不同结果： prompt为:

prompt = "Give me a short introduction to the Ascend Model Compression Toolkit(AMCT). /no_think"

量化前的生成结果为：

content: <think>
<>
The Ascend Model Compression Toolkit (AMCT) is a powerful tool designed to ...

量化后的生成结果为：

content: <think>
<>
The Ascend Model Compression Toolkit (AMCT) is a powerful tool designed to ...