cann-robotfeat: 新增 --experimental 构建选项以打包实验特性代码

文件	最后提交记录	最后更新时间
src	[feat]: add amct llm Co-authored-by: w00852777<wanghui432@huawei.com> Co-authored-by: fujun19<fujun19@hisilicon.com> Co-authored-by: SwaggyAlex<zhangyi601@huawei.com> Co-authored-by: li_ting<liting73@hisilicon.com> # message auto-generated for no-merge-commit merge: !102 merge master into master [feat]: add amct llm Created-by: fujun19 Commit-by: SwaggyAlex;fujun19;wuranxx;li_ting;l00968832;lianghengyi;sophia1213;Hengyi Liang;w00852777 Merged-by: cann-robot Description: ## 描述 <!--在这里详细描述你的改动，包括改动的原因和所采取的方法。--> 本 PR 新增LLM量化工具模块，用于面向大语言模型的后训练量化、精度评估和部署产物导出，主要包括： 1. 新增并整理 LLM 量化工作流能力 - 新增 `amct_pytorch/workflows` 与 `amct_pytorch/cli/llm`，覆盖 PTQ、PTQ 数据提取、部署导出、评估等流程。 - 新增通用配置解析、数据处理、模型适配、量化应用、优化器等公共模块。 - 补充 Qwen、LongCat、DeepSeek、GLM 等 LLM 模型适配与量化模块。 2. 调整 AMCT PyTorch 包结构 - 引入 `algorithms`、`common`、`quantization`、`workflows` 等更清晰的模块划分。 - 将 classic 图量化相关实现收敛到 `amct_pytorch/classic/graph_based`，保持历史能力可用。 - 修正安装包数据路径，确保 classic graph-based 相关 proto、so、配置等资源能正确打包。 3. 完善构建与测试能力 - `build.sh -u` 默认开启覆盖率采集。 - 新增 `pyproject.toml`，统一 pytest 与 coverage 配置。 - 调整 CMake UT 入口，使用 pytest 执行 `tests/unit_test` 与 `tests/amct_pytorch`。 - 大幅补充算法、配置、LLM 模型适配、量化模块、workflow 等单元测试。 4. 更新依赖、文档和样例 - 补充 LLM 相关运行依赖，如 `datasets`、`accelerate`、`compressed_tensors`、`torchao`、`einops` 等。 - 更新 README、算法说明、LLM 文档、快速安装和 PTQ 配置说明。 - 新增/整理一站式平台样例，包括 Qwen3.6-MoE、DeepSeek-V4 Flash，以及 PTQ、部署、评估、数据提取脚本。 - 将算法样例统一整理到 `examples/algorithms` 目录，提升样例可发现性和可维护性。 ## 如何测试 <!--描述测试此改动的步骤和前提条件。--> 已进行以下验证： 1. UT 与覆盖率验证 `bash build.sh -u` 结果： 1911 passed, 2 skipped, 1 xfailed, 371 warnings Coverage XML written to build/coverage.xml ## 文档更新 <!--如果这个PR包含文档的更新，请在这里指出。例如：更新了README.md文件。--> - 更新根目录 `README.md`，补充 AMCT PyTorch 当前包结构、核心能力、一站式平台快速体验入口，并修正 `amct_ops` 文档链接。 - 更新 `docs/AMCT_Pytorch_LLM.md`，补充 LLM 量化流程说明，包括 PTQ 数据提取、PTQ 执行、部署导出和评估流程。 - 更新 `docs/algorithm_brief.md`，同步当前支持的量化算法说明。 - 更新 `docs/context/ptq_config_param.md`，修正配置示例引用路径，避免文档中的样例路径不可用。 - 更新 `docs/quick_install.md` 与 `docs/README.md`，同步依赖安装、构建验证和特性说明。 - 更新 `examples/README.md`，重新整理样例入口，明确算法样例与模型端到端样例的使用路径。 - 新增/完善 Qwen3.6-MoE 与 DeepSeek-V4 Flash 一站式平台样例文档，降低用户在 Atlas A3 环境中完成 NPU 推理体验的上手成本。 ## 类型标签 <!-- [x] 表示选中 --> - [ ] Bug修复 - [x] 新特性 - [ ] 性能优化 - [ ] 文档更新 - [ ] 代码重构 - [ ] 其他，请描述： See merge request: cann/amct!102	1 个月前
README.md	feat: 新增 --experimental 构建选项以打包实验特性代码 Co-authored-by: fujun19<fujun19@hisilicon.com> # message auto-generated for no-merge-commit merge: !167 merge worktree-feat+experimental-pkg-option into master feat: 新增 --experimental 构建选项以打包实验特性代码 Created-by: fujun19 Commit-by: fujun19 Merged-by: cann-robot Description: ## 描述默认的 `--pkg` / `--torch` 构建排除 `amct_pytorch/experimental/` 目录，新增 `--experimental` 标志，使用时将实验特性纳入分发包。用法示例： `bash bash build.sh --torch --experimental bash build.sh --pkg --experimental` ## 如何测试 - `bash build.sh --help` 确认 `--experimental` 选项出现在帮助输出中 - `bash build.sh --torch` 产物中不含 `amct_pytorch/experimental` - `bash build.sh --torch --experimental` 产物中包含 `amct_pytorch/experimental` - ruff check / bash -n 语法检查通过，CodeArts Check 0 defects ## 文档更新 - `AGENTS.md`：补充 `--experimental` 构建示例 - `examples/README.md` / `README_en.md`：FlatQuant 标注实验特性，说明需要 `--experimental` 构建 - `examples/algorithms/flatquant/README_CN.md` / `README_en.md`：顶部加实验特性前置说明 ## 类型标签 - [ ] Bug修复 - [x] 新特性 - [ ] 性能优化 - [x] 文档更新 - [ ] 代码重构 - [ ] 其他，请描述： See merge request: cann/amct!167	13 天前
README_en.md	docs: add English translation for all markdown documentation files Co-authored-by: sophia1213<sophie.chen@huawei.com> # message auto-generated for no-merge-commit merge: !143 merge master into master docs: add English translation for all markdown documentation files Created-by: sophia1213 Commit-by: sophia1213 Merged-by: cann-robot Description: ## 描述更新英文非产品文档资料 ## 如何测试根据最新的中文md资料进行测试 ## 文档更新非docs目录下的所有xx_en.md ## 类型标签 <!-- [x] 表示选中 --> - [ ] Bug修复 - [ ] 新特性 - [ ] 性能优化 - [x] 文档更新 - [ ] 代码重构 - [ ] 其他，请描述： See merge request: cann/amct!143	25 天前
requirements.txt	[feat]: add amct llm Co-authored-by: w00852777<wanghui432@huawei.com> Co-authored-by: fujun19<fujun19@hisilicon.com> Co-authored-by: SwaggyAlex<zhangyi601@huawei.com> Co-authored-by: li_ting<liting73@hisilicon.com> # message auto-generated for no-merge-commit merge: !102 merge master into master [feat]: add amct llm Created-by: fujun19 Commit-by: SwaggyAlex;fujun19;wuranxx;li_ting;l00968832;lianghengyi;sophia1213;Hengyi Liang;w00852777 Merged-by: cann-robot Description: ## 描述 <!--在这里详细描述你的改动，包括改动的原因和所采取的方法。--> 本 PR 新增LLM量化工具模块，用于面向大语言模型的后训练量化、精度评估和部署产物导出，主要包括： 1. 新增并整理 LLM 量化工作流能力 - 新增 `amct_pytorch/workflows` 与 `amct_pytorch/cli/llm`，覆盖 PTQ、PTQ 数据提取、部署导出、评估等流程。 - 新增通用配置解析、数据处理、模型适配、量化应用、优化器等公共模块。 - 补充 Qwen、LongCat、DeepSeek、GLM 等 LLM 模型适配与量化模块。 2. 调整 AMCT PyTorch 包结构 - 引入 `algorithms`、`common`、`quantization`、`workflows` 等更清晰的模块划分。 - 将 classic 图量化相关实现收敛到 `amct_pytorch/classic/graph_based`，保持历史能力可用。 - 修正安装包数据路径，确保 classic graph-based 相关 proto、so、配置等资源能正确打包。 3. 完善构建与测试能力 - `build.sh -u` 默认开启覆盖率采集。 - 新增 `pyproject.toml`，统一 pytest 与 coverage 配置。 - 调整 CMake UT 入口，使用 pytest 执行 `tests/unit_test` 与 `tests/amct_pytorch`。 - 大幅补充算法、配置、LLM 模型适配、量化模块、workflow 等单元测试。 4. 更新依赖、文档和样例 - 补充 LLM 相关运行依赖，如 `datasets`、`accelerate`、`compressed_tensors`、`torchao`、`einops` 等。 - 更新 README、算法说明、LLM 文档、快速安装和 PTQ 配置说明。 - 新增/整理一站式平台样例，包括 Qwen3.6-MoE、DeepSeek-V4 Flash，以及 PTQ、部署、评估、数据提取脚本。 - 将算法样例统一整理到 `examples/algorithms` 目录，提升样例可发现性和可维护性。 ## 如何测试 <!--描述测试此改动的步骤和前提条件。--> 已进行以下验证： 1. UT 与覆盖率验证 `bash build.sh -u` 结果： 1911 passed, 2 skipped, 1 xfailed, 371 warnings Coverage XML written to build/coverage.xml ## 文档更新 <!--如果这个PR包含文档的更新，请在这里指出。例如：更新了README.md文件。--> - 更新根目录 `README.md`，补充 AMCT PyTorch 当前包结构、核心能力、一站式平台快速体验入口，并修正 `amct_ops` 文档链接。 - 更新 `docs/AMCT_Pytorch_LLM.md`，补充 LLM 量化流程说明，包括 PTQ 数据提取、PTQ 执行、部署导出和评估流程。 - 更新 `docs/algorithm_brief.md`，同步当前支持的量化算法说明。 - 更新 `docs/context/ptq_config_param.md`，修正配置示例引用路径，避免文档中的样例路径不可用。 - 更新 `docs/quick_install.md` 与 `docs/README.md`，同步依赖安装、构建验证和特性说明。 - 更新 `examples/README.md`，重新整理样例入口，明确算法样例与模型端到端样例的使用路径。 - 新增/完善 Qwen3.6-MoE 与 DeepSeek-V4 Flash 一站式平台样例文档，降低用户在 Atlas A3 环境中完成 NPU 推理体验的上手成本。 ## 类型标签 <!-- [x] 表示选中 --> - [ ] Bug修复 - [x] 新特性 - [ ] 性能优化 - [ ] 文档更新 - [ ] 代码重构 - [ ] 其他，请描述： See merge request: cann/amct!102	1 个月前

AMCT大模型GPTQ量化

1 量化前提

1.1 安装依赖

本sample依赖包可参考requirements.txt

需要注意的是torch_npu包版本需要与Python、torch包版本相匹配，需要安装CANN包

1.2 模型和数据集准备

本sample以Llama2-7b，qwen2-7b模型，pileval数据，wikitext2数据集为示例, 数据为在线加载，模型需要用户自己下载并在执行脚本时指定模型路径。

1.3 简易量化配置

本sample中使用的量化配置已经内置在工具中，可以通过下述方式获取并使用：

int4仅权重量化配置： from amct_pytorch import INT4_GPTQ_WEIGHT_QUANT_CFG mxfp4_e2m1仅权重量化配置：

cfg = {
    'batch_num': 1,
    'quant_cfg': {
        'weights': {
            'type': 'mxfp4_e2m1',
            'symmetric': True,
            'strategy': 'group',
            'group_size': 32
        },
    },
    'algorithm': {'gptq'},
    'skip_layers': {'lm_head'}
}

如果需要修改详细配置，请参考资料构造需要的量化配置dict。

gptq算法仅支持权重量化，支持的量化类型以及量化配置：

字段	类型	说明	取值范围	注意事项
batch_num	uint32	量化使用的batch数量	1	/
skip_layers	str	跳过量化的层	/	跳过量化层支持模糊匹配，当配置字符串为层名字串，或与层名一致时，跳过该层量化，不生成量化配置。字符串必须包含数字或字母
weights.type	str	量化后权重类型	'int4'/'int8'/'float4_e2m1'/'mxfp4_e2m1'	/
weights.symmetric	bool	对称量化	TRUE/FALSE	float4_e2m1和mxfp4_e2m1只支持配置对称量化
weights.strategy	str	量化粒度	'tensor'/'channel'/'group'	float4_e2m1和mxfp4_e2m1只支持配置group策略
algorithm	dict	量化使用的算法配置	{'gptq'}	/

2 量化示例

2.1 使用接口方式调用

step 1. 请在当前目录执行如下命令运行示例程序，用户需根据实际情况修改示例程序中的模型和数据集路径：

python3 src/run_llama2_samples.py --model_path=/data/Llama2_7b_hf/

python3 src/run_qwen_samples.py --model_path=/data/Qwen2-7b/

若出现如下信息，则说明量化成功：

Test time taken:  1.0 min  59.24865388870239 s
Score:  5.477707

step 2. 推荐使用以下配置

其中Score为量化模型PPL，具体数值参考下表：

模型	校准集	数据集	量化前PPL	INT4量化后PPL	MXFP4量化后PPL
LLAMA2-7B	pileval	wikitext2	5.472	5.601	5.799
QWEN2-7B	pileval	wikitext2	7.137	7.253	7.305

推理成功后，在当前目录会生成量化日志文件./amct_log/amct_pytorch.log