SAE-Res-Qwen3-30B-A3B-Base-W128K-L0_100:基于 Qwen 生态的稀疏自编码器可解释性项目

可用于分析 Qwen 模型内部机制及模型优化，支持可控推理、数据分类等场景。是在 Qwen3-30B-A3B 隐藏层训练的稀疏自编码器模块，能提取高解耦、低冗余的可解释数据特征。【此简介由AI生成】

文件	最后提交记录	最后更新时间
.gitattributes	initial commit	26 天前
LICENSE	Upload SAE model: SAE-Res-Qwen3-30B-A3B-Base-W128K-L0_100	24 天前
README.md	Update README.md and config.json	10 天前
app.py	Update app.py	23 天前
config.json	Update README.md and config.json	10 天前
layer0.sae.ptLFS	Upload SAE model: SAE-Res-Qwen3-30B-A3B-Base-W128K-L0_100	24 天前
layer1.sae.ptLFS	Upload SAE model: SAE-Res-Qwen3-30B-A3B-Base-W128K-L0_100	24 天前
layer10.sae.ptLFS	Upload SAE model: SAE-Res-Qwen3-30B-A3B-Base-W128K-L0_100	24 天前
layer11.sae.ptLFS	Upload SAE model: SAE-Res-Qwen3-30B-A3B-Base-W128K-L0_100	24 天前
layer12.sae.ptLFS	Upload SAE model: SAE-Res-Qwen3-30B-A3B-Base-W128K-L0_100	24 天前
layer13.sae.ptLFS	Upload SAE model: SAE-Res-Qwen3-30B-A3B-Base-W128K-L0_100	24 天前
layer14.sae.ptLFS	Upload SAE model: SAE-Res-Qwen3-30B-A3B-Base-W128K-L0_100	24 天前
layer15.sae.ptLFS	Upload SAE model: SAE-Res-Qwen3-30B-A3B-Base-W128K-L0_100	24 天前
layer16.sae.ptLFS	Upload SAE model: SAE-Res-Qwen3-30B-A3B-Base-W128K-L0_100	24 天前
layer17.sae.ptLFS	Upload SAE model: SAE-Res-Qwen3-30B-A3B-Base-W128K-L0_100	24 天前
layer18.sae.ptLFS	Upload SAE model: SAE-Res-Qwen3-30B-A3B-Base-W128K-L0_100	24 天前
layer19.sae.ptLFS	Upload SAE model: SAE-Res-Qwen3-30B-A3B-Base-W128K-L0_100	24 天前
layer2.sae.ptLFS	Upload SAE model: SAE-Res-Qwen3-30B-A3B-Base-W128K-L0_100	24 天前
layer20.sae.ptLFS	Upload SAE model: SAE-Res-Qwen3-30B-A3B-Base-W128K-L0_100	24 天前
layer21.sae.ptLFS	Upload SAE model: SAE-Res-Qwen3-30B-A3B-Base-W128K-L0_100	24 天前
layer22.sae.ptLFS	Upload SAE model: SAE-Res-Qwen3-30B-A3B-Base-W128K-L0_100	24 天前
layer23.sae.ptLFS	Upload SAE model: SAE-Res-Qwen3-30B-A3B-Base-W128K-L0_100	24 天前
layer24.sae.ptLFS	Upload SAE model: SAE-Res-Qwen3-30B-A3B-Base-W128K-L0_100	24 天前
layer25.sae.ptLFS	Upload SAE model: SAE-Res-Qwen3-30B-A3B-Base-W128K-L0_100	24 天前
layer26.sae.ptLFS	Upload SAE model: SAE-Res-Qwen3-30B-A3B-Base-W128K-L0_100	24 天前
layer27.sae.ptLFS	Upload SAE model: SAE-Res-Qwen3-30B-A3B-Base-W128K-L0_100	24 天前
layer28.sae.ptLFS	Upload SAE model: SAE-Res-Qwen3-30B-A3B-Base-W128K-L0_100	24 天前
layer29.sae.ptLFS	Upload SAE model: SAE-Res-Qwen3-30B-A3B-Base-W128K-L0_100	24 天前
layer3.sae.ptLFS	Upload SAE model: SAE-Res-Qwen3-30B-A3B-Base-W128K-L0_100	24 天前
layer30.sae.ptLFS	Upload SAE model: SAE-Res-Qwen3-30B-A3B-Base-W128K-L0_100	24 天前
layer31.sae.ptLFS	Upload SAE model: SAE-Res-Qwen3-30B-A3B-Base-W128K-L0_100	24 天前
layer32.sae.ptLFS	Upload SAE model: SAE-Res-Qwen3-30B-A3B-Base-W128K-L0_100	24 天前
layer33.sae.ptLFS	Upload SAE model: SAE-Res-Qwen3-30B-A3B-Base-W128K-L0_100	24 天前
layer34.sae.ptLFS	Upload SAE model: SAE-Res-Qwen3-30B-A3B-Base-W128K-L0_100	24 天前
layer35.sae.ptLFS	Upload SAE model: SAE-Res-Qwen3-30B-A3B-Base-W128K-L0_100	24 天前
layer36.sae.ptLFS	Upload SAE model: SAE-Res-Qwen3-30B-A3B-Base-W128K-L0_100	24 天前
layer37.sae.ptLFS	Upload SAE model: SAE-Res-Qwen3-30B-A3B-Base-W128K-L0_100	24 天前
layer38.sae.ptLFS	Upload SAE model: SAE-Res-Qwen3-30B-A3B-Base-W128K-L0_100	24 天前
layer39.sae.ptLFS	Upload SAE model: SAE-Res-Qwen3-30B-A3B-Base-W128K-L0_100	24 天前
layer4.sae.ptLFS	Upload SAE model: SAE-Res-Qwen3-30B-A3B-Base-W128K-L0_100	24 天前
layer40.sae.ptLFS	Upload SAE model: SAE-Res-Qwen3-30B-A3B-Base-W128K-L0_100	24 天前
layer41.sae.ptLFS	Upload SAE model: SAE-Res-Qwen3-30B-A3B-Base-W128K-L0_100	24 天前
layer42.sae.ptLFS	Upload SAE model: SAE-Res-Qwen3-30B-A3B-Base-W128K-L0_100	24 天前
layer43.sae.ptLFS	Upload SAE model: SAE-Res-Qwen3-30B-A3B-Base-W128K-L0_100	24 天前
layer44.sae.ptLFS	Upload SAE model: SAE-Res-Qwen3-30B-A3B-Base-W128K-L0_100	24 天前
layer45.sae.ptLFS	Upload SAE model: SAE-Res-Qwen3-30B-A3B-Base-W128K-L0_100	24 天前
layer46.sae.ptLFS	Upload SAE model: SAE-Res-Qwen3-30B-A3B-Base-W128K-L0_100	24 天前
layer47.sae.ptLFS	Upload SAE model: SAE-Res-Qwen3-30B-A3B-Base-W128K-L0_100	24 天前
layer5.sae.ptLFS	Upload SAE model: SAE-Res-Qwen3-30B-A3B-Base-W128K-L0_100	24 天前
layer6.sae.ptLFS	Upload SAE model: SAE-Res-Qwen3-30B-A3B-Base-W128K-L0_100	24 天前
layer7.sae.ptLFS	Upload SAE model: SAE-Res-Qwen3-30B-A3B-Base-W128K-L0_100	24 天前
layer8.sae.ptLFS	Upload SAE model: SAE-Res-Qwen3-30B-A3B-Base-W128K-L0_100	24 天前
layer9.sae.ptLFS	Upload SAE model: SAE-Res-Qwen3-30B-A3B-Base-W128K-L0_100	24 天前

自动翻译

license: other license_name: qwen license_link: https://huggingface.co/Qwen/SAE-Res-Qwen3-30B-A3B-Base-W128K-L0_100/blob/main/LICENSE language:

en tags:
sparse-autoencoder
sae
mechanistic-interpretability
interpretability
qwen-scope
arxiv:2605.11887 base_model: Qwen/Qwen3-30B-A3B-Base

Qwen-Scope：解码智能，释放潜能

Overview

我们荣幸地推出Qwen-Scope，这是一款基于Qwen3和Qwen3.5系列模型训练的可解释性模块。具体而言，我们在Qwen的隐藏层中集成并训练了稀疏自编码器（SAE）。通过施加稀疏性约束，我们能够自动提取出高度解耦、低冗余且可解释性显著增强的数据特征。Qwen-Scope不仅可用于分析Qwen行为的内部机制，在模型优化方面也具有巨大潜力。其应用场景包括可控推理控制、评估样本分布分析与比较、数据分类与合成以及模型训练与优化。更多详情请参见我们的技术报告。

模型详情

属性	值
基础模型	Qwen3-30B-A3B-Base
SAE宽度 (`d_sae`)	131072
隐藏层大小 (`d_model`)	2048
扩展因子	64×
Top-K	100
钩子点	残差流
覆盖层数	0 – 47（共48层）
文件格式	PyTorch `.pt` 字典

架构

这是一个TopK SAE——在每次前向传播中，恰好保留100个非零特征。

每个 checkpoint 文件 layer{n}.sae.pt 是一个包含四个张量的 Python dict：

键	形状	描述
`W_enc`	`(131072, 2048)`	编码器权重矩阵
`W_dec`	`(2048, 131072)`	解码器权重矩阵
`b_enc`	`(131072,)`	编码器偏置
`b_dec`	`(2048,)`	解码器偏置

文件

本仓库包含每个Transformer层（0–47层）对应的一个SAE checkpoint：

layer0.sae.pt
layer1.sae.pt
...
layer47.sae.pt

特征激活提取

端到端演示：运行基础LLM，在选定层挂钩残差流，并提取稀疏SAE特征激活。在大多数情况下，使用基于基础模型训练的SAE来探索训练后检查点的内部过程也是合理的。

import torch
from transformers import AutoTokenizer, AutoModelForCausalLM

# ── 1. Load base model ────────────────────────────────────────────────────────
model_name = "Qwen/Qwen3-30B-A3B-Base"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(model_name, torch_dtype=torch.float32)
model.eval()

# ── 2. Load SAE for a target layer ───────────────────────────────────────────
LAYER = 0  # choose any layer in 0–47
sae = torch.load(f"layer{LAYER}.sae.pt", map_location="cpu")
W_enc = sae["W_enc"]  # (131072, 2048)
b_enc = sae["b_enc"]  # (131072,)

def get_feature_acts(residual: torch.Tensor) -> torch.Tensor:
    """residual: (..., 2048) → sparse feature activations (..., 131072)"""
    pre_acts = residual @ W_enc.T + b_enc
    topk_vals, topk_idx = pre_acts.topk(100, dim=-1)
    acts = torch.zeros_like(pre_acts)
    acts.scatter_(-1, topk_idx, topk_vals)
    return acts

# ── 3. Hook residual stream after the target transformer layer ────────────────
captured = {}

def _hook(module, input, output):
    hidden = output[0] if isinstance(output, tuple) else output
    captured["residual"] = hidden.detach().cpu()

hook = model.model.layers[LAYER].register_forward_hook(_hook)

# ── 4. Forward pass ───────────────────────────────────────────────────────────
text = "The capital of France is"
inputs = tokenizer(text, return_tensors="pt")
with torch.no_grad():
    model(**inputs)
hook.remove()

# ── 5. Extract feature activations ───────────────────────────────────────────
residual = captured["residual"]               # (1, seq_len, 2048)
feature_acts = get_feature_acts(residual)     # (1, seq_len, 131072)

# Inspect active features for the last token
last_token_acts = feature_acts[0, -1]         # (131072,)
active_idx = last_token_acts.nonzero(as_tuple=True)[0]
print(f"Active features : {active_idx.tolist()}")
print(f"Feature values  : {last_token_acts[active_idx].tolist()}")

Gradio 演示

我们还提供了一个 Gradio 演示 app.py。您可以在本地运行它：

python app.py \
    --model Qwen/Qwen3-30B-A3B-Base \
    --model-name-sae-trained-from qwen3-30b-a3b-base \
    --model-name-analyzing-now qwen3-30b-a3b \
    --sae-path Qwen/SAE-Res-Qwen3-30B-A3B-Base-W128K-L0_100 \
    --top-k 100 \
    --num-layers 48 \
    --sae-width 131072 \
    --d-model 2048 \
    --server-port 7860

注意事项

严禁出于非科学研究目的使用可解释性工具干扰模型能力，或编造、生成、传播违背公序良俗及社会主义核心价值观的有害信息，包括色情、暴力、歧视或煽动性内容。违规者将被自动终止授权，并承担由此产生的一切法律责任。本声明的最终解释权归项目所有者所有。

引用说明

如果您在研究中使用这些SAE，请引用：

@misc{qwen_scope,
      title={{Qwen-Scope}: Turning Sparse Features into Development Tools for Large Language Models},
      author={Boyi Deng and Xu Wang and Yaoning Wang and Yu Wan and Yubo Ma and Baosong Yang and Haoran Wei and Jialong Tang and Huan Lin and Ruize Gao and Tianhao Li and Qian Cao and Xuancheng Ren and Xiaodong Deng and An Yang and Fei Huang and Dayiheng Liu and Jingren Zhou},
      year={2026},
      eprint={2605.11887},
      archivePrefix={arXiv},
      primaryClass={cs.CL},
      url={https://arxiv.org/abs/2605.11887},
}