AHN-Mamba2-for-Qwen-2.5-Instruct-14B:基于人工海马网络(AHN)的高效长上下文建模

通过人工海马网络(AHN)将无损记忆转化为固定大小压缩表示,结合Mamba2等模块,实现长上下文场景下的高效文本生成与处理。【此简介由AI生成】

分支2Tags0

license: apache-2.0 language:

  • en pipeline_tag: text-generation base_model: Qwen/Qwen2.5-14B tags:
  • chat library_name: transformers

AHN:用于高效长上下文建模的人工海马体网络

简介

人工海马体网络(AHN)将无损记忆转化为固定大小的压缩表示,以实现高效的长上下文建模。无损记忆(例如注意力机制的键值(KV)缓存)存储精确的输入信息,但会随序列长度增长,导致长序列处理效率低下。相比之下,压缩记忆(例如循环神经网络(RNN)的隐藏状态)保持恒定大小,并为每个输入标记提供固定的计算成本,但其代价是信息损失。为了兼顾两种记忆类型的优势,AHN持续将滑动注意力窗口外的无损记忆转换为压缩形式。AHN可通过任何类RNN架构实现。然后,模型整合两种记忆类型以在长上下文中进行预测。

本仓库包含AHN的模型权重。有关安装、使用说明和更多文档,请访问我们的GitHub仓库

方法

**(a)** 增强有人工海马体网络(AHN)的模型示意图。在此示例中,滑动窗口长度为3。当输入序列长度小于或等于窗口长度时,模型的运行方式与标准Transformer完全相同。对于更长的序列,AHN持续将窗口外的标记压缩为紧凑的记忆表示。然后,模型利用窗口内的无损信息和压缩记忆来生成下一个标记。**(b)** 基于开源权重大型语言模型(LLM)的AHN自蒸馏训练框架。训练过程中,基础LLM的权重被冻结,仅训练AHN的参数。

模型库

基础模型 AHN 模块 参数数量 检查点(仅 AHN)
Qwen2.5-3B-Instruct Mamba2 11.9M 🤗model
Qwen2.5-3B-Instruct DeltaNet 11.8M 🤗model
Qwen2.5-3B-Instruct GatedDeltaNet 13.0M 🤗model
Qwen2.5-7B-Instruct Mamba2 18.6M 🤗model
Qwen2.5-7B-Instruct DeltaNet 18.5M 🤗model
Qwen2.5-7B-Instruct GatedDeltaNet 21.3M 🤗model
Qwen2.5-14B-Instruct Mamba2 51.4M 🤗model
Qwen2.5-14B-Instruct DeltaNet 51.1M 🤗model
Qwen2.5-14B-Instruct GatedDeltaNet 61.0M 🤗model

评估

LV-Eval 和 InfiniteBench 结果

LongBench 结果

联系方式

  • 方允豪:yunhao.fang@bytedance.com
  • 俞威豪(通讯作者):weihao.yu@bytedance.com

引用

BibTeX:

@article{fang2025artificial,
  title={Artificial hippocampus networks for efficient long-context modeling},
  author={Fang, Yunhao and Yu, Weihao and Zhong, Shu and Ye, Qinghao and Xiong, Xuehan and Wei, Lai},
  journal={arXiv preprint arXiv:2510.07318},
  year={2025}
}

项目介绍

通过人工海马网络(AHN)将无损记忆转化为固定大小压缩表示,结合Mamba2等模块,实现长上下文场景下的高效文本生成与处理。【此简介由AI生成】

定制我的领域

下载使用量

0

项目总下载次数(含Clone、Pull、 zip 包及 release 下载),每日凌晨更新