通过正交化方法移除模型拒绝表达能力,尽可能保留原始模型知识与训练,以更精准方式减少特定不良行为,相比微调更具外科手术式优势。【此简介由AI生成】
library_name: transformers license: llama3
Llama-3-8B-Instruct-abliterated-v3 模型卡片
我的 Jupyter 方法复现"烹饪手册"可在此查看,优化版代码库即将发布
本模型基于 meta-llama/Meta-Llama-3-8B-Instruct 进行正交化处理,生成 bfloat16 格式的 safetensor 权重。所采用的方法基于预览版论文/博客文章《LLM中的拒绝行为由单一方向介导》中描述的技术,建议阅读该文章以深入了解。
等等,"abliteration"?正交化?消融?这是什么?
简而言之:此模型通过特定权重操纵来"抑制"模型表达拒绝的能力。这并不保证它绝对不会拒绝您、完全理解您的请求,它仍可能对您进行道德/安全说教。其他所有特性均与原始 70B 指导模型保持一致,仅移除了最强的拒绝方向。
终极简化版:这是我所能实现的最纯粹的无审查版本——除原始模型外未添加或改变任何其他行为。
关于"abliteration":这是对原论文中"ablation"(消融)术语的趣味性演绎,我特意创造这个词以区别于"无审查"微调版本。
Ablate(消融) + obliterated( obliterated) = Abliterated
总之,正交化/消融在此处指向同一技术核心:通过正交化手段将拒绝特征从模型中"消融"。
方法论详解及其价值
在我看来,消融(或应用其逆向的"增强"方法)能有效诱导/移除特定特征,而这些特征若通过系统提示词调整则需要耗费大量 token。
取而代之的是:在相同数据集上,针对空白系统提示词运行消融脚本,最终在模型权重中正交化实现目标行为。
为何选择此方法而非微调?
消融本质上更具针对性,且执行所需数据量远少于微调,我认为这是其主要优势。
同时,其最大价值在于最大限度保留原始模型的知识与训练成果,仅消除某种特定不良行为倾向(本例中即拒绝用户请求)。
微调仍然非常重要,是改变广泛行为的首选方案;但使用消融/增强技术可能仅需极少样本就能接近目标行为。
这也可能是模型优化的有用步骤:正交化→微调,或反向操作。
我尚未深入探索此模型与微调的结合使用,鼓励有资源的研究者进行尝试。
好吧,但为什么是V3?70B没有V2版本?
其实我早前在 Cognitive Computations 下发布过 8B 的 V2 版本。
但尝试为 70B 制作 V2 版本得不偿失,我希望在浪费算力之前先优化方法——毕竟可能甚至得不到更好的模型。
不过我对这个最新方法论相当满意,它似乎减少了幻觉现象。
为了表明这是比 8B V2 更先进的方法,我决定效仿微软的版本跳跃策略,因为这是"重大突破"(实际原因是有太多遗留但仍活跃的微软库会检查操作系统名称中是否含'Windows 9'以检测 Windows 95/98)。
怪异特性提示
由于采用的方法论较新,该模型可能会存在一些有趣的特性。我们鼓励您试用模型,并在社区板块中发布您注意到的任何异常现象,这将帮助我们进一步理解这种正交化方法可能带来的副作用。
如果您在此基础上实现了进一步改进,请务必分享!这虽然是最基本的消融实验用法,但我相信还存在其他尚未探索的可能性。
此外,欢迎通过任何方式联系讨论。我活跃于Cognitive Computations Discord服务器,也会持续关注社区板块,随时欢迎交流!我非常期待看到这种方法论在其他领域的应用,并愿意尽我所能提供支持。
GGUF量化版本
欢迎进行量化或转换为其他后端框架并重新上传!
一般而言,建议选择最接近您最大RAM/VRAM容量(但不要过于接近,仍需预留上下文空间)的模型尺寸(以GB为单位)。
已上传的量化版本:
fp16 - 适用于转换至其他平台或获取特定量化需求,虽不推荐使用但显然具有最高质量
q8_0
q6_0 - 可能在质量与性能之间达到最佳平衡
q4
q3_k_m