gpt-oss-safeguard-20b:基于自定义安全策略的文本分类与安全推理模型

支持自定义安全策略的文本内容分类工具,提供可解释的推理过程,支持调整推理强度,适用于LLM内容过滤、在线内容标注等安全场景,Apache 2.0许可。【此简介由AI生成】

分支1Tags0

license: apache-2.0 pipeline_tag: text-generation library_name: transformers tags:

  • vllm
  • unsloth base_model:
  • openai/gpt-oss-safeguard-20b base_model_relation: finetune

Unsloth Dynamic 2.0 实现了卓越的准确性,性能超越其他主流量化方法。

gpt-oss-safeguard-20b

试用 gpt-oss-safeguard · 指南 · 模型卡片 · OpenAI 博客


gpt-oss-safeguard-120bgpt-oss-safeguard-20b 是基于 gpt-oss 构建的安全推理模型。借助这些模型,您可以根据提供的安全策略对文本内容进行分类,并执行一系列基础安全任务。这些模型专为安全相关使用场景设计。对于其他应用,我们建议使用 gpt-oss 模型

本模型 gpt-oss-safeguard-20b(210 亿参数,含 36 亿激活参数)可在配备 16GB 显存的 GPU 中运行。更大规模的模型可查看 gpt-oss-safeguard-120b(1170 亿参数,含 51 亿激活参数)。

两款模型均基于我们的 harmony 响应格式 训练,且仅应配合 harmony 格式使用,否则无法正常工作。

亮点

  • 专为安全推理训练:针对安全推理进行训练和调优,以适应LLM输入输出过滤、在线内容标注以及信任与安全相关离线标注等使用场景。
  • 自带策略:能够解读您编写的策略,因此只需最少的工程投入,即可在不同产品和使用场景中实现通用化。
  • 有理有据的决策,而非仅仅是分数:完全访问模型的推理过程,便于更轻松地进行调试,并增强对策略决策的信任。请记住,Raw CoT专为开发人员和安全从业人员设计,不旨在向普通用户开放或用于安全场景之外的其他用途。
  • 可配置的推理力度:根据您的特定使用场景和延迟需求,轻松调整推理力度(低、中、高)。
  • 宽松的Apache 2.0许可证:无需担心 copyleft 限制或专利风险,可自由构建——非常适合实验、定制和商业部署。

推理示例

您可以像使用 gpt-oss-120b 和 gpt-oss-20b 一样使用 gpt-oss-safeguard-120b 和 gpt-oss-safeguard-20b,具体方法如我们相应的指南中所述。我们还提供了详细的提示词指南,其中包含如何制定您的策略以及如何将其与模型配合使用的指导原则。

下载模型

要从Hugging Face hub下载模型权重,请使用与 gpt-oss-120b类似的说明

加入ROOST模型社区

gpt-oss-safeguard 是稳健开放在线安全工具(ROOST)模型社区的模型合作伙伴。ROOST模型社区(RMC)是由一群安全从业人员组成的团体,他们致力于探索开源AI模型以保护在线空间。作为RMC的模型合作伙伴,OpenAI致力于吸纳用户反馈,并共同迭代未来版本,以追求开放安全。访问RMC GitHub repo了解更多关于此合作关系以及如何参与的信息。

资源

项目介绍

支持自定义安全策略的文本内容分类工具,提供可解释的推理过程,支持调整推理强度,适用于LLM内容过滤、在线内容标注等安全场景,Apache 2.0许可。【此简介由AI生成】

定制我的领域

下载使用量

0

项目总下载次数(含Clone、Pull、 zip 包及 release 下载),每日凌晨更新

语言类型

Jinja100%