gpt-oss-safeguard-20b:基于自定义安全策略的文本分类与安全推理模型

支持自定义安全策略的文本内容分类工具，提供可解释的推理过程，支持调整推理强度，适用于LLM内容过滤、在线内容标注等安全场景，Apache 2.0许可。【此简介由AI生成】

011b429c创建于 2025年10月29日7次提交

文件	最后提交记录	最后更新时间
.gitattributes	Upload folder using huggingface_hub	6 个月前
LICENSE	Upload folder using huggingface_hub	6 个月前
README.md	Upload folder using huggingface_hub	6 个月前
USAGE_POLICY	Upload folder using huggingface_hub	6 个月前
chat_template.jinja	Update chat_template.jinja	6 个月前
chat_template.json	Update chat_template.json	6 个月前
config.json	Upload folder using huggingface_hub	6 个月前
generation_config.json	Upload folder using huggingface_hub	6 个月前
model-00000-of-00002.safetensorsLFS	Upload folder using huggingface_hub	6 个月前
model-00001-of-00002.safetensorsLFS	Upload folder using huggingface_hub	6 个月前
model-00002-of-00002.safetensorsLFS	Upload folder using huggingface_hub	6 个月前
model.safetensors.index.json	Upload folder using huggingface_hub	6 个月前
special_tokens_map.json	Upload folder using huggingface_hub	6 个月前
tokenizer.jsonLFS	Upload folder using huggingface_hub	6 个月前
tokenizer_config.json	Update tokenizer_config.json	6 个月前

自动翻译

license: apache-2.0 pipeline_tag: text-generation library_name: transformers tags:

vllm
unsloth base_model:
openai/gpt-oss-safeguard-20b base_model_relation: finetune

Unsloth Dynamic 2.0 实现了卓越的准确性，性能超越其他主流量化方法。

gpt-oss-safeguard-20b

试用 gpt-oss-safeguard · 指南 · 模型卡片 · OpenAI 博客

gpt-oss-safeguard-120b 和 gpt-oss-safeguard-20b 是基于 gpt-oss 构建的安全推理模型。借助这些模型，您可以根据提供的安全策略对文本内容进行分类，并执行一系列基础安全任务。这些模型专为安全相关使用场景设计。对于其他应用，我们建议使用 gpt-oss 模型。

本模型 gpt-oss-safeguard-20b（210 亿参数，含 36 亿激活参数）可在配备 16GB 显存的 GPU 中运行。更大规模的模型可查看 gpt-oss-safeguard-120b（1170 亿参数，含 51 亿激活参数）。

两款模型均基于我们的 harmony 响应格式训练，且仅应配合 harmony 格式使用，否则无法正常工作。

亮点

专为安全推理训练：针对安全推理进行训练和调优，以适应LLM输入输出过滤、在线内容标注以及信任与安全相关离线标注等使用场景。
自带策略：能够解读您编写的策略，因此只需最少的工程投入，即可在不同产品和使用场景中实现通用化。
有理有据的决策，而非仅仅是分数：完全访问模型的推理过程，便于更轻松地进行调试，并增强对策略决策的信任。请记住，Raw CoT专为开发人员和安全从业人员设计，不旨在向普通用户开放或用于安全场景之外的其他用途。
可配置的推理力度：根据您的特定使用场景和延迟需求，轻松调整推理力度（低、中、高）。
宽松的Apache 2.0许可证：无需担心 copyleft 限制或专利风险，可自由构建——非常适合实验、定制和商业部署。

推理示例

您可以像使用 gpt-oss-120b 和 gpt-oss-20b 一样使用 gpt-oss-safeguard-120b 和 gpt-oss-safeguard-20b，具体方法如我们相应的指南中所述。我们还提供了详细的提示词指南，其中包含如何制定您的策略以及如何将其与模型配合使用的指导原则。

下载模型

要从Hugging Face hub下载模型权重，请使用与 gpt-oss-120b类似的说明。

加入ROOST模型社区

gpt-oss-safeguard 是稳健开放在线安全工具（ROOST）模型社区的模型合作伙伴。ROOST模型社区（RMC）是由一群安全从业人员组成的团体，他们致力于探索开源AI模型以保护在线空间。作为RMC的模型合作伙伴，OpenAI致力于吸纳用户反馈，并共同迭代未来版本，以追求开放安全。访问RMC GitHub repo了解更多关于此合作关系以及如何参与的信息。