SGLang is a high-performance serving framework for large language models and multimodal models.
| 文件 | 最后提交记录 | 最后更新时间 |
|---|---|---|
| 23 小时前 | ||
| 2 个月前 | ||
| 17 小时前 | ||
| 2 天前 | ||
| 10 个月前 | ||
| 13 小时前 | ||
| 16 小时前 | ||
| 23 天前 | ||
| 1 小时前 | ||
| 3 天前 | ||
| 13 小时前 | ||
| 4 天前 | ||
| 25 分钟前 | ||
| 4 天前 | ||
| 13 小时前 | ||
| 4 小时前 | ||
| 13 小时前 | ||
| 53 分钟前 | ||
| 1 天前 | ||
| 3 个月前 | ||
| 5 个月前 | ||
| 23 天前 | ||
| 1 个月前 | ||
| 19 天前 | ||
| 13 天前 | ||
| 1 年前 | ||
| 16 天前 |
博客 | 文档 | 路线图 | 加入 Slack | 每周开发者会议 | 幻灯片
新闻
- [2026/06] 🔥 下一代推测解码技术:DFlash 与 Spec V2 (博客)。
- [2026/04] 🔥 DeepSeek-V4 零日支持:从快速推理到基于 SGLang 与 Miles 的可验证强化学习 (博客)。
- [2026/06] SGLang 为最新开源模型提供零日支持 (Nemotron 3 Ultra, Nemotron 3 Super, Higgs Audio v3 TTS)。
- [2026/02] 🔥 在 NVIDIA GB300 NVL72 上使用 SGLang 实现 25 倍推理性能提升 (博客)。
- [2026/01] SGLang Diffusion 加速视频与图像生成 (博客)。
- [2025/12] SGLang 为最新开源模型提供零日支持 (MiMo-V2-Flash, Nemotron 3 Nano, Mistral Large 3, LLaDA 2.0 Diffusion LLM, MiniMax M2)。
- [2025/10] SGLang 现已通过 SGLang-Jax 后端原生支持 TPU (博客)。
更多
-
[2025/09] 在 GB200 NVL72 上部署 DeepSeek:结合 PD 与大规模专家并行(第二部分):预填充提速 3.8 倍,解码吞吐量提升 4.8 倍 (博客)。
-
[2025/09] SGLang 为 DeepSeek-V3.2 提供零日支持,包含稀疏注意力优化 (博客)。
-
[2025/08] SGLang x AMD 旧金山见面会(8 月 22 日):GPU 实操工作坊、AMD/xAI/SGLang 技术分享与交流 (路线图, 大规模专家并行, 亮点回顾, AITER/MoRI, Wave)。
-
[2025/11] SGLang Diffusion 加速视频与图像生成 (博客)。
-
[2025/10] PyTorch Conference 2025 SGLang 演讲 (幻灯片)。
-
[2025/10] SGLang x Nvidia 旧金山见面会(10 月 2 日)(回顾)。
-
[2025/08] SGLang 为 OpenAI gpt-oss 模型提供零日支持 (使用说明)
-
[2025/06] SGLang 作为每日处理数万亿 tokens 的高性能服务基础设施,荣获 a16z 第三批开源 AI 资助 (a16z 博客)。
-
[2025/05] 在 96 张 H100 GPU 上结合 PD 解耦与大规模专家并行部署 DeepSeek (博客)。
-
[2025/06] 在 GB200 NVL72 上部署 DeepSeek:结合 PD 与大规模专家并行(第一部分):解码吞吐量提升 2.7 倍 (博客)。
-
[2025/03] 在 AMD Instinct MI300X 上提升 DeepSeek-R1 推理性能 (AMD 博客)
-
[2025/03] SGLang 加入 PyTorch 生态系统:高效 LLM 服务引擎 (PyTorch 博客)
-
[2025/02] 在 AMD Instinct™ MI300X GPU 上释放 DeepSeek-R1 推理性能 (AMD 博客)
-
[2025/01] SGLang 为 NVIDIA 和 AMD GPU 上的 DeepSeek V3/R1 模型提供首日支持,并包含 DeepSeek 专属优化。(使用说明, AMD 博客, 十余家企业采用)
-
[2024/12] v0.4 版本发布:零开销批处理调度器、缓存感知负载均衡器、更快的结构化输出 (博客)。
-
[2024/10] 首届 SGLang 线上见面会 (幻灯片)。
-
[2024/09] v0.3 版本发布:DeepSeek MLA 提速 7 倍,torch.compile 提速 1.5 倍,支持多图像/视频的 LLaVA-OneVision (博客)。
-
[2024/07] v0.2 版本发布:借助 SGLang 运行时实现更快的 Llama3 服务(对比 TensorRT-LLM、vLLM)(博客)。
-
[2024/02] SGLang 通过压缩有限状态机实现 3 倍更快的 JSON 解码 (博客)。
-
[2024/01] SGLang 借助 RadixAttention 实现高达 5 倍的推理加速 (博客)。
-
[2024/01] SGLang 为官方 LLaVA v1.6 版本演示提供服务支持 (使用方法)。
关于
SGLang 是一款面向大型语言模型和多模态模型的高性能服务框架。它旨在从单 GPU 到大型分布式集群等各种环境中,提供低延迟、高吞吐量的推理服务。其核心特性包括:
- 高效运行时:通过 RadixAttention 实现前缀缓存,配合零开销 CPU 调度器、预填充-解码分离、投机解码、连续批处理、分页注意力、张量/流水线/专家/数据并行、结构化输出、分块预填充、量化(FP4/FP8/INT4/AWQ/GPTQ)以及多 LoRA 批处理,提供高效服务。
- 广泛模型支持:支持多种语言模型(Llama、Qwen、DeepSeek、Kimi、GLM、GPT、Gemma、Mistral 等)、嵌入模型(e5-mistral、gte、mcdse)、奖励模型(Skywork)和扩散模型(WAN、Qwen-Image),并可轻松扩展以添加新模型。兼容大多数 Hugging Face 模型和 OpenAI API。
- 丰富硬件支持:可运行于 NVIDIA GPU(GB200/B300/H100/A100/Spark/5090)、AMD GPU(MI355/MI300)、Intel Xeon CPU、Google TPU、昇腾 NPU 等多种硬件。
- 活跃社区:SGLang 是开源项目,拥有充满活力的社区支持和广泛的行业应用,为全球超过 40 万 GPU 提供支持。
- 强化学习与后训练基础:SGLang 是经过验证的部署后端,用于训练众多前沿模型,原生支持强化学习集成,并被知名后训练框架采用,如 AReaL、Miles、slime、Tunix、verl 等。
快速开始
基准测试与性能表现
更多信息请参见发布博客:v0.2 博客、v0.3 博客、v0.4 博客、大规模专家并行、GB200 机架级并行、GB300 长上下文。
应用与赞助
SGLang 已实现大规模部署,每天在生产环境中处理数万亿 tokens。它受到众多领先企业和机构的信任与采用,包括 xAI、AMD、NVIDIA、Intel、LinkedIn、Cursor、Oracle Cloud、Google Cloud、Microsoft Azure、AWS、Atlas Cloud、Voltage Park、Nebius、DataCrunch、Novita、InnoMatrix、Modal、麻省理工学院(MIT)、加州大学洛杉矶分校(UCLA)、华盛顿大学、斯坦福大学、加州大学伯克利分校、清华大学、Jam & Tea Studios、Baseten 以及其他主要技术组织。
作为一款开源的 LLM 推理引擎,SGLang 已成为事实上的行业标准,在全球范围内部署于超过 40 万台 GPU 上。
SGLang 目前由非营利开源组织 LMSYS 托管。

联系我们
对于有兴趣大规模采用或部署 SGLang 的企业,包括技术咨询、赞助机会或合作咨询,请通过 sglang@lmsys.org 与我们联系。
长期活跃的 SGLang 贡献者有资格获得编码工具赞助,例如 Cursor、Claude Code 或 OpenAI Codex。请将您最重要的提交或拉取请求发送至 sglang@lmsys.org。
致谢
我们从以下项目中学习了设计理念并复用了部分代码:Guidance、vLLM、LightLLM、FlashInfer、Outlines 和 LMQL。
项目介绍
SGLang 是一种为大型语言模型(LLMs)设计的结构化生成语言。它能加快您与模型的互动,并使互动过程更加可控。【此简介由AI生成】