sglang:基于多硬件生态的大语言模型与多模态模型高性能服务框架项目 - AtomGit

SGLang is a high-performance serving framework for large language models and multimodal models.

文件	最后提交记录	最后更新时间
.claude	[chore] Add no-getattr rule; refine no-dataclasses rule (#29871)	23 小时前
.devcontainer	[devcontainer] Fix build error (#23478) Co-authored-by: Chao Shi <chao.shi@alibaba-inc.com>	2 个月前
.github	[Apple Silicon] [CI] Add model-free unit-test workflow on macos-26 (#29691)	17 小时前
3rdparty	[Deps] Bump transformers to 5.12.1 (#29393)	2 天前
assets	[Feature] Hybrid EP and TP (#8590)	10 个月前
benchmark	chore: cleanup garbage code (#29770)	13 小时前
docker	[CPU] Fix model failures on Xeon (#29497)	16 小时前
docs	[CI] Move JIT kernel tests + benchmarks to test/registered/jit; add in-package guard (#27644)	23 天前
docs_new	[Doc] Cookbook Laguna-XS-2.1: add AIME25 accuracy (B300 + GB300) (#29974)	1 小时前
examples	[misc] Use --cuda-graph-max-bs-decode in tests, examples, and docs (#29591)	3 天前
experimental	chore: cleanup garbage code (#29770)	13 小时前
proto	feat: first-class session identity in SGLang (#29436)	4 天前
python	`session_id` dataclass field should not put in msgpack struct (#29977)	25 分钟前
rust	feat: first-class session identity in SGLang (#29436)	4 天前
scripts	chore: cleanup garbage code (#29770)	13 小时前
sgl-kernel	Fix wrong RMSNorm fallback to old Flashinfer CUDA kernel when in PCG (#29702) Co-authored-by: Brayden Zhong <brayden@radixark.ai>	4 小时前
sgl-model-gateway	chore: cleanup garbage code (#29770)	13 小时前
test	Fix UE8M0 scale rounding for DeepGEMM (#29956)	53 分钟前
.codespellrc	[Intel XPU] Initially add nightly GSM8K accuracy tests for Llama-3.1-8B (TP=2) and Qwen3-32B (TP=4) (#28908) Co-authored-by: Singhal, Shubham <shubham.singhal@intel.com>	1 天前
.coveragerc	[CI] Add ut coverage tool (#20628)	3 个月前
.dockerignore	feat: add .dockerignore to ignore files when build images (#16223)	5 个月前
.gitignore	[XPU] Enable NVIDIA-Nemotron-3-Nano-30B-A3B-BF16 on Intel XPU backend (#24390) Co-authored-by: Claude Opus 4.7 (1M context) <noreply@anthropic.com> Co-authored-by: gemini-code-assist[bot] <176961590+gemini-code-assist[bot]@users.noreply.github.com> Co-authored-by: Yao Matrix <matrix.yao@intel.com>	23 天前
.isort.cfg	[MLX] Support Qwen3.5 (dense) Model (#25754) Signed-off-by: Xiaodong Ye <yeahdongcn@gmail.com> Co-authored-by: Alex Nails <alex.nails@radixark.ai> Co-authored-by: Claude Opus 4.6 <noreply@anthropic.com>	1 个月前
.pre-commit-config.yaml	[CI] Enforce modern `stage=`/`runner_config=` form for dispatchable test suites (#28108)	19 天前
CODE_OF_CONDUCT.md	Add CODE_OF_CONDUCT.md (#28728) Co-authored-by: Claude Sonnet 4.6 (1M context) <noreply@anthropic.com>	13 天前
LICENSE	docs: fix module docstrings and copyright headers (#2077)	1 年前
README.md	docs: refresh README News section and add Modal to adoption list (#28330) Co-authored-by: Claude Opus 4.8 <noreply@anthropic.com>	16 天前

自动翻译

PyPI - Downloads

博客 | 文档 | 路线图 | 加入 Slack | 每周开发者会议 | 幻灯片

新闻

[2026/06] 🔥 下一代推测解码技术：DFlash 与 Spec V2 (博客)。
[2026/04] 🔥 DeepSeek-V4 零日支持：从快速推理到基于 SGLang 与 Miles 的可验证强化学习 (博客)。
[2026/06] SGLang 为最新开源模型提供零日支持 (Nemotron 3 Ultra, Nemotron 3 Super, Higgs Audio v3 TTS)。
[2026/02] 🔥 在 NVIDIA GB300 NVL72 上使用 SGLang 实现 25 倍推理性能提升 (博客)。
[2026/01] SGLang Diffusion 加速视频与图像生成 (博客)。
[2025/12] SGLang 为最新开源模型提供零日支持 (MiMo-V2-Flash, Nemotron 3 Nano, Mistral Large 3, LLaDA 2.0 Diffusion LLM, MiniMax M2)。
[2025/10] SGLang 现已通过 SGLang-Jax 后端原生支持 TPU (博客)。

[2025/09] 在 GB200 NVL72 上部署 DeepSeek：结合 PD 与大规模专家并行（第二部分）：预填充提速 3.8 倍，解码吞吐量提升 4.8 倍 (博客)。
[2025/09] SGLang 为 DeepSeek-V3.2 提供零日支持，包含稀疏注意力优化 (博客)。
[2025/08] SGLang x AMD 旧金山见面会（8 月 22 日）：GPU 实操工作坊、AMD/xAI/SGLang 技术分享与交流 (路线图, 大规模专家并行, 亮点回顾, AITER/MoRI, Wave)。
[2025/11] SGLang Diffusion 加速视频与图像生成 (博客)。
[2025/10] PyTorch Conference 2025 SGLang 演讲 (幻灯片)。
[2025/10] SGLang x Nvidia 旧金山见面会（10 月 2 日）(回顾)。
[2025/08] SGLang 为 OpenAI gpt-oss 模型提供零日支持 (使用说明)
[2025/06] SGLang 作为每日处理数万亿 tokens 的高性能服务基础设施，荣获 a16z 第三批开源 AI 资助 (a16z 博客)。
[2025/05] 在 96 张 H100 GPU 上结合 PD 解耦与大规模专家并行部署 DeepSeek (博客)。
[2025/06] 在 GB200 NVL72 上部署 DeepSeek：结合 PD 与大规模专家并行（第一部分）：解码吞吐量提升 2.7 倍 (博客)。
[2025/03] 在 AMD Instinct MI300X 上提升 DeepSeek-R1 推理性能 (AMD 博客)
[2025/03] SGLang 加入 PyTorch 生态系统：高效 LLM 服务引擎 (PyTorch 博客)
[2025/02] 在 AMD Instinct™ MI300X GPU 上释放 DeepSeek-R1 推理性能 (AMD 博客)
[2025/01] SGLang 为 NVIDIA 和 AMD GPU 上的 DeepSeek V3/R1 模型提供首日支持，并包含 DeepSeek 专属优化。(使用说明, AMD 博客, 十余家企业采用)
[2024/12] v0.4 版本发布：零开销批处理调度器、缓存感知负载均衡器、更快的结构化输出 (博客)。
[2024/10] 首届 SGLang 线上见面会 (幻灯片)。
[2024/09] v0.3 版本发布：DeepSeek MLA 提速 7 倍，torch.compile 提速 1.5 倍，支持多图像/视频的 LLaVA-OneVision (博客)。
[2024/07] v0.2 版本发布：借助 SGLang 运行时实现更快的 Llama3 服务（对比 TensorRT-LLM、vLLM）(博客)。
[2024/02] SGLang 通过压缩有限状态机实现 3 倍更快的 JSON 解码 (博客)。
[2024/01] SGLang 借助 RadixAttention 实现高达 5 倍的推理加速 (博客)。
[2024/01] SGLang 为官方 LLaVA v1.6 版本演示提供服务支持 (使用方法)。

关于

SGLang 是一款面向大型语言模型和多模态模型的高性能服务框架。它旨在从单 GPU 到大型分布式集群等各种环境中，提供低延迟、高吞吐量的推理服务。其核心特性包括：

高效运行时：通过 RadixAttention 实现前缀缓存，配合零开销 CPU 调度器、预填充-解码分离、投机解码、连续批处理、分页注意力、张量/流水线/专家/数据并行、结构化输出、分块预填充、量化（FP4/FP8/INT4/AWQ/GPTQ）以及多 LoRA 批处理，提供高效服务。
广泛模型支持：支持多种语言模型（Llama、Qwen、DeepSeek、Kimi、GLM、GPT、Gemma、Mistral 等）、嵌入模型（e5-mistral、gte、mcdse）、奖励模型（Skywork）和扩散模型（WAN、Qwen-Image），并可轻松扩展以添加新模型。兼容大多数 Hugging Face 模型和 OpenAI API。
丰富硬件支持：可运行于 NVIDIA GPU（GB200/B300/H100/A100/Spark/5090）、AMD GPU（MI355/MI300）、Intel Xeon CPU、Google TPU、昇腾 NPU 等多种硬件。
活跃社区：SGLang 是开源项目，拥有充满活力的社区支持和广泛的行业应用，为全球超过 40 万 GPU 提供支持。
强化学习与后训练基础：SGLang 是经过验证的部署后端，用于训练众多前沿模型，原生支持强化学习集成，并被知名后训练框架采用，如 AReaL、Miles、slime、Tunix、verl 等。

快速开始

基准测试与性能表现

更多信息请参见发布博客：v0.2 博客、v0.3 博客、v0.4 博客、大规模专家并行、GB200 机架级并行、GB300 长上下文。

应用与赞助

SGLang 已实现大规模部署，每天在生产环境中处理数万亿 tokens。它受到众多领先企业和机构的信任与采用，包括 xAI、AMD、NVIDIA、Intel、LinkedIn、Cursor、Oracle Cloud、Google Cloud、Microsoft Azure、AWS、Atlas Cloud、Voltage Park、Nebius、DataCrunch、Novita、InnoMatrix、Modal、麻省理工学院（MIT）、加州大学洛杉矶分校（UCLA）、华盛顿大学、斯坦福大学、加州大学伯克利分校、清华大学、Jam & Tea Studios、Baseten 以及其他主要技术组织。

作为一款开源的 LLM 推理引擎，SGLang 已成为事实上的行业标准，在全球范围内部署于超过 40 万台 GPU 上。

SGLang 目前由非营利开源组织 LMSYS 托管。

logo