sglang:基于多硬件生态的大语言模型与多模态模型高性能服务框架项目

SGLang is a high-performance serving framework for large language models and multimodal models.

分支1037Tags157
文件最后提交记录最后更新时间
23 小时前
2 个月前
17 小时前
2 天前
10 个月前
13 小时前
16 小时前
23 天前
1 小时前
3 天前
13 小时前
4 天前
25 分钟前
4 天前
13 小时前
4 小时前
13 小时前
53 分钟前
1 天前
3 个月前
5 个月前
23 天前
1 个月前
19 天前
13 天前
1 年前
16 天前
logo

PyPI PyPI - Downloads license issue resolution open issues Ask DeepWiki


博客 | 文档 | 路线图 | 加入 Slack | 每周开发者会议 | 幻灯片

新闻

更多
  • [2025/09] 在 GB200 NVL72 上部署 DeepSeek:结合 PD 与大规模专家并行(第二部分):预填充提速 3.8 倍,解码吞吐量提升 4.8 倍 (博客)。

  • [2025/09] SGLang 为 DeepSeek-V3.2 提供零日支持,包含稀疏注意力优化 (博客)。

  • [2025/08] SGLang x AMD 旧金山见面会(8 月 22 日):GPU 实操工作坊、AMD/xAI/SGLang 技术分享与交流 (路线图, 大规模专家并行, 亮点回顾, AITER/MoRI, Wave)。

  • [2025/11] SGLang Diffusion 加速视频与图像生成 (博客)。

  • [2025/10] PyTorch Conference 2025 SGLang 演讲 (幻灯片)。

  • [2025/10] SGLang x Nvidia 旧金山见面会(10 月 2 日)(回顾)。

  • [2025/08] SGLang 为 OpenAI gpt-oss 模型提供零日支持 (使用说明)

  • [2025/06] SGLang 作为每日处理数万亿 tokens 的高性能服务基础设施,荣获 a16z 第三批开源 AI 资助 (a16z 博客)。

  • [2025/05] 在 96 张 H100 GPU 上结合 PD 解耦与大规模专家并行部署 DeepSeek (博客)。

  • [2025/06] 在 GB200 NVL72 上部署 DeepSeek:结合 PD 与大规模专家并行(第一部分):解码吞吐量提升 2.7 倍 (博客)。

  • [2025/03] 在 AMD Instinct MI300X 上提升 DeepSeek-R1 推理性能 (AMD 博客)

  • [2025/03] SGLang 加入 PyTorch 生态系统:高效 LLM 服务引擎 (PyTorch 博客)

  • [2025/02] 在 AMD Instinct™ MI300X GPU 上释放 DeepSeek-R1 推理性能 (AMD 博客)

  • [2025/01] SGLang 为 NVIDIA 和 AMD GPU 上的 DeepSeek V3/R1 模型提供首日支持,并包含 DeepSeek 专属优化。(使用说明, AMD 博客, 十余家企业采用)

  • [2024/12] v0.4 版本发布:零开销批处理调度器、缓存感知负载均衡器、更快的结构化输出 (博客)。

  • [2024/10] 首届 SGLang 线上见面会 (幻灯片)。

  • [2024/09] v0.3 版本发布:DeepSeek MLA 提速 7 倍,torch.compile 提速 1.5 倍,支持多图像/视频的 LLaVA-OneVision (博客)。

  • [2024/07] v0.2 版本发布:借助 SGLang 运行时实现更快的 Llama3 服务(对比 TensorRT-LLM、vLLM)(博客)。

  • [2024/02] SGLang 通过压缩有限状态机实现 3 倍更快的 JSON 解码 (博客)。

  • [2024/01] SGLang 借助 RadixAttention 实现高达 5 倍的推理加速 (博客)。

  • [2024/01] SGLang 为官方 LLaVA v1.6 版本演示提供服务支持 (使用方法)。

关于

SGLang 是一款面向大型语言模型和多模态模型的高性能服务框架。它旨在从单 GPU 到大型分布式集群等各种环境中,提供低延迟、高吞吐量的推理服务。其核心特性包括:

  • 高效运行时:通过 RadixAttention 实现前缀缓存,配合零开销 CPU 调度器、预填充-解码分离、投机解码、连续批处理、分页注意力、张量/流水线/专家/数据并行、结构化输出、分块预填充、量化(FP4/FP8/INT4/AWQ/GPTQ)以及多 LoRA 批处理,提供高效服务。
  • 广泛模型支持:支持多种语言模型(Llama、Qwen、DeepSeek、Kimi、GLM、GPT、Gemma、Mistral 等)、嵌入模型(e5-mistral、gte、mcdse)、奖励模型(Skywork)和扩散模型(WAN、Qwen-Image),并可轻松扩展以添加新模型。兼容大多数 Hugging Face 模型和 OpenAI API。
  • 丰富硬件支持:可运行于 NVIDIA GPU(GB200/B300/H100/A100/Spark/5090)、AMD GPU(MI355/MI300)、Intel Xeon CPU、Google TPU、昇腾 NPU 等多种硬件。
  • 活跃社区:SGLang 是开源项目,拥有充满活力的社区支持和广泛的行业应用,为全球超过 40 万 GPU 提供支持。
  • 强化学习与后训练基础:SGLang 是经过验证的部署后端,用于训练众多前沿模型,原生支持强化学习集成,并被知名后训练框架采用,如 AReaLMilesslimeTunixverl 等。

快速开始

基准测试与性能表现

更多信息请参见发布博客:v0.2 博客v0.3 博客v0.4 博客大规模专家并行GB200 机架级并行GB300 长上下文

应用与赞助

SGLang 已实现大规模部署,每天在生产环境中处理数万亿 tokens。它受到众多领先企业和机构的信任与采用,包括 xAI、AMD、NVIDIA、Intel、LinkedIn、Cursor、Oracle Cloud、Google Cloud、Microsoft Azure、AWS、Atlas Cloud、Voltage Park、Nebius、DataCrunch、Novita、InnoMatrix、Modal、麻省理工学院(MIT)、加州大学洛杉矶分校(UCLA)、华盛顿大学、斯坦福大学、加州大学伯克利分校、清华大学、Jam & Tea Studios、Baseten 以及其他主要技术组织。

作为一款开源的 LLM 推理引擎,SGLang 已成为事实上的行业标准,在全球范围内部署于超过 40 万台 GPU 上。

SGLang 目前由非营利开源组织 LMSYS 托管。

logo

联系我们

对于有兴趣大规模采用或部署 SGLang 的企业,包括技术咨询、赞助机会或合作咨询,请通过 sglang@lmsys.org 与我们联系。

长期活跃的 SGLang 贡献者有资格获得编码工具赞助,例如 Cursor、Claude Code 或 OpenAI Codex。请将您最重要的提交或拉取请求发送至 sglang@lmsys.org

致谢

我们从以下项目中学习了设计理念并复用了部分代码:GuidancevLLMLightLLMFlashInferOutlinesLMQL

项目介绍

SGLang 是一种为大型语言模型(LLMs)设计的结构化生成语言。它能加快您与模型的互动,并使互动过程更加可控。【此简介由AI生成】

定制我的领域
16129.9 K6.88 K访问 GitHub