expert-kit:基于异构硬件的分布式MoE LLM推理框架项目

Expert Kit is an efficient foundation of Expert Parallelism (EP) MoE model Inference on heterogenous hardware.

分支18Tags0
文件最后提交记录最后更新时间
10 个月前
1 年前
1 年前
10 个月前
9 个月前
10 个月前
9 个月前
7 个月前
9 个月前
2 个月前
9 个月前
7 个月前
1 年前
1 年前
1 年前
1 年前
10 个月前
1 年前
10 个月前
7 个月前
7 个月前
1 年前
7 个月前
1 年前
10 个月前
1 年前
10 个月前

Expert Kit:面向 MoE 大语言模型推理的分布式专家中心框架

Caution

早期开发中。本项目目前处于概念验证演示阶段,正在积极开发中。它不适合生产环境使用,可能包含重大错误、安全漏洞和意外行为。我们感谢社区在我们继续构建和完善此项目过程中提供的反馈和贡献。

GitHub project chat

关于

Expert Kit(EK) 是一个用于可扩展 MoE(混合专家)大语言模型推理的高性能框架。EK 的愿景是在异构硬件(如 CPU 和 GPU)上通过通用网络(如 PCIe、TCP、RDMA)提供高效的专家并行(EP)基础,从而实现轻松部署和细粒度的专家级扩展。

EK 采用专家 - 注意力(E/A)分离架构,使 MoE 大语言模型能够在由 x 个 CPU 和 y 个 GPU 组成的分布式环境中高效部署。 E/A 分离背后的动机源于我们的观察:在现代 MoE 大语言模型中,专家参数占模型大小的绝大部分(例如,在 DeepSeek - V3 中超过 90%)。 通过解耦专家模块并将其部署在分布式 GPU 和 CPU 上,EK 充分利用了分布式内存和存储系统的高带宽和大容量。

arch-illustration-light

https://github.com/user-attachments/assets/9f1f5b23-28fe-44cf-b592-2f6ad0ad4dad

快速开始

以下是一些教程,帮助您快速开始使用 Expert Kit。

  1. DeepSeek - tiny:一个采用 DeepSeek - V3 架构且参数数量较少的定制 MoE 模型,专为快速评估和测试 Expert Kit 框架而设计。
  2. DeepSeek - V3:使用 Expert Kit 运行 DeepSeek - V3 模型的演示,展示了该框架处理大规模 MoE 模型的能力。
  3. Qwen3 - 30B - A3B:使用 Expert Kit 运行 Qwen3 - 30B - A3B 模型的演示,展示了该框架处理实际 MoE 模型的能力。

核心特性

  • 低成本部署:支持分布式部署及 GPU 与 CPU 混合部署。
  • 细粒度专家级可扩展性:提供注意力与专家的独立扩展能力,并可根据需求对热门专家进行动态扩展

性能表现

模型 吞吐量(tokens/s) 环境配置
DeepSeek-V3 671B W8A16 14.26 1xNvidia 4090(24G) + 5xAMD EPYC 7302
Qwen3-MoE-30B FP16 36.38 1xNvidia A10(24G) + 1xAMD EPYC 7302 + 1xKunpeng 920

仓库结构

  • ek-computation:执行调度(前端)和计算(后端)任务。
  • ek-db:支持细粒度的专家权重注册与加载。
  • ek-benchmark:包含多个微基准测试,助您了解性能表现。
  • ek-solution:包含多个快速搭建运行集群的方案。

路线图

核心功能

  • 前端请求调度
    • 简易执行器
    • 可扩展执行器
    • 调度接口
  • 后端专家计算引擎
    • pytorch
    • onnxruntime
    • candle
  • 与现有框架集成以进行注意力计算
    • pytorch
    • vLLM
  • 前端与后端间的传输通道
    • gRPC
    • RDMA
    • DSM

联系我们

如有任何问题,请加入我们的讨论:https://expert-kit.zulipchat.com/,或提交新的 issues

许可协议

  • 主要许可:本项目整体采用 GNU GPL 3.0 许可。

  • 第三方组件

    • 第三方组件的许可和版权声明位于组件代码目录旁。
    • 包含以下组件:
      • DeepSeek-V3(代码/补充材料):位于 ek-integration/expertkit-torch/expertkit-torch/models/deepseek_v3/。此代码采用 DeepSeek 许可协议 v1.0MIT 许可。请注意,相关 DeepSeek 模型的使用受 DeepSeek 许可协议 v1.0 的附件 A 中详细说明的使用限制约束。
      • Qwen3-MoE:位于 ek-integration/expertkit-torch/expertkit-torch/models/。此代码采用 Apache License Version 2.0 许可。
  • 合规性:所有第三方组件均按照其原始许可条款使用。

项目介绍

Expert Kit is an efficient foundation of Expert Parallelism (EP) MoE model Inference on heterogenous hardware.

定制我的领域