Star61

Star61

ascend-robot优化 msModeling README 与中英文文档结构

dbf81279创建于 16 天前历史提交

ServingCast 使用指南

简介

ServingCast 是一套用于系统级推理服务仿真与吞吐优化的工具集。

适用对象

本文适用于需要评估大模型服务部署方案的开发者、性能工程师和容量规划人员。阅读本文前，建议先完成《msModeling 安装指南》中的环境搭建。

组件

ServingCast 由两个主要组件构成：

组件	主要目标	推荐阅读
吞吐优化器	在 TTFT / TPOT 等 SLO 约束下搜索最优并行策略、batch 和吞吐	吞吐优化指南
服务仿真	基于 YAML 配置模拟多实例、多请求的端到端 serving 场景	服务仿真指南

1. 吞吐优化器

吞吐优化器可在指定 SLO 约束（例如 TTFT、TPOT 上限）下，自动搜索最优模型配置（并行策略、批大小），以最大化 token 吞吐。

适用场景：

硬件规划：在部署前，针对特定硬件上的给定模型，确定最优并行策略（TP/DP/PP）与批大小
SLO 约束下的优化：在满足延迟要求（TTFT/TPOT 限制）的前提下，寻找吞吐最大化的配置
PD 分离服务设计：独立优化 Prefill 与 Decode 阶段，并计算最优 Prefill / Decode 实例配比

主要特性：

PD 混部：优化 Prefill-Decode 合一的服务架构
PD 分离：将 Prefill 与 Decode 阶段分离，进行独立优化
PD 配比：计算使系统吞吐最大的 Prefill 与 Decode 实例比例

详见吞吐优化指南。

2. 服务仿真

服务仿真基于 YAML 配置文件，对多实例、多请求的端到端服务场景进行仿真，并输出系统级指标，如吞吐、延迟（TTFT、TPOT）。

适用场景：

系统行为验证：在实际部署前，验证某套服务配置的预期性能
多实例基准测试：仿真复杂服务拓扑，例如独立的 Prefill 与 Decode 集群
负载分析：在特定请求模式与负载特征下评估系统性能
资源规划：确定满足目标吞吐所需的实例数量及其配置

主要特性：

基于 YAML 的实例与负载配置
支持异构实例组
全面指标：端到端延迟、TTFT、TPOT、token 吞吐

详见服务仿真指南。