| Dump 模块 |
Dump 模块整体设计:架构分层、RT1.0/RT2.0 适配、HCCL 处理、动态开关 |
| 外置权重 |
FileConstant 特性:权重从 OM 分离存储、编译期 Const→FileConstant 转换、RT V1/V2 加载流程、内存管理、全局权重管理器 |
| 常量折叠 |
常量折叠优化:编译期常量表达式求值、维度计算、空张量替换、延迟生效机制、多编译阶段流水线 |
| 融合 Pattern Pass |
融合 Pattern Pass 机制:PatternFusionPass / DecomposePass 的匹配、过滤、替换、执行阶段和 Python/C++ 接入关系 |
| 动态分档 |
动态分档特性:动态 Batch / 动态分辨率 / ND 任意维度三种模式、档位枚举、静态子图生成与运行时分发 |
| 内存冲突处理 |
内存冲突防护体系:语义读写冲突、内存布局冲突、子图地址隔离、Inplace 复用冲突、多流并发管理 |
| 模型缓存 |
编译结果持久化机制:图编译缓存、JIT 编译缓存、算子模型缓存三级体系、缓存命中与失效策略 |
| Profiling |
性能采集与可观测性:分层采集架构(API/Host/Device)、按需使能、msprof 统一上报 |
| SO in OM |
算子自包含打包:将依赖的算子 .so 按需打包进 OM 文件、消除运行时对 OPP 算子包的依赖 |
| TensorMove 消除 |
TensorMove 冗余节点消除优化:识别并删除冗余内存拷贝节点、O3 优化级别 |
| 变量管理 |
变量生命周期管理:注册、内存分配、格式转换、逻辑地址映射、序列化/反序列化全流程 |
| 零拷贝 |
零拷贝特性:输入零拷贝(消除 H2D)、输出零拷贝(消除 D2H/D2D)、编译期规划与运行时执行 |
| Concat No Task |
Concat 连续内存优化:编译期识别输入连续的 Concat 算子,标记为虚拟算子跳过 Task 生成和内存搬运 |
| GE Local 算子 |
GE Local 引擎:承载非计算型节点(Data、Constant、控制流、形状变换等)的专用引擎,运行期零计算开销 |
| 引擎 |
Engine 引擎体系:插件化引擎架构、优先级驱动自动选择、编译期引擎注册与分区、运行时分发 |
| Tiling 下沉 |
Tiling 下沉特性:将 Tiling 计算从 Host 搬到 Device AICPU 执行,消除 Host-Device 同步开销 |
| 图拆分 |
图拆分特性:动静 Shape 拆分、引擎级拆分、流水线阶段拆分、JIT 增量拆分 |
| 静态执行器 |
静态子图执行器:Task Sink 预分发、DavinciModel 加载/执行、混合执行模式地址刷新 |
| 动态执行器 |
RT2.0 动态 Shape 执行器:Lowering 机制、ExecuteGraph、ModelV2Executor、三子图生命周期、Kernel 注册系统 |
| Stream Allocator |
流分配特性:逻辑流分配、同步事件管理、物理流拆分、流激活机制 |
| InferShape |
Shape 推导:OriginShape/StorageShape 双体系、编译期 InferShapePass、运行时推导节点、符号化推导 |
| Format 推导 |
格式推导:OriginFormat 锚点扩散推导、StorageFormat 自动选择、TransData 插入优化 |