Profiler
1.3.3
- 子图前向代码动态提取
1.3.1b
- 根据脚本动态生成profile范围
- 校正子图wrap逻辑,自动化生成attention_mask
1.3.0
- 适配ModelLink 1.0.RC3(对应袁明明方式的ModelLink-1.2)
- 使用block adapter重构mcore block
1.2.2A (adapter)
- 使用adapter封装对训练框架的import
- 4block: 使用block adapter重构legacy block
1.2.2
- 张量信息自动提取
- 在
barrier之后再多跑一轮预热,并将event.start()放在预热后 - 将
host侧time.time()时间测量方式修改为torch.cuda.Event的elapsed_time测量方式,去除所有synchronize操作 - 在时间测量前新增
barrier同步各设备
1.2.0
- 适配ModelLink 1.0.RC2(对应原命名方式的ModelLink-1.1)
Optimizer
1.3.0
- 入口改造
- 修复并行策略重复问题
1.2.0
- 调整
dist_opt切分内容:2阶优化器状态、全精度权重参数 - 调整
reserved内存仿真逻辑 - 增加
attention_mask内存占用仿真 - 调整
recompute内存仿真,开启时保留input内存占用