PyTorch 场景的精度数据采集基线

"statistics"模式采集时间膨胀参考基线

该基线为PyTorch框架下,使用"statistics"模式且risk_level为ALL采集数据性能膨胀的参考基线。本基线测试了16层Llama 2大模型在不同采集模式4卡下的时间膨胀。 使用Mindspeed-llm框架运行,核心配置为seq-length为8192,mbs为2,gbs为32。

采集模式 无工具 (耗时) 加工具并使能 Dump (耗时) 加工具并使能 Md5 Dump (耗时)
L0 ≈6406 ms ≈10356 ms (膨胀1.6倍) ≈36492 ms (膨胀5.7倍)
L1 ≈6406 ms ≈30890 ms (膨胀4.8倍) ≈122285 ms (膨胀19倍)
mix ≈6406 ms ≈35986 ms (膨胀5.6倍) ≈155236 ms (膨胀24倍)

"tensor"模式采集数据量参考基线

该基线为PyTorch框架下,使用"tensor"模式采集数据量参考基线。本基线测试了两个模型,分别为LLAMA2-7B和LLAMA2-13B,测试了不同采集模式下,不同global_batch_size下,单卡和8卡下,数据量的变化。

LLAMA2-7B

采集模式 global_batch_size 单卡 8卡
L0 1 7.8GB 63GB
2 16GB 125GB
3 24GB 187GB
L1 1 300.8GB 2.3TB
2 480GB 3.6TB
3 640GB 4.9TB
mix 1 313.6GB 2.4TB
2 512GB 3.8TB
3 672GB 5.1TB

LLAMA2-13B

采集模式 global_batch_size 单卡 8卡
L0 1 13GB 97GB
2 25GB 194GB
3 37GB 291GB
L1 1 440GB 3.4TB
2 720GB 5.4TB
3 960GB 7.3TB
mix 1 480GB 3.6TB
2 720GB 5.6TB
3 1000GB 7.7TB