PyTorch 场景的精度数据采集基线

"statistics"模式采集时间膨胀参考基线

该基线为PyTorch框架下,使用"statistics"模式采集数据性能膨胀的参考基线。本基线测试了单层 DeepSeek 大模型在不同采集模式8卡下的时间膨胀。

采集模式 无工具 (耗时) 加工具但未使能 Dump (耗时) 加工具并使能 Dump (耗时) 加工具并使能 Md5 Dump (耗时)
L0 ≈95.1 ms ≈95.5 ms (无膨胀) ≈420.0 ms (膨胀4.5倍) ≈1011.3 s (膨胀10倍)
L1 ≈95.1 ms ≈115.8 ms (膨胀1.2倍) ≈2469.0 ms (膨胀26倍) ≈8636.0 s (膨胀90倍)
mix ≈95.1 ms ≈117.8 ms (膨胀1.2倍) ≈3635.4 ms (膨胀38倍) ≈10698.3 s (膨胀112倍)

"tensor"模式采集数据量参考基线

该基线为PyTorch框架下,使用"tensor"模式采集数据量参考基线。本基线测试了两个模型,分别为LLAMA2-7B和LLAMA2-13B,测试了不同采集模式下,不同global_batch_size下,单卡和8卡下,数据量的变化。

LLAMA2-7B

采集模式global_batch_size单卡8卡
L017.8GB63GB
216GB125GB
324GB187GB
L11300.8GB2.3TB
2480GB3.6TB
3640GB4.9TB
mix1313.6GB2.4TB
2512GB3.8TB
3672GB5.1TB

LLAMA2-13B

采集模式global_batch_size单卡8卡
L0113GB97GB
225GB194GB
337GB291GB
L11440GB3.4TB
2720GB5.4TB
3960GB7.3TB
mix1480GB3.6TB
2720GB5.6TB
31000GB7.7TB