PyTorch 场景的精度数据采集基线
"statistics"模式采集时间膨胀参考基线
该基线为PyTorch框架下,使用"statistics"模式采集数据性能膨胀的参考基线。本基线测试了单层 DeepSeek 大模型在不同采集模式8卡下的时间膨胀。
| 采集模式 |
无工具 (耗时) |
加工具但未使能 Dump (耗时) |
加工具并使能 Dump (耗时) |
加工具并使能 Md5 Dump (耗时) |
| L0 |
≈95.1 ms |
≈95.5 ms (无膨胀) |
≈420.0 ms (膨胀4.5倍) |
≈1011.3 s (膨胀10倍) |
| L1 |
≈95.1 ms |
≈115.8 ms (膨胀1.2倍) |
≈2469.0 ms (膨胀26倍) |
≈8636.0 s (膨胀90倍) |
| mix |
≈95.1 ms |
≈117.8 ms (膨胀1.2倍) |
≈3635.4 ms (膨胀38倍) |
≈10698.3 s (膨胀112倍) |
"tensor"模式采集数据量参考基线
该基线为PyTorch框架下,使用"tensor"模式采集数据量参考基线。本基线测试了两个模型,分别为LLAMA2-7B和LLAMA2-13B,测试了不同采集模式下,不同global_batch_size下,单卡和8卡下,数据量的变化。
LLAMA2-7B
| 采集模式 | global_batch_size | 单卡 | 8卡 |
L0 | 1 | 7.8GB | 63GB |
| 2 | 16GB | 125GB |
| 3 | 24GB | 187GB |
L1 | 1 | 300.8GB | 2.3TB |
| 2 | 480GB | 3.6TB |
| 3 | 640GB | 4.9TB |
mix | 1 | 313.6GB | 2.4TB |
| 2 | 512GB | 3.8TB |
| 3 | 672GB | 5.1TB |
LLAMA2-13B
| 采集模式 | global_batch_size | 单卡 | 8卡 |
L0 | 1 | 13GB | 97GB |
| 2 | 25GB | 194GB |
| 3 | 37GB | 291GB |
L1 | 1 | 440GB | 3.4TB |
| 2 | 720GB | 5.4TB |
| 3 | 960GB | 7.3TB |
mix | 1 | 480GB | 3.6TB |
| 2 | 720GB | 5.6TB |
| 3 | 1000GB | 7.7TB |