PyTorch 场景的精度数据采集基线
"statistics"模式采集时间膨胀参考基线
该基线为PyTorch框架下,使用"statistics"模式且risk_level为ALL采集数据性能膨胀的参考基线。本基线测试了16层Llama 2大模型在不同采集模式4卡下的时间膨胀。 使用Mindspeed-llm框架运行,核心配置为seq-length为8192,mbs为2,gbs为32。
| 采集模式 | 无工具 (耗时) | 加工具并使能 Dump (耗时) | 加工具并使能 Md5 Dump (耗时) |
|---|---|---|---|
| L0 | ≈6406 ms | ≈10356 ms (膨胀1.6倍) | ≈36492 ms (膨胀5.7倍) |
| L1 | ≈6406 ms | ≈30890 ms (膨胀4.8倍) | ≈122285 ms (膨胀19倍) |
| mix | ≈6406 ms | ≈35986 ms (膨胀5.6倍) | ≈155236 ms (膨胀24倍) |
"tensor"模式采集数据量参考基线
该基线为PyTorch框架下,使用"tensor"模式采集数据量参考基线。本基线测试了两个模型,分别为LLAMA2-7B和LLAMA2-13B,测试了不同采集模式下,不同global_batch_size下,单卡和8卡下,数据量的变化。
LLAMA2-7B
| 采集模式 | global_batch_size | 单卡 | 8卡 |
|---|---|---|---|
| L0 | 1 | 7.8GB | 63GB |
| 2 | 16GB | 125GB | |
| 3 | 24GB | 187GB | |
| L1 | 1 | 300.8GB | 2.3TB |
| 2 | 480GB | 3.6TB | |
| 3 | 640GB | 4.9TB | |
| mix | 1 | 313.6GB | 2.4TB |
| 2 | 512GB | 3.8TB | |
| 3 | 672GB | 5.1TB |
LLAMA2-13B
| 采集模式 | global_batch_size | 单卡 | 8卡 |
|---|---|---|---|
| L0 | 1 | 13GB | 97GB |
| 2 | 25GB | 194GB | |
| 3 | 37GB | 291GB | |
| L1 | 1 | 440GB | 3.4TB |
| 2 | 720GB | 5.4TB | |
| 3 | 960GB | 7.3TB | |
| mix | 1 | 480GB | 3.6TB |
| 2 | 720GB | 5.6TB | |
| 3 | 1000GB | 7.7TB |