tp-sp
==========
TP-SP是Megatron-LM框架最早提出的一种序列并行技术,是基于Megatron TP基础上,继续对Transformer模型的 ``Dropout`` 和 ``LayerNorm`` 模块进一步做序列切分,
| **论文链接**: https://arxiv.org/pdf/2205.05198
.. image::
../_static/features/cp/tp-sp.png
:width: 600px
:align: center
使用
使用方式
--------------
.. raw:: html
<!DOCTYPE html>
<html lang="zh-CN">
<head>
<meta charset="UTF-8">
<meta name="viewport" content="width=device-width, initial-scale=1.0">
<title>长序列并行参数说明</title>
</head>
<body>
<div class="container">
<table>
<thead>
<tr>
<th width="350">配置参数</th>
<th>参数说明</th>
</tr>
</thead>
<tbody>
<tr>
<td>
<span class="param-name">--tensor-model-parallel-size [int]</span>
</td>
<td>
<span class="required">必选</span>,设置TP并行度,SP和TP同并行度。
</td>
</tr>
<tr>
<td>
<span class="param-name">--sequence-parallel</span>
</td>
<td>
<span class="required">必选</span>,设置SP并行<br><br>
</td>
</tr>
<tr>
<td>
<span class="param-name">--use-ascend-mc2</span>
</td>
<td>
<span class="optional">可选,</span>在开启TP和SP的训练场景下,matmul和all_gather/reduce_scatter计算和通信算子融合,减少内存开销并提高计算效率<br><br>
</td>
</tr>
</tbody>
</table>
</div>
</body>
</html>
|
.. note::
MoE类模型暂不支持开启--use-ascend-mc2