ascend-robotdocs(pytorch): doc fix error

MindSpore框架模型支持列表

MindSpore框架根据模型实现方式分为稠密模型和稀疏模型，详情请查看以下支持列表。

表格字段说明：

模型：模型名称

下载链接：模型权重下载地址，点击可直接访问Hugging Face等模型仓库

脚本位置：模型在本项目中的训练脚本路径，可用于快速定位和使用模型

序列长度：支持的最大文本序列长度

训练后端：仅支持以mcore方式实现的模型，对Legacy方式实现的模型无支持计划。

集群规模：模型训练时推荐使用的集群规模配置，格式为"节点数×卡数"

支持版本：最终支持的维护版本，空白表示从上线起到当前master分支均在维护

稠密模型

稠密模型（Dense Model）是传统的深度学习模型结构，其神经元之间的连接是密集的，每一层的大多数或所有神经元都与下一层的所有神经元相连。这种模型很简单，训练相对直接，但参数量较大，计算成本较高。

模型	下载链接	脚本位置	序列长度	训练后端	集群规模	支持版本
ChatGLM3	6B	chatglm3	8K	Mcore	1x8	2.3.0
ChatGLM3	6B	chatglm3	64K	Mcore	2x8
GLM4	9B	glm4	8K	Mcore	1x8	2.3.0
	9B		32K	Mcore	2x8	2.3.0
	32B		8K	Mcore	2x8
CodeLlama	34B	codellama	4K	Mcore	2x8	2.2.0
InternLM2	20B	internlm2	4K	Mcore	1x8	2.2.0
InternLM2	20B	internlm2	32K	Mcore	1x8	2.2.0
InternLM2.5	1.8B	internlm25	32K	Mcore	1x8
	7B		32K	Mcore	1x8
	20B		32K	Mcore	2x8
LLaMA2	7B	llama2	4K	Mcore	1x8	2.3.0
			16K	Mcore	1x8
			32K	Mcore	1x8
	13B		4K	Mcore	1x8	2.3.0
	34B		4K	Mcore	2x8
	70B		4K	Mcore	4x8
LLaMA3	8B	llama3	8K	Mcore	1x8	2.3.0
LLaMA3	70B	llama3	8K	Mcore	4x8
LLaMA3.1	8B	llama31	8K	Mcore	1x8	2.3.0
	8B		128K	Mcore	4x8	支持中
	70B		8K	Mcore	4x8
LLaMA3.2	1B	llama32	8K	Mcore	1x8	2.3.0
LLaMA3.2	3B	llama32	8K	Mcore	1x8	2.3.0
LLaMA3.3	70B-Instruct	llama33	8K	Mcore	4x8
Qwen1.5	0.5B	qwen15	8K	Mcore	1x8	2.2.0
	1.8B		8K	Mcore	1x8
	4B		8K	Mcore	1x8
	7B		8K	Mcore	1x8
	14B		8K	Mcore	1x8
	32B		8K	Mcore	4x8
	72B		8K	Mcore	8x8
	110B		8K	Mcore	8x8
CodeQwen1.5	7B		8K	Mcore	1x8	2.2.0
Qwen2	7B	qwen2	4K	Mcore	1x8	2.2.0
Qwen2.5	0.5B	qwen25	32K	Mcore	1x8
	1.5B		32K	Mcore	1x8
	3B		32K	Mcore	1x8
	7B		4K	Mcore	1x8	2.3.0
	7B		32K	Mcore	1x8	2.3.0
	14B		4K	Mcore	1x8	2.3.0
	14B		32K	Mcore	2x8
	32B		4K	Mcore	4x8
	32B		32K	Mcore	4x8
	72B		4K	Mcore	4x8
	72B		32K	Mcore	8x8
Qwen3	0.6B	qwen3	4K	Mcore	1x8	2.3.0
	1.7B		4K	Mcore	1x8
	4B		4K	Mcore	1x8
	8B		4K	Mcore	1x8
	14B		4K	Mcore	1x8
	32B		4K	Mcore	2x8
Yi	34B	yi	4K	Mcore	2x8	2.2.0
Yi1.5	6B	yi15	4K	Mcore	1x8	2.2.0
	9B		4K	Mcore	1x8
	34B		4K	Mcore	2x8
Mistral	7B	mistral	32K	Mcore	1x8	2.2.0
Gemma	2B	gemma	8K	Mcore	1x8	2.2.0
Gemma	7B	gemma	8K	Mcore	1x8	2.2.0
Gemma2	9B	gemma2	8K	Mcore	1x8
Gemma2	27B	gemma2	8K	Mcore	2x8
grok-1	40B	grok-1	8K	Mcore	4x8
MiniCPM	2B	minicpm	4K	Mcore	1x8	2.2.0
Phi3.5	mini-instruct	phi35	4K	Mcore	1x8	2.3.0
DeepSeek-R1-Distill-Qwen	1.5B	deepseek_r1_distill_qwen	4K	Mcore	1x8	2.2.0
	7B		4K	Mcore	1x8
	14B		4K	Mcore	1x8
	32B		8K	Mcore	2x8
DeepSeek-R1-Distill-LLaMA	8B	deepseek_r1_distill_llama	8K	Mcore	1x8	2.2.0
DeepSeek-R1-Distill-LLaMA	70B	deepseek_r1_distill_llama	8K	Mcore	4x8	2.2.0

稀疏模型

稀疏模型（Sparse Model）采用了稀疏连接的神经元结构，只有少数神经元之间存在连接。典型的稀疏模型如混合专家模型（Mixture of Experts, MoE），包含多个专家网络，每次训练只激活部分专家。这种设计可以显著减少参数量和计算复杂度，提高训练效率，特别适合处理大规模数据集和复杂任务。但稀疏模型训练也存在缺点，易出现专家负载不均衡导致训练不稳定。

模型	下载链接	脚本位置	序列长度	训练后端	集群规模	支持版本
Qwen3	30B	qwen3_moe	4K	Mcore	2x8
Qwen3	235B	qwen3_moe	4K	Mcore	16x16
Qwen2	57B-A14B	qwen2_moe	4K	Mcore	8x8	2.2.0
Mixtral	8x7B	mixtral	32K	Mcore	8x8	2.2.0
	8x22B		32K	Mcore	8x8
	8x22B		64K	Mcore	8x8
DeepSeek-V2	236B	deepseek2	8K	Mcore	20x8	2.2.0
DeepSeek-V2-coder	236B	deepseek2_coder	8K	Mcore	20x8	2.2.0
DeepSeek-V2-Lite	16B	deepseek2_lite	8K	Mcore	1x8	2.3.0
DeepSeek-V2.5	236B	deepseek25	8K	Mcore	20x8	支持中
DeepSeek-V3	671B	deepseek3	4K	Mcore	64x8
MiniCPM	8x2B	minicpm	4K	Mcore	1x8	2.2.0
Phi3.5	MoE-instruct	phi35	4K	Mcore	2x8
GLM4.5	106B	glm45-moe	4K	Mcore	8x16