MindSpeed-LLM/docs/mindspore/models/dense_model.md-代码预览-MindSpeed-LLM:基于昇腾生态的大语言模型分布式训练套件 - AtomGit

ascend-robot[mindspore][docs] add notification for unavailable repository

9e4036e6创建于 2025年10月22日历史提交

MindSpeed-LLM MindSpore后端稠密模型支持详情

MindSpore后端仅支持以mcore方式实现的稠密模型，对Legacy方式实现的模型无支持计划。

具体支持情况见下表，持续更新中。

模型	下载链接	脚本位置	序列	实现	集群	是否支持
ChatGLM3	6B	chatglm3	8K	Mcore	1x8	✅
ChatGLM3	6B	chatglm3	64K	Mcore	2x8	✅
GLM4	9B	glm4	8K	Mcore	1x8	✅
	9B		32K	Mcore	2x8	✅
	32B		8K	Mcore	2x8	✅
CodeLlama	34B	codellama	4K	Mcore	2x8	✅
InternLM2	20B	internlm2	4K	Mcore	1x8	✅
InternLM2	20B	internlm2	32K	Mcore	1x8	✅
InternLM2.5	1.8B	internlm25	32K	Mcore	1x8	✅
	7B		32K	Mcore	1x8	✅
	20B		32K	Mcore	2x8	✅
LLaMA2	7B	llama2	4K	Mcore	1x8	✅
			16K	Mcore	1x8	✅
			32K	Mcore	1x8	✅
	13B		4K	Mcore	1x8	✅
	34B		4K	Mcore	2x8	✅
	70B		4K	Mcore	4x8	✅
LLaMA3	8B	llama3	8K	Mcore	1x8	✅
LLaMA3	70B	llama3	8K	Mcore	4x8	✅
LLaMA3.1	8B	llama31	8K	Mcore	1x8	✅
	8B		128K	Mcore	4x8	支持中
	70B		8K	Mcore	4x8	✅
LLaMA3.2	1B	llama32	8K	Mcore	1x8	✅
LLaMA3.2	3B	llama32	8K	Mcore	1x8	✅
LLaMA3.3	70B-Instruct	llama33	8K	Mcore	4x8	✅
Qwen1.5	0.5B	qwen15	8K	Mcore	1x8	✅
	1.8B		8K	Mcore	1x8	✅
	4B		8K	Mcore	1x8	✅
	7B		8K	Mcore	1x8	✅
	14B		8K	Mcore	1x8	✅
	32B		8K	Mcore	4x8	✅
	72B		8K	Mcore	8x8	✅
	110B		8K	Mcore	8x8	✅
CodeQwen1.5	7B		8K	Mcore	1x8	✅
Qwen2	0.5B	qwen2	4K	Mcore	1x8	✅
	0.5B		32K	Mcore	1x8	✅
	1.5B		4K	Mcore	1x8	✅
	1.5B		32K	Mcore	1x8	✅
	7B		4K	Mcore	1x8	✅
	7B		32K	Mcore	1x8	✅
	72B		4K	Mcore	4x8	✅
Qwen2.5	0.5B	qwen25	32K	Mcore	1x8	✅
	1.5B		32K	Mcore	1x8	✅	3B	32K	Mcore	1x8	✅
	7B		4K	Mcore	1x8	✅
	7B		32K	Mcore	1x8	✅
	14B		4K	Mcore	1x8	✅
	14B		32K	Mcore	2x8	✅
	32B		4K	Mcore	4x8	✅
	32B		32K	Mcore	4x8	✅
	72B		4K	Mcore	4x8	✅
	72B		32K	Mcore	8x8	✅
	Qwen3		0.6B	qwen3	4K	Mcore	1x8	✅
1.7B		4K	Mcore		1x8	✅
4B		4K	Mcore		1x8	✅
8B		4K	Mcore		1x8	✅
14B		4K	Mcore		1x8	✅
32B		4K	Mcore		2x8	✅
Qwen2.5-Math	1.5B	qwen25_math	4K	Mcore	1x8	✅
	7B		4K	Mcore	1x8	✅
	72B		4K	Mcore	4x8	✅
Yi	34B	yi	4K	Mcore	2x8	✅
Yi1.5	6B	yi15	4K	Mcore	1x8	✅
Yi1.5	34B	yi15	4K	Mcore	2x8	✅
Mistral	7B	mistral	32K	Mcore	1x8	✅
Gemma	2B	gemma	8K	Mcore	1x8	✅
Gemma	7B	gemma	8K	Mcore	1x8	✅
Gemma2	9B	gemma2	8K	Mcore	1x8	✅
Gemma2	27B	gemma2	8K	Mcore	2x8	✅
grok-1	40B	grok-1	8K	Mcore	4x8	✅
MiniCPM	2B	minicpm	4K	Mcore	1x8	✅
Phi3.5	mini-instruct	phi35	4K	Mcore	1x8	✅
DeepSeek-R1-Distill-Qwen	1.5B	deepseek_r1_distill_qwen	4K	Mcore	1x8	✅
	7B		4K	Mcore	1x8	✅
	14B		4K	Mcore	1x8	✅
	32B		8K	Mcore	2x8	✅
DeepSeek-R1-Distill-LLaMA	8B	deepseek_r1_distill_llama	8K	Mcore	1x8	✅
DeepSeek-R1-Distill-LLaMA	70B	deepseek_r1_distill_llama	8K	Mcore	4x8	✅