MindSpeed-LLM/docs/pytorch/models/dense_model.md-代码预览-MindSpeed-LLM:基于昇腾生态的大语言模型分布式训练套件 - AtomGit

ascend-robot[pytorch][doc]model support list update and link repair

006bc7fa创建于 2025年11月29日历史提交

MindSpeed-LLM 预置稠密大模型

认证【Pass】表示经过昇腾官方版本测试的模型。【Test】表示模型处于内部测试阶段，未完成充分的性能测试和验收，在实际使用中可能存在未被发现的问题，待后续充分验证后会发布正式版本。相关使用问题可反馈至MindSpeed-LLM/issues。

模型	下载链接	脚本位置	序列	实现	集群	支持版本	贡献方	认证
Aquila	7B	aquila	2K	Legacy	1x8	2.0.0	【GTS】	【Pass】
Aquila2	7B	aquila2	2K	Legacy	1x8	2.0.0	【GTS】	【Pass】
Aquila2	34B	aquila2	4K	Legacy	2x8	2.0.0	【GTS】	【Pass】
Baichuan	7B	baichuan	4K	Legacy	1x8	2.0.0	【GTS】	【Pass】
Baichuan	13B	baichuan	4K	Legacy	1x8	2.0.0	【GTS】	【Pass】
Baichuan2	7B	baichuan2	4K	Legacy	1x8	2.0.0	【Ascend】	【Pass】
Baichuan2	13B	baichuan2	4K	Mcore	1x8		【Ascend】	【Pass】
Bloom	7B1	bloom	2K	Legacy	1x8	2.0.0	【Ascend】	【Pass】
Bloom	176B	bloom	2K	Legacy	12x8	2.0.0	【Ascend】	【Pass】
ChatGLM3	6B	chatglm3	8K	Mcore	1x8		【Ascend】	【Pass】
			32K	Mcore	1x8		【Ascend】	【Pass】
			64K	Mcore	2x8		【Ascend】	【Pass】
GLM4	9B	glm4	8K	Mcore	1x8		【GTS】	【Pass】
GLM4	9B	glm4	32K	Mcore	2x8		【GTS】	【Pass】
CodeLlama	34B	codellama	4K	Mcore	2x8		【GTS】	【Pass】
InternLM	7B	intern	2K	Legacy	1x8	2.0.0	【Ascend】	【Pass】
InternLM	65B	intern	2K	Legacy	4x8	2.0.0	【Ascend】	【Pass】
InternLM2	20B	internlm2	4K	Mcore	1x8		【GTS】	【Pass】
InternLM2	20B	internlm2	32K	Mcore	1x8		【GTS】	【Pass】
InternLM2.5	1.8B	internlm25	32K	Mcore	1x8		【GTS】	【Pass】
	7B		32K	Mcore	1x8		【GTS】	【Pass】
	20B		32K	Mcore	2x8		【GTS】	【Test】
InternLM3	8B	internlm3	8K	Mcore	1x8		【Ascend】	【Pass】
LLaMA	7B	llama	2K	Legacy	1x8	2.0.0	【Ascend】	【Pass】
	13B		2K	Legacy	1x8	2.0.0	【Ascend】	【Pass】
	33B		2K	Legacy	4x8	2.0.0	【Ascend】	【Pass】
	65B		2K	Legacy	4x8	2.0.0	【Ascend】	【Pass】
LLaMA2	7B	llama2	4K	Mcore	1x8		【NAIE】	【Pass】
	13B		4K	Mcore	1x8		【NAIE】	【Pass】
	34B		4K	Mcore	2x8		【GTS】	【Pass】
	70B		4K	Mcore	4x8		【GTS】	【Pass】
	70B		128K	Mcore	8x8		【Ascend】	【Pass】
LLaMA3	8B	llama3	8K	Mcore	1x8		【GTS】	【Pass】
LLaMA3	70B	llama3	8K	Mcore	4x8		【GTS】	【Pass】
LLaMA3.1	8B	llama31	8K	Mcore	1x8		【GTS】	【Pass】
	8B		128K	Mcore	4x8		【GTS】	【Pass】
	50B		128K	Mcore	8x8		【Ascend】	【Pass】
	70B		8K	Mcore	4x8		【GTS】	【Pass】
	70B		128K	Mcore	24x8		【Ascend】	【Pass】
	200B		8K	Mcore	8x8		【Ascend】	【Pass】
	405B		8K	Mcore	8x8		【Ascend】	【Pass】
	405B		128K	Mcore	36x8		【Ascend】	【Pass】
LLaMA3.2	1B	llama32	8K	Mcore	1x8		【GTS】	【Pass】
LLaMA3.2	3B	llama32	8K	Mcore	1x8		【GTS】	【Pass】
LLaMA3.3	70B-Instruct	llama33	8K	Mcore	4x8		【GTS】	【Pass】
Qwen	7B	qwen	8K	Legacy	1x8	2.0.0	【GTS】	【Pass】
	14B		2K	Legacy	1x8	2.0.0	【GTS】	【Pass】
	72B		8K	Legacy	16x8	2.0.0	【GTS】	【Pass】
Qwen1.5	0.5B	qwen15	8K	Mcore	1x8		【GTS】	【Pass】
	1.8B		8K	Mcore	1x8		【GTS】	【Pass】
	4B		8K	Mcore	1x8		【GTS】	【Pass】
	7B		8K	Mcore	1x8		【GTS】	【Pass】
	14B		8K	Mcore	1x8		【GTS】	【Pass】
	32B		8K	Mcore	4x8		【GTS】	【Pass】
	72B		8K	Mcore	8x8		【GTS】	【Pass】
	110B		8K	Mcore	8x8		【GTS】	【Pass】
CodeQwen1.5	7B		8K	Mcore	1x8		【GTS】	【Pass】
Qwen2	0.5B	qwen2	4K	Mcore	1x8		【GTS】	【Pass】
	0.5B		32K	Mcore	1x8		【GTS】	【Pass】
	1.5B		4K	Mcore	1x8		【GTS】	【Pass】
	1.5B		32K	Mcore	1x8		【GTS】	【Pass】
	7B		4K	Mcore	1x8		【GTS】	【Pass】
	7B		32K	Mcore	1x8		【GTS】	【Pass】
	72B		4K	Mcore	4x8		【GTS】	【Pass】
	72B		32K	Mcore	16x8		【Ascend】	【Pass】
Qwen2.5	0.5B	qwen25	32K	Mcore	1x8		【GTS】	【Pass】
	1.5B		32K	Mcore	1x8		【GTS】	【Pass】
	3B		32K	Mcore	1x8		【GTS】	【Pass】
	7B		32K	Mcore	1x8		【Ascend】	【Pass】
	14B		32K	Mcore	2x8		【GTS】	【Pass】
	32B		32K	Mcore	4x8		【GTS】	【Pass】
	72B		32K	Mcore	16x8		【GTS】	【Pass】
Qwen3	0.6B	qwen3	4K	Mcore	1x8		【Ascend】	【Pass】
	1.7B		4K	Mcore	1x8		【Ascend】	【Pass】
	4B		4K	Mcore	1x8		【Ascend】	【Pass】
	8B		4K	Mcore	1x8		【Ascend】	【Pass】
	14B		4K	Mcore	1x8		【Ascend】	【Pass】
	32B		4K	Mcore	2x8		【Ascend】	【Pass】
QwQ	32B	qwq	4K	Mcore	1x8		【GTS】	【Test】
Qwen2.5-Math	1.5B	qwen25_math	4K	Mcore	1x8		【GTS】	【Pass】
	7B		4K	Mcore	1x8		【GTS】	【Pass】
	72B		4K	Mcore	4x8		【GTS】	【Test】
CodeQwen2.5	7B	qwen25_coder	8K	Mcore	1x8		【China Mobile Cloud】	【Test】
Yi	9B	yi	4K	Legacy	1x4	2.0.0	【OpenMind】	【Test】
Yi	34B	yi	4K	Mcore	2x8		【GTS】	【Pass】
Yi1.5	6B	yi15	4K	Mcore	1x8		【GTS】	【Pass】
	9B		4K	Mcore	1x8		【GTS】	【Pass】
	34B		4K	Mcore	2x8		【GTS】	【Test】
Mistral	7B	mistral	32K	Mcore	1x8		【NAIE】	【Pass】
Gemma	2B	gemma	8K	Mcore	1x8		【GTS】	【Pass】
Gemma	7B	gemma	8K	Mcore	1x8		【GTS】	【Pass】
Gemma2	9B	gemma2	8K	Mcore	1x8		【GTS】	【Pass】
Gemma2	27B	gemma2	8K	Mcore	2x8		【GTS】	【Pass】
grok-1	40B	grok-1	8K	Mcore	4x8	2.0.0	【GTS】	【Pass】
MiniCPM	2B	minicpm	4K	Mcore	1x8		【NAIE】	【Pass】
MiniCPM3	4B	minicpm3	32K	Mcore	1x8		【GTS】	【Test】
Phi3.5	mini-instruct	phi35	4K	Mcore	1x8		【GTS】	【Test】
DeepSeek-Math	7B	deepseek_math	4K	Mcore	1x8		【Ascend】	【Test】
DeepSeek-R1-Distill-Qwen	1.5B	deepseek_r1_distill_qwen	4K	Mcore	1x8		【Ascend】	【Pass】
	7B		4K	Mcore	1x8		【Ascend】	【Pass】
	14B		4K	Mcore	1x8		【Ascend】	【Pass】
	32B		8K	Mcore	2x8		【Ascend】	【Pass】
DeepSeek-R1-Distill-LLaMA	8B	deepseek_r1_distill_llama	8K	Mcore	1x8		【Ascend】	【Pass】
DeepSeek-R1-Distill-LLaMA	70B	deepseek_r1_distill_llama	8K	Mcore	4x8		【Ascend】	【Pass】
Seed-OSS	36B	seed_oss	2K	Mcore	1x8		【Ascend】	【Test】

社区BUG列表

Baichuan-13B: 在任务执行过程中如果出现报错：AttributeError: 'BaichuanTokenizer’ object has no attribute 'sp_model'，请执行下面命令解决这个问题：
```
pip3 install transformers==4.32.0 --force
```

GPT: GPT词表文件与常规模型不同：

mkdir vocab_file 
cd vocab_file
wget https://s3.amazonaws.com/models.huggingface.co/bert/gpt2-vocab.json
wget https://s3.amazonaws.com/models.huggingface.co/bert/gpt2-merges.txt
cd ..

# 处理成训练数据
python ./preprocess_data.py \
    --input ./dataset/ \
    --output-prefix ./dataset/gpt_text_sentence \
    --tokenizer-type GPT2BPETokenizer \
    --vocab-file ./vocab_file/gpt2-vocab.json \
    --merge-file ./vocab_file/gpt2-merges.txt \
    --append-eod \
    --workers 4 \
    --log-interval 1000

# 请根据真实存放路径配置预训练脚本以下参数
VOCAB_FILE="./vocab_file/gpt2-vocab.json"   # 词表
MERGE_FILE="./vocab_file/gpt2-merges.txt"   # BPE 合并表
DATA_PATH="./dataset/gpt_text_sentence"     # 数据路径

Bloom-176B: config.json中同字段对应的key值与其他模型不一致，将文件中的n_embed改为hidden_size，将num_attention_heads修改为n_head