MindSpeed-LLM 预置稠密大模型
认证【Pass】表示经过昇腾官方版本测试的模型。【Test】表示模型处于内部测试阶段,未完成充分的性能测试和验收,在实际使用中可能存在未被发现的问题,待后续充分验证后会发布正式版本。相关使用问题可反馈至MindSpeed-LLM/issues。
| 模型 | 下载链接 | 脚本位置 | 序列 | 实现 | 集群 | 支持版本 | 贡献方 | 认证 |
|---|---|---|---|---|---|---|---|---|
| Aquila | 7B | aquila | 2K | Legacy | 1x8 | 2.0.0 | 【GTS】 | 【Pass】 |
| Aquila2 | 7B | aquila2 | 2K | Legacy | 1x8 | 2.0.0 | 【GTS】 | 【Pass】 |
| 34B | 4K | Legacy | 2x8 | 2.0.0 | 【GTS】 | 【Pass】 | ||
| Baichuan | 7B | baichuan | 4K | Legacy | 1x8 | 2.0.0 | 【GTS】 | 【Pass】 |
| 13B | 4K | Legacy | 1x8 | 2.0.0 | 【GTS】 | 【Pass】 | ||
| Baichuan2 | 7B | baichuan2 | 4K | Legacy | 1x8 | 2.0.0 | 【Ascend】 | 【Pass】 |
| 13B | 4K | Mcore | 1x8 | 【Ascend】 | 【Pass】 | |||
| Bloom | 7B1 | bloom | 2K | Legacy | 1x8 | 2.0.0 | 【Ascend】 | 【Pass】 |
| 176B | 2K | Legacy | 12x8 | 2.0.0 | 【Ascend】 | 【Pass】 | ||
| ChatGLM3 | 6B | chatglm3 | 8K | Mcore | 1x8 | 【Ascend】 | 【Pass】 | |
| 32K | Mcore | 1x8 | 【Ascend】 | 【Pass】 | ||||
| 64K | Mcore | 2x8 | 【Ascend】 | 【Pass】 | ||||
| GLM4 | 9B | glm4 | 8K | Mcore | 1x8 | 【GTS】 | 【Pass】 | |
| 32K | Mcore | 2x8 | 【GTS】 | 【Pass】 | ||||
| CodeLlama | 34B | codellama | 4K | Mcore | 2x8 | 【GTS】 | 【Pass】 | |
| InternLM | 7B | intern | 2K | Legacy | 1x8 | 2.0.0 | 【Ascend】 | 【Pass】 |
| 65B | 2K | Legacy | 4x8 | 2.0.0 | 【Ascend】 | 【Pass】 | ||
| InternLM2 | 20B | internlm2 | 4K | Mcore | 1x8 | 【GTS】 | 【Pass】 | |
| 32K | Mcore | 1x8 | 【GTS】 | 【Pass】 | ||||
| InternLM2.5 | 1.8B | internlm25 | 32K | Mcore | 1x8 | 【GTS】 | 【Pass】 | |
| 7B | 32K | Mcore | 1x8 | 【GTS】 | 【Pass】 | |||
| 20B | 32K | Mcore | 2x8 | 【GTS】 | 【Test】 | |||
| InternLM3 | 8B | internlm3 | 8K | Mcore | 1x8 | 【Ascend】 | 【Pass】 | |
| LLaMA | 7B | llama | 2K | Legacy | 1x8 | 2.0.0 | 【Ascend】 | 【Pass】 |
| 13B | 2K | Legacy | 1x8 | 2.0.0 | 【Ascend】 | 【Pass】 | ||
| 33B | 2K | Legacy | 4x8 | 2.0.0 | 【Ascend】 | 【Pass】 | ||
| 65B | 2K | Legacy | 4x8 | 2.0.0 | 【Ascend】 | 【Pass】 | ||
| LLaMA2 | 7B | llama2 | 4K | Mcore | 1x8 | 【NAIE】 | 【Pass】 | |
| 13B | 4K | Mcore | 1x8 | 【NAIE】 | 【Pass】 | |||
| 34B | 4K | Mcore | 2x8 | 【GTS】 | 【Pass】 | |||
| 70B | 4K | Mcore | 4x8 | 【GTS】 | 【Pass】 | |||
| 128K | Mcore | 8x8 | 【Ascend】 | 【Pass】 | ||||
| LLaMA3 | 8B | llama3 | 8K | Mcore | 1x8 | 【GTS】 | 【Pass】 | |
| 70B | 8K | Mcore | 4x8 | 【GTS】 | 【Pass】 | |||
| LLaMA3.1 | 8B | llama31 | 8K | Mcore | 1x8 | 【GTS】 | 【Pass】 | |
| 128K | Mcore | 4x8 | 【GTS】 | 【Pass】 | ||||
| 50B | 128K | Mcore | 8x8 | 【Ascend】 | 【Pass】 | |||
| 70B | 8K | Mcore | 4x8 | 【GTS】 | 【Pass】 | |||
| 128K | Mcore | 24x8 | 【Ascend】 | 【Pass】 | ||||
| 200B | 8K | Mcore | 8x8 | 【Ascend】 | 【Pass】 | |||
| 405B | 8K | Mcore | 8x8 | 【Ascend】 | 【Pass】 | |||
| 128K | Mcore | 36x8 | 【Ascend】 | 【Pass】 | ||||
| LLaMA3.2 | 1B | llama32 | 8K | Mcore | 1x8 | 【GTS】 | 【Pass】 | |
| 3B | 8K | Mcore | 1x8 | 【GTS】 | 【Pass】 | |||
| LLaMA3.3 | 70B-Instruct | llama33 | 8K | Mcore | 4x8 | 【GTS】 | 【Pass】 | |
| Qwen | 7B | qwen | 8K | Legacy | 1x8 | 2.0.0 | 【GTS】 | 【Pass】 |
| 14B | 2K | Legacy | 1x8 | 2.0.0 | 【GTS】 | 【Pass】 | ||
| 72B | 8K | Legacy | 16x8 | 2.0.0 | 【GTS】 | 【Pass】 | ||
| Qwen1.5 | 0.5B | qwen15 | 8K | Mcore | 1x8 | 【GTS】 | 【Pass】 | |
| 1.8B | 8K | Mcore | 1x8 | 【GTS】 | 【Pass】 | |||
| 4B | 8K | Mcore | 1x8 | 【GTS】 | 【Pass】 | |||
| 7B | 8K | Mcore | 1x8 | 【GTS】 | 【Pass】 | |||
| 14B | 8K | Mcore | 1x8 | 【GTS】 | 【Pass】 | |||
| 32B | 8K | Mcore | 4x8 | 【GTS】 | 【Pass】 | |||
| 72B | 8K | Mcore | 8x8 | 【GTS】 | 【Pass】 | |||
| 110B | 8K | Mcore | 8x8 | 【GTS】 | 【Pass】 | |||
| CodeQwen1.5 | 7B | 8K | Mcore | 1x8 | 【GTS】 | 【Pass】 | ||
| Qwen2 | 0.5B | qwen2 | 4K | Mcore | 1x8 | 【GTS】 | 【Pass】 | |
| 32K | Mcore | 1x8 | 【GTS】 | 【Pass】 | ||||
| 1.5B | 4K | Mcore | 1x8 | 【GTS】 | 【Pass】 | |||
| 32K | Mcore | 1x8 | 【GTS】 | 【Pass】 | ||||
| 7B | 4K | Mcore | 1x8 | 【GTS】 | 【Pass】 | |||
| 32K | Mcore | 1x8 | 【GTS】 | 【Pass】 | ||||
| 72B | 4K | Mcore | 4x8 | 【GTS】 | 【Pass】 | |||
| 32K | Mcore | 16x8 | 【Ascend】 | 【Pass】 | ||||
| Qwen2.5 | 0.5B | qwen25 | 32K | Mcore | 1x8 | 【GTS】 | 【Pass】 | 1.5B | 32K | Mcore | 1x8 | 【GTS】 | 【Pass】 |
| 3B | 32K | Mcore | 1x8 | 【GTS】 | 【Pass】 | |||
| 7B | 32K | Mcore | 1x8 | 【Ascend】 | 【Pass】 | |||
| 14B | 32K | Mcore | 2x8 | 【GTS】 | 【Pass】 | |||
| 32B | 32K | Mcore | 4x8 | 【GTS】 | 【Pass】 | |||
| 72B | 32K | Mcore | 16x8 | 【GTS】 | 【Pass】 | |||
| Qwen3 | 0.6B | qwen3 | 4K | Mcore | 1x8 | 【Ascend】 | 【Pass】 | |
| 1.7B | 4K | Mcore | 1x8 | 【Ascend】 | 【Pass】 | |||
| 4B | 4K | Mcore | 1x8 | 【Ascend】 | 【Pass】 | |||
| 8B | 4K | Mcore | 1x8 | 【Ascend】 | 【Pass】 | |||
| 14B | 4K | Mcore | 1x8 | 【Ascend】 | 【Pass】 | |||
| 32B | 4K | Mcore | 2x8 | 【Ascend】 | 【Pass】 | |||
| QwQ | 32B | qwq | 4K | Mcore | 1x8 | 【GTS】 | 【Test】 | |
| Qwen2.5-Math | 1.5B | qwen25_math | 4K | Mcore | 1x8 | 【GTS】 | 【Pass】 | |
| 7B | 4K | Mcore | 1x8 | 【GTS】 | 【Pass】 | |||
| 72B | 4K | Mcore | 4x8 | 【GTS】 | 【Test】 | |||
| CodeQwen2.5 | 7B | qwen25_coder | 8K | Mcore | 1x8 | 【China Mobile Cloud】 | 【Test】 | |
| Yi | 9B | yi | 4K | Legacy | 1x4 | 2.0.0 | 【OpenMind】 | 【Test】 |
| 34B | 4K | Mcore | 2x8 | 【GTS】 | 【Pass】 | |||
| Yi1.5 | 6B | yi15 | 4K | Mcore | 1x8 | 【GTS】 | 【Pass】 | |
| 9B | 4K | Mcore | 1x8 | 【GTS】 | 【Pass】 | |||
| 34B | 4K | Mcore | 2x8 | 【GTS】 | 【Test】 | |||
| Mistral | 7B | mistral | 32K | Mcore | 1x8 | 【NAIE】 | 【Pass】 | |
| Gemma | 2B | gemma | 8K | Mcore | 1x8 | 【GTS】 | 【Pass】 | |
| 7B | 8K | Mcore | 1x8 | 【GTS】 | 【Pass】 | |||
| Gemma2 | 9B | gemma2 | 8K | Mcore | 1x8 | 【GTS】 | 【Pass】 | |
| 27B | 8K | Mcore | 2x8 | 【GTS】 | 【Pass】 | |||
| grok-1 | 40B | grok-1 | 8K | Mcore | 4x8 | 2.0.0 | 【GTS】 | 【Pass】 |
| MiniCPM | 2B | minicpm | 4K | Mcore | 1x8 | 【NAIE】 | 【Pass】 | |
| MiniCPM3 | 4B | minicpm3 | 32K | Mcore | 1x8 | 【GTS】 | 【Test】 | |
| Phi3.5 | mini-instruct | phi35 | 4K | Mcore | 1x8 | 【GTS】 | 【Test】 | |
| DeepSeek-Math | 7B | deepseek_math | 4K | Mcore | 1x8 | 【Ascend】 | 【Test】 | |
| DeepSeek-R1-Distill-Qwen | 1.5B | deepseek_r1_distill_qwen | 4K | Mcore | 1x8 | 【Ascend】 | 【Pass】 | |
| 7B | 4K | Mcore | 1x8 | 【Ascend】 | 【Pass】 | |||
| 14B | 4K | Mcore | 1x8 | 【Ascend】 | 【Pass】 | |||
| 32B | 8K | Mcore | 2x8 | 【Ascend】 | 【Pass】 | |||
| DeepSeek-R1-Distill-LLaMA | 8B | deepseek_r1_distill_llama | 8K | Mcore | 1x8 | 【Ascend】 | 【Pass】 | |
| 70B | 8K | Mcore | 4x8 | 【Ascend】 | 【Pass】 | |||
| Seed-OSS | 36B | seed_oss | 2K | Mcore | 1x8 | 【Ascend】 | 【Test】 |
社区BUG列表
-
Baichuan-13B: 在任务执行过程中如果出现报错:AttributeError: 'BaichuanTokenizer’ object has no attribute 'sp_model',请执行下面命令解决这个问题:
pip3 install transformers==4.32.0 --force -
GPT: GPT词表文件与常规模型不同:
mkdir vocab_file cd vocab_file wget https://s3.amazonaws.com/models.huggingface.co/bert/gpt2-vocab.json wget https://s3.amazonaws.com/models.huggingface.co/bert/gpt2-merges.txt cd .. # 处理成训练数据 python ./preprocess_data.py \ --input ./dataset/ \ --output-prefix ./dataset/gpt_text_sentence \ --tokenizer-type GPT2BPETokenizer \ --vocab-file ./vocab_file/gpt2-vocab.json \ --merge-file ./vocab_file/gpt2-merges.txt \ --append-eod \ --workers 4 \ --log-interval 1000 # 请根据真实存放路径配置预训练脚本以下参数 VOCAB_FILE="./vocab_file/gpt2-vocab.json" # 词表 MERGE_FILE="./vocab_file/gpt2-merges.txt" # BPE 合并表 DATA_PATH="./dataset/gpt_text_sentence" # 数据路径 -
Bloom-176B: config.json中同字段对应的key值与其他模型不一致,将文件中的n_embed改为hidden_size, 将num_attention_heads修改为n_head