646a3ea9创建于 2025年12月18日历史提交

文件	最后提交记录	最后更新时间
infer	【master】将mint.split算子替换为ops.function.array_func.split_ext	6 个月前
llama3_1_70b	revert del llama3_1	6 个月前
llama3_1_8b	revert del llama3_1	6 个月前
README.md	bugfix llama3_1文档修复	5 个月前
llama.py	【master】【mcore】【bugfix】Fix the incorrect path in the YAML file and Fix inconsistencies in formatting, capitalization, and typos in the documentation.	5 个月前
llama3_1_conversation.py	revert del llama3_1	6 个月前
llama3_1_preprocess.py	revert del llama3_1	6 个月前
llama3_1_tokenizer.py	revert del llama3_1	6 个月前
utils.py	revert del llama3_1	6 个月前

Llama 3.1

模型描述

Llama 3.1，是开源Llama系列的最新产品，目前有三个版本：Llama 3.1-8B，Llama 3.1-70B，Llama 3.1-405B。 Llama 3.1在来自公开可用来源的超过15T的数据上进行了预训练。微调数据包括公开可用的指令数据集，以及超过1000万个人工标注的示例。模型支持上下文窗口长度128K，并使用了新的分词器，词汇表大小达到128256个，采用了分组查询注意力机制(GQA)。 Llama 3.1模型是类GPT模型，是一个生成式的语言模型，主要是用于预测下一个单词。目前Mindformers支持Llama 3.1-8B，Llama 3.1-70B，敬请期待Llama 3.1-405B。

模型性能

以下模型性能均由Atlas 800T A2硬件环境下测试得出。

Config	Task	Datasets	SeqLength	Performance	Phase
llama3_1_8b	text_generation	-	2048	591 tokens/s	Predict
llama3_1_70b	text_generation	-	4096	509 tokens/s	Predict

以下模型性能均由Atlas 900 A2 PoDc硬件环境下测试得出。

Config	Task	Datasets	SeqLength	Performance	Phase
llama3_1_8b	text_generation	alpaca	8192	2703 tokens/s/p	Finetune
llama3_1_70b	text_generation	alpaca	8192	337 tokens/s/p	Finetune

模型文件

Llama 3.1 基于 mindformers 实现，主要涉及的文件有：

模型具体实现：

mindformers/models/llama
    ├── __init__.py
    ├── llama.py                  # 模型实现
    ├── llama_config.py           # 模型配置项
    ├── llama_layer.py            # llama网络层定义
    ├── llama_processor.py        # llama预处理
    └── llama_transformer.py      # transformer层实现

模型配置：

research/llama3_1
    ├──llama3_1_8b
    │    ├── predict_llama3_1_8b.yaml     # 8B推理配置
    │    └── finetune_llama3_1_8b.yaml    # 8B全量微调启动配置
    └──llama3_1_70b
         ├── predict_llama3_1_70b.yaml    # 70B推理配置
         └── finetune_llama3_1_70b.yaml   # 70B全量微调启动配置

数据预处理脚本和任务启动脚本：

research/llama3_1
    ├── llama3_1_tokenizer.py      # llama3_1 tokenizer处理脚本
    ├── llama3_1_conversation.py   # 微调数据集处理，将原始alpaca转换为对话形式alpaca
    └── llama3_1_preprocess.py     # llama模型的mindrecord数据处理脚本

环境及数据准备

安装环境

MindFormers软硬件配套关系以及安装参考环境安装指南和版本匹配关系。

数据集及权重准备

数据集下载

MindFormers提供alpaca作为微调数据集。

数据集名称	适用模型	适用阶段	下载链接
alpaca	llama3_1-8b llama3_1-70b	Finetune	Link

数据预处理中所用的tokenizer.model可以参考模型权重下载进行下载。

alpaca 数据预处理

执行mindformers/tools/dataset_preprocess/llama/alpaca_converter.py，使用fastchat工具添加prompts模板，将原始数据集转换为多轮对话格式。

python alpaca_converter.py \
  --data_path /{path}/alpaca_data.json \
  --output_path /{path}/alpaca-data-conversation.json

# 参数说明
data_path:   输入下载的文件路径
output_path: 输出文件的保存路径

执行research/llama3_1/llama3_1_preprocess.py，生成Mindrecord数据，将带有prompt模板的数据转换为mindrecord格式。

python llama3_1_preprocess.py \
  --dataset_type qa \
  --input_glob /{path}/alpaca-data-conversation.json \
  --model_file /{path}/tokenizer.model \
  --seq_length 8192 \
  --output_file /{path}/alpaca-fastchat8192.mindrecord

# 参数说明
dataset_type: 预处理数据类型
input_glob:   转换后的alpaca的文件路径
model_file:   模型tokenizer.model文件路径
seq_length:   输出数据的序列长度
output_file:  输出文件的保存路径

数据处理时候注意bos，eos，pad等特殊ids要和配置文件中model_config里保持一致。

模型权重下载

MindFormers暂时没有提供权重，用户可以下载HuggingFace官方权重经过模型权重转换后进行使用。

词表下载链接：tokenizer.model

模型名称	MindSpore权重	HuggingFace权重
Llama3_1-8B	-	Link
Llama3_1-70B	-	Link

注: 请自行申请huggingface上llama3_1使用权限，并安装transformers=4.40版本

模型权重转换

下载完成后，运行mindformers/convert_weight.py转换脚本，将huggingface的权重转换为完整的ckpt权重。

python convert_weight.py --model llama --input_path TORCH_CKPT_DIR --output_path {path}/MS_CKPT_NAME --dtype bf16

# 参数说明
model:       模型名称
input_path:  下载HuggingFace权重的文件夹路径
output_path: 转换后的MindSpore权重文件保存路径
dtype:       转换权重的精度

微调

全参微调

MindSpore Transformers提供 Llama3.1-8B 单机多卡以及 Llama3.1-70B 多机多卡的微调示例，过程中使用 alpaca 数据集对模型进行微调，数据集可以参考数据集下载获得。

单机训练

以Llama3_1-8b为例，Llama3_1-8B在Atlas 800T A2上训练，支持单机/多机训练。

使用finetune_llama3_1_8b.yaml进行训练，或修改默认配置文件中的model_config.seq_length ，使训练配置与数据集的seq_length保持一致。

执行命令启动微调任务，在单机上拉起任务。

# 单机8卡默认快速启动
bash scripts/msrun_launcher.sh "run_mindformer.py \
 --register_path research/llama3_1 \
 --config research/llama3_1/llama3_1_8b/finetune_llama3_1_8b.yaml \
 --load_checkpoint model_dir/xxx.ckpt \
 --auto_trans_ckpt True \
 --use_parallel True \
 --run_mode finetune \
 --train_data dataset_dir"

# 参数说明
config:          配置文件路径
load_checkpoint: 权重文件路径
auto_trans_ckpt: 自动权重转换开关
run_mode:        运行模式, 微调时设置为finetune
train_data:      训练数据集路径

多机训练

以llama3_1-70b为例，使用finetune_llama3_1_70b.yaml配置文件，执行8机64卡微调。需要先对权重进行切分，切分权重可以参见权重切分与合并（如果是共享盘也可以开启自动权重转换，使用完整权重）。

多机多卡执行脚本进行分布式训练需要分别在不同节点运行脚本，并将参数MASTER_ADDR设置为主节点的ip地址，所有节点设置的ip地址相同，不同节点之间仅参数NODE_RANK不同，各个参数位置含义参见使用指南。

在每台机器上运行以下命令，多机运行命令在每台机器上仅node_num 不同，从0开始计数，命令中主节点ip为第0个节点ip。

# 节点0，设0节点ip为192.168.1.1，作为主节点ip，总共64卡且每个节点8卡
# 节点0、节点1、...节点7 依此修改node_num，比如8机，node_num为0~7。
bash scripts/msrun_launcher.sh "run_mindformer.py \
 --register_path research/llama3_1 \
 --config research/llama3_1/llama3_1_70b/finetune_llama3_1_70b.yaml \
 --load_checkpoint model_dir/xxx.ckpt \
 --train_data dataset_dir \
 --auto_trans_ckpt False \
 --use_parallel True \
 --run_mode finetune" \
 64 8 {主节点ip} 8118 {node_num} output/msrun_log False 300

推理

MindFormers提供Llama3_1-8b的快速推理脚本，脚本主要通过generate高阶接口实现，支持单卡推理。推理输入默认不添加bos字符，如果需要添加可在config中增加add_bos_token选项。

# 脚本使用
bash scripts/examples/llama3/run_llama3_predict.sh PARALLEL CONFIG_PATH CKPT_PATH DEVICE_NUM

# 参数说明
PARALLEL:    是否使用多卡推理, 'single'表示单卡推理, 'parallel'表示多卡推理
CONFIG_PATH: 模型配置文件路径
CKPT_PATH:   模型权重文件路径
VOCAB_FILE:  词表路径
DEVICE_NUM:  使用卡数, 仅开启多卡推理时生效

单卡推理

以Llama3_1-8b单卡推理为例。

bash scripts/examples/llama3/run_llama3_predict.sh single \
 research/llama3_1/llama3_1_8b/predict_llama3_1_8b.yaml \
 path/to/llama3_1_8b.ckpt \
 path/to/tokenizer.model

多卡推理

以Llama3_1-70b4卡推理为例。Llama3_1-70b权重较大，建议先进行权重切分，参见权重切分与合并。

bash scripts/examples/llama3/run_llama3_predict.sh parallel \
 research/llama3_1/llama3_1_70b/predict_llama3_1_70b.yaml \
 path/to/model_dir \
 path/to/tokenizer.model 4

基于MindIE的服务化推理

MindIE，全称Mind Inference Engine，是华为昇腾针对AI全场景业务的推理加速套件。

MindFormers承载在模型应用层MindIE-LLM中，MindIE-LLM是大语言模型推理框架，提供API支持大模型推理能力。

MindIE安装流程请参考MindIE服务化部署文档。

以下例子默认已完成MindIE安装部署且仅适用于MindIE RC3版本，且安装路径均为默认路径/usr/local/Ascend/。

单卡推理

此例子使用llama3_1-8B模型演示。

修改MindIE启动配置

打开mindie-service中的config.json文件，修改server相关配置。

vim /usr/local/Ascend/mindie/1.0.RC3/mindie-service/conf/config.json

需要关注以下字段的配置

ModelDeployConfig.ModelConfig.backendType

该配置为对应的后端类型，必填"ms"。

"backendType": "ms"

ModelDeployConfig.ModelConfig.modelWeightPath

该配置为模型配置文件目录，放置模型和tokenizer等相关文件。

以llama3_1-8B为例，modelWeightPath的组织结构如下：

mf_model
 └── llama3_1_8b
        ├── config.json                             # 模型json配置文件
        ├── tokenizer.model                         # 模型vocab文件，hf上对应模型下载
        ├── predict_llama3_1_8b.yaml                # 模型yaml配置文件
        ├── llama3_1_tokenizer.py                   # 模型tokenizer文件,从mindformers仓中research目录下找到对应模型复制
        └── llama3_1_8b.ckpt                        # 单卡模型权重文件

predict_llama3_1_8b.yaml需要关注以下配置：

load_checkpoint: '/mf_model/llama3_1_8b/llama3_1_8b.ckpt' # 为存放模型单卡权重文件路径
use_parallel: False
model:
  model_config:
    type: LlamaConfig
    auto_map:
      AutoTokenizer: [llama3_1_tokenizer.Llama3Tokenizer, null]
processor:
  tokenizer:
    vocab_file: "/mf_model/llama3_1_8b/tokenizer.model"  #vocab文件路径

模型的config.json文件可以使用save_pretrained接口生成，示例如下：

from mindformers import AutoConfig

model_config = AutoConfig.from_pretrained("/mf_model/llama3_1_8b/predict_llama3_1_8b.yaml ")
model_config.save_pretrained(save_directory="/mf_model/llama3_1_8b", save_json=True)

模型权重下载和转换可参考权重格式转换。

准备好模型配置目录后，设置参数modelWeightPath为该目录路径。

   "modelWeightPath": "/mf_model/llama3_1_8b"

最终修改完后的config.json如下：

{
    "Version": "1.0.0",
    "LogConfig" :
    {
        "logLevel" : "Info",
        "logFileSize" : 20,
        "logFileNum" : 20,
        "logPath" : "logs/mindservice.log"
    },

    "ServerConfig" :
    {
        "ipAddress" : "127.0.0.1",
        "managementIpAddress": "127.0.0.2",
        "port" : 1025,
        "managementPort" : 1026,
        "metricsPort" : 1027,
        "maxLinkNum" : 1000,
        "httpsEnabled" : false,
        "fullTextEnabled" : false,
        "tlsCaPath" : "security/ca/",
        "tlsCaFile" : ["ca.pem"],
        "tlsCert" : "security/certs/server.pem",
        "tlsPk" : "security/keys/server.key.pem",
        "tlsPkPwd" : "security/pass/key_pwd.txt",
        "tlsCrl" : "security/certs/server_crl.pem",
        "managementTlsCaFile" : ["management_ca.pem"],
        "managementTlsCert" : "security/certs/management/server.pem",
        "managementTlsPk" : "security/keys/management/server.key.pem",
        "managementTlsPkPwd" : "security/pass/management/key_pwd.txt",
        "managementTlsCrl" : "security/certs/management/server_crl.pem",
        "kmcKsfMaster" : "tools/pmt/master/ksfa",
        "kmcKsfStandby" : "tools/pmt/standby/ksfb",
        "inferMode" : "standard",
        "pdInterNodeTLSEnabled": false,
        "pdCommunicationPort": 1121,
        "interNodeTlsCaFile" : "security/grpc/ca/ca.pem",
        "interNodeTlsCert" : "security/grpc/certs/server.pem",
        "interNodeTlsPk" : "security/grpc/keys/server.key.pem",
        "interNodeTlsPkPwd" : "security/grpc/pass/key_pwd.txt",
        "interCommTlsCrl" : "security/certs/server_crl.pem",
        "interNodeKmcKsfMaster": "tools/pmt/master/ksfa",
        "interNodeKmcKsfStandby": "tools/pmt/standby/ksfb"
    },

    "BackendConfig": {
        "backendName" : "mindieservice_llm_engine",
        "modelInstanceNumber" : 1,
        "npuDeviceIds" : [[0]],
        "tokenizerProcessNumber" : 8,
        "multiNodesInferEnabled": false,
        "multiNodesInferPort": 1120,
        "interNodeTLSEnabled": true,
        "interNodeTlsCaFile": "security/grpc/ca/ca.pem",
        "interNodeTlsCert": "security/grpc/certs/server.pem",
        "interNodeTlsPk": "security/grpc/keys/server.key.pem",
        "interNodeTlsPkPwd": "security/grpc/pass/mindie_server_key_pwd.txt",
        "interNodeTlsCrl" : "security/grpc/certs/server_crl.pem",
        "interNodeKmcKsfMaster": "tools/pmt/master/ksfa",
        "interNodeKmcKsfStandby": "tools/pmt/standby/ksfb",
        "ModelDeployConfig":
        {
            "maxSeqLen" : 2560,
            "maxInputTokenLen" : 2048,
            "truncation" : false,
            "ModelConfig" : [
                {
                    "modelInstanceType": "Standard",
                    "modelName" : "llama3_1_8b",
                    "modelWeightPath" : "/mf_model/llama3_1_8b",
                    "worldSize" : 1,
                    "cpuMemSize" : 16,
                    "npuMemSize" : 16,
                    "backendType": "ms"
                }
            ]
        },

        "ScheduleConfig":
        {
            "templateType": "Standard",
            "templateName" : "Standard_LLM",
            "cacheBlockSize" : 128,

            "maxPrefillBatchSize" : 50,
            "maxPrefillTokens" : 8192,
            "prefillTimeMsPerReq" : 150,
            "prefillPolicyType" : 0,

            "decodeTimeMsPerReq" : 50,
            "decodePolicyType" : 0,

            "maxBatchSize" : 200,
            "maxIterTimes" : 512,
            "maxPreemptCount" : 0,
            "supportSelectBatch" : false,
            "maxQueueDelayMicroseconds" : 5000
        }
    }
}

注：为便于测试，httpsEnabled参数设置为false，忽略后续https通信相关参数。

启动服务

cd /usr/local/Ascend/mindie/1.0.RC3/mindie-service
nohup ./bin/mindieservice_daemon > output.log 2>&1 &
tail -f output.log

打印如下信息，启动成功。

Daemon start success!

请求测试

服务启动成功后，可使用curl命令发送请求验证，样例如下：

curl -w "\ntime_total=%{time_total}\n" -H "Accept: application/json" -H "Content-type: application/json" -X POST -d '{"inputs": "<|im_start|>system\nYou are a helpful assistant.<|im_end|>\n<|im_start|>user\n请介绍一下自己<|im_end|>\n<|im_start|>assistant\n","stream": false}' http://127.0.0.1:1025/generate

返回推理结果验证成功：

{"generated_text":"我叫小助手，专门为您服务的。<|im_end|>\n<"}