安全声明
系统安全加固
-
建议用户在系统中配置开启ASLR(级别2),又称全随机地址空间布局随机化,可参考以下方式进行配置:
echo 2 > /proc/sys/kernel/randomize_va_space
运行用户建议
出于安全性及权限最小化角度考虑,不建议使用root等管理员类型账户使用MindSpeed LLM。
文件权限控制
- 建议用户在主机(包括宿主机)及容器中设置运行系统umask值为0027及以上,保障新增文件夹默认最高权限为750,新增文件默认最高权限为640。
- 建议用户对个人数据、商业资产、源文件、训练过程中保存的各类文件等敏感内容做好权限管控。涉及场景如MindSpeed LLM安装目录权限管控、多用户使用共享数据集权限管控,管控权限可参考表1进行设置。
- MindSpeed LLM在数据预处理中会生成训练数据,在训练过程中会生成权重文件,文件权限默认640,用户可根据实际需求对生成文件权限进行进阶管控。
- 在以非root用户进行训练时,您的
CKPT_SAVE_DIR路径可能权限设置较为严格,导致无法访问该目录。您可以在脚本中添加chmod -R 660 $CKPT_SAVE_DIR来修改该目录的访问权限,从而确保可以正常读取和写入模型权重文件。
表1 文件(夹)各场景权限管控推荐最大值
| 类型 | Linux权限参考最大值 |
|---|---|
| 用户主目录 | 750(rwxr-x---) |
| 程序文件(含脚本文件、库文件等) | 550(r-xr-x---) |
| 程序文件目录 | 550(r-xr-x---) |
| 配置文件 | 640(rw-r-----) |
| 配置文件目录 | 750(rwxr-x---) |
| 日志文件(记录完毕或者已经归档) | 440(r--r-----) |
| 日志文件(正在记录) | 640(rw-r-----) |
| 日志文件记录 | 750(rwxr-x---) |
| Debug文件 | 640(rw-r-----) |
| Debug文件目录 | 750 (rwxr-x---) |
| 临时文件目录 | 750(rwxr-x---) |
| 维护升级文件目录 | 770(rwxrwx---) |
| 业务数据文件 | 640(rw-r-----) |
| 业务数据文件目录 | 750(rwxr-x---) |
| 密钥组件、私钥、证书、密文文件目录 | 700(rwx------) |
| 密钥组件、私钥、证书、加密密文 | 600(rw-------) |
| 加解密接口、加解密脚本 | 500(r-x------) |
数据安全声明
- MindSpeed LLM会在Megatron中的checkpointing模块中保存模型文件,其中部分模型文件使用了风险模块pickle,可能存在数据风险。
- 程序运行过程中,会通过nltk.download从用户指定的路径中加载语料库,需要保证网络安全,确保下载的语料包来源可信。
运行安全声明
- 建议用户结合运行资源状况编写对应训练脚本。若训练脚本与资源状况不匹配,如数据集加载内存大小超出内存容量限制、训练脚本在本地生成数据超过磁盘空间大小等情况,可能引发错误并导致进程意外退出。
- MindSpeed LLM内部用到了PyTorch,可能会因为版本不匹配导致运行错误,具体可参考PyTorch安全声明。
- 本软件使用PyTorch的torch.load做模型加载,代码中存在该接口的使用场景,配置参数weights_only=True。对于PyTorch版本<=2.5.1时,存在反序列化漏洞CVE-2025-32434,请用户保障所加载权重的安全性,避免恶意模型加载使执行机/设备遭到攻击。
公网地址声明
公开接口声明
MindSpeed LLM 暂时未发布wheel包,无正式对外公开接口,所有功能均通过shell脚本调用。5个入口脚本分别为pretrain_gpt.py、inference.py、evaluation.py、preprocess_data.py 和 convert_ckpt.py。
通信安全加固
通信矩阵
特殊场景
| 场景 | 使用方法 | 端口 | 可能的风险 |
|---|---|---|---|
| 使用MindSpeed LLM进行训练任务时,在Megatron后端场景下每次初始化模型并行组时,默认新增 (3 * NPU 数量) 个随机端口。开启多个分布式优化器时,再额外增加 (分布式优化器数量 * NPU 数量) 个随机端口。同时,配置1个master-port端口(该端口与torch_npu的master-port端口一致)。 | MindSpeed LLM调用Megatron原生函数mpu.initialize_model_parallel来初始化模型并行组,并通过使用PyTorch分布式训练相关的API来启动任意任务。 | [1024,65520]内 | 网络配置错误可能引发端口冲突或连接问题,影响训练效率。 |
| 用户通过nltk.download下载语料库。 | 用户在代码内部使用nltk.download来实现语料库的下载。 | 随机端口 | 文件来源若不可信,在文件加载时可能存在反序列化漏洞,导致文件被篡改。 |