b7d4bf55创建于 12 天前历史提交

附录

参考信息

下载参考

支持下载的软件包和OS

使用MindCluster Ascend Deployer工具下载时，注意事项参见下载注意事项，<OS>的取值范围参见支持的OS及架构，<PK>取值范围请参见表2。

下载注意事项

由于需要下载大量软件包，MindCluster Ascend Deployer工具默认开启并行下载功能，用户可以修改ascend_deployer/downloader/config.ini文件中的parallel_download字段，决定是否开启并行下载功能，1为开启，0为关闭。默认并行下载线程数为16个，用户可通过ASCEND_DEPLOYER_DOWNLOAD_MAX_SIZE环境变量修改并行数量。
MindCluster Ascend Deployer工具已提供源配置文件，默认使用华为源，用户可根据需要进行替换。具体可参考源配置。
下载OS依赖时，为了编译安装hccl-test工具，会自动下载MPI 3.2.1和Open MPI 4.1.5版本的软件包，安装时会根据已配置的待安装环境的IP类型，使用对应的依赖进行编译，IPv4格式时，安装MPI 3.2.1；IPv6格式或者Atlas A3 训练系列产品时，安装Open MPI 4.1.5。

支持的OS及架构

表 1 MindCluster Ascend Deployer工具下载时支持的OS及架构

支持的操作系统	操作系统版本	操作系统架构	使用约束
BCLinux	21.10	aarch64	-
BCLinux	21.10U4	aarch64	-
CTyunOS	22.06	aarch64	-
CTyunOS	23.01	aarch64	CTyunOS上安装 MindCluster组件时，仅支持 MindCluster7.1.RC1及以上版本的部分组件、1.19.16~1.28.X版本的 K8s（Kubernetes1.24及以上版本需要安装cri-dockerd）和18.09.x及以上版本Docker。 Atlas 300I Pro 推理卡、Atlas 300I Duo 推理卡支持部署NPU固件与驱动的25.0.RC1及以后版本、CANN 8.1.RC1及以后版本。
CULinux	3.0	aarch64	-
CentOS	7.6	aarch64、x86_64	CentOS作为执行机的操作系统，使用 MindCluster Ascend Deployer工具进行批量部署时，不支持部署Ubuntu系统的待安装设备。 Atlas 300T 训练卡低版本内核（低于4.5）的CentOS 7.6 x86_64需要添加内核补丁，否则可能导致固件安装失败。添加内核补丁的方法请参见《Atlas 中心训练卡 26.0.RC1 NPU驱动和固件安装指南》的“参考>添加内核补丁”章节。由于CentOS系统下安装的docker/containerd等可以多版本共存，所以建议CentOS 7.6系统安装系统依赖前请确认系统上是否已安装docker，如果已安装请使用yum -y remove docker-ce、yum -y remove docker-ce-cli、yum -y remove containerd.io命令卸载后再进行系统依赖的安装。由于CentOS系统自带Python版本低，需先安装Python3，再使用 MindCluster Ascend Deployer工具的下载和安装功能。
Debian	10	aarch64	仅适配 Atlas 900 A3 SuperPoD 超节点安装Ascend HDK、CANN、ToolBox、MindCluster Ascend FaultDiag。
EulerOS	2.8	aarch64	EulerOS等操作系统默认禁止root用户远程连接，所以需提前配置/etc/ssh/sshd_config中PermitRootLogin为yes（个别OS配置方法有所差异，请参考OS官方指导）。安装完成后请及时关闭root用户远程连接。 EulerOS2.12不会下载系统依赖包，请自行安装系统依赖。 EulerOS2.12不支持指定sys_pkg安装。
	2.9	aarch64、x86_64
	2.10	aarch64、x86_64
	2.12	aarch64
Kylin	V10(GFB)	aarch64	-
	V10Tercel(SP1)	aarch64、x86_64
	V10Sword(SP2)	aarch64
	V10Lance(SP3)	aarch64
	V10Halberd(SP3)	aarch64
	V11Swan25	aarch64
openEuler	20.03LTS	aarch64、x86_64	-
	22.03LTS	aarch64、x86_64	-
	22.03 LTS SP1（6.6.0-72.0.0.76内核）	aarch64	-
	22.03 LTS SP4	aarch64、x86_64	-
	24.03 LTS SP1	aarch64	-
	24.03 LTS SP4	aarch64	仅 Atlas 800I A2 推理服务器和 Atlas 900 A3 SuperPoD 超节点支持部署25.2.0及以后版本的NPU固件与驱动。
UOS	20-1020e	aarch64	UOS 20-1020e和20-1050u2e系统上，MindCluster Ascend Deployer工具不支持安装昇腾软件包所需系统依赖，需参考UOS系统安装依赖手动安装后再使用工具进行部署。
UOS	20-1050u2e	aarch64
Ubuntu	18.04	aarch64、x86_64	-
	20.04	aarch64、x86_64	-
	22.04	aarch64、x86_64	-
	22.04.4	aarch64	目前已支持kernel 6.5.0-18-generic及kernel 5.15.0-94-generic两个内核版本。
	24.04	aarch64	目前仅支持部署NPU固件与驱动的25.2.0及以后版本。
MTOS	22.03	aarch64	MTOS由于需使用到公网无法获取的kernel-devel包，下载功能仅为预埋，若需使用，请下载完成后替换为镜像解压后的kernel-devel-5.10.0-218.0.0.mt20240808.560.mt2203sp4.aarch64.rpm包。
veLinux	1.3	aarch64	需要环境上存在可使用的python3，请自行安装python3。
VesselOS	1.0	aarch64	VesselOS暂时未对外开放依赖源，当OS选择VesselOS_1.0_aarch64时，仅下载通用的软件包。需要根据通用软件包中ascend_deployer/downloader/config/VesselOS_1.0_aarch64/external_pkg.json文件自行准备系统依赖包。 [!NOTE] 说明可以通过挂载 VesselOS的镜像文件，从挂载的Packages文件夹中获取所有系统依赖包，并将其放入ascend_deployer/resources/VesselOS_1.0_aarch64文件夹中。其中 docker-engine和libtool-ltdl依赖包需放入ascend_deployer/resources/VesselOS_1.0_aarch64/docker文件夹中。
VesselOS	2.0	aarch64	VesselOS暂时未对外开放依赖源，当OS选择VesselOS_2.0_aarch64时，仅下载通用的软件包。需要根据通用软件包中ascend_deployer/downloader/config/VesselOS_2.0_aarch64/external_pkg.json文件自行准备系统依赖包。 [!NOTE] 说明可以通过挂载 VesselOS的镜像文件，从挂载的Packages文件夹中获取所有系统依赖包，并将其放入ascend_deployer/resources/VesselOS_2.0_aarch64文件夹中。其中docker-engine、libtool-ltdl、libnetwork和tar依赖包需放入ascend_deployer/resources/VesselOS_2.0_aarch64/docker文件夹中。
说明 MindCluster Ascend Deployer工具仅支持OS镜像安装成功后的默认环境，请不要在安装OS后手动额外安装或卸载软件，可能会导致工具执行报错。操作系统需关闭内核自动升级功能，以Ubuntu为例，需在操作系统安装完成并重启后，执行sudo apt-mark hold linux-image-generic linux-headers-generic linux-image-extra命令关闭（root用户执行时请删除sudo命令），其他操作系统或自定义升级系统的用户，请参考对应操作系统指南自行关闭。

支持下载的软件包

表 2 MindCluster Ascend Deployer工具支持下载的软件包

可选参数	下载包含的软件包	使用约束
CANN	nnae，nnrt，toolkit，kernels，toolbox	使用 MindCluster Ascend Deployer工具下载CANN的软件包时，可以使用pip3工具执行pip3 install esdk-obs-python==3.23.12安装指定版本的esdk-obs-python，启用CANN软件包断点续传功能，防止出现因软件包较大、网络原因导致下载失败或者重新下载耗时较久的情况。 toolbox为 MindCluster性能测试组件，其版本与CANN包版本配套，版本号独立。
NPU	npu(driver、firmware)，mcu	-
MindCluster集群调度	ascend-device-plugin，ascend-docker-runtime，noded，npu-exporter，volcano，ascend-operator，resilience-controller，clusterd	-
MindCluster故障诊断	fault-diag	-
MindSpore	MindSpore	使用 MindCluster Ascend Deployer部署时，不支持同时下载和安装MindSpore、TensorFlow和Torch-npu。仅支持指定其中一个AI框架下载和安装，请根据实际业务场景要求选择AI框架。 TensorFlow2.6.5存在漏洞，请参考相关漏洞及其修复方案处理。
TensorFlow	TensorFlow
Torch-npu	torch-npu，torch
MindIE-image	mindie-image，mindie	因镜像文件较大，下载时需选择版本及型号。

安装及升级参考

install参数说明

用户根据实际需要选择对应参数完成安装。

命令格式：

方式一：通过下载ZIP包解压使用bash install.sh [options]
方式二：通过pip命令安装MindCluster Ascend Deployer使用ascend-deployer [options]
方式三：通过下载ZIP包解压使用bash large_scale_install.sh [options]
方式四：通过pip命令安装MindCluster Ascend Deployer使用large-scale-deployer [options]

参数说明请参见表1。表中各参数的可选参数范围可通过执行bash install.sh --help查看。

表 1 参数说明

参数	说明
--help, -h	查询帮助信息。
--check	检查环境，支持检查与待安装设备的连通性，待安装设备对工具、待安装软件包的兼容性。该参数需配合--install=<package_name>、--install-scene=<scene_name>、--upgrade=<package_name>一起使用。使用--check时，不可使用--skip_check参数。
--check_mode	选择检查模式，支持快速全量检查，统一展示报错数据，生成检查结果文件。具体请见检查结果文件。可选参数：fast（快速检查，遇到异常即退出）、full（全量检查）。默认为full。该参数需配合--install=<package_name>、--install-scene=<scene_name>、--upgrade=<package_name>、--check一起使用。使用--check_mode时，不可使用--skip_check参数。
--skip_check	用于决定是否执行安装检查。检查项主要为用户、配置、依赖、兼容性、卡的健康状态等。该参数可以配合--install=<package_name>、--install-scene=<scene_name>、--upgrade=<package_name>一起使用。使用--skip_check时，不可使用--check和--check_mode参数。
--clean	清理待安装设备用户家目录下的resources目录和resources_{arch}.tar。
--nocopy	在批量安装时不进行资源拷贝。在大规模部署场景下该参数不影响资源拷贝。该参数需要配合--install=<package_name>或--install-scene=<scene_name>、--upgrade=<package_name>一起使用。使用示例：bash install.sh --install=python --nocopy
--only_copy	在批量安装时进行资源拷贝。在大规模部署场景下该参数不影响资源拷贝。仅对要安装的软件进行资源拷贝，但不执行具体的安装，与--nocopy互斥。该参数需要配合--install=<package_name>或--install-scene=<scene_name>、--upgrade=<package_name>一起使用。使用示例：bash install.sh --install=python --only_copy
--force_upgrade_npu	当不是所有卡异常时，可强制升级NPU。
--verbose	对每个任务的安装状态进行详细打印。该参数需要配合install或install-scene使用。使用示例：bash install.sh --install=python --verbose（打印python安装的详细信息）。
--stdout_callback=<callback_name>	设置命令执行的输出格式，可用的参数通过"ansible-doc -t callback -l"命令查看。
--install=<package_name>	指定软件安装。安装的软件包请参见支持安装及升级的软件包。
--upgrade=<package_name>	指定软件升级。可选参数：npu(driver、firmware)、mcu、nnae、nnrt、toolkit、kernels、toolbox、fault-diag、ascend-device-plugin、ascend-docker-runtime、noded、npu-exporter、volcano、ascend-operator、resilience-controller、clusterd、ubengine
--install-scene=<scene_name>	指定场景安装。安装场景请参见支持安装及升级场景。
--patch=<package_name>	指定软件打补丁。可选参数：nnae、nnrt、toolkit
--patch-rollback=<package_name>	指定软件的补丁回退。可选参数：nnae、nnrt、toolkit
--test=<target>	检查指定组件的版本及能否正常工作。可选参数：all、driver、firmware、mcu、mindspore、nnae、nnrt、pytorch、tensorflow、toolbox、toolkit、 ascend-device-plugin、ascend-docker-runtime、noded、npu-exporter、volcano、ascend-operator、resilience-controller、clusterd、mindie_image、fault-diag、ubengine
--hccn	配置HCCN网络。大规模部署场景下不支持该参数。
--hccn --check	对HCCN网络进行检测。
--retry=<target>	该参数仅在安装部署超大规模集群时使用，默认值为fast。重试选项，自动使用上一次生成的子集群配置文件再次尝试重新部署。可选参数说明如下： full：全量重新部署，会重新上传软件包到各个服务器，耗时较长。该参数不能与--nocopy共用，且需要在多实例场景下使用。 fast：快速模式，仅执行部署，不重新上传软件包，该命令会触发原有的--nocopy选项。该参数不能与--only_copy共用。

检查结果文件示例

使用--check_mode参数，在~/.ascend_deployer/deploy_info/路径下，将生成check_res_output.json检查报告，准确提示错误信息。结果示例如下显示：

{
  "CheckList": [
    {
      "check_item": "check_card",
      "desc_en": "Check NPU card compatibility",
      "desc_zh": "检查NPU卡兼容性",
      "tip_en": "",
      "tip_zh": ""
    },
  "check_k8s_version": {
        "check_item": "check_k8s_version",
        "desc_en": "Judgment: 1. kubelet, kubectl, and kubeadm all exist"
                   "2. kubelet --version == kubeadm version == kubectl version "
                   "3.kubelet version < 1.29 "
                   "4. kubelet version >=1.19.16.",
        "desc_zh": "判断：1、kubelet，kubectl，kubeadm都存在"
                   "2、kubelet --version == kubeadm version == kubectl version "
                   "3、kubelet version < 1.29 "
                   "4、kubelet version >=1.19.16。",
        "tip_en": "Execute the version query command to confirm whether the component has been installed, "
                  "whether the version number is the same, and whether the version is within the supported range.",
        "tip_zh": "执行版本查询命令确认组件是否已安装，版本号是否相同，版本是否在支持范围。",
        "help_url": ""
    }
  ],
  "HostCheckResList": {
    "xx.xx.xx.x1": [
      {
        "check_item": "check_card",
        "status": "failed",
        "error_msg": "Check card failed: [ASCEND] A300i-pro has no support for MTOS_22.03LTS-SP4_aarch64 on this device"
      }
    ]
  }
}

表 2 检查结果文件参数说明

参数	描述
check_item	检查项。
desc_en	检查结果（英文）。
desc_zh	检查结果（中文）。
tip_en	解决提示（英文）。
tip_zh	解决提示（中文）。
help_url	相关帮助文档参考链接。
error_msg	错误信息。
status	检查结果状态。 success：成功 failed：失败

支持安装及升级场景

MindCluster Ascend Deployer工具提供如下基本安装及升级场景。

Note

涉及安装框架的场景下，如果系统的gcc版本低于7.3.0，会自动安装gcc 7.3.0并设置好环境变量或软链接（请参考（可选）配置gcc环境变量）以确保各场景安装后可正常使用。

安装须知

安装时，运行环境时间需要通过date -s命令校准到正确的UTC时间。
MindCluster Ascend Deployer工具只能安装最基本的库，确保TensorFlow和PyTorch能够运行。若需运行较为复杂的推理业务或模型训练，模型代码中可能包含具体业务相关的库，这些库需用户自行安装。
MindCluster Ascend Deployer工具所需依赖较多，建议在工具下载的OS依赖安装或升级完成后，对用户自行上传软件包进行安装或者升级等操作。
请勿重复执行--install-scene命令，否则会导致安装失败。

可选安装及升级场景

表 1 可选安装及升级场景

场景分类	场景名称	安装的组件	说明
安装	offline_dev	sys_pkg，python，npu，toolkit，kernels	离线推理开发场景
安装	offline_run	sys_pkg，python，npu，nnrt	离线推理运行场景
安装	mindspore	sys_pkg，python，npu，toolkit，mindspore，kernels	MindSpore场景
安装	tensorflow_dev	sys_pkg，python，npu，toolkit，tensorflow，kernels	TensorFlow开发场景
安装	tensorflow_run	sys_pkg，python，npu，nnae，tensorflow，kernels	TensorFlow运行场景
安装	pytorch_dev	sys_pkg，python，npu，toolkit，pytorch，kernels	PyTorch开发场景
安装	pytorch_run	sys_pkg，python，npu，nnae，pytorch，kernels	PyTorch运行场景
安装升级	dl	ascend-device-plugin，ascend-docker-runtime，noded，npu-exporter，volcano，ascend-operator，clusterd	安装、升级MindCluster集群调度场景

Note

上述安装场景的配置文件位于scene目录下，如dl场景的配置文件ascend-deployer/ascend_deployer/playbooks/scene/scene_dl.yml，如需自定义安装场景，可参考配置文件进行定制。

支持安装及升级的软件包

MindCluster Ascend Deployer工具支持指定安装如表1所示软件包，可通过执行bash install.sh --help查看--install=<package_name>支持参数。

安装须知

安装时，运行环境时间需要通过date -s命令校准到正确的UTC时间。
指定软件安装或升级时，MindCluster Ascend Deployer只支持指定安装或升级近一年内的软件版本。
MindCluster Ascend Deployer工具只能安装最基本的库，确保TensorFlow和PyTorch能够运行。若需运行较为复杂的推理业务或模型训练，模型代码中可能包含具体业务相关的库，这些库需用户自行安装。
gcc版本低于7.3.0，MindCluster Ascend Deployer工具会自动安装。
MindCluster Ascend Deployer工具所需依赖较多，建议在工具下载的OS依赖安装完成后，对用户自行上传软件包进行安装或者升级等操作。

可选安装及升级的软件包

表 1 可选安装及升级软件包

场景分类	软件包类型	指定参数	说明
仅安装	系统组件	sys_pkg	UOS系统下不支持单独指定sys_pkg安装。
仅安装	Python	python	所有Python库的安装都必须先安装Python，如TensorFlow、MindSpore、PyTorch等。 MindCluster Ascend Deployer工具默认下载和安装的Python版本为3.7.5，本手册中均以环境上安装Python 3.7.5为例进行说明。如果用户想选择其他Python版本（不建议更改默认配置），可以通过设置环境变量ASCEND_PYTHON_VERSION（如export ASCEND_PYTHON_VERSION=Python-3.7.0）或修改ascend-deployer/ascend_deployer/downloader/config.ini文件中的Python配置项的方式，指定要安装的Python版本（可选版本为3.7.0~3.7.11、3.8.0~3.8.11、3.9.0~3.9.9、3.10.0~3.10.12、3.11.4、3.12.10）。
仅安装	仅分发软件包	copy_pkgs	强制分发环境下所有软件包，copy_pkgs会将resources文件夹下所有软件包分发给待安装设备。使用示例：bash install.sh --install=copy_pkgs
安装和升级	NPU驱动和固件	npu(driver、firmware)	MindCluster Ascend Deployer工具安装驱动版本和系统内核不匹配时，此时需要用户参考《CANN 软件安装》的“安装驱动源码编译所需依赖”章节手动安装。安装npu时，会提前获取设备健康状态。如果设备存在问题，则会终止整个安装过程。
仅升级	MCU固件	mcu	若升级MCU 3.3.4及以上版本固件包，请先升级npu-smi工具至22.0.3及以上版本，否则会导致升级失败。MCU新版本生效后，MCU内部会进行主备区同步，如需再次升级，请等待5min后再次操作。如果升级后不是目标版本或者升级失败，请重新进行升级。如果依然升级失败，请记录故障现象和操作步骤，并联系华为技术支持解决。 MCU升级过程中及生效后2min内，不允许对MCU进行操作。
安装和升级	MAMI包	ubengine	环境上需要先安装NPU驱动和固件。安装或升级后，需要重启生效。仅Atlas 350 标卡支持ubengine。 driver包含ubengine功能，只有UB链路故障时才需要单独安装或升级ubengine。
安装和升级	CANN软件	nnae、nnrt、toolkit、kernels	对于CANN8.5.0之前版本，kernels会默认安装在同一版本的nnae下，未安装nnae时，则安装在toolkit下，toolkit和nnae都未安装，则安装在nnrt下，nnae、toolkit和nnrt都未安装，则默认跳过安装。安装后的路径（以跟随toolkit安装为例）：“软件包安装路径/ascend-toolkit/latest/opp/built-in/op_impl/ai_core/tbe/kernel”。安装toolkit时，会自动编译安装HCCL性能测试工具，安装后的路径：“软件包安装路径/ascend-toolkit/latest/tools/hccl_test”。对于CANN 8.5.0及之后版本，CANN软件包只有toolkit包和ops包，若为升级场景，升级之后请自行卸载老版本的nnae和nnrt。如执行bash /usr/local/Ascend/nnae/latest/script/uninstall.sh。安装ops时，会自动编译安装HCCL性能测试工具，安装后的路径：“软件包安装路径/cann/tools/hccl_test”。安装8.5.0及之后版本的CANN软件包后，如果需要回退，请手动卸载新版本的CANN软件包后，重新部署老版本的CANN软件包。安装8.5.0及之后版本的CANN软件包时，部分场景仅支持nnrt，如果安装仅选择nnrt，后续升级也只能使用nnrt命令升级，不支持nnae或者toolkit升级。当安装8.5.0及之后版本的CANN软件包时，若安装命令中包含toolkit或者nnae，则均为全量安装CANN软件包。 nnrt不支持从CANN 8.5.0之前版本升级到CANN 8.5.0及之后版本。若要升级，需要先卸载CANN 8.5.0之前版本的nnrt，再安装CANN 8.5.0及之后版本的nnrt。 CANN 8.5.0及之后版本需要安装toolkit+ops或者nnrt+ops，功能才可用。 ops包仍然使用kernels参数安装。详细使用说明请参见《CANN 软件安装》的“安装CANN”章节。
安装和升级	MindCluster性能测试	toolbox	-
安装和升级	MindCluster集群调度	ascend-device-plugin，ascend-docker-runtime，noded，npu-exporter，volcano，ascend-operator，resilience-controller，clusterd	仅支持在已有K8s和Docker场景下安装。安装MindCluster场景时，请确保系统中Docker容器、文件系统或根目录的磁盘空间，在已用空间基础上额外使用18G（MindCluster镜像和训练推理镜像预估值）后，剩余可用空间大于30%。若用户在设备上已完成Kubernetes的安装部署，请检查Kubernetes的软件版本是否是1.19.16-1.28.X之间的版本（Kubernetes1.24及以上版本需要安装cri-dockerd）以及Docker版本是否是18.09.x及以上版本，若检查结果为否，会导致安装失败。
安装和升级	MindCluster故障诊断	fault-diag	仅支持以下版本的Python：3.7、3.9、3.10、3.11.4、3.12.10。
仅安装	AI框架	tensorflow、pytorch、mindspore	使用MindCluster Ascend Deployer部署时，不支持同时下载和安装MindSpore、TensorFlow和Torch-npu。仅支持指定其中一个AI框架下载和安装，请根据实际业务场景要求选择AI框架。
仅安装	容器镜像工具	docker_images	-
仅安装	MindIE镜像	mindie-image	-
仅安装	MindIE镜像	deepseek_pd	部署DeepSeek PD实例。
仅安装	MindIE Server	deepseek_cntr	Docker场景部署DeepSeek。

PD分离部署经典配置参数

目前仅支持配置经典配置参数，根据填写的max_seq_len最大序列长度参数（对应下表中maxSeqLen参数）和D实例个数自动填充其他参数。

使用Atlas 800I A2 推理服务器时的经典配置参数

表 1 Atlas 800I A2 推理服务器关键参数说明

参数类型	参数名	上下文序列长度
参数类型	参数名	16k	64k	128k
P实例参数（mindie_server_prefill_config）	maxSeqLen	18000	68000	134000
	maxInputTokenLen	18000	68000	134000
	dp	2	1	1
	cp	1	2	2
	tp	8	8	8
	sp	1	8	8
	pp	1	1	1
	moe_ep	4	16	16
	moe_tp	4	1	1
	ep_level	1	1	1
	MTP	开启	开启	关闭
	enable_init_routing_cutoff	false	true	true
	topk_scaling_factor	不生效	0.25	0.25
	maxPrefillTokens	18000	68000	134000
D实例参数（mindie_server_decode_config）	maxSeqLen	18000	68000	134000
	maxInputTokenLen	18000	68000	134000
	dp	D实例为4节点：32 D实例为8节点：64	D实例为4节点：32 D实例为8节点：64	D实例为4节点：32 D实例为8节点：64
	tp	1	1	1
	sp	1	1	1
	cp	1	1	1
	pp	1	1	1
	moe_ep	D实例为4节点：32 D实例为8节点：64	D实例为4节点：32 D实例为8节点：64	D实例为4节点：32 D实例为8节点：64
	moe_tp	1	1	1
	ep_level	2	2	2
	MTP	开启	开启	关闭
	maxPrefillTokens	18000	68000	134000
	maxIterTimes	18000	68000	134000

表 2 Atlas 800I A2 推理服务器智算节点典型配置

节点配置	PD分离配置	交换机选型参考
8台+2台+1台热设备	22P+14D+2台（双机）+1台在线热备份	交换机规格参考：32*400G，如XH9210：Leaf 3台，Spine 2台
16台+1台热设备	42P+24D+1台在线热备份	交换机规格参考：32*400G，如XH9210：Leaf 5台，Spine 4台
N*16台	N（42P+1*8D）按16节点最佳性能（EP64）线性扩展	交换机规格参考：32*400G，如XH9210：Leaf 32台，Spine 16台以N=8，共1024NPU为例

Note

大规模专家并行方案采用Atlas 800I A2 推理服务器（64GB HCCS款），且NPU片上内存必须为64G，NPU网口光模块必须为200G。

使用Atlas 800I A3 超节点服务器时的经典配置参数

表 3 Atlas 800I A3 超节点服务器设备关键参数说明

参数类型	参数名	上下文序列长度
参数类型	参数名	16k	64k	128k
P实例参数（mindie_server_prefill_config）	maxSeqLen	18000	68000	134000
	maxInputTokenLen	18000	68000	134000
	dp	2	1	1
	cp	1	2	2
	tp	8	8	8
	sp	1	8	8
	pp	1	1	1
	moe_ep	16	16	16
	moe_tp	1	1	1
	ep_level	2	2	2
	MTP	开启	开启	关闭
	maxPrefillTokens	18000	68000	134000
D实例参数（mindie_server_decode_config）	maxSeqLen	18000	68000	134000
	maxInputTokenLen	18000	68000	134000
	dp	D实例为4节点：64 D实例为8节点：128	D实例为4节点：64 D实例为8节点：128	D实例为4节点：64 D实例为8节点：128
	tp	1	1	1
	sp	1	1	1
	cp	1	1	1
	pp	1	1	1
	moe_ep	D实例为4节点：64 D实例为8节点：128	D实例为4节点：64 D实例为8节点：128	D实例为4节点：64 D实例为8节点：128
	moe_tp	1	1	1
	ep_level	2	2	2
	MTP	开启	开启	关闭
	maxPrefillTokens	18000	68000	134000
	maxIterTimes	18000	68000	134000

表 4 Atlas 800I A3 超节点服务器智算节点典型配置

节点配置	PD分离配置	总线网络交换机（L2）数量
8台+1台A3冗余节点（可选）	41P+22D+1台A3冗余节点（可选）	14
16台+1台A3冗余节点（可选）	81P+24D+1台A3冗余节点（可选）	28
32台+1台A3冗余节点（可选）	161P+44D+1台A3冗余节点（可选）	56
48台	241P+64D	56
N*48台	N（241P+6*4D）	N*56

证书配置（可选）

证书的参数配置文件存放于“$HOME/ascend-deployer/ascend_deployer/group_vars/master/tls_config.yaml”，文件内容示例如下。

# group_vars/tls_config.yaml
tls_config:
  tls_enable: false
  kmc_ksf_master: "./security/master/tools/pmt/master/ksfa"
  kmc_ksf_standby: "./security/standby/tools/pmt/standby/ksfb"
  infer_tls_items:
    ca_cert: "./security/infer/security/certs/ca.pem"
    tls_cert: "./security/infer/security/certs/cert.pem"
    tls_key: "./security/infer/security/keys/cert.key.pem"
    tls_passwd: "./security/infer/security/pass/key_pwd.txt"
    tls_crl: "infer"
  management_tls_items:
    ca_cert: "./security/management/security/certs/ca.pem"
    tls_cert: "./security/management/security/certs/cert.pem"
    tls_key: "./security/management/security/keys/cert.key.pem"
    tls_passwd: "./security/management/security/pass/key_pwd.txt"
    tls_crl: "management"

  # Atlas 800I A2 推理服务器的场景不需要配置 ccae_tls_enable 和 ccae_tls_items
  ccae_tls_enable: false
  ccae_tls_items:
    ca_cert: "./security/ccae/security/certs/ca.pem"
    tls_cert: "./security/ccae/security/certs/cert.pem"
    tls_key: "./security/ccae/security/keys/cert.key.pem"
    tls_passwd: "./security/ccae/security/pass/key_pwd.txt"
    tls_crl: "ccae"
  cluster_tls_enable: false
  cluster_tls_items:
    ca_cert: "./security/clusterd/security/certs/ca.pem"
    tls_cert: "./security/clusterd/security/certs/cert.pem"
    tls_key: "./security/clusterd/security/keys/cert.key.pem"
    tls_passwd: "./security/clusterd/security/pass/key_pwd.txt"
    tls_crl: "clusterd"
  etcd_server_tls_enable: false
  etcd_server_tls_items:
    ca_cert: "./security/etcd_server/security/certs/ca.pem"
    tls_cert: "./security/etcd_server/security/certs/cert.pem"
    tls_key: "./security/etcd_server/security/keys/cert.key.pem"
    tls_passwd: "./security/etcd_server/security/pass/key_pwd.txt"
    kmc_ksf_master: "./security/etcd_server/tools/pmt/master/ksfa"
    kmc_ksf_standby: "./security/etcd_server/tools/pmt/standby/ksfb"
    tls_crl: ""

Note

如何配置及使用证书，请参见《MindIE Motor开发指南》中的“集群服务部署 > PD分离服务部署 > 安装部署 > 配置自动生成证书”章节。

其他

用户信息列表

请定期更新用户的密码，避免长期使用同一个密码带来的风险。

用户	描述	初始密码	密码修改方法
root	超级用户。	用户自定义	使用passwd命令修改。
HwHiAiUser	驱动run包的运行用户。	用户自定义	使用passwd命令修改。
hwMindX	MindCluster集群调度组件默认的运行用户，默认设置为nologin。	无	-
admin	nexus的管理用户，仅在安装sys_pkg时使用。	随机生成	用户登录nexus服务，在设置中修改。
nexus	Dockerfile中制作nexus镜像时创建的用户。	用户自定义	使用passwd命令修改。
anonymous	匿名用户。启用后允许未登录用户访问Nexus服务的相关资源。	无	-

Note

MindCluster Ascend Deployer作为部署工具会安装其他组件，各组件的用户列表信息请参考对应资料获取。

Dockerfile示例中openEuler基础镜像中的用户

用户	初始密码	密码修改方法
root	无	-
bin	无	-
daemon	无	-
adm	无	-
lp	无	-
sync	无	-
shutdown	无	-
halt	无	-
mail	无	-
operator	无	-
games	无	-
ftp	无	-
nobody	无	-
systemd-coredump	无	-
systemd-network	无	-
systemd-resolve	无	-
tss	无	-
unbound	无	-

口令复杂度要求

口令至少满足如下要求：

口令长度至少8个字符。
口令必须包含如下至少两种字符的组合：
- 一个小写字母
- 一个大写字母
- 一个数字
- 一个特殊字符：`~!@#$%^&*()-_=+\|[{}];:'",<.>/?和空格
口令不能和账号一样。

CA证书

表 1 CA证书

CA证书	路径	描述
Huawei_Integrity_Root_CA_G2.pem	ascend-deployer-{version}/ascend_deployer/scripts/Huawei_Integrity_Root_CA_G2.pem	用于校验软件包的完整性，确保数据在传输过程中未被篡改。
Huawei_Software_Integrity_Protection_Root_CA.pem	ascend-deployer-{version}/ascend_deployer/scripts/Huawei_Software_Integrity_Protection_Root_CA.pem	用于校验软件包的完整性，确保数据在传输过程中未被篡改。