常用操作
UOS系统安装依赖
MindCluster Ascend Deployer工具在UOS系统上不支持安装昇腾软件包所需系统依赖,请参考以下操作手动安装。
-
在yum源配置路径/etc/yum.repos.d下,新建cann_docker.repo文件,写入以下示例内容,请根据所在组织安全要求和版本需要进行修改。
# 安装驱动、固件、CANN软件时需添加 [docker-ce] baseurl=https://mirrors.huaweicloud.com/docker-ce/linux/centos/7/aarch64/stable gpgcheck=0 [extra] baseurl=https://mirrors.huaweicloud.com/centos-altarch/7/extras/aarch64/ gpgcheck=0 -
执行如下命令安装驱动、固件、CANN软件等所需依赖。
yum install blas-devel gcc-c++ net-tools haveged sshpass dkms gcc kernel-devel-$(uname -r) make haveged bzip2 unzip tar docker-ce-18.09.0 docker-ce-cli-18.09.0 containerd.io-1.6.16 zlib-devel openssl-devel xz-devel bzip2-devel libffi-devel sqlite-devel bzip2-devel python3-libselinux expect hdf5-devel dos2unix -
手动安装Kubernetes并配置inventory_file文件,配置完成后再进行MindCluster的安装。
-
UOS系统中,MindCluster集群调度组件仅支持在Kubernetes 1.19.16~1.28.X版本间(Kubernetes1.24及以上版本需要安装cri-dockerd)、Docker 18.09.x及以上版本进行配置,否则会跳过Kubernetes配置,直接安装MindCluster集群调度软件包。
-
UOS 20-1020e和20-1050u2e系统上安装MindCluster集群调度组件,请先手动完成Kubernetes的安装和inventory_file文件配置后,再用MindCluster Ascend Deployer执行MindCluster安装命令。
-
卸载MindCluster Ascend Deployer工具
MindCluster Ascend Deployer工具属于安装部署类工具,系统安装完成后立即删除以释放磁盘空间。
-
清理管理服务器和远程机器上的~/resources和~/resources_{arch}.tar
bash install.sh --clean -
手动清理卸载MindCluster Ascend Deployer工具。
-
在Windows和Linux上以zip包的方式安装,卸载时需删除zip文件和解压后的目录。
-
在Linux上使用pip方式安装,需执行如下命令卸载。
pip3 uninstall ascend-deployerLinux上卸载工具后,还需删除表1所示内容。
表 1 需删除内容
目录 说明 ascend-deployer 管理服务器(MindCluster Ascend Deployer执行机)上离线部署工具的目录 ~/.ansible 管理服务器和远程机器上的自定义信息收集配置文件 ~/build 管理服务器和远程机器上的源码包解压目录
-
设置用户有效期
为保证用户的安全性,应设置用户的有效期,使用系统命令chage来设置用户的有效期。
命令为:
chage [-m mindays] [-M maxdays] [-d lastday] [-I inactive] [-E expiredate] [-W warndays] user
举例说明:修改用户test的有效期为90天。
chage -M 90 test
相关参数请参见表1。
| 参数 | 参数说明 |
|---|---|
| -m | 口令可更改的最小天数。设置为“0”表示任何时候都可以更改口令。 |
| -M | 口令保持有效的最大天数。设置为“-1”表示可删除这项口令的检测。设置为“99999”,表示无限期。 |
| -d | 上一次更改的日期。 |
| -I | 停滞时期。过期指定天数后,设定密码为失效状态。 |
| -E | 用户到期的日期。超过该日期,此用户将不可用。 |
| -W | 用户口令到期前,提前收到警告信息的天数。 |
| -l | 列出当前的设置。由非特权用户来确定口令或账户何时过期。 |
Note
- 表1只列举出常用的参数,用户可通过chage --help命令查询详细的参数说明。
- 日期格式为YYYY-MM-DD,如chage -E 2017-12-01 test表示用户test的口令在2017年12月1日过期。
- user必须填写,填写时请替换为具体用户,默认为root用户。
安装、回退CANN补丁包
- 补丁仅能支持对应的基线版本或相关的补丁版本进行升级。
- 基于同一基线版本的补丁,需保证后续安装的补丁版本大于之前安装的补丁版本。
- 仅支持回退一个补丁版本。
- 安装、回退过程禁止进行其他维护操作动作。
- 补丁包安装、回退过程中会导致业务中断。
- 补丁包安装、回退后,不会影响正常业务。
安装过程与安装昇腾软件基本相同,主要区别点如下:
- CANN补丁包不支持使用MindCluster Ascend Deployer工具在线下载,用户需自行获取所需的CANN补丁包,并放置于ascend-deployer/ascend_deployer/resources/patch(如不存在patch目录,请自行创建)目录下。注意在安装前删除ascend-deployer/ascend_deployer/resources目录下的CANN软件包和run_from_cann_zip目录。
- 安装、回退CANN冷补丁的执行命令参考如下:
-
安装CANN冷补丁(以nnae包为例):
bash install.sh --patch=nnae -
回退CANN冷补丁(以nnae包为例):
bash install.sh --patch-rollback=nnae
-
源配置
MindCluster Ascend Deployer工具已提供源配置文件,用户可根据实际进行替换。
-
Python源配置
在ascend-deployer/ascend_deployer/downloader/config.ini文件中配置Python源,默认使用华为源。
[pypi] index_url=https://repo.huaweicloud.com/repository/pypi/simple -
系统源配置
系统源配置文件ascend-deployer/ascend_deployer/downloader/config/{os}_{version}_{arch}/source.xxx
以CentOS 7.6 aarch64为例,源配置文件ascend-deployer/ascend_deployer/downloader/config/CentOS_7.6_aarch64/source.repo内容如下:
[base] baseurl=https://mirrors.huaweicloud.com/centos-altarch/7/os/aarch64 [epel] baseurl=https://mirrors.huaweicloud.com/epel/7/aarch64表明同时启用base源和epel源,下载系统组件时会从这两个源中查询和下载,若删除源,可能造成组件下载不完整。默认使用华为源,可根据实际需要修改,请确保该源符合所在组织的安全/漏洞修补要求。
若修改,请选择安全可靠的源,并测试下载和安装行为是否正常,否则可能造成组件下载不完整或安装异常。
Note
- 下载类CentOS的系统组件时需解析系统源内的XML文件,建议在系统Python3中安装defusedxml安全组件,提升应对潜在的XML漏洞攻击的安全能力。
- 下载系统依赖出现资源不存在时,可修改downloader/config/{os}_{version}_{arch}/pkg_info.json文件,指定资源获取链接,其中资源获取链接须符合所在组织的安全要求。
限制进程的CPU使用率或内存使用量(Linux)
如果用户想限制MindCluster Ascend Deployer运行的CPU使用率或内存使用量,可参考本章节。
cgroups全称control groups,是Linux内核提供的一种可以限制单个或多个进程所使用资源的机制,可以对CPU、内存等资源实现精细化的控制。操作参考如下:
-
限制MindCluster Ascend Deployer运行CPU
-
创建子目录。
cd /sys/fs/cgroup/cpu mkdir ascend-deployer # 目录名可自定义创建完ascend-deployer目录后,会自动在该目录下生成cpu.cfs_period_us、cpu.cfs_quota_us等文件。
-
进入ascend-deployer目录,设置相应文件中的值。对于CPU的限制主要涉及以下文件。
表 1 文件说明
文件名 说明 cpu.cfs_period_us 统计CPU使用时间的周期,单位是微秒(us),取值范围为1000~1000000,默认为100000。 cpu.cfs_quota_us 设置的周期内允许占用的CPU时间(指单核的时间,多核需要在设置时累加),默认为-1表示不限制。 - 例如想限制为30%,则修改值为30000。
- 例如想限制最多使用CPU两个核,则修改值为200000。
tasks 需要限制的程序进程pid列表。对于限制生效后的pid派生的子进程,会自动将其子进程的pid也加入到该文件中。 建议将运行程序的shell的pid(执行命令echo $$)添加到tasks之后,再启动程序。
以限制最大CPU使用率为50%为例,操作如下:
cpu.cfs_period_us文件值保持默认,修改cpu.cfs_quota_us值为50000,在准备运行MindCluster Ascend Deployer的shell窗口执行echo $$查询其pid,并将其写入tasks文件中。
-
-
限制MindCluster Ascend Deployer运行内存
-
创建子目录。
cd /sys/fs/cgroup/memory mkdir ascend-deployer # 目录名可自定义创建完ascend-deployer目录后,会自动在该目录下生成memory.limit_in_bytes、tasks等文件。
-
进入ascend-deployer目录,设置相应文件中的值。对于内存的限制主要涉及以下文件。
表 2 文件说明
文件名 说明 memory.limit_in_bytes 限制进程的内存使用量。 例如限制最多使用500M内存,值应为500*1024*1024=524288000。将memory.limit_in_bytes文件中的值修改为计算所得值524288000。
tasks 需要限制的程序进程pid列表。对于限制生效后的pid派生的子进程,会自动将其子进程的pid也加入到该文件中。 建议将运行程序的shell的pid(执行命令echo $$)添加到tasks之后,再启动程序。
以限制最多使用500M内存为例,将memory.limit_in_bytes文件中的值修改为计算所得值524288000,在准备运行MindCluster Ascend Deployer的shell窗口执行echo $$查询其pid,并将其写入tasks文件中。
-
SSH超时连接配置
部分OS会默认设置超时限制,用户可通过自行修改环境变量TMOUT和sshd_config文件中相关信息来避免频繁弹出超时提示。
-
修改TMOUT环境变量,为0时表示没有超时限制。可以将其设置为一个正整数,表示会话的最大无活动时间(以秒为单位)。例如,将TMOUT设置为600表示如果用户在10分钟内没有任何活动,则用户的登录状态将被自动终止。
export TMOUT=600 -
根据所在组织的安全要求,自行修改sshd_config文件中ClientAliveInterval和ClientAliveCountMax字段。
安装前检查
昇腾软件包所需依赖复杂,为提高安装效率,MindCluster Ascend Deployer提供安装前检查功能。在执行安装命令前,用户可根据安装的场景或软件包,执行如下命令测试是否支持安装,测试通过后再执行安装操作。
在以下示例中,--stdout_callback=ansible_log为可选参数,用来启用打屏显示插件。
MindCluster Ascend Deployer工具提供几个基本安装场景,<scene_name>具体可参考支持安装及升级场景。用户可以执行如下命令进行安装前检查。
bash install.sh --install-scene=<scene_name> --check --stdout_callback=ansible_log
命令示例如下:
bash install.sh --install-scene=dl --check //测试是否支持安装集群调度
<package_name>可选范围可参考表1,也可以通过执行bash install.sh --help查看。
bash install.sh --install=<package_name> --check --stdout_callback=ansible_log
命令示例如下:
bash install.sh --install=toolkit --check --stdout_callback=ansible_log //测试是否支持安装toolkit
执行完检查后,MindCluster Ascend Deployer会在~/.ascend_deployer/deploy_info目录下输出检查结果文件check_res_output.json。
安装昇腾软件(自行准备软件包方式)
用户已完成商用版或社区版昇腾软件下载时,可参考本章节进行安装。
- 已完成MindCluster Ascend Deployer工具的下载。
- 已完成软件包的准备工作。
- 准备的软件包需在MindCluster Ascend Deployer工具支持的安装范围内,如表1所示。
- 用户需要提前准备support企业网站的登录账号,并提前申请和确认有相应软件包(驱动与固件包、CANN软件包以及MindCluster性能测试软件包)的下载权限,可通过ascend-deployer/ascend_deployer/downloader/software/CANN_*.json文件中的URL链接跳转申请。
-
下载Docker软件和系统依赖。双击运行“ascend-deployer-{version}/ascend_deployer”目录下的“start_download_ui.bat”。在界面勾选待安装设备的OS如图1所示。务必不要勾选界面右侧软件(PKG_LIST)。
-
(可选)单击“启用代理”,填写代理信息。
在Windows10及以上版本操作系统上,用户可使用已配置的代理服务器进行软件下载。其他操作系统暂不支持此功能。
-
单击“开始下载”。
出现如下回显,表示下载完成。如图2所示。
-
将准备好的软件包放至以下路径。
-
NPU驱动固件、Toolkit、kernels和MindCluster性能测试等软件包:放置于“ascend-deployer-{version}/ascend_deployer/resources”目录。
resources文件夹内容如下(以CentOS 7.6为例):
resources ├── CANN_8.2.RC1 ├── FaultDiag_7.1.RC1 ├── MindIE-image ├── mindxdl ├── nexus ├── npu ├── CentOS_7.6_aarch64 ├── pylibs ├── sources └── version.json
-
(可选)若需要替换为其他版本,可以将“ascend_deployer/resources/mindxdl/dlPackage/{arch}”文件夹下的MindCluster组件包替换为下载好的MindCluster组件包。
ascend_deployer/resources/mindxdl/dlPackage/{arch}文件夹内容如下。
ascend_deployer/resources/mindxdl/dlPackage/{arch} ├─ Ascend-docker-runtime_{version}_linux-{arch}.run ├─ Ascend-mindxdl-ascend-operator_{version}_linux-{arch}.zip ├─ Ascend-mindxdl-device-plugin_{version}_linux-{arch}.zip ├─ Ascend-mindxdl-noded_{version}_linux-{arch}.zip ├─ Ascend-mindxdl-npu-exporter_{version}_linux-{arch}.zip ├─ Ascend-mindxdl-resilience-controller_{version}_linux-{arch}.zip └─ Ascend-mindxdl-volcano_{version}_linux-{arch}.zip └─ Ascend-mindxdl-clusterd_{version}_linux-{arch}.zipNote
- {version}表示软件版本号。
- {arch}表示CPU架构。
-
-
将“ascend-deployer-{version}”整个目录压缩成zip包上传至执行机(用于部署MindCluster Ascend Deployer工具执行批量安装的服务器)任意目录。
-
执行unzip ascend-deployer-{version}.zip命令解压获得“ascend-deployer-{version}”目录。
手动创建运行用户
昇腾软件需要创建特殊运行用户,若需要手动创建,请参考以下操作。
命令参考如下(以创建HwHiAiUser用户为例):
如果想指定其他用户作为运行用户,后续在安装操作中修改配置文件inventory_file。
-
创建运行用户HwHiAiUser。
groupadd HwHiAiUser useradd -g HwHiAiUser -d /home/HwHiAiUser -m HwHiAiUser -s /bin/bash -
设置HwHiAiUser用户密码。
passwd HwHiAiUser
Note
设置的口令需符合口令复杂度要求(请参见口令复杂度要求)。密码有效期为90天,您可以在/etc/login.defs文件中修改有效期的天数,或者通过chage命令来设置用户的有效期,详情请参见设置用户有效期。
配置DNS
在所有待安装设备上执行cat /etc/resolv.conf命令查看操作系统是否已配置DNS。所有待安装设备的DNS建议保持一致。
若回显DNS配置信息(如“nameserver”信息),表示已配置DNS;
若无回显信息,表示未配置DNS,请执行如下步骤配置。
-
ip a -
给相应网口配置DNS,所有网口的DNS建议保持一致。
例:从步骤1中,查询到的网口名称为enp125s0f0。
nmcli connection modify enp125s0f0 +ipv4.dns 10.10.10.254 nmcli connection up enp125s0f0Note
- 10.10.10.254为DNS地址,仅为示例。
- enp125s0f0为网口名称,仅为示例。
- 使用nmcli指令配置DNS仅为示例,用户需按照OS镜像提供商的DNS配置方案完成配置。
-
查看DNS是否配置成功。
cat /etc/resolv.conf回显如下信息,表示DNS配置成功。
# Generated by NetworkManager nameserver 10.10.10.254
配置other_build_image
MindCluster Ascend Deployer工具在批量安装及升级集群调度组件时,支持在异构节点(与执行机架构不一致的worker节点)上批量安装与升级MindCluster集群调度。请选取一个异构节点作为异构镜像的构建服务器,并在构建服务器上完成inventory_file文件中other_build_image(异构服务器信息)的配置即可。
MindCluster Ascend Deployer工具支持异构的场景如下所示。
| 执行机架构 | master节点所在服务器架构 | worker节点所在服务器架构 |
|---|---|---|
| x86 | x86 | ARM |
表 1 other_build_image参数说明
| 参数 | 是否可选 | 说明 |
|---|---|---|
| IP | 必选 | 请配置为异构节点所在服务器的IP地址。 |
| ansible_ssh_user | 必选 | 异构节点SSH登录远程服务器的账号,需要为root账号。 |
| ansible_ssh_pass | 可选 | 异构节点SSH登录远程服务器账号的密码。如果配置了SSH密钥认证方式且root用户可以登录,则无需配置。 |
| set_hostname | 可选,多master或多worker节点时必选,单节点时可选 | 设置异构节点在K8s集群中的节点名,建议用“master-1”或“worker-1”的格式,按照顺序填充;如果已有K8s集群,则该名字需要为异构节点在K8s中的名字,必须配置为小写,不可随意填写。 |
安装部署超大规模集群
MindCluster Ascend Deployer工具支持通过多实例部署的方式实现在一天内完成超10万卡以上的超大规模集群安装部署。
提升部署效率,将大规模集群分为多个子集群,在子集群中择取一台作为实例节点,以该节点作为分布式部署节点,由主节点统计所有实例节点部署信息汇总。
Note
多实例部署不支持同时在两种操作系统下进行。
-
以软件包的安装用户登录待安装设备。
-
通过下载zip包解压使用MindCluster Ascend Deployer工具时,需进入ascend_deployer目录,使用bash large_scale_install.sh --install命令安装部署超大规模集群。
bash large_scale_install.sh --install=<package_name_1>,<package_name_2>命令示例如表1所示。
请按照“sys_pkg>python>npu>CANN、MindCluster(性能测试,故障诊断,集群调度)”的顺序进行安装,安装时resources目录下的CANN包版本需和NPU配套。
表 1 安装命令示例
安装类型 安装命令 系统环境初始化(安装sys_pkg) bash large_scale_install.sh --install=sys_pkg #执行--install命令时,请勿重复安装sys_pkg。
系统环境初始化(安装python) bash large_scale_install.sh --install=python
NPU固件与驱动(右侧命令任选其一执行) bash large_scale_install.sh --install=npu
bash large_scale_install.sh --install=driver,firmware
CANN软件(训练&推理&开发调试场景) bash large_scale_install.sh --install=kernels,toolkit
CANN软件(边缘推理场景) bash large_scale_install.sh --install=nnrt,kernels
CANN软件(训练&推理场景) bash large_scale_install.sh --install=nnae,kernels
MindCluster集群调度 bash large_scale_install.sh --install=ascend-device-plugin,ascend-docker-runtime,noded,npu-exporter,volcano,ascend-operator,clusterd,resilience-controller
MindCluster性能测试 bash large_scale_install.sh --install=toolbox
MindCluster故障诊断 bash large_scale_install.sh --install=fault-diag
-
(可选)涉及安装CANN和ToolBox时,用户需签署华为企业业务最终用户许可协议(EULA)后进入安装流程,根据回显页面执行y或Y确认协议,输入其他任意字符为拒绝协议,确认接受协议后自动开始安装。
若当前语言环境不满足要求,可以执行如下命令配置系统的默认语言环境。
-
配置为中文
export LANG=zh_CN.UTF-8 -
配置为英文
export LANG=en_US.UTF-8
-
安装失败时,会在~/.ascend_deployer/large_scale_deploy/路径下生成report目录,包含安装报告large_scale_deploy.json、host_deploy_report.csv文件。报告文件中以服务器为维度记录了服务器IP地址、状态等结果信息。
在/root/.ascend_deployer/large_scale_deploy/remote_host_data/{IP}/下会生成安装进度信息文件deployer_progress_output.json,查看安装过程和状态信息。
执行以下命令,在report目录下会生成检验报告test_report.csv。
bash large_scale_install.sh --test=all
报告文件中以服务器为维度记录了服务器IP地址、昇腾软件等版本信息。
-
登录MindCluster Ascend Deployer执行机。
-
在MindCluster Ascend Deployer执行机上配置待安装设备的IP地址、用户名。
进入ascend-deployer/ascend_deployer目录,编辑large_scale_inventory.ini文件,添加完成后执行:wq保存退出。
-
按照表2,完成master、worker、deploy_node(可选)、npu_node(可选)的变量配置。
Note
- K8s版本需要1.28及以上。
- 在向K8s集群应用MindCluster集群调度配置时,需要关注集群中不同的NPU硬件形态,提供不同硬件的特征服务器信息。通过设置npu_node配置不同硬件的特征服务器信息,每种硬件各填写任意一个特征服务器的信息。若不配置npu_node,则默认为large_scale_inventory.ini中worker下面配置的首节点的NPU硬件类型。npu_node需在worker组,可仅填写IP。worker组的参数会根据IP对应覆盖npu_node参数。
表 2 参数说明
参数 是否可选 说明 IP 必选 服务器的IP地址。 ansible_ssh_user 必选 SSH登录远程服务器的账号,需要为root账号。 ansible_ssh_pass 可选 SSH登录远程服务器账号的密码。
如果配置了SSH密钥认证方式且root用户可以登录,则无需配置。
大规模部署场景下需集群内各节点间相互免密。
ansible_ssh_port 可选 SSH连接的端口。
使用默认值22端口时无需配置。
如果使用了非默认的其他端口,则需要配置。
set_hostname 可选。 多master或多worker节点时必选。单节点时可选。
设置节点在K8s集群中的节点名,建议用“master-1”或“worker-1”的格式,按照顺序填充。 如果已有K8s集群,则该名字需要为节点在K8s中的名字,必须配置为小写,不可随意填写。
npu_num 可选 设置NPU卡的数量。 index 可选 服务器在ip段中的序号,str类型,比如1.1.1.1-1.1.1.3 set_hostname="master-{index}"。那么1.1.1.1对应的set_hostname=master-1。 step_len 可选 IP跳位步长。
在实际部署中,可能存在ip段跳位等情况。例如1.1.1.1,1.1.1.3,1.1.1.5,则其步长为2。
样例1: 1.1.1.1-1.1.1.5 step_len=2,则输出1.1.1.1,1.1.1.3,1.1.1.5。
样例2: 1.1.1.1-1.1.1.6 step_len=2,则输出1.1.1.1,1.1.1.3,1.1.1.5,1.1.1.6。即末尾ip不在步长内,也保留。
Note
-
配置master节点的主机为K8s的默认控制节点。
-
master个数必须为奇数。
-
在批量输入的配置中的{}内,支持解析参数。支持基本的数学运算和转型str、int。{}解析后最终输出字符串类型。
例如1.1.1.1-1.1.1.3 set_hostname="master-{ str(int(index)+int('20')) + 'x'}",则解析后得到主机信息: 1.1.1.1 set_hostname="master-21x" 1.1.1.2 set_hostname="master-22x"…
-
在[large_scale]配置字段下完成大规模部署参数配置。
表 3 参数说明
参数 是否可选 说明 SUB_GROUP_MAX_SIZE 可选 子集群最大规模,在划分子集群时,保证每个子集群大小都小于或等于该值。Int类型,默认值为200。 示例如下:
[master] [worker] xx.xxx.xx.x1-xx.xxx.xx.x9 ansible_ssh_user="root" ansible_ssh_pass="xxxxxxx" step_len=3 set_hostname="master-{ip}-{int(index)+1}-y" [deploy_node] 10.1.1.1 [npu_node] #npu_node用于设置不同硬件的特征服务器信息,每种硬件各填写任意一个特征服务器的信息 [large_scale] SUB_GROUP_MAX_SIZE=5 [all:vars] -
deploy_node支持以下方式配置
-
手动指定:手动填写参数,此方式为最高优先级。
-
自动指定:未手动指定[deploy_node]主机组任意主机,则进入自动选定模式。
选取方式如下:
当large_scale_inventory.ini中的[large_scale]中SUB_GROUP_MAX_SIZE最大值为200时,工具会自动将ip按序排列,并按最大200划分子集群,并以每个集群首位服务器作为实例节点安装部署昇腾软件。
-
Note
Atlas A2 训练系列产品上,IP支持配置IPv4和IPv6两种类型的IP地址,用户使用PuTTY等SSH客户端连接执行机的IP地址和large_scale_inventory.ini文件中配置的IP地址类型需要保持统一,均为IPv4或IPv6。其他设备仅支持配置为IPv4地址。
-
通过Excel表格配置服务器安装或升级的部署参数
配置安装或升级的参数时支持的硬件产品、OS清单、安装场景,请参考支持的产品和OS清单。
批量安装或升级NPU固件与驱动、CANN软件包、AI框架、MindCluster组件(性能测试,故障诊断,集群调度)、MindIE镜像和配置HCCN参数时,可通过填写Excel表格的方式来导入inventory文件所需参数。此种配置方式仅支持在Windows上使用。
下载表格
表格名称为inventory_template.xls,随MindCluster Ascend Deployer安装软件包一起下载,并存放于ascend_deployer目录下。
使用表格:
- 请详细阅读表格填写说明,按照要求将表格填写完整。
- 将填写完成的表格另存为CSV UTF-8的格式。
- 将另存为的CSV文件,放入ascend_deployer的目录下。
- 执行脚本trans_excel_to_inventory.bat(该脚本同样存放于ascend_deployer目录下),提取CSV的内容存入inventory_file。
使用docker或K8s启动容器安装NPU驱动
- 当服务器中含有docker、kernel-headers、kernel-dev时,可以通过拉起ascend-npu-driver-installer容器进行NPU驱动安装。具体信息请参见如何使用容器安装NPU驱动。
- 当用户拥有K8s集群时,可以通过K8s拉起pod为所有节点安装NPU驱动。具体信息请参见通过k8s集群安装NPU驱动。
与MindCluster Ascend Deployer安装NPU驱动不兼容。即使用容器化安装NPU驱动后,不可使用MindCluster Ascend Deployer进行升级或检查,反之亦然。

