附录
环境变量
说明
加粗显示的环境变量为常用环境变量。
| 参数名称 | 参数说明 | 取值范围 | 缺省值 |
|---|---|---|---|
| TTP_LOG_PATH | MindIO TFT日志路径。禁止配置软链接,日志文件名补充为ttp_log.log,建议日志路径中包含日期时间,避免多次训练记录在同一个日志中,造成循环覆写。推荐在训练启动脚本中按如下方式配置日志路径: date_time=\$(date +%Y-%m-%d-%H_%M_%S) export TTP_LOG_PATH=logs/\${date_time} 当使用共享存储时,建议按照节点配置日志路径: export TTP_LOG_PATH=logs/\${nodeId} |
文件夹路径。 | logs |
| TTP_LOG_LEVEL | MindIO TFT日志等级。
|
|
INFO |
| TTP_LOG_MODE | MindIO TFT日志模式。
|
|
PER_PROC |
| TTP_LOG_STDOUT | MindIO TFT日志记录方式。
|
|
0 |
| MASTER_ADDR | 训练主节点IP地址或域名。 | 合法的IPv4、IPv6地址或域名。 | - |
| MASTER_PORT | 训练主节点通信端口,端口可配。 | [1024, 65535] | - |
| TTP_RETRY_TIMES | Processor TCP(Transmission Control Protocol)建链尝试次数。 | [1, 300] | 10 |
| MINDIO_WAIT_MINDX_TIME | Controller等待MindCluster响应的最大时间,单位:s。 | [1, 3600] | 30 |
| TTP_ACCLINK_CHECK_PERIOD_HOURS | 开启TLS认证后,MindIO TFT检查证书有效性的周期,单位:h。 | [24, 720] | 168 |
| TTP_ACCLINK_CERT_CHECK_AHEAD_DAYS | 开启TLS认证后,MindIO TFT检查证书过期日提前告警的时长,单位:天。需满足证书过期提前告警时长不小于巡检周期,保证及时发现证书过期风险并告警。 | [7, 180],且需满足TTP_ACCLINK_CERT_CHECK_AHEAD_DAYS * 24 ≥ TTP_ACCLINK_CHECK_PERIOD_HOURS。 | 30 |
| TTP_NORMAL_ACTION_TIME_LIMIT | 故障恢复流程中,执行rebuild/repair/rollback回调函数的超时时间,单位:s。 | [30, 1800] | 180 |
| MINDIO_FOR_MINDSPORE | 表示是否启用MindSpore开关,传入True(不区分大小写)或1时,开启MindSpore开关,其他值关闭MindSpore开关。 |
|
False |
| MINDX_TASK_ID | MindIO ARF特性使用,MindCluster任务ID,由ClusterD配置,无需用户干预。 | 字符串。 | - |
| TORCHELASTIC_USE_AGENT_STORE | PyTorch环境变量,控制创建TCP Store Server还是Client,MindIO TFT在临终Checkpoint保存且Torch Agent TCP Store Server连接失败场景下使用。 |
|
- |
| TTP_STOP_CLEAN_BEFORE_DUMP | MindIO TFT特性使用,控制MindIO TTP在保存临终Checkpoint前是否做stop&clean操作。 |
|
0 |
设置用户有效期
为保证用户的安全性,应设置用户的有效期,使用系统命令 chage 来设置用户的有效期。
命令为:
chage [-m mindays] [-M maxdays] [-d lastday] [-I inactive] [-E expiredate] [-W warndays] user
相关参数请参见表1。
| 参数 | 参数说明 |
|---|---|
| -d --lastday |
上一次更改的日期。 |
| -E --expiredate |
用户到期的日期。超过该日期,此用户将不可用。 |
| -h --help |
显示命令帮助信息。 |
| -i --iso8601 |
更改用户密码的过期日期并以YYYY-MM-DD格式显示。 |
| -I --inactive |
停滞时期。过期指定天数后,设定密码为失效状态。 |
| -l --list |
列出当前的设置。由非特权用户来确定口令或账户何时过期。 |
| -m --mindays |
口令可更改的最小天数。设置为“0”表示任何时候都可以更改口令。 |
| -M --maxdays |
口令保持有效的最大天数。设置为“-1”表示可删除这项口令的检测。设置为“99999”,表示无限期。 |
| -R --root |
将命令执行的根目录设置为指定目录。 |
| -W --warndays |
用户口令到期前,提前收到警告信息的天数。 |
说明
- 日期格式为YYYY-MM-DD,如 chage -E 2017-12-01 test 表示用户 test 的口令在2017年12月1日过期。
- user必须填写,填写时请替换为具体用户,默认为root用户。
- 账号口令应该定期更新,否则容易导致安全风险。
举例说明:修改用户 test 的有效期为90天。
chage -M 90 test
口令复杂度要求
口令至少满足如下要求:
-
口令长度至少8个字符。
-
口令必须包含如下至少两种字符的组合:
- 一个小写字母
- 一个大写字母
- 一个数字
- 一个特殊字符:`~!@#$%^&*()-_=+\|[{}];:'",<.>/?和空格
-
口令不能和账号一样。
账户一览表
| 用户 | 描述 | 初始密码 | 密码修改方法 |
|---|---|---|---|
| {MindIO-install-user} | MindIO TFT安装用户。 | 用户自定义。 | 使用 passwd 命令修改。 |