单机故障诊断接口

接口原型

  • 单机进行所有日志清洗,处理日志清洗结果诊断故障事件,输出分析报告。

    ascend-fd single-diag -i 采集目录 -o 单机诊断结果输出目录 
    
  • 分类输入日志目录进行单机诊断。

    ascend-fd single-diag --host_log 主机侧操作系统日志采集目录 --device_log Device侧日志采集目录 --train_log 用户训练及推理日志采集目录 --process_log CANN应用类日志采集目录 --env_check NPU网口、状态信息、资源信息采集目录 --dl_log MindCluster组件日志采集目录 --mindie_log MindIE组件日志采集目录 --amct_log AMCT组件日志采集目录 -o 清洗输出目录 
    

Note

  • 同时共用-i与详细日志采集目录参数时,会优先读取详细日志采集目录参数的输入值,再根据-i参数读取剩余日志采集目录。
  • 至少需要指定--input_path、--host_log、--device_log、--train_log、--process_log、--env_check、--dl_log、--mindie_log、--amct_log、--bus_log其中一个参数,否则清洗命令会执行失败。
  • 清洗命令指定的输出目录磁盘空间需大于5G,空间不足可能导致部分清洗结果丢失,进而导致诊断结果异常或不准确。

功能说明

启动单机诊断任务。训练及推理失败后,对单机运行日志、NPU环境检查文件等原始日志进行诊断工作。

参数说明

表 1 参数说明

参数 缩写 是否必选 值类型 说明
--host_log String 主机侧操作系统日志采集目录,仅支持数字、大小写字母和字符“~”,“-”,“+”,“_”,“.”,“/”,“ ”。
--device_log String Device侧日志采集目录,仅支持数字、大小写字母和字符“~”,“-”,“+”,“_”,“.”,“/”,“ ”。
--train_log String 用户训练及推理日志采集目录。
  • --train_log支持多个路径输入,路径可以是单个采集日志的文件名也可以是转储日志的采集目录。但最多只会读取20个路径,多余的部分将被废弃。
  • 在使用--train_log指定文件名时,用户训练及推理日志将不再有命名约束限制;而在使用--train_log指定路径时,其路径下以.txt或.log结尾的文件将被视为训练及推理日志。
--process_log String CANN应用类日志采集目录,仅支持数字、大小写字母和字符“~”,“-”,“+”,“_”,“.”,“/”,“ ”。
--env_check String NPU网口、状态信息、资源信息采集目录,仅支持数字、大小写字母和字符“~”,“-”,“+”,“_”,“.”,“/”,“ ”。
--dl_log String MindCluster的Ascend Device Plugin、NodeD、Ascend Docker Runtime、NPU Exporter、Volcano组件日志采集目录,仅支持数字、大小写字母和字符“~”,“-”,“+”,“_”,“.”,“/”,“ ”。
--mindie_log String MindIE的组件MindIE Server、MindIE LLM、MindIE SD、MindIE RT、MindIE Torch、MindIE MS、MindIE Benchmark、MindIE Client产生的日志。仅支持数字、大小写字母和字符“~”,“-”,“+”,“_”,“.”,“/”,“ ”。
--amct_log String AMCT组件日志。仅支持数字、大小写字母和字符“~”,“-”,“+”,“_”,“.”,“/”,“ ”。
--bus_log String Ascend 950代际LCNE组件日志目录。仅支持数字、大小写字母和字符“~”,“-”,“+”,“_”,“.”,“/”,“ ”。
--input_path -i String 预处理数据输入路径,仅支持数字、大小写字母和字符“~”,“-”,“+”,“_”,“.”,“/”,“ ”。
--output_path -o String 清洗完毕数据输出路径,仅支持数字、大小写字母和字符“~”,“-”,“+”,“_”,“.”,“/”,“ ”。
--help -h - 查询二级命令与参数含义以及使用说明。

返回说明

单机诊断任务执行状态。

The single-diag job starts. Please wait. Job id: [****], run log file is [****].
诊断内容
The single-diag job is complete.