0

0

ascend-robot[pytorch][doc]doc file update

2fadeded创建于 2025年10月20日历史提交

Human_Eval评估

使用场景

问题描述

大语言模型在代码生成的评估领域，如何精准衡量模型生成代码的质量与正确性是一个关键问题。Human_Eval 数据集，为这一难题提供了有效的解决方案。
旨在客观、系统地评估代码生成模型的性能，以确定其生成代码在实际场景中的可靠性和实用性，助力模型的优化与改进，使其更好地满足软件开发等实际应用需求。

特性介绍

Human_Eval 数据集具有诸多显著特性：

包含一系列具有代表性的编程问题，这些问题涵盖了多种常见的编程任务场景，如数据结构操作、算法实现、字符串处理等，能够全面考察代码生成模型在不同领域的表现。
数据集中的每个问题都配备了详细的描述以及对应的测试用例，为评估提供了明确的标准和依据，确保评估结果的客观性和准确性。
其问题设计注重代码的可读性与规范性，促使模型生成高质量、易维护的代码，贴合实际开发中的代码要求，从而在多方面对代码生成模型进行综合考量，推动模型性能的提升，以适应复杂多变的编程应用场景。

MindSpeed-LLM 会对human_eval问题集中的内容进行评估。

使用方法

1. 直接评估模式（默认）

使用影响

MindSpeed-LLM 对human_eval的评估不会使用任何的提示模板，而是直接对目标问题进行评估和输出最终答案。即模型直接接收问题-段落对，无需任何提示模板。
该模式会使用束搜索的方法进行模型推理的输出
大语言模型对每个问题输出答案后，程序会通过logger.info的形式，来提示客户该问题是否评估通过

推荐参数配置

【--max-new-tokens】

设置为1024，确保代码可以输出完全

2. 平替模板输出模式

使用影响

与直接评估模式相同的是，此种评估模式也不会使用任何的提示。
该模式会使用常规的推理方法进行模型推理的输出。即不进行任何采样或束搜索的推理方法。
与直接评估模式不同的是，该模式会在全部的问题全部推理结束后，统一对模型的推理结果进行评判。

推荐参数配置

【--alternative-prompt】

使能平替模板输出模式

【--max-new-tokens】

设置为1024，确保代码可以输出完全