CEval评估

使用场景

CEval 是由中国高校和科研机构联合构建的中文多学科评估数据集，具有以下核心特征：

MindSpeed-LLM 会对CEval题目集中的内容进行评估。

此模式将会读取对外的ceval评估的模板的文件作为评估模板，在与需要模型回答的问题连接后，输入到模型中，直接进行评估。

此种模式下，模型的第一个输出将会作为答案。

该模式的优势是直接且速度快，可以直接对模型的预训练权重进行评估。

此模式将会读取您的启动脚本中的DATA_PATH路径中的同级dev文件夹中对应问题的以_dev.csv为后缀的文件，作为模板问题，经处理后输入到模型中。

与直接评估模式不同的是，该模式会根据种子数，打乱dev文件中的模板问题的顺序。再与需要模型回答的问题连接后，再进行对话模板处理后，将得到的对话字典输入到模型中进行评估。

该模式的优势是评估速度较快，适用于对模型的微调权重进行评估。

与微调模板评估模式相同的是，该模式也会使用您评估脚本中的DATA_PATH路径中dev文件夹中对应问题的以_dev.csv为后缀的文件，并作为模板问题。

与其他评估模式不同的是，该模式不会打乱模板问题的顺序。模板问题与需要模型回答的问题连接后，不进行对话字典的处理，并输入到模型中，得到前向输出。

该模式的优势是可以使用与业界优秀评估方案相同的评估模板进行评估，并获得较好的评估分数。