CMMLU评估

使用场景

问题描述

CMMLU(Chinese Multi-Modal Large-scale Understanding)评估集是专门为大规模语言模型(LLM)设计的中文理解任务集合。它旨在全面评估语言模型在中文语境下的知识掌握、推理能力以及跨学科的理解水平。以下是关于CMMLU评估集的具体介绍,尤其是其学科分类的详细内容。

特性介绍

CMMLU评估集专注于以下几个方面:

  • 中文语言环境 :所有任务都基于中文语境,涵盖中国历史、文化、社会和科学等领域。
  • 多学科覆盖 :任务涉及多个学科领域,测试模型的知识广度和深度。
  • 知识性与推理性结合 :不仅考察模型对事实性知识的记忆能力,还测试其逻辑推理和复杂问题解决能力。
  • 标准化评估 :提供统一的任务格式和评分标准,便于不同模型之间的性能比较。

每个领域下又包含多个具体的任务和问题,通过这些多样化的任务,CMMLU能够评估模型在不同领域的知识掌握情况和跨领域的泛化能力。

目前MindSpeed-LLM仓库对CMMLU评估有三种评估模式:

使用方法

1. 直接评估模式(默认)

使用影响

  • 此模式将会读取对外的cmmlu评估的模板的文件作为评估模板,在与需要模型回答的问题连接后,输入到模型中,直接进行评估。

  • 此种模式下,模型的第一个输出将会作为答案。

  • 该模式的优势是直接且速度快,可以直接对模型的预训练权重进行评估。

推荐参数配置

【--max-new-tokens】

设置为1或者2

2. 微调模板评估模式

使用影响

  • 此模式将会读取您的启动脚本中的DATA_PATH路径中的同级dev文件夹中对应问题的以_dev.csv为后缀的文件,作为模板问题,经处理后输入到模型中。

  • 与直接评估模式不同的是,该模式会根据种子数,打乱dev文件中的模板问题的顺序。再与需要模型回答的问题连接后,再进行对话模板处理后,将得到的对话字典输入到模型中进行评估。

  • 该模式的优势是评估速度较快,适用于对模型的微调权重进行评估。

推荐参数配置

【--max-new-tokens】

设置为1或者2

【--prompt-type】

该参数用于指定模型模板类型,应与您在使用MindSpeed-LLM仓进行微调时配置的--prompt-type参数保持一致。

【--eval-language】

推荐设置为zh,对于英文模型可以设置为en进行评估。

3. 平替模板输出模式

微调模板评估模式相同的是,该模式也会使用您评估脚本中的DATA_PATH路径中的同级dev文件夹中对应问题的以_dev.csv为后缀的文件,并作为模板问题。

与其他模型不同的是,该模式不会打乱模板问题的顺序。模板问题与需要模型回答的问题连接后,不进行对话字典的处理,并输入到模型中,得到前向输出。

该模式的优势是可以使用与业界优秀评估方案相同的评估模板进行评估,并获得较好的评估分数。

推荐参数配置

【--max-new-tokens】

设置为128或者以上

【--alternative-prompt】

使能平替模板输出模式

【--eval-language】

推荐设置为zh,对于英文模型可以设置为en进行评估。

CMMLU的具体学科分类

CMMLU评估集的任务按照学科领域进行分类,涵盖了广泛的学术和实用领域。以下是具体的学科分类及其代表性任务:

人文与社会科学

  • 历史 :测试模型对中国历史事件、人物和时间线的理解。

  • 文学 :评估模型对经典文学作品、诗词和成语的理解。

  • 哲学 :测试模型对哲学思想、伦理学和逻辑推理的理解。

  • 法律 :评估模型对法律条文、案例和法理的理解。

自然科学

  • 数学 :测试模型的数学计算和逻辑推理能力。

  • 物理 :评估模型对物理定律和现象的理解。

  • 化学 :测试模型对化学元素、反应和分子结构的理解。

  • 生物 :评估模型对生物学概念和生态系统的理解。

工程技术

  • 计算机科学 :测试模型对编程、算法和计算机系统原理的理解。

  • 工程学 :评估模型对机械、电气和土木工程原理的理解。

医学与健康

  • 医学 :测试模型对疾病、诊断和治疗方法的理解。

  • 心理学 :评估模型对心理现象和行为模式的理解。

经济与管理

  • 经济学 :测试模型对经济理论、市场机制和政策的理解。

  • 管理学 :评估模型对企业管理、组织行为和战略规划的理解。

艺术与文化

  • 艺术 :测试模型对绘画、音乐、电影等艺术形式的理解。

  • 文化 :评估模型对中国传统文化、习俗和社会现象的理解。

综合与跨学科

  • 常识推理 :测试模型对日常生活常识和逻辑推理的理解。

  • 跨学科问题 :评估模型在多个学科领域之间进行综合分析的能力。