llm-大模型评测基准全景解析-名词解释

支持 Mermaid 的环境(例如 VSCode 的 Mermaid 插件、Typora、Obsidian 等)中正确渲染。如果你的阅读器或平台不支持 Mermaid,请确保启用了相应的扩展或使用在线 Mermaid 编辑器(如 Mermaid Live Editor)。

1- 大模型评测基准全景解析

近年来,大语言模型(Large Language Models, LLMs)取得了飞速发展。为了全面评估这些模型的能力,各类评测基准(Benchmark)层出不穷。这些基准涵盖了通用性任务、问答、推理、编程、数学、多模态、长上下文处理、代理能力、安全风险以及特定领域任务。本文将通过彩色流程图、表格和雷达图等形式,直观展示当前评测基准的分类、特点及全称,帮助读者全面了解大模型评测体系。

注意: 如果你的 Markdown 编辑器无法渲染 Mermaid 图表,请检查是否已启用 Mermaid 支持,或者使用 Mermaid Live Editor 在线查看。


1.1- 综合性评测基准(Omnibus Benchmarks)

图 1:综合性评测基准体系图

%%{init: {'theme': 'base', 'themeVariables': {'primaryColor': '#E8F6F3','secondaryColor': '#D1F2EB','tertiaryColor': '#48C9B0','primaryTextColor': '#0E6251'}}}%%
flowchart TB
    A["综合性基准 (Omnibus Benchmarks)"]
    B["GLUE: General Language Understanding Evaluation"]
    C["SuperGLUE: Super General Language Understanding Evaluation"]
    D["Big-Bench: Beyond the Imitation Game Benchmarks<br>(BBH: Big-Bench Hard)"]
    E["HELM: Holistic Evaluation of Language Models"]
    A --> B
    A --> C
    A --> D
    A --> E
    
    style A fill:#E8F6F3,stroke:#48C9B0
    style B fill:#D1F2EB,stroke:#48C9B0
    style C fill:#D1F2EB,stroke:#48C9B0
    style D fill:#D1F2EB,stroke:#48C9B0
    style E fill:#D1F2EB,stroke:#48C9B0

说明:

  • GLUE(General Language Understanding Evaluation):最早的综合性评测基准,涵盖文本分类、蕴含等任务。

  • SuperGLUE(Super General Language Understanding Evaluation):在 GLUE 基础上增加了更高难度的逻辑和常识推理任务。

  • Big-Bench(Beyond the Imitation Game Benchmarks):题目种类多样,其中 BBH 子集专注于复杂推理。

  • HELM(Holistic Evaluation of Language Models):从多个维度(准确率、校准性、鲁棒性等)对模型进行全面评测。


1.2- 问答与阅读理解(Question Answering & Reading Comprehension)

图 2:问答与阅读理解基准任务对比表

评测基准 数据规模 主要任务 特点
SQuAD (Stanford Question Answering Dataset) 10 万 + 阅读理解、答案抽取 基于维基百科文章
SQuAD 2.0 5 万 包含无答案问题 检测模型 " 无法确定 " 时的表现
Natural Questions 数十万 开放域问答 利用真实搜索问题及维基百科页面
TriviaQA 65 万 问答 提供多篇辅助文档
HotpotQA 11.3 万 多跳推理 跨多段信息综合推理
OpenBookQA 5960 多选题 每题附带基础科学事实

说明:
这些基准主要考查模型从文章中提取信息、理解上下文并回答问题的能力。SQuAD 系列为阅读理解奠定基础,而 HotpotQA 强调多段推理。


1.3- 推理与逻辑理解(Reasoning & Logical Understanding)

图 3:推理与逻辑理解任务层次结构

%%{init: {'theme': 'base', 'themeVariables': {'primaryColor': '#FCE4EC','secondaryColor': '#F8BBD0','tertiaryColor': '#EC407A','primaryTextColor': '#880E4F'}}}%%
flowchart TD
    A["推理与逻辑理解基准"]
    B["MMLU: Measuring Massive Multitask Language Understanding<br>(通用知识测试)"]
    C["AGIEval: Artificial General Intelligence Evaluation<br>(考试题集)"]
    D["GPQA: Google-Proof Q&A<br>/ SuperGPQA: Super Google-Proof Q&A"]
    E["OlympicArena / OlympiadBench"]
    F["ARC-AGI: Abstraction and Reasoning Corpus for AI"]
    G["LiveBench: Live Benchmark"]
    H["Humanity's Last Exam"]
    A --> B
    A --> C
    A --> D
    A --> E
    A --> F
    A --> G
    F --> H
    
    style A fill:#FCE4EC,stroke:#EC407A
    style B fill:#F8BBD0,stroke:#EC407A
    style C fill:#F8BBD0,stroke:#EC407A
    style D fill:#F8BBD0,stroke:#EC407A
    style E fill:#F8BBD0,stroke:#EC407A
    style F fill:#F8BBD0,stroke:#EC407A
    style G fill:#F8BBD0,stroke:#EC407A
    style H fill:#F8BBD0,stroke:#EC407A

说明:

  • MMLU(Measuring Massive Multitask Language Understanding):包含 16,000 道题目,覆盖 57 个学科。

  • AGIEval:采自 SAT、高考、法学院等考试题目。

  • GPQA / SuperGPQA:由领域专家出题,针对生物、物理、化学等专业知识进行推理。

  • OlympicArena / OlympiadBench:来源于奥林匹克竞赛,考查高阶数学、物理推理。

  • ARC-AGI:类似 Raven 矩阵的图形推理题。

  • LiveBench:每月更新,涵盖数学、逻辑等任务。

  • Humanity’s Last Exam:全球专家提供的 3,000 道跨学科题目,难度极高。


1.4- 多模态评测基准(Multimodal Benchmarks)

图 4:多模态评测基准结构图

%%{init: {'theme': 'base', 'themeVariables': {'primaryColor': '#E3F2FD','secondaryColor': '#BBDEFB','tertiaryColor': '#2196F3','primaryTextColor': '#0D47A1'}}}%%
flowchart LR
    A["多模态评测基准"]
    B["MMMU: Massive Multi-discipline Multimodal Understanding<br>(及其升级版 MMMU-Pro)"]
    C["SuperCLUE: Super Chinese Language Understanding Evaluation"]
    A --> B
    A --> C
    
    style A fill:#E3F2FD,stroke:#2196F3
    style B fill:#BBDEFB,stroke:#2196F3
    style C fill:#BBDEFB,stroke:#2196F3

说明:

  • MMMU / MMMU-Pro:基于 MMLU 扩展,要求模型同时处理视觉信息与文本。

  • SuperCLUE:专为中文大模型设计,评测多轮对话及图文任务。


1.5- 编程与代码生成(Programming & Code Generation)

图 5:编程任务流程图

%%{init: {'theme': 'base', 'themeVariables': {'primaryColor': '#F9E79F','secondaryColor': '#FCF3CF','tertiaryColor': '#F4D03F','primaryTextColor': '#7D6608'}}}%%
flowchart TB
    A["编程与代码生成评测基准"]
    B["基础编程能力"]
    C["竞赛级编程"]
    D["软件工程能力"]
    E["专业领域编程"]
    
    A --> B
    A --> C
    A --> D
    A --> E
    
    B --> F["HumanEval"]
    B --> G["MBPP"]
    C --> H["APPS"]
    C --> I["CodeElo"]
    D --> J["SWE-Bench"]
    D --> K["SWE-Lancer"]
    E --> L["KernelBench"]
    
    style A fill:#F9E79F,stroke:#F4D03F
    style B fill:#FCF3CF,stroke:#F4D03F
    style C fill:#FCF3CF,stroke:#F4D03F
    style D fill:#FCF3CF,stroke:#F4D03F
    style E fill:#FCF3CF,stroke:#F4D03F
    style F fill:#FCF3CF,stroke:#F4D03F
    style G fill:#FCF3CF,stroke:#F4D03F
    style H fill:#FCF3CF,stroke:#F4D03F
    style I fill:#FCF3CF,stroke:#F4D03F
    style J fill:#FCF3CF,stroke:#F4D03F
    style K fill:#FCF3CF,stroke:#F4D03F
    style L fill:#FCF3CF,stroke:#F4D03F

说明:

  • HumanEval:评测模型生成正确 Python 函数,包含 164 个手工编写的编程问题。

  • MBPP(Mostly Basic Programming Problems):包含 974 个基础编程任务,每个任务都有测试用例。

  • APPS:收录了 10,000+ 道真实编程竞赛题,难度从简单到竞赛级别。

  • CodeElo:通过向 Codeforces 提交代码并获取 Elo 评分,动态评估模型的编程能力。

  • SWE-Bench:基于真实 GitHub 问题,分为:

    • Lite:轻量级软件工程任务
    • Verified:经过人工验证的高质量测试集
    • Multimodal:包含代码、文档和截图的多模态任务
  • SWE-Lancer:评估模型在实际软件工程场景中的表现。

  • KernelBench:专注于评测模型生成 GPU 核函数的能力。


1.6- 数学推理与计算(Mathematical Reasoning & Computation)

图 6:数学推理评测基准体系

%%{init: {'theme': 'base', 'themeVariables': {'primaryColor': '#E8DAEF','secondaryColor': '#F5EEF8','tertiaryColor': '#AF7AC5','primaryTextColor': '#512E5F'}}}%%
flowchart TB
    A["数学推理与计算基准"]
    B["GSM8K: Grade School Math 8K"]
    C["MATH: Mathematics Dataset"]
    D["MathQA: Mathematics Question Answering"]
    E["MiniF2F: Mini Formal to Formal"]
    F["MATH-Eval: Mathematics Evaluation"]
    A --> B
    A --> C
    A --> D
    A --> E
    A --> F
    
    style A fill:#E8DAEF,stroke:#AF7AC5
    style B fill:#F5EEF8,stroke:#AF7AC5
    style C fill:#F5EEF8,stroke:#AF7AC5
    style D fill:#F5EEF8,stroke:#AF7AC5
    style E fill:#F5EEF8,stroke:#AF7AC5
    style F fill:#F5EEF8,stroke:#AF7AC5

说明:

  • GSM8K(Grade School Math 8K):包含 8.5K 道小学到初中难度的数学应用题。

  • MATH(Mathematics Dataset):12K 道高中和大学水平数学题,涵盖代数、几何等。

  • MathQA:数学问题回答数据集,强调问题理解和解题步骤推理。

  • MiniF2F:形式化数学推理任务,测试模型的严格数学证明能力。

  • MATH-Eval:综合性数学评测基准,包含多个难度等级和数学分支。

%%{init: {'theme': 'base', 'themeVariables': {'primaryColor': '#E8DAEF','secondaryColor': '#F5EEF8','tertiaryColor': '#AF7AC5','primaryTextColor': '#512E5F'}}}%%
flowchart TB
    A["数学推理与计算基准"]
    B["GSM8K: Grade School Math 8K"]
    C["MATH: Mathematics Dataset"]
    D["MathQA: Mathematics Question Answering"]
    E["MiniF2F: Mini Formal to Formal"]
    F["MATH-Eval: Mathematics Evaluation"]
    A --> B
    A --> C
    A --> D
    A --> E
    A --> F
    
    style A fill:#E8DAEF,stroke:#AF7AC5
    style B fill:#F5EEF8,stroke:#AF7AC5
    style C fill:#F5EEF8,stroke:#AF7AC5
    style D fill:#F5EEF8,stroke:#AF7AC5
    style E fill:#F5EEF8,stroke:#AF7AC5
    style F fill:#F5EEF8,stroke:#AF7AC5
    D --> E["Omni-MATH"]
    E --> F["FrontierMath"]

说明:

  • GSM8K(Grade School Math 8K):小学水平数学题。

  • MATH:比赛级数学题。

  • MathQA(Mathematics Question Answering):附带详细运算步骤的题目。

  • MiniF2F:形式化描述的奥赛题。

  • Omni-MATH:通用奥赛级数学题。

  • FrontierMath:现代数学前沿题目。


1.7- 长上下文处理(Long Context Handling)

图 7:长上下文评测流程图

%%{init: {'theme': 'base', 'themeVariables': {'primaryColor': '#D6EAF8','secondaryColor': '#EBF5FB','tertiaryColor': '#85C1E9','primaryTextColor': '#154360'}}}%%
flowchart TB
    A["长上下文评测基准"]
    B["Long Range Arena<br>(1K~16K tokens)"]
    C["LongBench / LOFT<br>(8K~2M tokens)"]
    D["SCROLLS: Standardized CompaRison Over Long Language Sequences"]
    E["NarrativeQA: Reading Comprehension over Long Narratives"]
    A --> B
    A --> C
    A --> D
    A --> E

说明:

  • Long Range Arena:适用于 1K~16K token 的任务。

  • LongBench / LOFT:适用于处理超长文本(8K~2M tokens,甚至百万 token)。


1.8- 代理与工具使用能力(Agent & Tool-Usage Benchmarks)

图 8:代理任务示意图

%%{init: {'theme': 'base', 'themeVariables': {'primaryColor': '#FADBD8','secondaryColor': '#FDEDEC','tertiaryColor': '#F5B7B1','primaryTextColor': '#641E16'}}}%%
flowchart LR
    A[代理与工具使用评测基准]
    B[GAIA: General AI Assistant Benchmark]
    C[WebArena / TAU-bench: Tool-Agent-User Interaction]
    A --> B
    A --> C

说明:

  • GAIA(General AI Assistant Benchmark):考查模型调用外部工具(如搜索引擎、计算器)的能力。

  • WebArena / TAU-bench:模拟真实网页操作及多轮对话,评测工具使用与交互能力。


1.9- 安全与风险评测(Safety & Risk Evaluation)

图 9:安全评测雷达图示例

%%{init: {'theme': 'base', 'themeVariables': {'primaryColor': '#FADBD8','secondaryColor': '#FDEDEC','tertiaryColor': '#F5B7B1','primaryTextColor': '#641E16'}}}%%
flowchart LR
    A["安全评测维度"]
    B["毒性检测"]
    C["偏见评估"]
    D["鲁棒性测试"]
    E["事实准确性"]
    A --> B
    A --> C
    A --> D
    A --> E

说明:
例如,AILuminate(AILuminate Benchmark for AI Safety Risks)通过对 12,000 个测试提示在多个安全维度打分,评估模型在有害内容、偏见和虚假信息等方面的表现。


1.10- 特定领域评测基准(Domain-Specific Benchmarks)

图 10:特定领域评测基准分类表

领域 评测基准(全称) 主要特点
中文 C-Eval: Chinese Evaluation Benchmark 多学科、多难度,专为中文设计
知识 KoLA: Knowledge-oriented LLM Assessment 聚焦世界知识的广度与深度
医学 MedQA: Medical Question Answering 基于医学专业考试题,专业性强
法律 LegalBench: Legal Benchmark 针对法律条款理解与应用
教育 EduQA: Educational Question Answering 基于中小学及高考题,侧重教育知识

说明:
这些专项基准专注于中文、医学、法律、教育等特定领域,能更准确地反映模型在这些领域的专业表现。


1.11- 评测基准常见问题与局限

图 11:评测基准局限性图示

  • 数据污染 (Data Contamination): 测试题可能出现在模型训练数据中。

  • 题目歧义 (Ambiguity): 部分题目措辞模糊,标注者难以统一答案。

  • 过拟合与饱和 (Overfitting & Saturation): 模型可能专门针对某基准进行优化,导致评测失去区分力。

  • 自动评分局限 (Automatic Scoring Limitations): BLEU、ROUGE 等自动评分指标有时与人工评价存在偏差。

说明:
在使用评测基准时,需注意以上问题,确保评测结果能客观反映模型的真实能力。


1.12- 总结

当前大模型评测基准体系覆盖了通用性任务、问答阅读、推理逻辑、多模态交互、编程、数学、长上下文、代理与工具使用、安全风险以及特定领域任务。以下是一些常见基准的全称及特点:

  • GLUE (General Language Understanding Evaluation)

  • SuperGLUE (Super General Language Understanding Evaluation)

  • Big-Bench (Beyond the Imitation Game Benchmarks)

  • HELM (Holistic Evaluation of Language Models)

  • SQuAD (Stanford Question Answering Dataset)

  • MMLU (Measuring Massive Multitask Language Understanding)

  • GPQA (Google-Proof Q&A)

  • MMMU (Massive Multi-discipline Multimodal Understanding)

  • HumanEvalMBPP (Mostly Basic Programming Problems)

  • SWE-Bench (Software Engineering Benchmark)

  • MedQA (Medical Question Answering), LegalBench (Legal Benchmark), C-Eval (Chinese Evaluation Benchmark)

  • 数学类基准如 GSM8K (Grade School Math 8K), MATH (Mathematics Benchmark for Mathematical Problem Solving), MathQA (Mathematics Question Answering) 等。

这种多维度、系统化的评测体系为学术研究和实际应用提供了重要参考;同时,新基准(如 HELM、Xiezhi、AILuminate 等)的不断涌现,也推动了评测方法的持续进步。