LLMベンチマーク上級編——飽和・汚染・エージェント時代の新評価軸

「なぜトップモデルのスコアはどれも似たり寄ったりなのか」「ベンチマーク上位なのに実際の作業では期待外れだったのはなぜか」——ベンチマークに慣れてくると、こうした疑問が浮かび上がります。

本記事は入門編の続きです。主要ベンチマークの種類と読み方を理解したうえで、ベンチマークが抱える根本的な問題・歴史的な変遷・エージェント時代の新しい評価軸を掘り下げます。

問題① ベンチマークの「飽和」

ベンチマークの飽和（saturation）とは、複数のモデルが正答率の上限に集まり、モデル間の差がほとんどつかなくなった状態です。

飽和の具体例

SuperGLUEはかつて最も権威ある言語理解ベンチマークでした。2019年の登場時、人間の正答率は89.8%で、当時のベストモデルは76%程度。しかし2021年にはDeBERTa-v3が91.3%を記録し、人間を超えてしまいました。以降、SuperGLUEはLLMの差別化指標としての役割を失いました。

HellaSwagも同様です。人間の正答率95.6%に対して、GPT-4はすでに95.3%を達成。ほぼすべてのフロンティアモデルが95%台に収まり、差がつかなくなっています。

MMLUは2020年の登場時、GPT-3でさえ43.9%にとどまり「難しい」とされていました。しかし2024年には主要モデルが88〜92%に達し、差別化が難しくなっています。

飽和への対策：難易度を上げる

飽和問題への対応として、研究コミュニティは継続的により難しいベンチマークを開発しています。

MMLU → MMLU-Pro: 単純な4択から10択に変更し、推論力をより要求
MATH → FrontierMath: 研究者レベルの数学問題（登場当初はほぼすべてのモデルが2%以下しか解けなかった）
HumanEval → HumanEval+: より多くのテストケースで「動くように見えるが実は間違っている」コードを弾く
GPQA Diamond: MMLUが飽和しつつある中で「本当に難しい問題」を提供

問題② データ汚染（Contamination）

データ汚染とは、LLMの訓練データにベンチマークの問題や解答が含まれてしまっている問題です。インターネット上に公開されているベンチマーク問題が、クロールされた訓練データに混入することで起きます。

なぜ深刻なのか

訓練時に「答えを見た」状態になるため、スコアが実際の能力より高く出る恐れがあります。これは「テストの問題を事前に入手して丸暗記した生徒」が高得点を取るのと同じ構図です。

実際に研究者がGPT-4にGSM8K問題を提示したところ、問題を微妙に変形した場合（例: 数字を変えたり表現を変えたり）に正答率が顕著に下がるケースが報告されています。これは「本質的な数学的推論」ではなく「記憶」に頼っている可能性を示唆します。

対策として生まれた「ライブベンチマーク」

汚染対策として、LiveBenchのような「継続的に新しい問題を追加するライブベンチマーク」が登場しました。数学・コーディング・推論・言語理解など複数分野に毎月新問題を投入し、既存の訓練データには含まれない問題でモデルを評価します。

ベンチマークの歴史：2020年から現在まで

ベンチマークの変遷を追うことで、LLMの進化がどれほど急速だったかが見えてきます。

第1期（〜2020年）：GLUE/SuperGLUEの時代

2018年にGLUE、2019年にSuperGLUEが登場しました。文章の含意・質問応答・感情分類など言語理解の基礎タスクを束ねたベンチマークで、BERTなどの初期Transformerモデルの評価に使われました。この時代はモデルが人間水準に届くかどうかが話題の中心でした。

第2期（2020〜2022年）：大規模化とMMLUの登場

GPT-3（2020年）登場後、MMLUとBIG-Bench（2022年、204タスク）が整備されました。「幅広い知識を持っているか」の評価が主流になり、モデルの大型化と知識の幅が競争軸になりました。この時期のフロンティアモデルでもMMLUは40〜70%台で、まだ差が大きかった。

第3期（2023〜2024年）：GPT-4の衝撃と汎用能力競争

GPT-4（2023年3月）がMMLU 86.4%、HumanEval 87.1%を叩き出し、以前のベンチマークが相次いで「飽和」しました。この時期から Claude（Anthropic）、Gemini（Google）、Llama（Meta）が激しく競い、どのモデルも似たスコアになる状況が生まれ始めました。

また、コーディング能力（HumanEval、MBPP）と数学推論（GSM8K、MATH）が主要な競争軸として浮上し、「汎用能力だけでなく専門能力をどれだけ伸ばせるか」が焦点になりました。

第4期（2025年〜）：推論モデルとエージェント評価の時代

OpenAIのo1（2024年9月）が「推論（思考）に時間をかける」アプローチで MATH 94.8%、GPQA Diamond 73.3%を達成し、「モデルの大きさ」ではなく「考え方の深さ」が新たな競争軸になりました。

同時に「モデル単体の能力」から「ツールを使って実際の仕事をこなす能力」への関心が高まり、SWE-benchやGAIAなどのエージェント評価ベンチマークが急速に重要性を増しています。

エージェント時代の新ベンチマーク

2025年以降、「モデルが単独で答えを返す」ではなく「モデルがツールを使い・複数ステップで・実際のタスクを完遂する」能力を測るベンチマークが主流になっています。

SWE-bench Verified（ソフトウェアエンジニアリング）

実際のGitHubリポジトリに報告されたバグ修正・機能追加のIssueを、コードで解決するベンチマークです。「既存コードを読む → 問題箇所を特定する → パッチを書く → テストを通過させる」という実際の開発フローを模したタスクです。

モデル・システム

SWE-bench Verified スコア

時期

Devin（Cognition）

13.8%

2024年初頭

Claude 3.5 Sonnet（単体）

49.0%

2024年後半

Claude Code（エージェント）

80.8%

2025〜2026年

2年足らずで13.8%から80.8%へ。この急速な進歩はエージェント設計（モデル単体ではなくツール・メモリ・マルチステップ推論の組み合わせ）によるところが大きく、「モデルの賢さ」と「エージェント設計の巧みさ」の両方が問われるベンチマークになっています。

ARC-AGI（視覚パターン認識）

Abstraction and Reasoning Corpus（ARC）は、Francois Cholletが2019年に提案した「真の汎用知能」を測るためのベンチマークです。視覚的なグリッドパターンを入力として、その変換規則を数例から類推して未知のパターンに適用するタスクです。

人間が解くと平均85%前後を達成しますが、当初のLLM（GPT-4oなど）は5%未満しか解けませんでした。これは「パターン記憶」ではなく「抽象的な類推と一般化」が必要なためです。

しかし、OpenAIのo3（2025年）が高コンピュートモードで87.5%を達成し、人間の水準に並ぶ結果が出たことで「AGI（汎用人工知能）の指標として有効なのか」という議論が再燃しました。これを受けてARC-AGI-2など次世代版の開発も進んでいます。

GAIA（実世界タスク遂行）

Web検索・ファイル処理・コード実行などのツールを組み合わせて、現実世界の複合タスクを遂行するベンチマークです。例えば「このPDFを読んで指定の条件に合う情報を探し、計算して答えを出す」といったタスクです。

人間が解くと約92%を達成しますが、2024年時点のLLMは40〜60%台にとどまっており、複数ツールの協調利用と長期的な文脈維持が課題として浮き彫りになっています。

FrontierMath（最難関数学）

研究者レベルの数学問題を集めたベンチマークで、2024年の公開当初はほぼすべてのLLMが2%以下しか解けませんでした。問題は未公開のオリジナルで、データ汚染の心配が少ない点も特徴です。推論モデルの発達により少しずつスコアが伸びていますが、現時点でも最も難しい数学系ベンチマークのひとつです。

LMSYS Chatbot Arenaの意義と限界

入門編でも触れたLMSYS Chatbot Arenaを、ここで深く掘り下げます。

なぜ重要か

自動ベンチマークには「あらかじめ決まった問題を解く能力」しか測れないという根本的な制約があります。「回答が自然で読みやすいか」「指示の意図を正確に汲んでいるか」「曖昧な依頼にどう対応するか」といった実用的な側面は、人間が評価しなければわかりません。

Chatbot Arenaは世界中のユーザーが実際に使いたいプロンプトを入力し、2つのモデルの回答を比較するため、実際の使用感に最も近い評価が得られます。2025年時点で数百万票以上の人間評価データが蓄積されており、信頼性の高いELOランキングが維持されています。

限界も理解しておく

ただし、Chatbot Arenaにも課題があります。

多数意見に引きずられる: 「長い・丁寧・きれいな文章」が高評価されやすく、簡潔だが正確な回答より見栄えのよい回答が選ばれやすい傾向があります
タスク分布の偏り: 英語圏ユーザーの一般的な質問が多く、専門的・技術的なタスクが少ない。コーディングや科学的推論の評価としては偏りが出る
再現性が低い: 同じプロンプトでも評価者・時期によって結果が変わるため、自動ベンチマークのような精密な比較はできない

このため、Chatbot Arenaは「実用感の参考」として使い、自動ベンチマークと組み合わせて総合的に判断するのが現在のベストプラクティスです。

ベンチマークの「Goodhartの法則」

経済学に「Goodhartの法則」という格言があります。「ある指標が目標になった瞬間に、その指標は良い指標でなくなる」という意味です。

LLMのベンチマークでも同じことが起きています。モデル開発者はリリース前にベンチマークを使って性能を確認・調整するため、ベンチマークスコアを最大化する方向に（意識的・無意識的に）最適化が働きます。

極端な例として「ベンチマーク問題に特化したファインチューニング」があります。これはデータ汚染とは別に、訓練後にベンチマーク問題だけで微調整することでスコアを引き上げる手法で、実際の能力とかけ離れたスコアが出ることがあります。

ベンチマークスコアを参考にする際は「そのモデルの開発者が自ら計測したスコアか、第三者が計測したスコアか」という視点も持つとよいでしょう。

2026年時点のベンチマーク全体像

以上の変遷を踏まえた、現時点でのベンチマーク地図です。

フェーズ

代表的なベンチマーク

状態

引退・飽和

GLUE、SuperGLUE、HellaSwag

フロンティアモデルには差がつかない

現役・基礎指標

MMLU、GSM8K、HumanEval

ベースライン確認として引き続き使用

現役・差別化指標

GPQA Diamond、MATH、MMLU-Pro

上位モデル間の差がまだつく

最前線・エージェント

SWE-bench、ARC-AGI、GAIA

実世界タスクを測る主流指標

最難関・未解決

FrontierMath、ARC-AGI-2

現モデルには大きな伸びしろが残る

ベンチマークとの賢い付き合い方

最後に、ベンチマークをどう活用するかをまとめます。

1. 目的に合わせてベンチマークを選ぶ

コーディング用途ならSWE-bench・HumanEval、数学や科学的推論ならGPQA Diamond・MATH、知識の幅ならMMLUと、自分のユースケースに近いベンチマークを参照するのが基本です。総合的な使いやすさを確認したいなら、Chatbot Arenaのランキングも参考になります。

2. 複数のベンチマークを組み合わせる

1つのベンチマークで高スコアでも、それだけでモデルの全体像はわかりません。「コーディング重視ならSWE-bench + HumanEval」「推論重視ならGSM8K + GPQA」のように複数を組み合わせて多角的に見ます。

3. 最終的には自分で試す

ベンチマークはあくまでも参考です。自分のユースケースに近いタスクを実際にモデルに投げてみることが最も正確な評価になります。API利用なら無料枠・低コストプランで試せるモデルが多く、実際の感触をつかんでから判断するのが現実的です。

まとめ

LLMのベンチマークは、AI技術の進歩とともに継続的に進化してきました。

かつての主役（GLUE、HellaSwag）は飽和し、役目を終えた
MMLU・GSM8K・HumanEvalはまだ現役だが、上位モデル間の差はつきにくい
データ汚染とGoodhartの法則が、ベンチマークの信頼性を常に脅かしている
SWE-bench・ARC-AGI・GAIAなどのエージェント評価が最前線の指標になっている
Chatbot Arenaは自動評価では測れない「実用感」を補完する重要な指標

ベンチマークを「絶対的な答え」として見るのではなく、「特定の能力の一側面を測った参考値」として扱うことが、AI時代のリテラシーのひとつだと思います。

ベンチマークの基礎から確認したい方は入門編もあわせてご覧ください。

よくある質問

Q. ベンチマークの「飽和」とはどういう意味ですか？

ベンチマークの飽和とは、複数のモデルが正答率の上限（90〜100%付近）に集まってしまい、モデル間の差がほとんどつかなくなった状態です。HellaSwagはGPT-4の時代に人間の正答率に並び、MMLUも2024年以降は90%超が当たり前になっています。飽和が起きると、より難しい新しいベンチマークが必要になります。

Q. データ汚染（contamination）とは何ですか？

データ汚染とは、LLMの訓練データにベンチマークの問題や解答が含まれてしまっている問題です。訓練時に「答えを見た」状態になるため、スコアが実際の能力より高く出る恐れがあります。評価の信頼性を損なう深刻な問題として、研究コミュニティで継続的に議論されています。

Q. SWE-benchとは何ですか？

SWE-benchは実際のGitHubリポジトリに報告されたバグ修正・機能追加Issueをコードで解決するベンチマークです。単純なコード生成ではなく、既存のコードベースを理解して実際に動くパッチを書く能力を測ります。エージェント時代のコーディング能力評価として最も注目されており、Devinの13.8%からClaude Codeの80.8%まで急速に進歩しています。