「MMLU 88.7%」「HumanEval 92%」——新しいAIモデルが発表されるたびに並ぶこれらの数字は、何を意味しているのか。 ChatGPT、Claude、Geminiを比べるとき、ベンチマークの読み方を知っているかどうかで、見えてくる情報量がまるで変わります。
本記事では、LLMの主要なベンチマークを6カテゴリに整理し、それぞれが何を測るのか・スコアをどう読むのかを初心者向けに解説します。上位モデルのスコア比較表も掲載しているので、モデル選定の参考にもなります。
より深い話——ベンチマークの限界・歴史的変遷・エージェント時代の新評価軸——は上級編で扱います。
ベンチマークとは何か
ベンチマーク(benchmark)とは、標準化されたテスト問題セットのことです。同じ問題を複数のモデルに解かせることで、公平な性能比較ができます。
重要なのは「何を測るか」が明確に定義されている点です。知識の幅を測るもの、コーディング能力に特化したもの、数学の論理力を問うものと、目的ごとに異なるベンチマークが存在します。学校のテストに例えるなら、「国語のテスト」「数学のテスト」「英語のテスト」がそれぞれ別に存在するようなイメージです。
1つのスコアだけでモデル全体を判断できない理由はここにあります。「コーディングに強いがGPQAが低い」「数学は優秀だが常識推論が苦手」といった特性の違いを読み解くには、複数のベンチマークを組み合わせて見る必要があります。
カテゴリ1: 知識・推論系
MMLU(Massive Multitask Language Understanding)
最も広く引用されるベンチマークのひとつです。数学・物理学・化学・法律・医学・倫理学・世界史など57の学術分野にわたる4択問題(約14,000問)で構成されています。
モデルの「幅広い知識量」を単一の数値で表現できるため、モデル発表資料には必ずといっていいほど掲載されます。一方で、2024年頃からはトップモデルが軒並み88〜92%に達しており、差がつきにくくなっています(飽和問題。詳しくは上級編で)。
人間の目安: 一般成人〜70%前後、各分野の専門家で89%程度。
GPQA(Graduate-Level Google-Proof Q&A)
「Googleで検索しても解けないよう設計された、博士レベルの専門問題集」です。化学・生物学・物理学が中心で、正解を知っている専門家でも確認に時間がかかるような問題が揃っています。
なかでも難易度が高い 「Diamondセット」(206問) は、各分野の専門家でも65%前後しか正答できないとされています。MMLUが飽和しつつある中で、上位モデルの実力を測る指標として注目されています。
ARC-Challenge
米国3〜9年生(小中学生)向けの科学テスト問題を4択形式にしたものです。「簡単そう」と思われがちですが、単純なキーワード検索では解けないよう選別された問題だけを集めているため、推論力が問われます。
カテゴリ2: 数学・論理系
GSM8K(Grade School Math 8K)
小学生レベルの算数文章題8,500問です。各問題は複数のステップを経て解く構造になっており、多段階の数式推論能力を測ります。
2022年頃のモデルは50〜60%台でしたが、2024年以降のフロンティアモデルは95%を超えるのが当たり前になりました。現在は「最低限のベースライン」として使われることが多いです。
MATH
米国の高校・大学数学コンテスト(AMC、AIME、AHSMEなど)相当の問題12,500問を5段階の難易度に分けたものです。GSM8Kより一段上、競技数学レベルの推論力を測ります。
GPT-4(初期)では52.9%にとどまっていましたが、推論特化モデルの登場で大きく改善されました。2026年現在はo3が95.6%、Gemini 2.5 Proが91.8%を達成しており、モデル世代の進化が最も劇的に現れるベンチマークのひとつです。
AIME(American Invitational Mathematics Examination)
アメリカ数学招待試験の実際の問題を使ったベンチマークです。MATH よりさらに難しく、解答は整数0〜999の範囲に収まります。2025年以降、推論モデルがトップ高校生レベルの成績に並ぶケースが出てきており、数学AIの進歩を測る最前線のベンチマークになっています。
カテゴリ3: コーディング系
HumanEval
OpenAIが公開したコーディングベンチマークで、Pythonの関数実装問題164問で構成されています。問題文(自然言語)とドキュメントが与えられ、モデルが関数本体を実装します。ユニットテストを通過すれば正解です。
指標はpass@1(1回の生成で正解する確率)が主流です。2022年頃のモデルは48%前後でしたが、GPT-4世代で87%台まで伸び、2026年現在のフロンティアモデル(Gemini 2.5 Pro 92.4%、o3 90.8%など)は90%前後が当たり前になっています。
MBPP(Mostly Basic Programming Problems)
Googleが公開したPythonの入門〜中級プログラミング問題374問です。HumanEvalよりやや簡単なため、コーディング基礎力の下限を測る指標として合わせて使われることが多いです。
SWE-bench Verified
実際のGitHubリポジトリに報告されたIssue(バグ修正・機能追加)を、実際のコードベースに対して解決するベンチマークです。単純なコード生成ではなく、既存のコードベースを読んで修正箇所を特定し・修正し・テストを通過させる、実際のソフトウェアエンジニアリング能力を測ります。
Devin(2024年初頭)が13.8%で話題になり、Claude 3.5 Sonnetは49%に達しました。2026年現在はClaude Opus 4.6(80.8%)・Sonnet 4.6(79.6%)がトップクラスで、モデル単体の賢さだけでなくエージェント設計の巧みさがスコアを大きく左右するベンチマークになっています。
カテゴリ4: 文章理解・常識推論系
HellaSwag
文章の「自然な続き」を4択から選ぶタスクです。常識的な状況理解と文章の流れを読む能力を測ります。人間の正答率は95.6%ですが、GPT-4はすでに95.3%を達成しており、差がほとんどなくなっています。
WinoGrande
代名詞の参照先を文脈から判断する問題(Winograd Schema)の大規模版です。例えば「ジョンはマークにお金を貸した。彼は困っていたからだ」という文章で「彼」がどちらを指すかを答えます。常識と文脈理解が必要です。
BoolQ
Wikipediaの文書を読んだうえでYes/Noの質問に答える9,427問のテストです。文章理解と事実確認能力を測ります。
カテゴリ5: 安全性・誠実性系
TruthfulQA
「人間が誤解しやすい」817の質問で構成され、有名な誤謬・迷信・都市伝説に引きずられずに正確な情報を答えられるかを測ります。
例: 「ナポレオンは身長が低かったのですか?」(実際は平均身長)「コロンブスは地球が丸いと証明した最初の人物ですか?」(地動説は古くから知られていた)——こうした問題に誤情報を答えてしまうと低スコアになります。
LLMが「自信満々に間違える(ハルシネーション)」傾向を測る指標として重要で、特に信頼性を重視するユースケースで参照されます。
カテゴリ6: 人間評価系
LMSYS Chatbot Arena(ELOレーティング)
2つのモデルの回答を人間が並べて見て「どちらが優れているか」を選ぶ、クラウドソーシング型の評価システムです。チェスのELOと同じ仕組みで相対スコアを算出します。
自動ベンチマークでは測れない「回答の自然さ」「指示への追従性」「実用的な使いやすさ」を反映する点が最大の強みです。ただし、多数の一般ユーザーの好みに引きずられやすい(例: 長い・きれいな文章が高評価されやすい)という側面もあります。
代表モデルのスコア比較(2026年4月)
下表は2026年4月時点の主要フロンティアモデルのベンチマークスコアです。GSM8Kは現在のトップモデルが95〜99%に達し差がつきにくくなっているため、代わりに実際の開発能力を測るSWE-benchを掲載しています。
モデル
MMLU
GPQA Diamond
HumanEval
MATH
SWE-bench
Gemini 2.0 Flash
78.9%
63.7%
79.4%
74.2%
—
GPT-4.5
90.8%
71.4% ※1
88.0%
84.7%
38.0%
Llama 4 Maverick
88.0%
〜70%
85.3%
83.2%
—
Claude Sonnet 4.6
89.3%
74.1%
—
—
79.6%
Claude Opus 4.6
91.1%
91.3% ※2
—
—
80.8%
Gemini 2.5 Pro
90.1%
82.3%
92.4%
91.8%
—
o3(推論モデル)
88.9%
81.7%
90.8%
95.6%
—
※ 各スコアは2026年4月時点の公開ベンチマークからの代表値。測定条件(few-shot数・CoT有無など)はソースによって異なります。— は公開値なし。※1 GPT-4.5のGPQAはscience GPQA(GPQA Diamondとは異なる場合あり)。※2 Claude Opus 4.6のGPQAはサードパーティ集計値(Iternal Technologies)。
スコアの読み方:3つの注意点
① few-shot と zero-shot の違い
「5-shot」とは、本番の問題を出す前に5問分の例題(問題と正解のセット)をモデルに見せる方法です。「zero-shot」は例題なしで直接問う方法です。few-shotの方がスコアが上がりやすいため、比較する際は同じ条件かを確認する必要があります。
② pass@1 と pass@k(コーディング系)
コーディングベンチマークでは「何回生成したうちの何回が正解か」で測ります。pass@1は1回の生成で正解する確率、pass@10は10回生成したうちの少なくとも1回が正解する確率です。pass@kは kが大きいほどスコアが高くなるため、比較には同じ kの値を使うことが前提です。
③ Chain-of-Thought(CoT)あり・なし
「考える手順をステップごとに書き出してから答えなさい」という指示(CoTプロンプト)を加えるだけで、数学や論理問題のスコアが大幅に改善することがあります。特にGSM8KやMATHではCoTが事実上の標準になっており、CoTなしのスコアを比較に使うのは不公平になります。
まとめ——ベンチマークはモデルを「多角的に」見るツール
本記事で紹介した6カテゴリのベンチマークをまとめます。
カテゴリ
代表的なベンチマーク
何を測るか
知識・推論
MMLU、GPQA、ARC
幅広い学術知識、専門的推論
数学・論理
GSM8K、MATH、AIME
多段階推論、競技数学
コーディング
HumanEval、SWE-bench
コード生成、実際の開発能力
文章理解・常識
HellaSwag、WinoGrande
常識的な状況理解、代名詞解決
安全性・誠実性
TruthfulQA
ハルシネーション・誤情報回答
人間評価
Chatbot Arena
実際の使いやすさ・人の好み
スコアを見るときは「何のベンチマークか」と「どういう条件で測ったか」の2点を確認する習慣をつけると、AIニュースの読み方が大きく変わります。
ただし、ベンチマークにはさまざまな落とし穴もあります——スコアの飽和、データ汚染、ベンチマークと実用の乖離など。これらは上級編で詳しく掘り下げます。
よくある質問
Q. LLMのベンチマークとは何ですか?
LLMのベンチマークとは、複数のAIモデルを同じ条件で比較するための標準化されたテスト問題セットです。知識・数学・コーディング・常識推論など分野別に異なるベンチマークが存在し、それぞれが異なる能力を測定します。
Q. MMLUとはどんなベンチマークですか?
MMLUは数学・物理・法律・医学など57の学術分野にわたる4択問題で構成されたベンチマークです。モデルの幅広い知識量を測るために最もよく引用される指標のひとつで、主要なフロンティアモデルは88〜92%前後を達成しています。
Q. ベンチマークスコアが高いモデルが実用でも優れていますか?
必ずしもそうとは限りません。ベンチマークは特定の能力を測る設計になっており、実際の使用感(回答の自然さ・指示への追従性など)は別の評価が必要です。LMSYSのChatbot Arenaのような人間評価との組み合わせで総合的に判断することが重要です。