AIの衝撃 — ベンチマークが示す「青色」の実力

第1回記事：AIの衝撃 — ベンチマークが示す「青色」の実力

人間 vs. 生成AI：GPT-o1は「何色」のコーダーなのか？ — 最新ベンチマーク徹底解剖

【抄録】
連載の導入となる第1回では、読者の最大の関心事である「AIは今、どれくらい強いのか」という問いに対し、AtCoderのレーティングカラーという共通言語を用いて定量的に評価しています。OpenAI o1やClaude 3.5 Sonnetのベンチマーク結果を分析し、AIが初心者の域を脱し、中級〜上級者（水色〜青色）の領域に踏み込んでいる現状を示します。現状では、多くのプログラマーやソフトエンジニアなどの技術者だけでなく、これからプログラムを学ぶ初学者も「AIを無視することは不可能である」という現実が認識できます。

1. 推論モデルの台頭とスコアの躍進

かつてのLLM¹は、データセットに含まれる単語間の遷移を学習し、もっともらしく繋ぎ合わせることに長けていました。

つまり、LLMはある単語のあとには、特定の単語が続く（例えば、「私」に対しては「は」や「が」が使用される）ことを確率的な表現として学習しています。
この単語のつながりの強さを学習することで、人間が書いた文章のような文字列を生成することができます。さらに、文章を生成するだけでなく、異なる言語をつなげる（つまり、翻訳する）ことが可能です。

しかし、従来のLLMでは、未知の問題に対する論理構築は不得手でした。そこで、2024年から2025年にかけて登場した「推論モデル」は、強化学習²（Reinforcement Learning）と思考の連鎖³（Chain of Thought）プロセスを統合することで、劇的な性能向上を実現しています。

Vellum.aiのリーダーボード⁴やHumanity’s Last Examのデータ⁵によれば、数年前に発表されたモデルでもスコアは飛躍的に向上しています。特にOpenAIのo1モデルは、Codeforces（AtCoderと双璧をなす国際的な競技プログラミングプラットフォーム）において89パーセンタイルに位置し、Eloレーティング⁶で1800相当（AtCoderにおける青色相当）のパフォーマンスを記録しています。これは、米国の数学オリンピック予選（AIME）においても上位500人の学生に匹敵する成績であり、もはや「AIは簡単なコードしか書けない」という認識は過去のものであることを示唆しています。

用語解説
1: 大規模言語モデル（Large Language Model）の略。ネットに存在する記事や投稿記事などの大量のデータを学習し、文章の生成や翻訳などが可能である数理モデルのこと。
2: AIが学習する方法として「教師なし学習」、「教師あり学習」、および「強化学習」に分類することができます。強化学習は、与えられた情報に対してAIがある行動を行います。この行動に対して適切に行動した場合は報酬を、不適切な行動をした場合には罰を与えることで、所望の行動を学習することができます。代表例として、ルールを知らずにブロック崩しやレーシングゲームなどをプレイできるAIが提案されています。
3: 思考の連鎖とは、大規模言語モデル（LLM）が複雑な問題を解く際に、答えを出すまでの思考プロセス（中間ステップ）を言語化・可視化させるプロンプト（指示）技術です。プロセスは日本語では「処理」を意味します。つまり、何度も推論を行い精度の良い出力を得るための動作の１つです。
4: 大規模言語モデル（LLM）を活用したAIアプリケーションの構築、評価、デプロイ、および監視を支援する包括的な開発プラットフォームがスコア化したランキングです。
5: 「人類最後の試験」と呼ばれるAIの実力を測る試験の１つです。
6: チェスで考案された、対戦型ゲームにおけるプレイヤーの実力を数値化（レーティング）する代表的な指標です。

2. 主要モデルの比較と特性

各モデルには競技プログラミングにおける得意・不得意が存在します。少し古いデータですが、表1は主要なLLMのコーディングおよび推論ベンチマークにおけるパフォーマンスを比較したものです。
特に注目すべきは、Claude 3.5 Sonnetが「Thinking」モードを搭載したバージョン（Claude 3.7 Sonnet Thinking）において、KCORES LLM Arenaで1位を獲得するなど、OpenAIの独走体制に肉薄している点です。また、Gemini 1.5 Proは日本語処理能力においてLMSYS Chatbot Arenaでトップクラスの評価を得ており、日本語の問題文が多いAtCoderにおいては極めて強力なツールとなり得ています。

表1 各生成AIモデルの比較

3.「青色」の意味するもの

AtCoderにおける「青色（レーティング1600以上）」は、競技プログラミング参加者の上位約10〜15%に位置しており、多くのIT企業において「アルゴリズム能力に関しては即戦力以上」と見なされるレベルです。AIがこのレベルに到達したということは、これまで人間が1〜2年の学習期間を費やして習得していたスキル（典型的な動的計画法、グラフ理論、データ構造の実装）が、AIによって「コモディティ化」されたことを意味しています。これは学習者にとって、学習のモチベーションを根本から問い直す衝撃的な事実です。

まとめ

従来の生成AIは、確率的な言葉の連鎖を学習するだけでした。そこには、ただの音に反応する様なオモチャのような印象があり、人間が行う複雑な思考プロセスを代替することは不可能であると考えられていました。

しかし、膨大なデータを学習し、推論を繰り返すことで、人間のような深い思考プロセスと妥当な答えを出力することが可能となりました。この発展は、実社会に大きな影響を与え、特に、作家やプログラマーなどの言語を扱うことを生業とする職業が「将来、人からAIに代替される」というセンセーショナルな話題となりました。

次回は、このような優れた生成AIにも弱点が存在することを紹介します。