チェスや将棋、そして囲碁など、
人間にとって難解とされてきたボードゲームで
AIが勝利を収めるたび、
メディアは「AIが人間を超えた」と
大きく取り上げてきました。
さらに画像認識や自然言語処理
といった応用分野でも、
深層学習(ディープラーニング)の
登場によって飛躍的な性能向上が
実現しています。
こうしたニュースを目にすると、
多くの人が「このままAIが発展すれば、
”いずれ“なんでもできる汎用人工知能(AGI)”に
到達するのではないか」と
期待してしまうのも無理はありません。
ところが、AI研究者の間では以前から、
「特定分野での強さ」と「どんな状況にも
柔軟に対応できる汎用性」は
別問題だと考えられてきました。
歴史を振り返ると、
アラン・チューリングが提案した
“Turing Test”や、その後の
“Winograd Schema
Challenge”“BIG-Bench”など、
AGIの多面的な能力を測ろうとする
試みは何度も行われてきました。
しかし多くのベンチマークが、
博士号レベルの問題に正解できるかなど
“高度な知識や言語能力”に偏ってきたため、
まったく性質の異なる日常的な思考や
直観を要する課題ではAIが苦戦する、
という構造的なアンバランスが続いていました。
このギャップに着目し、
2019年に登場したのが
「ARC-AGI」と呼ばれる
新しいベンチマークです。
人間が「パッと見ただけでルールを
つかめる問題」にもかかわらず、
AIにとっては“単純な暗記”では
突破できないよう設計されているのが
大きな特徴でした。
実際、ARC-AGI-1と名付けられた
初代ベンチマークで、
多くの先端AIモデルが苦戦を強いられ、
人間の思考プロセスと機械の違いが
はっきりと浮き彫りになったのです。
とはいえ、
その後の研究やKaggleの
「ARC Prize」コンテストを通じ、
一部のモデルはARC-AGI-1で
高いスコアを示すようになりました。
オープンAIの高度なAIシステムなども
改良を進め、
「人間に近い汎用的推論が
見えてきたのでは?」
という期待が2024年頃には高まりました。
しかし同時に、
「それらのモデルが本当に未知の
問題に適応しているのか?」という疑問や、
「巨大計算による brute force 的な
アプローチに頼っているだけでは?」
という批判も強まったのです。
そもそもAGIは、
人間のように少しのヒントでも新しい状況に
応用できる能力が求められ、
大量の計算リソースだけでは
解決にならない可能性が高い
この認識が背景にありました。
そこで開発されたのが「ARC-AGI-2」です。
今回の新バージョンは
効率性を強く意識し、
AIの演算コストや推論コストを
厳しく見る設計になっています。
さらに、文脈依存のルールや
複雑なシンボル操作を含む
多彩なパズルを加え、
「人間なら短時間で対応できるのに、
AIにはなかなか難しい」
状況を提示することを重視しているのです。
こうした背景から、
研究者たちは
「人間が当たり前にこなす省コストな思考を、
AIがどこまで再現できるか」を
検証するために大規模実験を実施しました。
高性能AIの
“日常力”はゼロ?
新テストが明かす意外な落とし穴
高性能AIの“日常力”はゼロ?
新テストが明かす意外な落とし穴
この実験では、
さまざまなAIモデルに対して
「ARC-AGI-2」の問題を解かせ、
正答率と“タスクあたりのコスト”の
両面から評価しています。
タスクには、
見慣れたシンボル(記号)の意味づけを
文脈によって切り替えたり、
「同じパターンを別の視点から再構成しないと
正解が出ない」という、
少し工夫すれば理解できそうな
問題が多く含まれました。
たとえばある問題では、
記号が数学の演算記号としての意味を持つ
場合もあれば、
全く別の操作を示す場合もあり、
どの文脈でどう解釈すべきかを
瞬時に判断する必要があります。
また、別のテストでは、
同じパターンの図形が、
見る角度や配置の違いによって異なる
ルールに従うという問題が出題され、
AIにはその背後にある複雑なルールや
文脈の変化を正しく読み取る
ことが求められました。
今回の研究では、
以下のAIモデルを用いて
ARC-AGI-2のテストが実施されました。
・OpenAIの「o3-low」(Chain-of-Thought+Search/Synthesis方式)
・OpenAIの「o1-pro」(Chain-of-Thought+Search/Synthesis方式)
・Kaggle 2024優勝者「ARChitects」
・「o3-mini-high」(Single Chain-of-Thought方式)
・「r1」および「r1-zero」(いずれもSingle Chain-of-Thought方式)
・そして、純粋な大規模言語モデルとしての「GPT-4.5」
人間であれば、
二度のトライ以内(pass@2)で
正解にたどり着くケースが比較的多く見られ、
平均してAIよりも高いスコアを記録したと言います。
ただし、
人間が必ずしも全問を簡単に
解いたわけではありません。
実際には人間パネルの平均スコアは
約60%程度と報告されており、
タスクによっては迷いが生じるものもありました。
また、AIの推論にかかった演算コストを
貨幣換算すると、
一問あたり200ドル相当という膨大な
リソースが投入されても正解が出せない
事例が複数確認されました。
とくにARC-AGI-1で高得点を
出していた有名なAIが、ARC-AGI-2では
一桁台に落ち込むなど、
“得意だったモデルがまったく
歯が立たない”という光景も目立ちました。
強力な計算力を注いでも
スコアが伸び悩むことから、
人間的な直観や省エネの思考プロセスを
再現するのは決して簡単ではない、
という事実が改めて浮き彫りになったのです。
なぜこの研究が革新的なのか?
ARC-AGI-2の最大の特徴は、
「問題を解けるかどうか」に加えて
「どの程度のコストで解いたか」
という視点を入れたことです。
人間が持つ直観や柔軟性は
巨大な計算を必要としませんが、
多くのAIはそこが苦手であり、
本質的な意味や文脈をつかむという部分を
補う仕組みが不足していると言えます。
こうした弱点が明確になったことで、
「本当に頭のいいAI」を実現するためには、
ただ巨大なモデルを使うだけでは足りず、
より深い推論手法や新しいアルゴリズムが
求められるのではないかと考えられています。
人間なら当然の
“省エネ思考”がAIを苦しめる
ARC-AGI-2の検証から見えてきたのは、
AIがいくら大規模データや
強力な演算力を備えていても、
人間のような柔軟性や省エネルギー性を
簡単には獲得できないという現実です。
専門家の多くは「従来のモデルは膨大な
パターンを学習するには優れているが、
初見の場面で抽象的な意味を
再解釈する力が弱い」と指摘しています。
文脈やシンボルの意味を独自に
理解する仕組みが不足しているため、
ARC-AGI-2のような
「人間ならさほど苦労せず対応できる」
タスクでつまづいてしまうのです。
もう一つの大きな示唆は、
AIの推論コストと効率がAGI開発において
本質的な課題になりつつあるということです。
人間の脳は非常に省エネかつ
高速に多様なタスクをこなしますが、
現状のAIでは、
莫大なリソースを投入しても「不完全な正答」
にとどまる場面が多く見受けられます。
つまり、今後の研究では
「どうやって少ないリソースで柔軟に
推論できるか」を模索する必要があるわけです。
仮に今後、
ARC-AGI-2を大きく突破するようなAIが出てきても、
その先にはARC-AGI-3のような新たな
ベンチマークが待ち受けるかもしれません。
AGIとは何をどこまで指すのか、
という哲学的な問題は依然として議論が続いており、
ほんの一部のタスクを解けるように
なっただけでは「汎用」とは
呼べないという意見も根強いからです。
とはいえ、
この研究が示す意義は非常に大きいでしょう。
AIにとって“当たり前のようで難しい
”分野をあえて可視化し、
次なる突破口を探る道筋を提示したからです。
実際、多くの研究者が
「記号の意味を取り扱う理論」や
「文脈を見極める推論アルゴリズム」などの
新しいアイデアに着手し始めています。
単純な“データの量×モデルの巨大化”
路線が限界を迎えつつある今、
ARC-AGI-2が次世代AIの可能性を
再考するきっかけになることは間違いありません。
要するに、
このテストで明確になったのは
「人間が普段何気なくこなしている
柔軟性や効率性を、
AIがいかに模倣できていないか」という点です。
AGIへの道のりは決して楽ではありませんが、
だからこそ真のブレイクスルーが起きたときの
衝撃は計り知れないともいえます。
今、私たちが見る“本物の汎用人工知能”は
どんな姿なのか。
ARC-AGI-2という新たなハードルが、
その疑問を一層刺激し、
研究者たちの挑戦心を
かき立てているように思えます。