AIは数学の壁をどう打ち破ったか？LLMによる未解決問題解決とAGIへの道

導入 - AIと数学の驚異的な進化

こんにちは、OpenAIポッドキャストへようこそ。本日は、研究者のSebastian Bubeck氏とErnest Ryu氏をお迎えし、AIと数学の驚異的な進歩について深掘りします。特に、大規模言語モデル（LLM）が数学の分野でどのように進化し、かつては不可能と思われたレベルの問題解決能力を獲得したのか、そしてAGI（汎用人工知能）達成に向けてなぜ数学が不可欠なのかについて議論します。

近年、LLMの進歩はまさに奇跡的と呼べるものでした。かつては50ページ以上もの思考を必要とする問題も、今やLLMが解決できるようになりつつあります。この4年間におけるモデルの進歩を測る上で、数学は完璧なベンチマークとなってきました。

研究者紹介：Sebastian Bubeck氏とErnest Ryu氏

Sebastian Bubeck氏

私は20年近く数学に携わってきました。以前は最適化理論や機械学習の理論を研究しており、Microsoftに移る前はプリンストン大学で教授を務めていました。現在はOpenAIの研究者として、AIがいかに数学を助け、困難な数学問題をAIで解決する上での進歩をどう評価できるか、という点に注力しています。

Ernest Ryu氏

私は最近、OpenAIに研究者として参加しました。それ以前は応用数学者として最適化理論や機械学習の理論に取り組んでいました。前職ではUCLAの数学科で数学教授を務めていました。

大規模言語モデル（LLM）の数学能力：驚異的な変化

多くの人は、「言語モデル」という言葉から、LLMが数学に弱いという認識を持っているかもしれません。しかし、この数年の進歩はまさに奇跡的です。

わずか2年前を振り返ると、私たちはまだ推論モデルすら持っていませんでした。ましてや、難しい数学の定理を証明できるモデルなど想像もできませんでした。しかし、今日、わずか2年後には、モデルはフィールズ賞受賞者の日々の研究を支援するレベルに達しています。この飛躍は驚くべきものです。

この進歩は、私たち自身を含め、誰もが驚いています。1年半前、私は他の数学者たちとのワークショップに参加し、LLMのスケールアップが主要な未解決問題の解決に役立つか、というテーマで議論しました。当時、参加者の80%は「不可能だ」と考えていましたが、議論の終わりには賛否がほぼ半々に分かれるほど、その可能性が認識され始めました。

そして、わずか8ヶ月後には、モデルが研究レベルの数学をこなし始めるという、驚くべき結果が現実のものとなりました。

数学オリンピックでの飛躍

2025年夏（仮想）、ChatGPTが国際数学オリンピック（IMO）で人間のトップレベルの成績、つまり金メダルに相当するパフォーマンスを達成したという大きなニュースが流れました。これは素晴らしい成果であり、モデルが少なくとも競技レベルの数学において、人間のトップクラスの高校生に匹敵する非常に高い能力を持つことを示しました。

しかし、競技問題は「缶詰の問題」であり、数時間で解けるように比較的短い解答が求められます。また、すでに解答が存在するため、研究レベルの斬新な問題ではありません。そこで、多くの人が「ChatGPTは研究レベルの数学もできるのだろうか？」という疑問を抱き始めました。

42年来の未解決問題の解決事例

Nesterov加速勾配法の発散性に関する問題

私（Sebastian）は、他の人の意見に耳を傾けるのではなく、自分自身で試してみるべきだと考え、自身の専門分野である応用数学の一分野、最適化理論における古典的な未解決問題に挑むことにしました。

具体的には、「Nesterov加速勾配法」という有名なアルゴリズムについてです。このアルゴリズムはほとんどの場合良好に動作し、収束することが知られていますが、特定の悪いケースで発散する可能性があるのかどうか、という問題でした。この問題は42年間未解決であり、ほとんどのケースでうまく機能することは知られていましたが、最悪のシナリオで発散する悪い例が存在するかどうかは誰も知りませんでした。結果として、答えは「はい」でした。

ChatGPTとの協調作業プロセス

解決のプロセスは非常に印象的でした。私は息子を午後8時に寝かしつけ、深夜0時以降は起きないようにしているので、通常は夜間に4時間の集中できる時間がありました。私はこの問題に数日間取り組むことを決め、3日間で合計12時間をChatGPTとの対話に費やしました。ただプロンプトを入れて解答を得るという単純なものではありませんでした。

私は「検証者」の役割を担いました。モデルが間違いを犯すたびにそれを修正し、また、私が斬新だと感じるアプローチに会話を誘導しようと努めました。しばらくすると、証明が完成し、私はそれを確認しました。さらに、ChatGPT自身にも二重チェックを依頼したところ、それが正しいことが確認されました。こうして、42年間未解決だった問題が解決されたのです。

AIによる数学的発見のインパクト

この解決策を得たとき、私はどのように公表するのが最も楽しいかを考えました。論文を書くこともできましたが、それでは面白みに欠けると考え、Twitterでこの発見について語ることにしました。そして、それは大きな反響を呼び、多くの人が注目しました。これは、AIが純粋な数学的未解決問題を解決した最も初期の事例の一つだと思います。

ソーシャルメディアで発表することは勇気がいることですが、このようなフィードバックサイクルは必要だと感じています。

LLMの数学能力の進化：実用レベルから研究レベルへ

初期からの課題：日常的な計算と時間帯調整

ChatGPTが2023年初頭に登場した際、私はモデルが一般的な数学問題でどれだけパフォーマンスを発揮するかを非常に興味深くテストし始めました。これには高校レベルの数学問題だけでなく、日常生活で出会うような数学的な問題も含まれていました。

例えば、私たち3人でキャンプに行ったとします。私がいくら、Sebがいくら、Andrewがいくら支払い、最後に公平に割り勘したい場合、ChatGPTは計算できるでしょうか？17項目もの購入品がある場合、これは適度に複雑な計算になります。2023年、2024年、そして2025年初頭でも、モデルはこれらの計算ができませんでした。

もう一つの例は、私が韓国に、Sebがパリに、Andrewがカリフォルニアにいる場合、Zoom会議を行うのに最適な時間を割り出すことです。これも2025年初頭のモデルにはできませんでした。

突然の進化と現在の能力

しかし、突然、状況は一変しました。当時私はOpenAIにいませんでしたが、モデルは突然IMOの問題を解き始め、さらに研究レベルの問題も解決し始めました。

私（Ernest）が現在これをどのように評価しているかというと、新しい数学的発見を目指すプロの数学者でない限り、もしあなたが「何かを理解したり、既存の数学的問題を解決しようとしている」のであれば、LLMは非常に高い能力を持つと言えるでしょう。

まとめ：AIと数学の未来、そしてAGIへの道

大規模言語モデル（LLM）の数学能力の進化は、かつての想像をはるかに超えるものでした。単純な計算から始まり、国際数学オリンピックでの高レベルなパフォーマンス、そして42年もの間未解決だった研究レベルの数学問題の解決に至るまで、その進歩は目覚ましいものです。これらのモデルは、もはや単なる計算ツールではなく、複雑な推論を行い、新たな数学的発見を促すパートナーとして機能し始めています。

このようなAIと数学の融合は、AGI（汎用人工知能）達成に向けた重要なステップであることを示唆しています。AIが人間の知性を拡張し、科学や技術の未踏の領域を切り開く可能性を秘めていることに、大きな期待が寄せられます。

参考動画

[https://www.youtube.com/watch?v=9-TVwv6wtGQ]

ポイント