OpenAIが語る！GPUクラスタでAIモデル学習を劇的に加速するネットワーク戦略

はじめに：AIモデル学習の新たな課題

本記事では、OpenAIポッドキャストより、AIモデル学習に不可欠なスーパーコンピュータの性能を向上させるための最新の取り組みについてご紹介します。特に、大規模なGPUクラスタのネットワーク効率化が、よりスマートなモデルをより速く開発するためにいかに重要であるか、OpenAIの主要メンバーであるコアネットワーキングチームのマーク・ハンドリー氏とワークロードシステムチームのグレッグ・スタインブレッヒャー氏が語ります。彼らの画期的なブレークスルーにより、AIモデル学習のスケーリングにおける主要な障壁の一つが取り除かれつつあります。研究者が特定のクラスタがどのようなネットワークプロトコルを使用しているかを知る必要がなくなった時、私たちは勝利したと言えるでしょう。

ゲストの背景：複雑なシステムへの挑戦

グレッグ・スタインブレッヒャー氏の軌跡

グレッグ氏は、学部時代に物理学と数学を学び、複雑なシステムの仕組みを理解することに魅了されました。彼は「知ることができないほど複雑なものを、完全に嘘ではあるがそのシステムについて何かを教えてくれるシンプルなモデルへとどのように落とし込むか」という物理学の側面に常に興味を抱いていたと語ります。そして、その直感を基に、より複雑なモデルを構築していったそうです。その後、量子コンピュータの構築を目指して博士号を取得しましたが、量子コンピュータがまだ動作せずスケールしないという現実に直面します。

そこで、量子コンピュータの光制御用に設計していたチップがネットワークスイッチのように見えることに気づき、データセンターのネットワークに関する研究へと転向しました。彼は学術界が実際のデータセンターワークロードについてあまり知らないことに気づき、業界での経験を通じて、従来のデータセンターネットワークハードウェアには最適化の余地が非常に大きいことを発見しました。彼の光チップのような高度な技術は必ずしも必要なく、むしろ既存のハードウェアの改善に大きな可能性があると結論付けました。

AIブームが到来すると、彼は大規模なGPUクラスタ、特にそのネットワークの構築に深く関わることになります。当初はシステムのシミュレーション構築に携わっていましたが、やがてGPU間の通信を可能にするソフトウェア自体を構築する道へと進みます。そして1年ほど前、彼はOpenAIに加わり、モデル学習の最前線でGPUを効率的に使用するための責任を負うことになります。彼らのチームは、モデルが可能な限り速く学習しているか、ネットワークがボトルネックになっていないか、何か障害が発生した際に効率的に再起動できるか、ハードウェアの癖をどう回避するかなどを担当し、世界の最先端ハードウェアから最高のパフォーマンスを引き出すことに尽力しています。

マーク・ハンドリー氏の長年の経験

マーク・ハンドリー氏は、OpenAIに勤務していない時は、ユニバーシティ・カレッジ・ロンドン（UCL）の教授を務め、数十年にわたりネットワーキング研究に携わってきました。彼のキャリアは、インターネットでのビデオ会議を可能にするための研究から始まりました。当時のコンピュータは非常に低速でしたが、彼らが開発した標準は、現在スマートフォンが4Gや5Gネットワークで通信するために使用されています。標準化のプロセスは、全員の合意が必要なため非常に時間がかかる、と彼は語ります。

その後、彼はデータセンターの世界に興味を持つようになりました。データセンターでは、インターネット全体ではなく、構築する組織内での合意のみで済むため、より迅速に新しいことを試せるという大きな利点がありました。このようにして、彼はデータセンターネットワーキングが非常に興味深い分野であると考えるようになりました。

AIモデル学習におけるネットワークの根本的な課題

AIの発展は目覚ましく、GPUクラスタの規模は急速に拡大しています。しかし、従来のデータセンターネットワークは、インターネットの通信モデルから派生しており、この急激な変化に対応しきれていません。

従来のインターネット通信モデルとの違い

インターネットでは、非常に多くの人々がそれぞれ独立した会話（通信）を行います。多くの通信が同じ共有ネットワーク上に追加されることで、トラフィックは平滑化され、統計的な法則によって安定します。これは「大数の法則」を活かした効率的なモデルです。

しかし、AIモデル学習、特に大規模なモデルのトレーニングでは、状況は全く逆です。私たちは「世界最速のGPUの多くを、単一のタスクのためにすべて連携させて」動作させています。このプロセスでは、AIモデルがデータから並行して学習できるよう、すべてのデータを並行して取り込む必要があります。これにより、よりスマートで優れたモデルを構築できますが、ここには特有の難しさがあります。

高い同期性がもたらすボトルネック

AIモデル学習では、多数のGPU（グラフィックス処理ユニット）が協調して計算を進めます。もし1つのGPUが少しでも遅くなると、他のすべてのGPUはそのGPUを待たなければなりません。これはすべて時間の無駄です。さらに、GPUの一つに問題（例えば、宇宙線によるビットフリップ）が発生して停止した場合、その計算ステップ全体が無効になり、ロールバック（処理の巻き戻し）や停止して状況把握が必要になるかもしれません。この間、すべてのGPUは有用な作業を行っていません。

ここで重要なのは、GPU間の通信自体が計算の一部であるという点です。GPUはそれぞれ異なるタスクを行っているのではなく、一つの大きな計算を分担して行い、各計算ステップの結果について互いに合意する必要があります。これはネットワークにとって、考えられる限り最悪のワークロードだと言えるでしょう。

過去数十年間、業界はデータセンターネットワーキングを改善してきましたが、これまでは規模がそれほど大きくなかったため、インターネットで行っていたことの「より大きなバージョン」でも対応できていました。しかし、現在のAIモデル学習の規模では、このアプローチはもはや通用しません。私たちは、このような「非常に同期性の高いワークロード」に対応するために、根本的に異なる方法を考える必要に迫られています。

課題解決へのアプローチ：Multipath Reliable Connection

AIが世界の多くの側面を変えたように、テクノロジー企業がデータセンターを構築する方法も根本的に変革されました。特に、非常に同期性の高いGPUワークロードに対処するためには、新しい発想でこれらの問題を解決する必要があります。この文脈で、彼らは「Multipath Reliable Connection」というアプローチについて言及しています。

まとめ：AI時代のネットワーク革新

AIの急速な進化は、世界の多くの側面を変え、テクノロジー企業がデータセンターを構築する方法を根本的に変革しています。特に、大規模なAIモデル学習におけるGPUクラスタの効率的な運用は、ネットワーク技術の革新なしには実現できません。OpenAIは、従来のネットワーク設計では対応しきれない、高度に同期されたGPU間の通信という課題に対し、新たなアプローチで挑んでいます。

彼らの取り組みは、AIモデル学習のボトルネックを解消し、より高速かつ信頼性の高いシステムを構築することで、AI研究と開発のさらなる加速を可能にするでしょう。研究者がネットワークの細部に気を取られることなく、純粋にモデル開発に集中できる環境を整えることが、彼らの最終的な目標です。

参考動画

https://www.youtube.com/watch?v=TiW96H5HmAw

ポイント