Flux Context徹底解説：AI画像生成と編集を統合するBlack Forest Labsの革新

Black Forest Labsの共同創設者であるAndy氏より、当社が開発する革新的な画像生成・編集モデルファミリー「Flux」についてご紹介します。特に、テキストから画像を生成する機能と、既存の画像を編集する機能を統合した最新モデル「Flux Context」に焦点を当て、その機能、ユースケース、そして技術的な背景について詳しく解説します。

Black Forest LabsのビジョンとFluxモデルファミリー

Black Forest Labsは、ビジュアルメディアが将来の人間コミュニケーションの中心的なインターフェースになると確信しています。私たちは、人間が互いに交流するために使用するあらゆる画像や動画を支える、中心的なインフラプロバイダーとなることを目指しています。それはカメラで捉えられる範囲だけでなく、そのはるか先を見据えています。

当社は2024年8月に設立され、現在では45名の従業員を抱え、ドイツのフライブルク（Black Forest地域）にある本社と、サンフランシスコのオフィスに拠点を置いています。

Fluxモデルの3つのティア

会社設立と同じ2024年8月に画像生成ファミリー「Flux」をリリースして以来、私たちはモデルファミリーを継続的に進化させてきました。Fluxモデルは以下の3つの異なるティアで提供されています。

Flux Proモデル
- 非常に強力で、私たちが提供する中で最速のモデルです。
- VFL API、またはReplicateのような推論パートナーを通じてのみ利用可能です。
- 大規模なボリュームにもほぼ瞬時に対応できるよう、簡単に統合・スケールできます。
Flux Devモデル
- 公開ダウンロードが可能で、自由に試行錯誤できます。
- 完全にカスタマイズ可能で、利用者に高い柔軟性を提供します。
- 私たちはStable Diffusionのオリジナルの開発者でもあり、オープンソースコミュニティを大切にしています。Flux Devモデルはオープンウェイト・オープンソースモデルとして提供されています。
- Hugging Faceのモデルアトラス（最も利用されているオープンソース基盤モデルを可視化）を見ると、Flux Devモデルは単一のモデルとして最大の、そして最も大きなエコシステムを持つことがわかります。これは、Fluxがオープンな画像生成の標準となりつつあることを示しています。
Flux Channelモデル
- 完全にオープンソースであり、Fluxエコシステムへの完璧なエントリーポイントとなります。

Flux Contextの登場：画像生成と編集の統合

ここからは、今回の発表のメインテーマである最新モデル「Flux Context」について深く掘り下げていきます。Flux Contextは、テキストto画像生成と画像編集を統一する画期的なモデルです。

画像編集の重要性

過去数年間で画像生成の素晴らしいアプリケーションが多数登場しましたが、画像編集の分野はこれまで、同程度の速度で進化してきたとは言えませんでした。しかし、画像編集は非常に重要なユースケースです。既存の画像に対して反復的な作業を可能にし、ユーザーにより高いレベルの制御を提供することで、画像を精密に修正できるようになります。

Flux Contextの概要

Flux Contextは、画像編集における決定的な瞬間を創り出すモデルだと考えています。2025年6月にリリースされたこのモデルは、画像生成と、キャラクターの一貫性、スタイル参照、ローカル編集といった編集機能を、ほぼリアルタイムの速度で組み合わせます。

具体的な例として、以下の画像の変化をご覧ください。左側の入力画像から始まり、モデルに指示を出すことで、被写体の顔からオブジェクトを削除し、さらにキャラクターの一貫性を保ったまま全く新しい背景に配置できます。これまでこのようなキャラクターの一貫性を実現するには、既存のテキストto画像モデルに対して多くのファインチューニング作業が必要でしたが、Flux Contextはそれを不要にし、わずか数秒で実現します。最後に、背景を冬のシーンに変更することも可能です。

Flux Contextによる革新的なユースケース

Flux Contextは、キャラクターの一貫性を保った編集だけでなく、以下のような多様な用途にも対応します。

スタイル変換
- 入力画像からスタイルを抽出し、新しいコンテンツに適用できます。
テキスト編集
- 画像内の「Montreal」という文字を「Freiburg」に、フォントを維持したまま変更するといったテキスト編集も可能です。

これらすべてが、非常にシンプルなテキストインターフェースを通じて一つのモデルで実現します。

このモデルは汎用性が高いだけでなく、特定の重要なビジネス課題の解決にも非常に優れています。例えば、左の例では「in the wild」な画像からスカートを抽出し、ほぼ瞬時に商品写真とズームイン画像を生成しています。これは以前であれば数時間、あるいは数日かかるか、不可能だった作業です。同様に、右の例ではスケッチから数秒で完全にレンダリングされた出力を得ることができます。

モデルパイプラインの進化：統合のメリット

Flux Contextは、テキストto画像生成と画像編集を組み合わせることを既にご紹介しました。ここで、この統合がモデルパイプラインにおいて実際に何を意味するのかを簡単に見てみましょう。

従来のパイプライン

クラシックなテキストto画像パイプライン
- 非常にシンプルで、テキストプロンプトをモデルに入力し、そこから画像が出力されます。
画像編集パイプライン
- 画像編集はかなり異なります。まずモデルに入力画像を示し、次にシーン全体を記述するテキストではなく、画像への「変更」を記述するテキスト指示を追加します。つまり、2つの条件付け（入力）があることになります。
- モデルは、その変更指示に従って画像を修正します。教会の写真のように、一部は維持され、一部が変更されるといった具合です。

Flux Contextによる統合のメリット

これら2つの異なるタスクを単一のモデルに統合することは、非常に素晴らしいことです。なぜなら、画像を生成し、その後すぐに編集するといった全てが可能になるからです。これにより、柔軟性が大幅に向上します。

以前は、このレベルの制御をモデルに持たせるために、既存のテキストto画像モデルに対して多くのファインチューニング作業が必要でした。しかし、今ではそれが不要になり、瞬時に実行できます。これにより、高品質な結果を得るために必要な時間が大幅に短縮されます。

まとめ

Flux Contextは、AIによる画像生成と編集の境界線を曖昧にし、これまで専門的な知識や時間が必要だった作業を、誰でも簡単に、そしてリアルタイムに近い速度で実行できる未来を実現します。Black Forest Labsは、オープンソースコミュニティへの貢献も重視しており、Flux DevモデルがHugging Face上で最大のエコシステムを築いていることからも、その影響力の大きさが伺えます。Flux Contextの登場は、クリエイティブな表現の可能性を広げ、ビジネスにおいても新たな価値を創出するでしょう。

参考動画

Flux: Our model family for generating images and editing images

ポイント