AI Gatewayで動画生成を始める：最新モデルとAISDK活用術

皆様、こんにちは。Vercelコミュニティセッションへようこそ。本日は、AI Gatewayチームが提供する最新の動画生成モデルについてご紹介します。

AI Gatewayは、先週動画生成モデルをローンチしました。現在、17種類の動画モデルがAI GatewayおよびAI SDKを通じて利用可能です。また、いくつかのプレイグラウンドでも試すことができます。

AI Gatewayにおける動画生成モデルの概要

AI Gatewayで利用できる動画モデルは、いくつかの主要なプロバイダーとモデルタイプに分けられます。これにより、多様なニーズに応じた動画生成が可能です。

主要なプロバイダー

現在サポートされているプロバイダーは以下の通りです。

VO
Calling
Alibaba
XAI

これらのプロバイダーから提供されるモデルは、それぞれ異なる特性や機能を持っています。

動画モデルの主要なタイプ

AI動画モデルには、主に以下の3つのタイプがあります。

Text-to-Video（テキストから動画へ）: テキストプロンプト（指示文）のみを使用して動画を生成します。最も基本的な動画生成方法です。
Image-to-Video（画像から動画へ）: 入力として画像を使用し、その画像に基づいた動画を生成します。静止画に動きを加えたい場合に特に有効です。
Reference-to-Video（参照から動画へ）: 参照として画像または動画を使用し、その参照の内容を基に新しい動画を生成します。特定のスタイルやオブジェクトを一貫させたい場合に役立ちます。

例えば、XAIのImagine Videoモデルのように、これらの全ての機能を1つのモデルIDで提供しているものもあります。モデルによっては機能が異なるため、目的に合わせて選択することが重要です。

AISDKを活用した動画生成

AI Gatewayの動画モデルは、AISDK（AI Software Development Kit）とプレイグラウンドの2つの主要な方法で利用できます。特にAISDKは、開発者がコードを通じて動画生成を簡単に行えるように設計されています。

`generateVideo`関数の利用

AISDKでは、新しく導入されたgenerateVideo関数を使用して動画を生成します。ほとんどの場合、シンプルなモデル指定文字列とプロンプトだけでこの関数を利用できます。

// 実際のコードは文字起こしには含まれていませんが、概念としてはこのような関数を使用します
// import { generateVideo } from '@vercel/ai';
//
// const video = await generateVideo({ 
//   model: 'grock/imagine-video',
//   prompt: 'A West Highland White Terrier crossing the Golden Gate Bridge.'
// });

しかし、ウォルター氏が言及したように、参照動画や画像を必要とするモデル、または編集機能を備えたモデルなど、より高度なタイプの動画モデルもあります。これらはシンプルなテキストベースのバージョンとは少し異なる入力が必要になる場合がありますが、AISDKを通じて簡単に試すことができます。

AISDKとAI Gatewayの力

AISDKとAI Gatewayを組み合わせることで、非常に写実的な動画や、想像できるあらゆる種類の動画を簡単に作成できるのが大きな魅力です。簡単なテキストプロンプトや、テキストと画像を組み合わせるだけで、驚くべき結果を生み出すことができます。

AI Gateway Playgroundでの実践デモ

実際にAI Gatewayのプレイグラウンドで動画生成を試してみましょう。AI Gatewayのサイトにアクセスし、動画モデルのみをフィルタリングすると、現在サポートされているすべての動画モデルが表示されます。

無料試用可能なモデル

現時点では、AlibabaやXAIのGroq Imagine Videoモデルなど、いくつかのモデルが期間限定で無料で試用可能です。様々なプロンプトを試して、それぞれのモデルの特性を体験することが推奨されています。

テキストプロンプトによる動画生成のデモ

Groq Imagine Videoモデルは、その高速性から特に注目されています。このモデルは、テキストプロンプト、参照画像、または参照動画のいずれかを受け付けることができますが、ここでは最も簡単なテキストプロンプトを使用します。

デモでは、「West Highland White Terrier crossing the Golden Gate Bridge（ゴールデンゲートブリッジを渡るウェストハイランドホワイトテリア）」というプロンプトで動画を生成しました。動画生成には通常時間がかかりますが、このモデルは比較的速く結果を出力しました。

画像参照による動画生成のデモ

次に、参照画像を利用した動画生成の強力さを示しました。AI Gatewayは様々な画像モデルも提供しているため、それらを活用して生成した画像を動画生成の参照として使用できます。

デモでは、孔雀（peacock）の画像を参照として使用し、「peacock flying（空を飛ぶ孔雀）」というプロンプトで動画を生成しました。孔雀が実際に飛ぶかは別として、モデルは技術的に不可能なことも表現できるため、創造的な可能性が広がります。

動画生成の考慮事項

生成時間: 動画生成は、テキストや画像モデルに比べて多くのリソースを必要とするため、時間がかかる場合があります。入力する動画の長さも生成時間に影響します。
オーディオオプション: 一部のモデルでは、動画と一緒にオーディオを生成するオプションがあります。通常、オーディオを有効にすると料金が少し高くなりますが、オリジナルのオーディオを保持する機能を持つモデルもあります。詳細は各モデルのドキュメントで確認できます。
ドキュメント: AI GatewayのVercelドキュメント、およびそこからリンクされているAISDKドキュメントには、各プロバイダーの詳細情報が含まれています。

まとめ

AI GatewayとAISDKは、最新の動画生成モデルを簡単に利用できる強力なプラットフォームです。テキストから、画像から、そして参照を使った動画生成まで、多様なアプローチでクリエイティブな表現が可能です。

期間限定で無料試用できるモデルも提供されており、AI動画生成の最前線を気軽に体験できる絶好の機会です。ぜひ、AI GatewayのプレイグラウンドやAISDKを使って、あなた自身の動画生成を始めてみてください。

参考動画

https://www.youtube.com/watch?v=v863YlPbN0c

ポイント