未来のUIは「音声」だ！AIモデルとフルデュプレックスデバイスが拓くビジネス変革

皆様、本日はお集まりいただきありがとうございます。今回はTypeScriptがいかにクールなAIエージェントの構築と本番環境へのデプロイに活用されているかについてお話ししたいと思います。私たちVapiでは、企業がコールセンターに音声エージェントを導入するためのプラットフォームを提供しており、Amazon、Uber、Intuitといった多くの大企業にご利用いただいています。Vapiはインフラストラクチャも含め、Pulumi TypeScriptで完全に構築されており、私たちはTypeScriptの大ファンです。

しかし、私がここ数週間ずっと頭から離れない、そしてあまり多くの人が話していないと感じる非常に大きな「音声」のシフトについてお話ししたいのです。私たちはこの変化を日々肌で感じています。この機会に、その考えを皆さんと共有できれば幸いです。

OpenAIが開発中の「フルデュプレックス音声デバイス」

まず、私が頭から離れない第一の事実は、OpenAIがオーディオデバイスを開発していることです。これはフルデュプレックス（双方向同時通信）に対応し、約12〜18ヶ月以内には登場する見込みです。これは本当に驚くべきことです。

皆さんはこのリークされた30秒の動画をご覧になったでしょうか？もしご覧になっていないなら、これは衝撃的です。実際、Airbnbの共同創業者であるジョー・ゲビア氏が、心理学の授業でこのデバイスを装着してテストしている姿がTwitterに投稿されています。これは非常に現実的なデモであり、彼はデバイスを通して会話をしているようです。

これはまるでサイバーパンクのようで、完全にシームレスでネイティブな体験を提供します。私がこの点について最も興奮するのは、ついに私たちが最も自然なモダリティ（表現形式）である「音声」を通じてコンピューティングと対話できる時代に突入するということです。声は、人間が長年慣れ親しんできた最も自然なインターフェースなのです。

AIモデルの能力が飛躍的に向上・汎化する「RL Scaling」

次に共有したい第二の事実は、RL（強化学習）スケーリングが汎化しているということです。これもまた驚くべき進歩です。

私たちは皆、AnthropicのClaude 3 Mythosの発表について耳にしたことでしょう。週末に友人とランチをしていた際、彼はMythosへのプライベートアクセスを持っており、「Opus 4.5よりもコーディング能力が2倍優れている」と教えてくれました。Opus 4.5は昨年見たモデルよりも10倍優れていると言われています。私たちはまさに知能の指数関数的成長の途上にあります。これらのモデルがどれほど信じられないほど進化していくかを想像するのは、ただただ驚くべきことです。

一部の人には誇張に聞こえるかもしれませんが、大規模なインターネット規模のデータでモデルを事前学習させること（Pre-training）が、研究、レシピ、コーディングなど、私たちの生活にどれほど役立つかを見てきました。そして今、RLが汎化することで、モデルはコーディングだけでなく、Excelシートの分析や新しい言語の学習など、さらに多様なタスクで能力を向上させています。これらのAIは驚くべき知能を持ち、現在はテキストベースの存在ですが、Tropicは画像アダプターを追加しており、今年の終わりまでにはコンピュータ利用との「ループ」が閉じられるでしょう。これらがどれほど有能になるか想像するだけで信じられないことです。

皆さんはこのグラフを見たことがあるでしょうか？これは、AIモデルが自律的にタスクをこなす能力の指数関数的な成長を示しています。ほんの少し前までは、これらのモデルはそれほど有能ではありませんでした。しかし今では、80%の成功率で1時間かかるタスクを独立して実行できるまでになっています。私たちは今、「数世代に一度」どころか、歴史上稀に見る瞬間に立ち会っていると言えるでしょう。Mythosのようなモデルの登場によって、この指数関数的な成長は続いています。

音声インターフェースがもたらす未来：最も自然で直感的なUX

では、ここから導き出される結論は何でしょうか？

AIモデルがより有能になり、テクノロジーと自然にインタラクトできるインターフェースがようやく手に入ることで、私たちは最も高い帯域幅と高い自由度を持つインターフェースである「音声」へと移行するでしょう。もしかしたら将来的にBCI（ブレイン・コンピューター・インターフェース）が登場するかもしれませんが、音声は私たちが物事を成し遂げるための最も自然な方法であり、数千年にわたって人類が暮らしてきた方法です。私たちは原点回帰しているのです。

私の母の例ですが、過去3年間、毎年「新しいアプリを学ぶ」ことを新年の抱負にしてきました。今年はUberを学びたいと言っています。私たちは「テクノロジーは直感的である」という嘘を信じ込まされてきました。しかし、それは真実ではありません。本当に直感的なのは**「話すこと」**です。

この変化はすぐそこまで来ています。私は、次の12〜18ヶ月の間に、AIモデルの能力とそれらのモデルへのインターフェースの両面で、大きな大きな改善が見られると確信しています。これにより、私たちが個人的に経験する素晴らしい体験が可能になるでしょう。それは、自然なモダリティ（音声）を通じて、バイトやピクセルを直接操作するといった概念がもはや不要になるような未来です。

ビジネスへの影響：あらゆるビジネスが音声インターフェースを持つ時代へ

もう一つの結論は、やや退屈に聞こえるかもしれませんが、ビジネスを構築する上では「退屈であること」は良いことです。それは、あらゆるビジネスが音声インターフェースを必要とする、ということです。

私たちの個人的な生活で、音声を通じてパーソナルアシスタントを活用する世界へと移行するにつれて、あらゆるビジネスに対しても同じインターフェースを求めるようになるでしょう。人生で旅行をサポートしてくれるようなパーソナルな存在が欲しいと思うように、同様のサービスがあらゆる場所に存在し、素晴らしいものになるはずです。

では、今何をすべきでしょうか？

私たちの目の前には、これほどの素晴らしいAIの能力があるにもかかわらず、経済はほとんど動いていません。データセンターの建設を除けば、GDPへの影響はほぼゼロと言えるでしょう。例えば、米国のコールセンターの雇用者数は過去3年間223万人で停滞しており、音声エージェントを導入しようと多大なエネルギーを費やしているにもかかわらず、全く変化がありません。つまり、私たちは巨大なテクノロジーを持っているにもかかわらず、経済への影響はゼロに近いのです。私たちは、これらのビジネスを実際に変革し、未来へと推し進めるには何が必要かということに多くの時間を費やしています。

現実として、それは非常に困難なことです。企業は**「ファイブナイン」**（99.999%）のような高い信頼性を期待します。AT&Tは「シックスナイン」、Amazon S3は「イレブンナイン」の信頼性で稼働しています。それに対し、OpenAIのサービスは毎日ダウンすることもあります。このような信頼性のギャップがあるのです。

今、私たちがすべきこと：Jarvisを構築するか、ビジネスにJarvisをもたらすか

今、私たちにできることは基本的に2つあると私は考えています。1つはJarvisのようなAI自体を構築すること。もう1つは、JarvisのようなAIをあらゆるビジネスに導入することです。当然、どちらの選択肢においてもTypeScriptが重要な役割を果たすでしょう。

私たちVapiは、後者の「Jarvisをあらゆるビジネスに導入する」ということに全力を注いでいます。高い信頼性を要求されるエンタープライズ領域において、いかに先進的なAIを安定稼働させ、ビジネス変革を実現するか。これが私たちの最大の挑戦であり、使命です。

まとめ

OpenAIのフルデュプレックス音声デバイスの登場と、AIモデルの指数関数的な能力向上・汎化は、まさに今、テクノロジーと人間のインタラクションのあり方を根本から変えようとしています。「話すこと」が最も自然で直感的なインターフェースとなる未来は、もうすぐそこまで来ています。そして、この変革は私たちの個人生活だけでなく、あらゆるビジネスに影響を与え、新たな価値を創造するでしょう。VapiはTypeScriptを駆使し、この未来を企業にもたらすべく日々取り組んでいます。

参考動画: The Future UI is Voice: How AI Models & Full Duplex Devices Will Transform Businesses

ポイント

OpenAIが開発中の「フルデュプレックス音声デバイス」

AIモデルの能力が飛躍的に向上・汎化する「RL Scaling」

音声インターフェースがもたらす未来：最も自然で直感的なUX

ビジネスへの影響：あらゆるビジネスが音声インターフェースを持つ時代へ

今、私たちがすべきこと：Jarvisを構築するか、ビジネスにJarvisをもたらすか

まとめ