Google DeepMindは8月5日(火)、新しい世界モデル「Genie 3」を発表した。テキストプロンプトからリアルタイムで操作可能な多様なインタラクティブ環境を生成できる汎用モデルで、720p・24フレーム/秒、数分間にわたる一貫性を維持できる。現在は一部の研究者やクリエイターを対象とした限定的な研究プレビューとして提供されている。

もし、生成された動画を「見る」だけでなく、「探索」できたらどうでしょう?
Genie 3は、テキストによる短い指示(プロンプト)から、インタラクティブで操作可能な環境を生成できる画期的な世界モデル(ワールドモデル、AIが「世界の仕組み」を内部的に表現し、そこから現実的なシミュレーションや映像を生成できる技術)です。


写実的な風景からファンタジーの世界まで、その可能性は無限大です。



リアルタイム機能


Genie 3は、DeepMindのワールドモデルとして初めてライブでのユーザー操作に反応できるようになりました。前バージョンGenie 2と比べ、一貫性やリアリズムも向上。


解像度:720p


フレームレート:24 FPS


生成方法:ユーザーの操作に応じてフレームごとに新たに描画

長時間の一貫性


生成された環境は数分間にわたり大きく崩れず、さらに約1分前の映像状態まで「記憶」しています。


この長期的な視覚的一貫性は、AIエージェントが環境を学習する上で不可欠で、人間にとっても没入感を高めます。



プロンプトでの世界イベント操作


移動だけでなく、テキストの指示で天候を変える、新しいキャラクターを登場させるなど、リアルタイムに世界を変化させられます。これにより、従来にはないダイナミックなインタラクションが可能になります。

エージェント研究の加速


エージェントの学習可能性を探るため、DeepMindはSIMAエージェント(Scalable Instructable Multiworld Agent、DeepMind開発の汎用AIエージェント)をGenie 3の世界に投入し、目標を設定しました。エージェントは行動し、Genie 3はその行動に応じた環境変化をシミュレートします(Genie 3はエージェントの目的自体は知りません)。


 このような仕組みは、より高度な身体性を持つエージェント(Embodied Agent)の開発に不可欠です。



実世界での応用


Genie 3は、エンタメや教育における新しい生成メディアのかたちを示しています。想像してみてください、恐竜の視点で古代ギリシャの街を歩き回ることや、災害救助活動の計画を体験的に学ぶことを。

World models are a key stepping stone on the path to AGI, promising unlimited rich simulations for training AI agents. Genie 3 represents a significant leap forward in making this a reality.


We’re providing early access to a small cohort of academics and creators, while exploring how we can make it available to more trusted testers in the future.



世界モデルは、AIエージェントの訓練のために無限かつ豊かなシミュレーション環境を提供できる、AGI(汎用人工知能)への重要なステップです。Genie 3はその実現に向けた大きな前進を示しています。


現在、限られた学術関係者やクリエイターに先行提供しており、今後は信頼できるテスターへの提供拡大を検討しています。

▲前世代のGenie 2やGoogleの動画生成AI・Veoとのスペック比較
▲DeepMindのCEO・Demis Hassabis氏と同社Logan Kilpatrick氏の対談より、Hassabis氏によるGenie 3の紹介部分。「世界を理解するためには良い世界モデルが必要で、それを証明するひとつの方法は世界を生成することだ」と話している
▲上記抜粋部分を含む、約30分にわたる対談全編。Genie 3のほか、Gemini 2.5のDeep ThinkやGoogle DeepMindの今後について語られている

■Genie 3: A new frontier for world models(Google DeepMind Blog、英語)
https://deepmind.google/discover/blog/genie-3-a-new-frontier-for-world-models/

CGWORLD関連情報

●テンセント、オープンソースの世界モデル「Hunyuan3D World Model 1.0」リリース! 文章や画像から没入型・インタラクティブな3Dワールドを生成

テンセントがオープンソースの世界モデル「Hunyuan3D World Model 1.0」をGitHubとHugging Faceで公開。テキストまたは画像からインタラクティブな3Dワールドを生成でき、USDZやGLB形式でのエクスポートが可能。日本では月間アクティブユーザー数が100万人を超えない限り、商用利用も行える。
https://cgworld.jp/flashnews/01-202508-HunyuanWorld.html

●世界初のAIネイティブUGCゲームエンジン「Mirage」発表! ユーザーがリアルタイムでワールドを生成してプレイ可能

Dynamics Lab AIが世界初となるAIネイティブのUGC(User-Generated Contents、ユーザー生成コンテンツ)ゲームエンジン「Mirage」を発表。AIワールドモデルにより、プレイヤーがリアルタイムでゲームのワールドをインタラクティブに生成し、プレイできる。現在は「研究プレビュー(Research Preview)」の段階だが、Webブラウザで動作する2種類のプレイアブルデモが公開されている。
https://cgworld.jp/flashnews/01-202507-Mirage.html

●Googleがクリエイター向けAI映像制作ツール「Flow」をリリース! Veo・Imagen・Geminiを統合

Googleが映像制作者と共同開発したクリエイター向けAI映像制作ツール「Flow」をリリース。同社動画生成AI「Veo」、画像生成AI「Imagen」、AIアシスタント「Gemini」を統合したクリエイター向けAI映像制作ツール。利用にはGoogle AIのサブスクリプションが必要となる。
https://cgworld.jp/flashnews/01-202506-Google-Flow.html