中国テンセント(Tencent)社のHunyuanチームと華中科技大学からなる研究チームは8月14日(木)、インタラクティブなゲーム動画生成フレームワーク「Hunyuan-GameCraft」をオープンソース(TENCENT HUNYUAN COMMUNITYライセンス)で公開した。ゲーム操作を入力として受け取り、長時間にわたり一貫した映像を生成できるという。

Hunyuan-GameCraftは、キーボードやマウス操作を連続的なカメラ表現空間(camera representation space)に変換し、その入力に応じて動画を生成。一般的なゲーム操作が映像内でのカメラの動きとして反映されることから、単なる動画生成ではなく、実際のプレイに追随するかのような映像体験を可能にする。

▲Hunyuan-GameCraftのアーキテクチャ

Hunyuan-GameCraftには、直前フレームや直前の短いクリップなど複数形態の履歴を条件として利用する「ハイブリッド履歴条件(Hybrid History Condition)」が導入されている。これにより、長時間にわたる操作シーケンスでもシーンが崩れにくく、一貫性の高い映像生成を実現する。

また、モデルの高速化には「蒸留(distillation)」技術を採用(大型・低速な教師モデルの知識を小型・高速な生徒モデルに引き継ぐ手法)。本プロジェクトでは「Phased Consistency Model」に基づく蒸留を行うことで、動画生成を従来より10〜20倍高速化し、1操作あたり5秒未満で応答可能な実用的インタラクション速度を達成するという。

本蒸留技術ではコスト削減も実現しており、オープンソースで公開されている13Bモデルは、GeForce RTX 4090のようなコンシューマー向けGPUでも実行可能となっている。

学習に用いられたのは、100本以上のAAAゲームでの、100万本以上のプレイ動画(解像度1080p)。映像に対して短文と詳細の2段階キャプション(説明文)を付与し、モデルに多様な文脈を学習させているほか、さらに約3,000本の高品質なレンダリング合成シーケンスも取り込むことで、繊細なカメラ運動の再現性を高めているという。

生成できる視点はFPS(一人称)とTPS(三人称)の2ビューで、描画スタイルはフォトリアルからアニメ調、ドット絵風まで幅広く対応する。

■Hunyuan-GameCraft High-dynamic Interactive Game Video Generation with Hybrid History Condition(プロジェクトページ、英語)
https://hunyuan-gamecraft.github.io/

■Hunyuan-GameCraft(GitHub)
https://github.com/Tencent-Hunyuan/Hunyuan-GameCraft-1.0

■Hunyuan-GameCraft(Hugging Face)
https://huggingface.co/tencent/Hunyuan-GameCraft-1.0

CGWORLD関連情報

●オープンソースの世界モデル「Matrix-Game 2.0」リリース! マウスやキーボード操作に反応しながら25fpsの長尺動画をその場で生成

Skywork AIがオープンソースの世界モデル「Matrix-Game 2.0」をリリース。マウスやキーボード操作に反応しながら、25fpsの長尺動画をその場で生成する。オープンソース(MITライセンス)でコードとウエイトがGitHubとHugging Faceで公開されている。
https://cgworld.jp/flashnews/01-202508-Matrix-Game2.html

●Googleの世界モデル「Genee 3」発表! テキストプロンプトからインタラクティブでプレイ可能な3D環境を生成、720p・24フレーム/秒

Google DeepMindが新しい世界モデル「Genie 3」を発表。テキストプロンプトからリアルタイムで操作可能な多様なインタラクティブ環境を生成できる汎用モデルで、720p・24フレーム/秒、数分間にわたる一貫性を維持できる。現在は一部の研究者やクリエイターを対象とした限定的な研究プレビューとして提供されている。
https://cgworld.jp/flashnews/01-202508-Google-Genee3.html

●テンセント、オープンソースの世界モデル「Hunyuan3D World Model 1.0」リリース! 文章や画像から没入型・インタラクティブな3Dワールドを生成

テンセントがオープンソースの世界モデル「Hunyuan3D World Model 1.0」をGitHubとHugging Faceで公開。テキストまたは画像からインタラクティブな3Dワールドを生成でき、USDZやGLB形式でのエクスポートが可能。日本では月間アクティブユーザー数が100万人を超えない限り、商用利用も行える。
https://cgworld.jp/flashnews/01-202508-HunyuanWorld.html