オープンソース・時間無制限の動画生成AI「The Matrix」発表！　新技法による拡散モデル＆一貫性モデルの自動回帰生成をリアルタイムに実現

アリババや香港大学、ウォータールー大学、カナダのAI研究機関Vector Insitituteのメンバーが参加する開発チームは11月21日（木）、オープンソースのリアルタイム動画生成AI「The Matrix」を発表した。映画『マトリックス』にちなんで名付けられた本AIは、インタラクティブ機能を備えた、忠実性の高い720pのリアルタイム映像を無限に生成するという。

Introducing The Matrix --- a foundation world model for generating infinite-length, hyper-realistic videos with real-time, frame-level control:

- Infinite-length video generation
- 720p high-quality rendering
- Real-time, frame-level control at 16 FPS
- Generalization to… pic.twitter.com/84EvrDOmZT
— Hongyang Zhang NeurIPS (@hongyangzh) November 20, 2024

「The Matrix」を紹介します。超リアルな動画を無限の長さかつリアルタイムに、フレームレベルで制御しながら生成するための、基盤となるワールドモデルです。

・無限の長さの動画生成

・720pの高品質レンダリング

・16fpsでのリアルタイム・フレームレベル制御

・実世界の映像制御の汎用化

キーイノベーション：「シフトウインドウ・デノイズプロセスモデル（Shift-Window Denoise Process Models、略称Swin-DPM）」と呼ばれる全く新しい技法により、拡散モデルおよび一貫性モデルの自動回帰生成をリアルタイムで実現

Here’s an example showcasing The Matrix generating an ultra-long video with precise real-time control lasting over 14 minutes (>13440 frames). For more examples, visit our project page: https://t.co/WZnv6Y6kl8. pic.twitter.com/NOHMb7f3sj
— Hongyang Zhang NeurIPS (@hongyangzh) November 20, 2024

興味深いことに、AAAゲームの映像と組み合わせた膨大なインターネット上の動画によって事前に訓練された「The Matrix」は、印象的なドメイン汎化（domain generalization、複数の撮影環境から学習したモデルを未知の撮影環境で評価するタスク）を示しました。例えば、BMW X3を運転してオフィス街を走り抜けるようなシナリオが可能になるのです。

これは「The Matrix」が14分以上（13,440フレーム以上）の超ロング動画を正確なリアルタイム制御で生成する例です。

シフトウインドウ・デノイズプロセスモデルとは

キーイノベーションとなるシフトウインドウ・デノイズプロセスモデル（Shift-Window Denoise Process Models、略称Swin-DPM）について、「The Matrix」公式ブログにはこのように記されている。

従来型のDiT（Diffusion Transformers、拡散）モデルは計算コストが高く、注意メカニズムに対して長時間メモリを要求することから、短い動画しか生成できません。

われわれはこれを克服するために、依存関係を効果的に処理して長時間または無限のビデオ生成を可能にする、スライディング時間ウィンドウを活用したシフトウインドウ・デノイズプロセスモデルを提案します。

Swin-DPMは図に示すように、ノイズ除去ステップを使用してキュー内のビデオトークンを処理します。トークンはノイズ除去後にキャッシュされ、ウィンドウ間の連続性は維持されます。

この微調整されたモデルは、事前に訓練済みのDiTに基づいて構築されます。トークンの最初のウインドウはウォームアップに使われ、それ以降のトークンに限りロスが計算されます。そして推論時にはウォームアップトークンは破棄され、ビデオ生成は(w+1)番目のトークンから開始されるため、効率的で連続的なビデオ生成が可能になるのです。

そして同ブログの末尾にはこう記されている。

無限のリアルワールドを生成する

提案されたSwin-DPMは、一般的なDiTアーキテクチャの拡散モデルに統合でき、長時間の動画生成が可能となります。

この技術革新は、より広い映像生成分野に大きく貢献します。一貫性と視覚的整合性を維持する高品質な長編映像を作成するための道筋を提供するものです。

現在、「The Matrix」はブログと論文が発表されており、コードとプレイアブルデモは近日公開予定となっている。

■The Matrix（ブログ）
https://thematrix1999.github.io/

■The Matrix: Infinite-Horizon World Generation with Real-Time Moving Control（論文、英語）
https://thematrix1999.github.io/article/the_matrix.pdf

CGWORLD関連情報

●Runwayの動画生成AI「Gen-3 Alpha Turbo」が高度なカメラコントロール機能を搭載！　カメラの移動方向と強度のを詳細に制御可能

Runway AI社が動画生成AI「Gen-3 Alpha Turbo」内に高度なカメラコントロール機能を追加。無料プランユーザーでも利用できる。
https://cgworld.jp/flashnews/202411-Gen3AlphaTurbo-Camera.html

●Runway、動画生成AI「Gen-3 Alpha」内でマーカーレスフェイシャルモーションキャプチャを実現する「Act-One」リリース！　有料ライセンスで利用可能

Runway AI社が動画生成AI「Gen-3 Alpha」内の機能として、フェイシャルモーションのリファレンス動画からキャラクター画像を動かす、マーカーレスフェイシャルモーションキャプチャ機能「Act-One」をリリース。利用対象者は有料プラン（月額または年額課金のStandard以上）のユーザー。
https://cgworld.jp/flashnews/202410-Gen3Alpha-ActOne.html

●Luma AIの動画生成AI「Dream Machine 1.6」リリース！　カメラモーションのコントロールに対応、v1.5ではカスタムテキストのレンダリングにも対応

Luma AI社は動画生成AI「Dream Machine」の最新バージョン1.6を一般公開。Text-to-VideoとImage-to-Videoのどちらでも、テキスト入力のサジェストからカメラモーションの指示が行えるようになった。
https://cgworld.jp/flashnews/202409-DreamMachine.html