NVIDIA社は5月31日(日)フィジカルAI向けの新基盤モデル「Cosmos 3」を発表し、オープンソース(OpenMDWライセンス)でリリースした。視覚推論とワールド生成、アクション生成をネイティブに統合した、完全なオープンオムニモデルとなる。Hugging Faceでは、パラメータ数に応じてSuper(65B)とNano(16B)という2つのバリアントがリリースされている。

自己回帰と拡散モデルを統合したMoTアーキテクチャ

▲Mixture-of-Transformers(MoT)アーキテクチャの概要。テキスト、画像、ビデオ、オーディオ、アクションといった多様なモダリティの入力はトークン化され、中央の自己回帰(Autoregressive)タワーと拡散(Diffusion)タワーに入力される。自己回帰タワーは論理的な推論を担い、条件トークンに対して因果的自己アテンション(Causal Self-Attention)を行う。拡散タワーは物理的なピクセル生成を担当し、自己回帰と拡散のコンテキストを結合して完全アテンション(Full Attention)を実行する

「Cosmos 3」はMoT(Mixture-of-Transformers)アーキテクチャを採用。これは、論理的な推論を担う自己回帰型のリーズナータワー(Autoregressive Reasoner Tower)と、ピクセルなどの連続的な生成を担う拡散ベースのジェネレータタワー(Diffusion-based Generator Tower)を巧みに組み合わせたものだ。さらに、三次元多次元回転位置埋め込み(3D mRoPE)という共有表現を用いることで、画像、動画、音声、アクションの軌跡といった異なるモダリティ間で一貫した処理を実現。単一のモデル内で高度な空間的推論と高品質なピクセル生成をシームレスに行える。

高精細な画像・動画生成と音声の同期出力

▲入力画像のプロンプト:Generate a 16:9 image from a dashcam view of a formula 1 racing event 動画生成時のプロンプト:A high-speed racing event where a car navigates multiple winding turns

物理法則に基づいた高精度な動画生成能力も備える。テキストから画像を生成するだけでなく、1枚の入力画像とテキストプロンプトを与えることで、オブジェクトの詳細や空間レイアウトを保持したまま、一貫性のある動画を生成できる。例えば、「F1レースの車載カメラ映像」の画像に対して「複数の連続するカーブを高速で駆け抜けるレースイベント」と指示するだけで、破綻を抑えたダイナミックな動画が出力される。さらに、生成される映像の動きに連動した音声の生成機能も備える。

物理的正確さを伴うフォワード/インバース・ダイナミクス

Cosmos 3は現在のカメラやオブジェクトのポーズ情報から未来の映像状態を予測・シミュレーションするフォワード・ダイナミクスをサポート。モーションのプランニングや物理挙動の確認に活用できる。また、観測された映像から、その変化を生じさせたアクションや軌跡を逆算するインバース・ダイナミクス機能も備える。

実務に耐えうる柔軟な生成設定と仕様

動画生成の解像度は256p〜720pまで対応し、アスペクト比も16:9や9:16などから選択可能。フレームレートは10、16、24、30fpsをサポートし、一度の推論で5フレームから最大300フレームの連続生成に対応する。また、演算精度はBF16に対応し、NVIDIA Ampere、Hopper、Blackwell世代のGPUアーキテクチャに最適化されている。Hugging FaceにあるDiffusersライブラリなどを通じてPythonベースの開発環境に統合することで、CGスタジオ独自のパイプラインツールへの組み込みも現実的となる。

■Cosmos 3公式ページ
https://research.nvidia.com/labs/cosmos-lab/cosmos3/

■Develop Physical AI Reasoning, World, and Action Models with NVIDIA Cosmos 3(NVIDIA Developer Technical Blog)
https://developer.nvidia.com/blog/develop-physical-ai-reasoning-world-and-action-models-with-nvidia-cosmos-3/

OpenMDWライセンスについて

Cosmos 3のソースコードおよびモデルデータは、「OpenMDW License Agreement, version 1.1(OpenMDW-1.1)」ライセンスの下で提供されている。このライセンスは、ユーザーがライセンス条項を遵守する限りにおいて、モデル本体や関連ソフトウェアを無償かつ制限なく取り扱うことを許可するもの。著作権や特許、商標に関する権利の行使も含まれる。また、実務利用において最も懸念される生成物の扱いについて、本ライセンスでは「モデルを使用して生成されたいかなるアウトプットに対しても、使用、変更、共有に関する制限や義務を課さない」と明記されている。

■Cosmos(GitHub)
https://github.com/NVIDIA/cosmos

■Cosmos3 (Hugging Face)
https://huggingface.co/collections/nvidia/cosmos3

CGWORLD関連情報

●NVIDIA、世界モデル「SANA-WM」公開 画像1枚と6DoFカメラ軌跡データから、単一GPUでアクション制御可能な720p・60秒のワールドを合成

NVIDIA Research(NVlabs)が、1枚の画像とカメラの軌跡データから60秒間の720p動画を生成可能な、26億パラメータの世界モデル「SANA-WM」をオープンソース(Apache-2.0ライセンス)で公開。実写ベースの高精細な背景生成や、ゲームエンジンのような精密なカメラワーク制御が可能な、一貫性のある長尺動画の生成を実現する。
https://cgworld.jp/flashnews/01-202606-SANA-WM.html

●NVIDIA、物理シミュレーション対応の3D環境構築フレームワーク「Lyra 2.0」公開 長時間のウォークスルー動画生成と高品質な3Dシーン出力で大規模な環境構築を実現

NVIDIAのSpatial Intelligence Lab(SIL)が、探索可能な生成3D世界を構築する新たなAIフレームワーク「Lyra 2.0」を発表。カメラ操作の可能なウォークスルー動画を生成し、フィードフォワード再構成技術によって3D空間を生成することで、大規模で複雑な3D環境の構築を実現する。ソースコードはApache-2.0ライセンスでGitHubにて、モデルはNVIDIA Internal Scientific Research and Development Model License(非商用の研究開発用途限定)でHugging Faceで公開されている。
https://cgworld.jp/flashnews/01-202605-Lyra2.html