NVIDIA社は5月31日(日)フィジカルAI向けの新基盤モデル「Cosmos 3」を発表し、オープンソース(OpenMDWライセンス)でリリースした。視覚推論とワールド生成、アクション生成をネイティブに統合した、完全なオープンオムニモデルとなる。Hugging Faceでは、パラメータ数に応じてSuper(65B)とNano(16B)という2つのバリアントがリリースされている。
自己回帰と拡散モデルを統合したMoTアーキテクチャ
「Cosmos 3」はMoT(Mixture-of-Transformers)アーキテクチャを採用。これは、論理的な推論を担う自己回帰型のリーズナータワー(Autoregressive Reasoner Tower)と、ピクセルなどの連続的な生成を担う拡散ベースのジェネレータタワー(Diffusion-based Generator Tower)を巧みに組み合わせたものだ。さらに、三次元多次元回転位置埋め込み(3D mRoPE)という共有表現を用いることで、画像、動画、音声、アクションの軌跡といった異なるモダリティ間で一貫した処理を実現。単一のモデル内で高度な空間的推論と高品質なピクセル生成をシームレスに行える。
高精細な画像・動画生成と音声の同期出力
Image-to-video generation is just as impressive.
— NVIDIA AI (@NVIDIAAI) June 1, 2026
Input image:
"Generate a 16:9 image from a dashcam view of a formula 1 racing event"
Video prompt:
"A high-speed racing event where a car navigates multiple winding turns"
Sound on - generated by Cosmos 3. pic.twitter.com/FxCWMVNDxh
物理法則に基づいた高精度な動画生成能力も備える。テキストから画像を生成するだけでなく、1枚の入力画像とテキストプロンプトを与えることで、オブジェクトの詳細や空間レイアウトを保持したまま、一貫性のある動画を生成できる。例えば、「F1レースの車載カメラ映像」の画像に対して「複数の連続するカーブを高速で駆け抜けるレースイベント」と指示するだけで、破綻を抑えたダイナミックな動画が出力される。さらに、生成される映像の動きに連動した音声の生成機能も備える。
物理的正確さを伴うフォワード/インバース・ダイナミクス
In addition to understanding and reasoning across modalities, Cosmos 3 excels at simulating physical environments, predicting future world states, and helping train robots to perform specific tasks.
— NVIDIA AI (@NVIDIAAI) June 1, 2026
It can do subsecond vision reasoning, large scale synthetic data generation and… pic.twitter.com/UJ8dIEG5ND
Cosmos 3は現在のカメラやオブジェクトのポーズ情報から未来の映像状態を予測・シミュレーションするフォワード・ダイナミクスをサポート。モーションのプランニングや物理挙動の確認に活用できる。また、観測された映像から、その変化を生じさせたアクションや軌跡を逆算するインバース・ダイナミクス機能も備える。
実務に耐えうる柔軟な生成設定と仕様
動画生成の解像度は256p〜720pまで対応し、アスペクト比も16:9や9:16などから選択可能。フレームレートは10、16、24、30fpsをサポートし、一度の推論で5フレームから最大300フレームの連続生成に対応する。また、演算精度はBF16に対応し、NVIDIA Ampere、Hopper、Blackwell世代のGPUアーキテクチャに最適化されている。Hugging FaceにあるDiffusersライブラリなどを通じてPythonベースの開発環境に統合することで、CGスタジオ独自のパイプラインツールへの組み込みも現実的となる。
■Cosmos 3公式ページ
https://research.nvidia.com/labs/cosmos-lab/cosmos3/
■Develop Physical AI Reasoning, World, and Action Models with NVIDIA Cosmos 3(NVIDIA Developer Technical Blog)
https://developer.nvidia.com/blog/develop-physical-ai-reasoning-world-and-action-models-with-nvidia-cosmos-3/
OpenMDWライセンスについて
Cosmos 3のソースコードおよびモデルデータは、「OpenMDW License Agreement, version 1.1(OpenMDW-1.1)」ライセンスの下で提供されている。このライセンスは、ユーザーがライセンス条項を遵守する限りにおいて、モデル本体や関連ソフトウェアを無償かつ制限なく取り扱うことを許可するもの。著作権や特許、商標に関する権利の行使も含まれる。また、実務利用において最も懸念される生成物の扱いについて、本ライセンスでは「モデルを使用して生成されたいかなるアウトプットに対しても、使用、変更、共有に関する制限や義務を課さない」と明記されている。
■Cosmos(GitHub)
https://github.com/NVIDIA/cosmos
■Cosmos3 (Hugging Face)
https://huggingface.co/collections/nvidia/cosmos3
CGWORLD関連情報
●NVIDIA、世界モデル「SANA-WM」公開 画像1枚と6DoFカメラ軌跡データから、単一GPUでアクション制御可能な720p・60秒のワールドを合成
NVIDIA Research(NVlabs)が、1枚の画像とカメラの軌跡データから60秒間の720p動画を生成可能な、26億パラメータの世界モデル「SANA-WM」をオープンソース(Apache-2.0ライセンス)で公開。実写ベースの高精細な背景生成や、ゲームエンジンのような精密なカメラワーク制御が可能な、一貫性のある長尺動画の生成を実現する。
https://cgworld.jp/flashnews/01-202606-SANA-WM.html
●NVIDIA、物理シミュレーション対応の3D環境構築フレームワーク「Lyra 2.0」公開 長時間のウォークスルー動画生成と高品質な3Dシーン出力で大規模な環境構築を実現
NVIDIAのSpatial Intelligence Lab(SIL)が、探索可能な生成3D世界を構築する新たなAIフレームワーク「Lyra 2.0」を発表。カメラ操作の可能なウォークスルー動画を生成し、フィードフォワード再構成技術によって3D空間を生成することで、大規模で複雑な3D環境の構築を実現する。ソースコードはApache-2.0ライセンスでGitHubにて、モデルはNVIDIA Internal Scientific Research and Development Model License(非商用の研究開発用途限定)でHugging Faceで公開されている。
https://cgworld.jp/flashnews/01-202605-Lyra2.html