NVIDIAスタンフォード大学カリフォルニア工科大学シカゴ大学テキサス大学オースティン校からなる研究チームは12月24日(水)、数千種類のゲームをプレイ可能な汎用AI基盤モデル「NitroGen」を発表した。ゲーム画面のピクセル情報(視覚情報)のみを入力とし、コントローラの操作(アクション)を直接出力する「Vision-to-Action(視覚から行動へ)」型の基盤モデル。GitHubHugging Faceでソースコード、学習済みモデル、データセットが公開されているが、コードとモデルは研究開発目的での利用に限定されているNVIDIA独自の非商用ライセンス(NVIDIA Source Code License-NC)が適用。データセットはCC BY-NC 4.0ライセンスで、こちらも非商用利用に限定されている。

▲NitroGenのシステム概念図。「Internet-Scale Video-Action Dataset(インターネット規模の動画・行動データセット)」(右)は、動画から操作情報を抽出(Action Extraction)してデータベース化する。「Multi-Game Foundation Agent(多ゲーム基盤エージェント)」(中央)は、視覚情報を処理するエンコーダ(Vision Encoder)と、行動生成を行う拡散トランスフォーマー(Action DiT)で構成される。これらが「Universal Simulator(汎用シミュレーター)」(左)と連携し、多種多様なゲームタイトルでの自律操作を実現している

NitroGenは人間と同じように「画面を見る」ことだけで状況を判断し、適切なボタン操作を行うことができる、特定のゲームに依存しない汎用的な能力を獲得したAI基盤モデル。YouTubeなど、インターネット上に公開されている膨大なゲームプレイ動画、1,000以上の異なるゲームタイトルを含む約40,000時間分のゲームプレイ動画を収集し、これらを学習データとして利用している。各動画からは、画面上に表示されるコントローラの入力表示(オーバーレイ)を解析し、プレイヤーがどのタイミングでどのボタンを押したかというラベル情報を自動的に抽出・付与する手法を開発した。この大規模なデータセットを用いて、AIに人間の振る舞いを模倣させる「行動模倣(Behavior Cloning)」という手法で学習を行っている。

▲ゲーム画面上の視覚情報からボタン入力を特定する「ボタン分類(Button Classification)」のプロセス。画面内にはゲームパッドのオーバーレイ(操作状況を表示する図)が表示されており、AIはこの映像を解析することで、十字キー(DPAD)や各種ボタンが押されているかどうかをフレーム単位で判定する
▲NitroGenのデータセット概要。総計40,000時間にも及ぶデータが、60fpsの精度で記録されており、収録されたゲームタイトルは1,000種を超える。ゲームプレイ映像と操作情報(アクションラベル)が紐づけられたオープンデータセットとしては最大規模で、多様なジャンルのゲームに対応可能な汎用AIの学習基盤が形成されている
▲動画から抽出された操作データの精度。左は、アナログスティック(Joystick)の操作推測における決定係数(R2 Score)で、異なるコントローラ規格においても高い相関が得られている。右は、ボタン入力のフレーム単位での正解率(Accuracy Score)を表しており、平均して96%と高精度。動画内の指の動きや入力表示を正しくデータ化できていることを証明している
▲データセットの詳細な構成分析。左はゲームごとの収録時間分布。多くのタイトルで1~100時間程度のデータが確保されている。右はジャンル別の収録時間割合。アクションRPGが約35%と多く、次いでプラットフォーマーが約18%

NitroGenはまた、学習に含まれていない全く新しいゲームに対しても、少量のデータで追加学習(ファインチューニング)を行うことで、高いパフォーマンスを発揮することが確認されている。実験では、3Dアクションゲームや2Dプラットフォーマー、迷路探索など、ジャンルの異なる多様なゲームにおいて、ゼロから学習させたモデルと比較して最大で52%高いタスク達成率を記録したという。

■NitroGen: A Foundation Model for Generalist Gaming Agents(プロジェクトページ、英語)
https://nitrogen.minedojo.org/

■NitroGen: A Foundation Model for Generalist Gaming Agents(GitHub)
https://github.com/MineDojo/NitroGen

■NitroGen: A Foundation Model for Generalist Gaming Agents(Hugging Face)
https://huggingface.co/datasets/nvidia/NitroGen

CGWORLD関連情報

●NVIDIAら、最大5分間生成可能な世界モデル「LongVie 2」公開! ユーザー制御性、長時間生成における品質劣化防止、一貫性の確保

復旦大学、南洋理工大学 S-Lab、NVIDIA、清華大学、上海AIラボ、南京大学 PRLabからなる研究チームが、最大で3分から5分にわたる長時間の動画を生成可能なAIモデル「LongVie 2」を発表。GitHubではソース、Hugging Faceではウェイトが公開されているが、ライセンスについては不明。
https://cgworld.jp/flashnews/01-202601-LongVie2.html

●オープンソースのリアルタイム世界モデル「HY World 1.5(WorldPlay)」リリース! 720P・24fps、一人称と三人称の両視点をサポート

テンセントのHunyuanチームが、リアルタイム世界モデルフレームワーク「HY World 1.5 (WorldPlay)」を発表。オープンソース(TENCENT HY-WORLDPLAY COMMUNITY LICENSE)で公開した。720P・24fpsのリアルタイム生成、一人称と三人称視点をサポートし、フォトリアルな環境からスタイライズされた空想的な世界まで、多様なシーンの生成が可能。また、テキストプロンプトによって特定のイベントを発生させる機能を備え、世界を無限に拡張していく応用もできるとのこと。
https://cgworld.jp/flashnews/01-202601-HYWorld15.html

●Apple、単一画像から高品質な3DGSを生成する技術「SHARP」公開! 一般的GPU環境で高速3Dシーン構築可能

Appleが1枚の静止画から高品質な3D表現を瞬時に生成する新たな技術「SHARP(Sharp Monocular View Synthesis in Less Than a Second)」を公開。コードとモデルウェイトはGitHubとHugging Faceで公開されており、それぞれApple独自ライセンスの下で提供される。
https://cgworld.jp/flashnews/01-202601-SHARP.html