アメリカのAIスタートアップ・Overworld社は1月20日(火)、ローカル環境で動作が完結するオープンソース(Apache-2.0ライセンス)の世界モデル「Waypoint-1」を研究プレビューとして公開した。まずは約2.3億パラメータを持つ軽量なウェイト「Waypoint-1-Small」がHugging Faceにて公開されている。

「Waypoint-1」は、外部サーバを介さず、ローカル環境内で、解像度360P、最大60fpsを実現する世界モデル。ローカルのメモリ上に「永続的な世界状態(Persistent World State)」を保持し、ユーザーの移動や行動に合わせてリアルタイムに世界を更新し続ける。一般的な家庭用GPUで動作し、低レイテンシの描画とインタラクションを可能にするという。

Overworld社は、Waypoint-1を汎用コンピュータ制御(General-Purpose Computer Control:GPC)のための基盤モデル(Foundation Model)と位置付け、コンピュータの画面ピクセルから直接、次に取るべき行動を予測する視覚動作モデル(Visual Action Model:VAM)と定義する。

技術面では、高精度なアクショントークナイザー(Action Tokenizer)を採用し、画面上の座標やクリック、キー入力といった複雑な操作を、AIが処理しやすいトークン(数値の列)に変換する。学習には、人間が実際にコンピュータを操作した膨大な実演データ(Human Demonstration Data)が用いられており、不自然な動きを排除した、直感的な操作性を実現している。

今回提供されたモデルウェイト「Waypoint-1-Small」は、約2.3億と比較的小規模なパラメータ数に抑えつつ、高度な推論能力を維持する。また、現在は約6.1億パラメータの上位版「Waypoint-1-Medium」の公開準備も進められている。

■The Path to Real-Time Worlds and Why It Matters(公式ブログ)
https://over.world/blog/the-path-to-real-time-worlds-and-why-it-matters

■Waypoint-1: A Foundation Model for General-Purpose Computer Control(Hugging Faceブログ)
https://huggingface.co/blog/waypoint-1

■Overworld/Waypoint-1-Small(Hugging Face)
https://huggingface.co/Overworld/Waypoint-1-Small

■Overworld AI(GitHub)
https://github.com/Overworldai

CGWORLD関連情報

●NVIDIAのフィジカルAI向けプラットフォーム「Cosmos」アップデート! VLM「Reason 2」、WFM「Predict 2.5」、スタイル変換技術「Transfer 2.5」、VLA「Isaac GR00T N1.6」

NVIDIAがCES 2026において、新たなオープンモデルとツール群を発表。そのひとつとして、フィジカルAIを開発・運用するための包括的プラットフォーム「Cosmos」をアップデート。「Cosmos Reason 2」、「Cosmos Predict 2.5」、「Cosmos Transfer 2.5」、「Isaac GR00T N1.6」の4モデルが発表された。
https://cgworld.jp/flashnews/01-202601-NVIDIA-Cosmos.html

●NVIDIAら、最大5分間生成可能な世界モデル「LongVie 2」公開! ユーザー制御性、長時間生成における品質劣化防止、一貫性の確保

復旦大学、南洋理工大学 S-Lab、NVIDIA、清華大学、上海AIラボ、南京大学 PRLabからなる研究チームが、最大で3分から5分にわたる長時間の動画を生成可能なAIモデル「LongVie 2」を発表。GitHubではソース、Hugging Faceではウェイトが公開されているが、ライセンスについては不明。
https://cgworld.jp/flashnews/01-202601-LongVie2.html

●オープンソースのリアルタイム世界モデル「HY World 1.5(WorldPlay)」リリース! 720P・24fps、一人称と三人称の両視点をサポート

テンセントのHunyuanチームが、リアルタイム世界モデルフレームワーク「HY World 1.5 (WorldPlay)」を発表。オープンソース(TENCENT HY-WORLDPLAY COMMUNITY LICENSE)で公開した。720P・24fpsのリアルタイム生成、一人称と三人称視点をサポートし、フォトリアルな環境からスタイライズされた空想的な世界まで、多様なシーンの生成が可能。また、テキストプロンプトによって特定のイベントを発生させる機能を備え、世界を無限に拡張していく応用もできるとのこと。
https://cgworld.jp/flashnews/01-202601-HYWorld15.html