Blenderを人間同様に操作して3Dシーンを生成するエージェント「Moonlake's 3D Agent」ベータ公開　AIがマウスとキーボードを操作し、モデリングからシーン構築、リギングまで実行

Moonlake社は4月30日（木）、単一画像から複雑な3D環境を自動生成するAI技術「Moonlake's 3D Agent」を発表した。AIエージェントが3DCGツールの画面を認識し、人間と同様にアセットのモデリングやシーン構築、リジッドボディのセットアップまでを自律的に行う能力を持つ。第1弾の対応DCCツールはBlender。サービスは月額15ドル（約2,300円）からの有料サブスクリプションで提供され、現在はウェイトリスト制のオープンベータ版として展開されている。

Introducing Moonlake's 3D Agent.

Our agent acts like a technical artist that can build and reconstruct articulated assets and large-scale editable scenes with hundreds of objects from a single image and can improve its generations continuously.

Learn more in the thread below. pic.twitter.com/uBahYyYLjR
— Moonlake (@moonlake) April 29, 2026

画面を認識しマウスとキーボードで自走するAIエージェント

「Moonlake's 3D Agent」は、従来の生成AIのようにプログラムの裏側で3Dデータを一瞬で出力するのではなく、「コンピュータ使用」能力を用いてAIがDCCツールのUIを画像として認識し、人間のアーティストと同様の手順でメニューをクリックし、ショートカットキーを入力して制作を進める。オブジェクトの命名規則チェック、カメラのフレーミング、マテリアルの一貫性担保、ライトセットアップといった、これまで手作業で行われていた時間のかかる反復的なルーティン作業を、エージェントが画面上で自走して処理する。

リジッドボディのセットアップやリギングにも対応

Introducing a world built by the Moonlake's world model.

Most world models only allow for a limited action space.

Moonlake maintains multimodal states across physics, appearance, geometry, and casual effects and predict how they evolve under different actions. pic.twitter.com/dVrjo7MuEk
— Moonlake (@moonlake) February 25, 2026

▲2/26公開のデモ

また、ポリゴンメッシュの出力だけでなく、物理演算の設定までも自動化する。上記ボウリングゲームのデモでは、エージェントがプロパティパネルを操作してピンやボールのモデルをリジッドボディに変換し、形状に合わせたコリジョンを構築。さらに、ボールは5.0kg、ピンは1.5kgといった質量の入力や、摩擦係数、反発係数、重心位置の最適化までをマウス操作でひとつひとつ打ち込むようにセットアップしていく。

見た目とデータ構造の矛盾を防ぐ「階層的報酬システム」

Moonlake's 3D Agentは、3Dシーンの構築という何段階にもわたる長い制作工程において、自律的に細かな修正と改善を繰り返していく。この粘り強い作業を可能にするのが、「階層的報酬システム（Layered Reward Systems）」と呼ばれる独自の自己評価メカニズム。

これは、AIが自身の制作物を3つの視点から採点する仕組みとなる。全体を俯瞰する最上位層では、「プロンプト通りにつくられているか」「映像として美しいか」という全体の完成度をチェックする。続く中間層では、リファレンス画像の雰囲気とズレていないかを確認する。そして最下層では、「机の脚が床にしっかり接地しているか」「部品同士がめり込まずに正しく接続されているか」といった構造的な正しさを、見た目の印象ではなくプログラムのコードを用いて厳密に検証する。

従来のVLM（視覚言語モデル）は、「画像としてそれっぽく見えるか」だけで良し悪しを判断してしまうことから、よく見ると物体が宙に浮いていたり、空間の辻褄が合っていなかったりするという欠点があった。しかし本技術は、最下層にコードに基づく構造チェックを組み込むことで、3DCG制作の実務上求められるクオリティを担保している。

他DCCツールへの対応ロードマップ

Moonlake's 3D Agentの「ソフトウェアを直接操作する」機能について、現時点で公式に連携対象として明言されているDCCツールはBlenderのみ。公式ブログには「アーティストが慣れ親しんでいるBlenderから初期の焦点を当てる」とあり、将来的には他の主要な3Dツールのサポートまで視野に入れていることがうかがえる。

利用方法について

本サービスは利用量に応じた有料のサブスクリプションモデルで提供され、基本料金は月額15ドル（約2,300円）からスタートする。オープンベータ版はすでにローンチされているが、現在はウェイトリストへの登録が必要となる。

■Introducing Moonlake's 3D Agent: Computer Use Capabilities for World Modeling（Moonlakeブログ）
https://moonlakeai.com/blog/3d-agent

CGWORLD関連情報

●単一画像から顔と髪を切り離す頭部アバター生成手法「One-shot Compositional 3D Head Avatars with Deformable Hair」発表　3DGS、FLAME、物理演算の活用により自然なフェイシャル＆ヘアアニメーションを実現

西安交通大学の研究チームが1枚の画像から髪の毛が自然に揺れる高品質な3D頭部アバターを生成する新手法「CompHairHead（One-shot Compositional 3D Head Avatars with Deformable Hair）」を発表。顔と髪の毛の要素を分離し、3DGSによるディテール豊かな3D表現と、FLAMEメッシュによる自然なフェイシャルアニメーション、ケージ構造と物理シミュレーションを適用したヘア表現を採用することで、リアルなフェイシャルアバターをリアルタイムでアニメーションさせることを可能にする。
https://cgworld.jp/flashnews/01-202605-1shotHead.html

●NVIDIA、物理シミュレーション対応の3D環境構築フレームワーク「Lyra 2.0」公開　長時間のウォークスルー動画生成と高品質な3Dシーン出力で大規模な環境構築を実現

NVIDIAのSpatial Intelligence Lab（SIL）が、探索可能な生成3D世界を構築する新たなAIフレームワーク「Lyra 2.0」を発表。カメラ操作の可能なウォークスルー動画を生成し、フィードフォワード再構成技術によって3D空間を生成することで、大規模で複雑な3D環境の構築を実現する。ソースコードはApache-2.0ライセンスでGitHubにて、モデルはNVIDIA Internal Scientific Research and Development Model License（非商用の研究開発用途限定）でHugging Faceで公開されている。
https://cgworld.jp/flashnews/01-202605-Lyra2.html

●World Labs、Web向け3DGSストリーミングLoDシステム「Spark 2.0」リリース　Three.jsを基盤に構築、オープンソース

World LabsがWebブラウザ上で動作する動的な3DGS（3D Gaussian Splatting）レンダラ「Spark 2.0」をリリース。新たにLoD（Level-of-Detail）システムとストリーミング機能が導入され、巨大な3Dワールドを最適化し、あらゆるデバイスへ高品質にストリーミングするための高度なシステム設計を備える。GitHubでオープンソース（MITライセンス）として提供されている。
https://cgworld.jp/flashnews/01-202605-Spark20.html