カリフォルニア大学バークレー校カーネギーメロン大学マックス・プランク知能システム研究所、Impossible Inc.からなる研究チームは、1月24日(土)、画像から3Dシーンをコードベースで構築・編集できるAIエージェント「VIGA(Vision-as-Inverse-Graphics Agent via Interleaved Multimodal Reasoning)」を発表した。VIGAは、入力された画像を分析し、それを再現するためのBlender用Pythonコードを生成・実行、物理シミュレーションやライティング条件を含んだ3Dシーンを再現する。オープンソース(MITライセンス)ソフトウェアとしてGitHubでソースが公開され、Hugging Faceでは評価用データセット(ベンチマーク)が公開されている。

Thinking with Blender~
Meet VIGA: a multimodal agent that autonomously codes 3D/4D blender scenes from any image, with no human, no training!


Blenderで思考する〜
VIGAのご紹介:あらゆる画像から3D/4DのBlenderシーンを、人間の介入なし、トレーニングなしで自律的にコーディングするマルチモーダルエージェントです!


「VIGA」は、大規模言語モデル(LLM)と視覚言語モデル(VLM)を組み合わせた「インターリーブ型マルチモーダル推論(Interleaved Multimodal Reasoning)」を採用したAIエージェント。入力画像から3D構造を分析・推論する「Inverse Graphics」のアプローチによりシーンを構築し、Blenderで実行可能なコードを生成して実行する。ただしVIGAは一度のコード生成と実行を目的とはしない。AIエージェントは、一度生成した3Dシーンの画像と入力画像を見比べて差異を調査し、コードを書き直す作業を繰り返すことで再現性の高い3Dシーンを生成する。

具体的には、AIエージェントはコードの記述と実行を行う「生成役」と、レンダリング結果を評価する「検証役」を交互に担い、出力された3Dシーンが目標とする画像と一致するまで、自己修正のループ(分析による合成:Analysis-by-synthesis)を繰り返す。これにより、物体の位置関係だけでなく、マテリアルやオブジェクト同士の物理的な相互作用までも高精度に制御できる。

VIGA writes code, then check the resulting scene by rendering it and comparing it to the input. It can move the camera to better analyze the scene to find diffs and generates feedback to improve the program again and again. Blender becomes VIGA's reasoning medium. 


VIGAはコードを記述し、その結果生成されたシーンをレンダリングして入力画像と比較することでチェックを行います。カメラを移動させてシーンをより詳細に分析して差異を見つけ、プログラムを何度も改善するためのフィードバックを生成します。つまり、BlenderがVIGAにとっての「推論の媒体」となるのです。


VIGA uses 
 • a skill library: generation tools and verification tools
 • an evolving contextual memory: tracks plans, code diffs, and render history
 to support long-horizon, interleaved multimodal reasoning.


VIGAは
 • スキルライブラリ:生成ツールおよび検証ツール
 • 進化するコンテキストメモリ:計画、コードの差分、レンダリング履歴を追跡 これらにより、長期的かつインターリーブ(交互)型のマルチモーダル推論をサポート
を駆使します。


VIGA goes beyond 3D reconstruction: It can edit 3D scenes, add 4D interaction and even edit Powerpoint!
Empirically: +32.65% on BlenderGym, +117.17% on SlideBench.


VIGAは単なる3D再構築の枠を超えています。3Dシーンの編集、4Dインタラクションの追加、さらにはPowerPointの編集さえも可能です! 
実証結果としては、BlenderGymで+32.65%、SlideBenchで+117.17%の性能向上を達成しました。

We also release BlenderBench: a harder benchmark for agentic inverse graphics. It stress tests fine-level camera control, multi-step edits, compositional changes. On its hardest task, VIGA achieves a +512% gain!


さらに、エージェント型逆グラフィックスのための、より高難度なベンチマーク「BlenderBench」も公開します。これは、微細なレベルのカメラ制御、多段階の編集、構成的な変更についてストレステストを行うものです。その最難関タスクにおいて、VIGAは+512%もの向上を達成しました!


■Vision-as-Inverse-Graphics Agent via Interleaved Multimodal Reasoning(プロジェクトページ)
https://fugtemypt123.github.io/VIGA-website/

ソースコードはGitHubにて公開されており、ライセンスにはMITライセンスが採用されている(著作権表示および許諾表示を記載することを条件に、商用・非商用を問わず無償での利用、改変、再配布が可能)。

■VIGA: Vision-as-Inverse-Graphics Agent via Interleaved Multimodal Reasoning(GitHub)
https://github.com/Fugtemypt123/VIGA

また、研究チームは、VIGAの能力を検証するために、新たなベンチマークテスト「BlenderBench」も開発・公開。これは、カメラアングルの調整から、複数の手順を要する複雑なシーン編集まで、30種類のタスクで構成されている。実験の結果、VIGAはGPT-4oやQwen3-VLといった既存の高性能モデルと比較して、平均で100%以上の性能向上を達成したという。BlenderBenchは、Hugging FaceにてCC-BY-4.0ライセンスの下、提供されている。

■BlenderBench Dataset(Hugging Face)
https://huggingface.co/datasets/DietCoke4671/BlenderBench

CGWORLD関連情報

●Blenderアドオン「Quad Filler 1.0」リリース! 異なるエッジ数のオープンエッジ間を綺麗なクワッドで穴埋めし、メッシュを効率的にクリーンアップ

Casey SheepがBlenderアドオン「Quad Filler 1.0」をSuperhiveでリリース。Quad Fillerは、開いたエッジ同士の接続を、最小限の操作で理想的な四角形ポリゴンへと変換することに特化したツール。価格は8ドル(約1,250円)、ライセンスはGPL、対応するBlenderのバージョンは3.4~5.0。
https://cgworld.jp/flashnews/01-202601-QuadFiller.html

●オープンソースのBlenderアドオン「Mio3 Flex」リリース! 選択したエッジループをカーブで滑らかに整形&変形

mioがメッシュの頂点を曲線に沿って滑らかに変形させるBlenderアドオン「Mio3 Flex」をBlender ExtensionsとGitHubで公開。本作は、以前公開されていた多機能ツール群「Mio3MeshTools」から曲線変形機能のみを抽出し、最新のBlender環境に合わせてリビルドしたもの。対応するBlenderのバージョンは4.2 LTS以降、ライセンスはGPL-3.0。
https://cgworld.jp/flashnews/01-202601-Mio3Flex.html

●Blenderアドオン「PBR Mixer 2.4」リリース! PBR対応のテクスチャセットをレイヤー管理し、高度なマスキング技術で合成、1平面と1マテリアルから複雑な地形を素早く生成する機能を新搭載

Nodes and noodlesがBlender用アドオン「PBR Mixer 2.4」をリリース。PBRに対応したテクスチャセットをレイヤーで管理し、マスキング技術を用いて合成を行う、シェーダーノードベースの制作支援ツール。バージョン2.4では1平面と1マテリアルを用意するだけで、複雑な地形を瞬時に構築できる「インスタントランドスケープ(Instant Landscape)」機能が実装された。SuperhiveとGumroadで販売され、価格は26ドル(Superhive、約4,300円)、20.02ドル(Gumroad、約3,160円)。対応するBlenderのバージョンは2.83以降。
https://cgworld.jp/flashnews/01-202601-PBRMixer24.html