自己回帰的3DGSシーン生成技術「GaussianGPT」発表！ GPT形式のトランスフォーマーを用いて3D空間の構造と外観を段階的に生成

ミュンヘン工科大学の研究チームは3月30日（月）、次トークン予測を用いた自己回帰型の3DGS（3D Gaussian Splatting）生成モデル「GaussianGPT」を発表した。LLM（大規模言語モデル）と同様の学習手法を3D空間の構築に応用することで、シーンの欠損補完や自由度の高い拡張を可能にする。現在は学術的な研究段階となっており、ソースコードは近日公開予定。

GaussianGPT: autoregressive 3D Gaussian scene generation.
We introduce a GPT-style model that directly generates 3D Gaussian scenes, token by token, in a series of small, discrete decision steps. Generation, completion, and large-scale outpainting in a single pipeline.
Unlike diffusion-based approaches, GaussianGPT explicitly models the scene distribution at every step, allowing for quite flexible scene synthesis.

GaussianGPT：自己回帰型3Dガウシアンシーン生成
私たちは、細かく区切られた個別の判断の積み重ねにより、トークンごとに3Dガウシアンシーンを直接生成するGPTスタイルのモデルを発表します。生成、補完、および大規模なアウトペインティング（枠外拡張）を、単一の処理の流れの中で実現します。
拡散モデルベースの手法とは異なり、GaussianGPTは各段階においてシーンの分布を明示的にモデリングするため、非常に柔軟なシーン合成が可能です。

従来の3D生成技術の多くは、シーン全体を一括で生成する拡散モデルやフローマッチングに依存していたが、「GaussianGPT」では、LLMの挙動のように、3D空間の構成要素を順番に予測して生成する自己回帰（Autoregressive）アプローチを採用。3D空間上の点群をトークン（データの最小単位）として扱い、GPT形式のトランスフォーマーを用いて次の要素を予測する。これにより、既存のシーンの続きを描き足すアウトペインティングや、欠けている部分を周囲の文脈から推測して補完する際、従来手法よりも一貫性のある自然な結果が得られるという。

▲ベッドルームやリビングルームなど、多様なレイアウトの室内空間が、高精細かつパーツ分けされた3Dシーンとして生成されている

またGaussianGPTでは、AIが処理しきれない高精細な3D空間の膨大なデータを、まず「Sparse 3D Convolutional Autoencoder（疎な3D畳み込みオートエンコーダ）」によって効率良く圧縮する。そして圧縮データはベクトル量子化（Vector Quantization）プロセスを経て、離散的な潜在グリッド（Discrete Latent Grid）へと変換される。これは、複雑な連続データを、あらかじめ用意されたデジタル上の「辞書」にあるインデックス番号に置き換える作業で、この処理により、3D空間の情報が言語モデルで扱えるような整然としたデータ配列に整理される。

整理されたデータは、xyz順の規則に従って1次元の配列へとシリアライズ（Serialization）される。この際、AIが3D空間内での位置関係を正しく認識し続けるため、データの順序だけでなく、その要素が3D空間のどの向きに存在するかというジオメトリ情報をAIに教えるための補足データ「3D Rotary Positional Embedding（3D回転位置エンベディング）」が導入されている。

これらの技術の組み合わせにより、GaussianGPTはシーンのジオメトリとアピアランスを同時に学習し、条件なし（unconditional）の生成から、部分的なシーンをプロンプトとした高度な編集までを、高い精度で実行できるという。

▲GaussianGPTの処理パイプライン概要。上段は、入力された3DGSをベクトル量子化（Vector Quantization）によって離散的なデータに変換する、3DGSの圧縮プロセス。下段は、直列化されたデータをGPTモデルに入力し、空間構造と外観を逐次予測してシーンを構築する、自己回帰生成プロセス

▲俯瞰視点からAIによるアウトペインティングを繰り返すことで、構造やスタイルの一貫性を保ったまま、複数の部屋が連なる広大な3D空間が構築される

■GaussianGPT: Towards Autoregressive 3D Gaussian Scene Generation（プロジェクトページ）
https://nicolasvonluetzow.github.io/GaussianGPT/

CGWORLD関連情報

●スタジオダックビル、Webブラウザだけで3DGSから仮想空間をつくるアプリ「SplatStroll Avatar」テスト版を公開！ 3DGS描画にThree.jsとSpark 2.0使用

スタジオダックビルが、3DGS（3D Gaussian Splatting）を用いた無料のWebアプリ「SplatStroll Avatar」のテスト版をリリース。手持ちの3DGSデータをブラウザに読み込ませるだけで、空間の地形を自動で解析し、歩行可能なエリアを検出する。本サービスは同社の研究開発成果を体験する目的で無料公開されており、個人や法人、商用利用を問わず無償で利用できる。
https://cgworld.jp/flashnews/01-202603-SplatStroll.html

●オープンソースのThree.js向け3DGSレンダラ「Spark 2.0」Developer Previewリリース！ LoDレンダリング、巨大な3DGSシーンの効率的なストリーミングに対応

Spark開発チームがオープンソース（MITライセンス）のThree.js向け3DGS（3D Gaussian Splatting）レンダラ「Spark 2.0 Developer Preview」をリリース。本アップデートでは、LoD（Level-of-Detail）のレンダリングシステムや、Web上でワールドスケールの3DGSシーン描画のためのストリーミング機能が新たに実装された。
https://cgworld.jp/flashnews/01-202603-Spark2.html

●NVIDIA、新しい3DGSセグメンテーション技術「ArtisanGS」発表！ AIと手動を組み合わせることにより高精度なオブジェクト抽出を実現

NVIDIAとトロント大学の研究チームが、3D Gaussian Splatting（3DGS）を用いたシーンから、任意のオブジェクトを対話的に抽出・編集できるツール群「ArtisanGS」の論文を公開。AIを活用した高速なオブジェクトや領域のセグメンテーションと、手動での柔軟な微調整を組み合わせることにより、ノイズの多い現実世界のキャプチャデータからでも目的の立体物を正確に切り出すことが可能となる。
https://cgworld.jp/flashnews/01-202603-ArtisanGS.html