ミュンヘン工科大学の研究チームは3月30日(月)、次トークン予測を用いた自己回帰型の3DGS(3D Gaussian Splatting)生成モデル「GaussianGPT」を発表した。LLM(大規模言語モデル)と同様の学習手法を3D空間の構築に応用することで、シーンの欠損補完や自由度の高い拡張を可能にする。現在は学術的な研究段階となっており、ソースコードは近日公開予定。
GaussianGPT: autoregressive 3D Gaussian scene generation.
We introduce a GPT-style model that directly generates 3D Gaussian scenes, token by token, in a series of small, discrete decision steps. Generation, completion, and large-scale outpainting in a single pipeline.
Unlike diffusion-based approaches, GaussianGPT explicitly models the scene distribution at every step, allowing for quite flexible scene synthesis.GaussianGPT:自己回帰型3Dガウシアンシーン生成
私たちは、細かく区切られた個別の判断の積み重ねにより、トークンごとに3Dガウシアンシーンを直接生成するGPTスタイルのモデルを発表します。生成、補完、および大規模なアウトペインティング(枠外拡張)を、単一の処理の流れの中で実現します。
拡散モデルベースの手法とは異なり、GaussianGPTは各段階においてシーンの分布を明示的にモデリングするため、非常に柔軟なシーン合成が可能です。
従来の3D生成技術の多くは、シーン全体を一括で生成する拡散モデルやフローマッチングに依存していたが、「GaussianGPT」では、LLMの挙動のように、3D空間の構成要素を順番に予測して生成する自己回帰(Autoregressive)アプローチを採用。3D空間上の点群をトークン(データの最小単位)として扱い、GPT形式のトランスフォーマーを用いて次の要素を予測する。これにより、既存のシーンの続きを描き足すアウトペインティングや、欠けている部分を周囲の文脈から推測して補完する際、従来手法よりも一貫性のある自然な結果が得られるという。
またGaussianGPTでは、AIが処理しきれない高精細な3D空間の膨大なデータを、まず「Sparse 3D Convolutional Autoencoder(疎な3D畳み込みオートエンコーダ)」によって効率良く圧縮する。そして圧縮データはベクトル量子化(Vector Quantization)プロセスを経て、離散的な潜在グリッド(Discrete Latent Grid)へと変換される。これは、複雑な連続データを、あらかじめ用意されたデジタル上の「辞書」にあるインデックス番号に置き換える作業で、この処理により、3D空間の情報が言語モデルで扱えるような整然としたデータ配列に整理される。
整理されたデータは、xyz順の規則に従って1次元の配列へとシリアライズ(Serialization)される。この際、AIが3D空間内での位置関係を正しく認識し続けるため、データの順序だけでなく、その要素が3D空間のどの向きに存在するかというジオメトリ情報をAIに教えるための補足データ「3D Rotary Positional Embedding(3D回転位置エンベディング)」が導入されている。
これらの技術の組み合わせにより、GaussianGPTはシーンのジオメトリとアピアランスを同時に学習し、条件なし(unconditional)の生成から、部分的なシーンをプロンプトとした高度な編集までを、高い精度で実行できるという。
■GaussianGPT: Towards Autoregressive 3D Gaussian Scene Generation(プロジェクトページ)
https://nicolasvonluetzow.github.io/GaussianGPT/
CGWORLD関連情報
●スタジオダックビル、Webブラウザだけで3DGSから仮想空間をつくるアプリ「SplatStroll Avatar」テスト版を公開! 3DGS描画にThree.jsとSpark 2.0使用
スタジオダックビルが、3DGS(3D Gaussian Splatting)を用いた無料のWebアプリ「SplatStroll Avatar」のテスト版をリリース。手持ちの3DGSデータをブラウザに読み込ませるだけで、空間の地形を自動で解析し、歩行可能なエリアを検出する。本サービスは同社の研究開発成果を体験する目的で無料公開されており、個人や法人、商用利用を問わず無償で利用できる。
https://cgworld.jp/flashnews/01-202603-SplatStroll.html
●オープンソースのThree.js向け3DGSレンダラ「Spark 2.0」Developer Previewリリース! LoDレンダリング、巨大な3DGSシーンの効率的なストリーミングに対応
Spark開発チームがオープンソース(MITライセンス)のThree.js向け3DGS(3D Gaussian Splatting)レンダラ「Spark 2.0 Developer Preview」をリリース。本アップデートでは、LoD(Level-of-Detail)のレンダリングシステムや、Web上でワールドスケールの3DGSシーン描画のためのストリーミング機能が新たに実装された。
https://cgworld.jp/flashnews/01-202603-Spark2.html
●NVIDIA、新しい3DGSセグメンテーション技術「ArtisanGS」発表! AIと手動を組み合わせることにより高精度なオブジェクト抽出を実現
NVIDIAとトロント大学の研究チームが、3D Gaussian Splatting(3DGS)を用いたシーンから、任意のオブジェクトを対話的に抽出・編集できるツール群「ArtisanGS」の論文を公開。AIを活用した高速なオブジェクトや領域のセグメンテーションと、手動での柔軟な微調整を組み合わせることにより、ノイズの多い現実世界のキャプチャデータからでも目的の立体物を正確に切り出すことが可能となる。
https://cgworld.jp/flashnews/01-202603-ArtisanGS.html