テキサス大学オースティン校NVIDIA厦門大学テキサスA&M大学ジョージア工科大学スタンフォード大学南カリフォルニア大学からなる共同研究チームは2月26日(木)、数点の画像から数秒でフォトリアルな3Dシーンを構築できる技術「InstantSplat」の拡張版「InstantSplat++」をオープンソース(Apache-2.0ライセンス)でリリースした。基盤となるInstantSplatの設計を維持しつつ、ごくわずかな視点の画像から大規模な空間を再構成できるように改良されている。

InstantSplat++ is now open source.


It is a lightweight library that connects foundation models (VGGT, MASt3R, MAP-Anything, etc.) with the Gaussian splatting family. Given uncalibrated images, it optimizes a 3D scene in a few seconds.


InstantSplat++をオープンソースで公開しました。


これは、基盤モデル(VGGTMASt3RMAP-Anythingなど)とGaussian Splattingファミリーを接続する軽量なライブラリです。キャリブレーションされていない(カメラ位置などのパラメータが未知の)画像から、わずか数秒で3Dシーンを最適化します。


(テキサス大学オースティン校とNVIDIAに所属する本プロジェクトのリーダー、Zhiwen Fan氏のX投稿より)

従来の3Dモデル生成では複数枚の画像からカメラの位置や3D形状を推定する「SfM(Structure-from-Motion)」技術が広く用いられてきた。しかしSfMは計算に多大な時間を要し、データ不足時には動作が不安定になりやすいという課題があった。これに対しInstantSplatは、データが入力から出力へと一方向にのみ処理されるフィードフォワードモデルを活用し、対象物の形状や奥行きに関する事前のジオメトリ上の手がかり(Geometric priors)を推論して用いる。

▲InstantSplatのメソッド概要

また、複数の視点から共通して見える領域を計算して無駄なデータの重複を省く「Co-visible Global Geometry Initialization(共視性に基づくグローバルなジオメトリ初期化)」や、AIによる予測の確からしさを考慮して計算を動的に調整する「Confidence-aware optimization(信頼度を考慮した最適化)」を導入。これらの仕組みにより、カメラのパラメータと3Dシーン全体を同時に調整し、最適化することが可能となったという。

▲Co-visible Global Geometry Initializationのプロセス。上は入力された複数視点の画像、下は各画像から生成される3Dポイントの保持領域を示すマスク。AIによる予測信頼度が最も高い視点(Rank #1)のポイントは全て保持(Keep All Points)される一方、優先度の低い視点(Rank #2, #3)では、重複領域がマスク処理で除外される。これにより、無駄な3Dデータの重複を防ぎ、計算負荷を抑えた高速な最適化を実現する

本技術は、3DGS(3D Gaussian Splatting)を筆頭に、2D-GS(2D Gaussian Splatting for Geometrically Accurate Radiance Fields)Mip-Splatting(視点の距離による解像度の変化に強い手法)など、複数の表現手法をサポート。これにより、従来手法と比較して30倍以上の高速化とビジュアル再現性向上を実現しているとのことだ。

▲3DGSや2D-GSなど複数の表現手法をサポートする
▲InstantSplatデモ(2024年5月公開)
▲InstantSplatおよびDUSt3Rの技術レビュー動画(2024年4月公開)

■InstantSplat++: Sparse-view Gaussian Splatting in Seconds(GitHub)
https://github.com/phai-lab/InstantSplatPP

■InstantSplat: Sparse-view Gaussian Splatting in Seconds(プロジェクトページ)
https://instantsplat.github.io/

CGWORLD関連情報

●オープンソースのThree.js向け3DGSレンダラ「Spark 2.0」Developer Previewリリース! LoDレンダリング、巨大な3DGSシーンの効率的なストリーミングに対応

Spark開発チームがオープンソース(MITライセンス)のThree.js向け3DGS(3D Gaussian Splatting)レンダラ「Spark 2.0 Developer Preview」をリリース。本アップデートでは、LoD(Level-of-Detail)のレンダリングシステムや、Web上でワールドスケールの3DGSシーン描画のためのストリーミング機能が新たに実装された。
https://cgworld.jp/flashnews/01-202603-Spark2.html

●NVIDIA、新しい3DGSセグメンテーション技術「ArtisanGS」発表! AIと手動を組み合わせることにより高精度なオブジェクト抽出を実現

NVIDIAとトロント大学の研究チームが、3D Gaussian Splatting(3DGS)を用いたシーンから、任意のオブジェクトを対話的に抽出・編集できるツール群「ArtisanGS」の論文を公開。AIを活用した高速なオブジェクトや領域のセグメンテーションと、手動での柔軟な微調整を組み合わせることにより、ノイズの多い現実世界のキャプチャデータからでも目的の立体物を正確に切り出すことが可能となる。
https://cgworld.jp/flashnews/01-202603-ArtisanGS.html

●3Dアセットフォーマット「glTF 2.0」標準拡張「KHR_gaussian_splatting」RC公開! 3DGSをglTFファイル内へ保存可能に

Khronos Groupが3Dアセット配信フォーマット「glTF 2.0」において、複数の2D画像からフォトリアルな3Dアセットを生成するラディアンスフィールド(放射場)表現技術の3DGS(3D Gaussian Splatting)を保存可能にする標準拡張機能「KHR_gaussian_splatting」のリリース候補版(RC、Release Candidate)を公開。
https://cgworld.jp/flashnews/01-202602-glTF20.html