周囲の環境まで生成できる3D生成AIモデル「Spell」公開！　1枚の画像からGaussian Splatsボリュームでシーン全体を生成

アメリカSpline社は1月23日（木）、1枚の画像から3Dシーン全体または“世界”を3D Gaussian Splatting（またはNeRFsなど）でレンダリングできるボリュームとして生成する実験的なAIモデル「Spell」を公開した。現在は技術テストを目的としたアーリーアダプター向けの公開となっており、月99ドル（約15,300円）のEarly Supporterプランへ加入したユーザーのみがシーン生成機能にアクセスできる。Freeプランは他ユーザーが公開している生成サンプルの閲覧が可能。

拡散（diffusion）モデルの一種であるSpellは、入力画像から一貫性のある3D世界を生成する。特定の被写体の、複数アングルからの画像を、高精度・ハイディテールでレンダリングし、制御されたカメラパスを生成する。

また、反射や屈折、ラフネスといった物理マテリアル特性や、被写界深度などのカメラ特性、さらにはサーフェス内部に入り込もうとする際のカメラとオブジェクトの交差を視覚的にシミュレートすることも可能だ。

トレーニングは実生活からキャプチャされたデータ（世界各国のデータを長期間手動でキャプチャした広範なデータセット）とデジタルレンダリングされた合成データ（内部ツールの活用やMLトレーニングでの使用が承認されているマーケットの3Dモデル）を組み合わせて実施されたという。現在もトレーニングは継続中とのことだ。

Spellでの最終出力は動画、画像シーケンス、またはGaussian Splattingボリュームのいずれか。ボリュームでのエクスポートについて、Spline社は注釈を付けている。

However, Spell is not dependent on any specific volume rendering technique, and it is also possible to convert the internal volume representation into a mesh using any reconstruction technique (or using a reconstruction model).

しかしながら、Spellは特定のボリュームレンダリング技法に依存していません。そのため、任意の再構成技法や再構成モデルを使って内部ボリューム表現をメッシュに変換することもできます。

Spell can generate entire 3D scenes or “Worlds” from an image in just a few minutes. The worlds are consistent with the initial image input and are represented as a volume that can be rendered using Gaussian Splatting (or other methods, like NeRFs). pic.twitter.com/Y8dePJLTYR
— Spline (@splinetool) January 22, 2025

We are launching Spell at an early stage, with limited access and an intentionally high price. It is only meant for early adopters so we can better understand how you interact with the model and also to keep the GPU expense low during this phase.

This is the first time we have… pic.twitter.com/zdl15lvzi1
— Spline (@splinetool) January 22, 2025

なお同社はSpellについて“実験的”と称し、現時点ではまだ改善の余地があると考えている。

However, there is significant room for improvement in terms of quality and consistency, and we are already working on it.

しかし、品質と一貫性という点では改善の余地が大きく、われわれはすでにそれに取り組んでいます。

生成するシーンの設定

Spell AI is free for the next few hours. Try it now!

*Highly experimental* - Link below pic.twitter.com/novId83h1P
— Spline (@splinetool) January 27, 2025

生成した3Dシーンの共有と埋め込み用のリンク「Public Link」と、シーン背景のコントロールが可能

生成したシーンデータに対してターンテーブルのように自動的に周回させたり（Auto orbit）、パン・ズームのオンオフ、タッチデバイス上での動作設定なども設定できる

■Making AI Worlds（公式ブログ、英語）
https://blog.spline.design/introducing-spell

■Spell by Spline
https://spell.spline.design/

CGWORLD関連情報

●World Labs、画像1枚から3Dシーンを生成する“世界モデル”AIの初期プレビューを公開！　2025年に製品リリースを目指す

アメリカWorld Labs社が、画像1枚から3Dシーンを生成し、ユーザーが操作できる「世界モデル」（Large World Models、略称LWMs）AI技術の初期プレビューを同社サイト内で公開。Webブラウザ上でリアルタイムレンダリングされたデモシーン内をキーボードとマウスで探索できるようになっている。同社は現在、2025年の製品リリースを目指して開発を進めているという。
https://cgworld.jp/flashnews/202412-WorldLabs-AI.html

●3Dモデル生成AI「Rodin Gen-1.5 V1.0」公開！　トポロジーや三角／四角ポリゴンメッシュの生成品質向上、PBRテクスチャなど

中国Deemos社が3D生成AI「Rodin Gen-1.5 V1.0」を公開。生成トポロジーの品質向上やAIがサポートする四角ポリゴンメッシュ生成、ディテール豊かでシャープな三角ポリゴンメッシュを生成する「PROモード」、PBRテクスチャの生成などの機能を実装している。
https://cgworld.jp/flashnews/Rodin-gen15.html

●3D生成AI「Stable Point Aware 3D」発表！　Stability AIとNVIDIAとのパートナーシップ、画像から1秒以内に3Dモデルを生成

Stability AIはNVIDIA社とのパートナーシップによる3D生成AI「Stable Point Aware 3D（SPAR3D）」を発表。すでに公開されており、ダウンロード（Hugging Face）とコードへのアクセス（GitHub）、統合（Stability AI Developer Platform API）が行える。Stability AI Community Licenseに基づき、商用・非商用を問わず無料で利用可能。
https://cgworld.jp/flashnews/Stability-SPAR3D.html