Stability AIがStable Diffusion 3.5をリリース－柔軟な基盤を構築できるよう、カスタマイズ性を優先

Stability AIは、Stable Diffusion 3.5をリリースした。このオープンリリースには、Stable Diffusion 3.5 Large や Stable Diffusion 3.5 Large Turboなど、複数のモデルのバリエーションが含まれている。さらに、Stable Diffusion 3.5 Mediumは10月29日（火）（EU/US時間）にリリースされる予定だ。これらのモデルは、そのサイズにもかかわらず高いカスタマイズ性を持ち、一般のハードウェアで動作する。また、Stability AI Community Licenseの下で、商業および非商業どちらも無料で利用できる。

Stable Diffusion 3.5 Large および Stable Diffusion 3.5 Large Turbo は、現在Hugging Faceからダウンロードでき、GitHubでは推論コードも入手可能だ。

詳しくはこちら

Stable Diffusion 3.5について

Stable Diffusion 3.5 は、研究者、愛好家、スタートアップ企業、大企業など、あらゆるニーズに応えるために開発されたさまざまなモデルを提供する。

・Stable Diffusion 3.5 Large：80億のパラメータ、優れた品質、迅速な適合性を持つこの基本モデルは、Stable Diffusionファミリーの中で最も強力である。このモデルは、1メガピクセルの解像度でのプロフェッショナルな使用事例に最適である。

・Stable Diffusion 3.5 Large Turbo：Stable Diffusion 3.5 Large の蒸留版であり、わずか4ステップで高品質な画像を生成し、優れた即時適合性を実現する。Stable Diffusion 3.5 Largeよりもはるかに高速である。

・Stable Diffusion 3.5 Medium（10月29日（火）リリース予定）：26億のパラメータ、改良されたMMDiT-Xアーキテクチャとトレーニング方法により、カスタマイズのしやすさと画質を両立させ、コンシューマー向けハードウェアで「箱から出してすぐに使える」ように設計されている。0.25～2メガピクセルの解像度の画像を生成できる。

Stable Diffusion 3.5の開発

開発にあたっては、柔軟な基盤を構築できるよう、カスタマイズ性を優先した。これを実現するために、Query-Key Normalization をトランスフォーマーブロックに統合し、モデルのトレーニングプロセスを改善し、さらにファインチューニングや開発を簡素化した。

このレベルの下流での柔軟性をサポートするために、いくつかのトレードオフが必要だった。異なるシードを使用した同じプロンプトからの出力に、より大きなばらつきが生じる可能性がある。これは意図的なもので、ベースモデルにおける幅広い知識ベースと多様なスタイルの維持に役立つ。しかし、その結果、特定性のないプロンプトでは出力の不確実性が増大し、見た目のレベルにばらつきが生じる可能性がある。

特にMediumモデルでは、品質、一貫性、およびマルチ解像度生成能力を向上させるために、アーキテクチャとトレーニングプロトコルにいくつかの調整を加えた。

Stable Diffusion 3.5の特徴

Stable Diffusion 3.5 バージョンは、以下の分野で優位性を発揮し、テキストプロンプトへの準拠と画質において最高水準のパフォーマンスを維持しながら、市場で最もカスタマイズ可能で利用しやすいイメージモデルのひとつとなっている。

カスタマイズ性：特定のクリエイティブニーズを満たすために、モデルを簡単にファインチューニングしたりカスタマイズされたワークフローに基づくアプリケーションを構築したりすることができる。

効率的なパフォーマンス：特にStable Diffusion 3.5 MediumおよびStable Diffusion 3.5 Large Turbo モデルでは標準的な一般消費者向けのハードウェアで高負荷をかけずに実行できるように最適化されている。

多様な出力：広範な指示を必要とせずに、特定の人物だけでなく、さまざまな肌の色や特徴を持つ世界を代表するような画像を作成する。

多彩なスタイル：3D、写真、絵画、線画など、幅広いスタイルと美しさを生成することが可能。また、想像可能なほぼすべての視覚スタイルにも対応している。

Stable Diffusion 3.5 Large Turboは、そのサイズにおいて最速クラスの推論時間を提供しながら、画像の品質やプロンプトの再現性の面でも高い競争力を保っている。これは、同じサイズの非蒸留モデルと比較しても遜色ない。

Stable Diffusion 3.5 Medium は、他の中型モデルを上回る性能を持ち、プロンプトの再現性と画像品質のバランスに優れているので、効率的で高品質なパフォーマンスを求める場合の最適な選択肢となりうる。

Stable Diffusion 3.5シリーズと他の画像生成AIモデルで、プロンプト順守率(Prompt Adherence)と美的クオリティ(Aesthetic Queality)のイロレーティングスコアを比較した棒グラフ

Stability AI Community licenseの概要

非営利目的の場合は無料：個人および組織は、科学研究を含む非営利目的の場合、無料でモデルを使用することができる。
商用利用も無料（年間収益100万ドルまで）：年間収益が100万ドル未満のスタートアップ企業、中小企業、クリエイターは、商用目的でも無料でこのモデルを使用できる。
成果物の所有権：制限付きライセンスを伴うことなく生成されたメディアの所有権を保持する。

年間収益が100万ドル以上の企業についてはこちら。