テキスト生成AIのChatGPTや画像生成AIのDALL·Eの開発で知られるOpenAIは米国時間2月15日(木)、テキストから最大60秒の動画を生成できる「Text-to-Video」モデルの動画生成AI「Sora(ソラ)」を発表した。

従来の動画生成AIの表現力を大きく上回る、整合性の取れた動画品質に対して、多数の専門家がSNSなどで驚嘆のコメントを発表している。





OpenAIは現在、Soraの一般公開の時期については明らかにしていないが、生成AIの一般利用に際しては悪用を懸念する声も多いことから、下記のように発言している。

We’ll be taking several important safety steps ahead of making Sora available in OpenAI’s products. We are working with red teamers — domain experts in areas like misinformation, hateful content, and bias — who will be adversarially testing the model.


SoraをOpenAIの製品で利用できるようにする前に、いくつかの重要な安全対策を講じる予定です。私たちはレッドチーマー(誤報、憎悪的なコンテンツ、偏見などの分野の専門家)と協力して、モデルを敵対的にテストします。


DeepLによる自動翻訳)

また、デジタルコンテンツの信憑性を担保するため、Soraを含むOpenAI製品で生成したメディアに対して、オープン規格のC2PAメタデータを埋め込む予定があるほか、DALL·E 3に用いている安全手法をSoraにも適用できる、としている。


なお、OpenAIはSora発表にあたり、テクニカルレポートを公開。そのレポート内には、DALL·E 2およびDALL·E 3で生成した画像からも動画を生成できるという記述がある。

Sora is capable of generating videos provided an image and prompt as input. Below we show example videos generated based on DALL·E 231 and DALL·E 330 images.



Sora は画像とプロンプトを入力として動画を生成することができます。以下に、DALL-E 2とDALL-E 3の画像から生成した動画の例を示します。


DeepLによる自動翻訳)

左がDALL·Eによる生成画像、右がそれをSoraで動画化したもの

OpenAIはSoraの発表に際し、下記のように述べている。

Sora serves as a foundation for models that can understand and simulate the real world, a capability we believe will be an important milestone for achieving AGI.



Soraは、現実世界を理解しシミュレートできるモデルの基礎となるもので、AGIを実現するための重要なマイルストーンになると考えている。


DeepLによる自動翻訳)

※AGI:Artificial General Intelligence、汎用人工知能