映像クリエイターのフコウエアラタ氏は7月7日(日)、とある動画をXに投稿した。複数の生成AIを駆使して画素材・音素材を全て生成AIで生み出し、37秒のミュージックビデオに仕上げた作品である。この投稿は話題に話題を呼び、1,800超のリポスト、8,200超のいいねを獲得した。またこの作品はAI作品を集めた海外アワード「ProjectOdyssey」でブロンズ賞を受賞するなど国内外の注目を集めた。
現状最新の生成AIを使いまくってMV的なものを作ってみました(内容はめちゃくちゃ)
— Arata Fukoe (@Arata_Fukoe) July 7, 2024
Tools Utilized ↓
Music : ChatGPT,Sunoai
Video : DreamMachine,Gen-3,Kling
Image :MJ,SD
Edit : Ps,Ae
特に人物とかは大きい画面で見ると粗が目立ちますが、使い方次第でなんとか誤魔化せるかなといった感じ pic.twitter.com/9DzENHP4sV
フコウエ氏といえば、かねてよりNeRFやタイムスライス、360°カメラのリフレームなど、新しい技術を用いた新しい表現を探究するクリエイターとして知られ、生成AIについても早くから実験的な利活用についてSNSに投稿してきた人物。
CGWORLDでも昨年、NeRFを活用した広告制作事例について、インタビューを実施している。
●参考:「NeRF」とGoProで実現した滑らかなトランジション!フコウエアラタ氏に聞く車広告制作の裏側(CGWORLD.jp)
https://cgworld.jp/article/nerfarata-fukoe.html
そうした取り組みを続けるフコウエ氏が今回発表したMVは、氏のこれまでの探究を結実させた、マイルストーンとも呼べる一作のように見える。そこで編集部ではフコウエ氏にインタビューを実施し、その真意からブレイクダウンまで広く伺った。
フコウエアラタ / Arata Fukoe
映像クリエイター。京都造形芸術大学、京都芸術デザイン専門学校のダブルスクールを卒業後NAKED Inc. に就職。現在はgradationに所属。
フォトリアルな動画生成AIの台頭が制作意欲を刺激
CGWORLD編集部(以下、CGW):生成AIによるMVの投稿が話題ですね。率直な感想を伺えますか。
フコウエアラタ氏(以下、フコウエ):想像以上の反響に驚きました。でも、これまでの自分の試行錯誤を集約した実験的な作品なので、注目されて嬉しいです。
CGW:そもそも、なぜ全素材をAIで生成してMVをつくろうと考えたのですか。
フコウエ:新しい技術が好きで、これまでもその時々で最新の映像技術を深掘りしてきました。生成AIについても、画像生成AIが話題になり始めた2~3年前から触っていました。
そんな中、ご存じの通り、OpenAIの「Sora」、Luma AIの「Dream Machine」といった、フォトリアルな動画を生成するAIが登場しました。実写に近い動画を生成できるAIが登場して、クリエイターだけではなく一般層まで広く活用されるフェーズになったと感じたんです。なので今回、実験として、AIで生成した素材だけを使ってMVを制作してみようと考えました。
CGW:なるほど、SoraやDream Machineの登場がきっかけになったのですね。
フコウエ:はい。実は、Luma AIのチームとはNeRF活用を積極的に進めていたときにコミュニケーションをとるようになって、Dream Machineも少し早い段階から触らせてもらっていたんですよ。
ちなみに、Luma AIとコンタクトを取るようになって驚いたのが、彼らのアップデートの速さです。クリエイターが求める改善点を瞬時に機能として実装してきていて、そのスピードには目を見張るものがありますよ。だからDream Machineは今後もさらに使いやすく、高性能なツールに進化していくだろうと思いますね。
MV制作のながれ
CGW:ここからは、今回のMV制作のながれについて伺います。
フコウエ:制作手順はざっくりと7ステップといったところです。
1:大まかなストーリー、世界観、演出方法を考える
2:Midjourneyで画像を生成
3:生成した画像をPhotoshopやStable Diffusionで加工し、理想の画像に近づける
4:動画生成AI(Dream Machine、Gen-3 Alpha、Kling)に画像を入力して動画を生成(別途音楽もSunoで生成)
5:After Effectsのシーケンス上に生成した音楽と動画素材を並べ、音と映像のバランス、リズムと展開を考えながら繋ぎを再設計
6:After Effectsでレイアウトやカメラの被写界深度、エフェクト、画全体の質感、キャラクターの一貫性の調整など、ディテール詰め作業
7:完成
CGW:まずはMidjourneyで画像生成なのですね。
フコウエ:Midjourneyは「世界観の描画」と「ある程度一貫性のあるキャラクター出力」が強みです。Stable Diffusionは学習しているデータがかなり人間に偏っていて「人物中心」、世界観の表現は不得意なイメージですね。
Midjourneyが生成する世界観はディテールもしっかりしてるし、バラエティも豊かです。キャラクターの一貫性についても、一定の学習は必要ですが、使いこなせればある程度同じキャラクターが登場する画像出力も大丈夫です。
なので、基本はMidjourneyで画像を生成していて、画のニュアンスを変えたいとき、他のアイデアが欲しいときにStable Diffusionにかけてみるという使い方をしました。
CGW:納得です。Photoshopも使われるとのことですが。
フコウエ:PhotoshopはMidjourneyから出力された画像のレタッチに使います。意図通りに出力されることは稀ですし、出力素材の一貫性はないので、結局のところ、ひとつの作品として成立させるためにはこのフェーズがかなり重要になります。
CGW:そして画像を動画生成AIに入力するフェーズではDreamMachine、Gen-3 Alpha、Klingと3つを利用されたと。これはどのように使い分けを?
フコウエ:まず、Gen-3 Alphaでは基本的にテキストプロンプトからしか映像を生成できないので、ここが弱点。でも表現は良くて、クリエイティブとして強度のある映像出力ができるAIというイメージです。※取材時点では、Gen-3 Alphaで画像を参照し映像を生成しようとするとGen-2に切り替わり、5秒間の映像しか生成されない仕様だった。
Dream Machineは、画像から実写に近いスピード感の映像が出力できます。UIが直感的でわかりやすいのも特長で、ひと目で何をどうすれば良いのか理解できます。
Klingはスローモーションの映像出力がされる点が特長。Dream Machineはスピード感はリアルですが、アニメーションの最中に人の顔が変形したり、フレーム間に不自然な表現が混ざりがちです。Klingはその点、不自然なアニメーションの補間が起きづらいです。ただ、Dream Machineと比べて出力エラーの発生率は高いので、その時々で使い分けています。
CGW:なるほど。ちなみに、そうした生成AIに関する情報はどのように集めているのですか?
フコウエ:メディアはどうしても少し情報が遅いので、各生成AIの企業や開発者のXアカウントを押さえて、発信を追うようにしています。
Introducing Dream Machine - a next generation video model for creating high quality, realistic shots from text instructions and images using AI. It’s available to everyone today! Try for free here https://t.co/rBVWU50kTc #LumaDreamMachine pic.twitter.com/Ypmacd8E9z
— Luma AI (@LumaLabsAI) June 12, 2024
CGW:動画生成AIで素材をつくる面白みはどんなところにありますか?
フコウエ:やっぱり、想像していなかったアニメーションが生まれること、意図しない新たな選択肢、演出アイデアが得られることでしょうね。例えばこのカット。
宙に浮いているメインキャラの画像を入力しただけで、その他プロンプトで具体的な指示を加えずに出力したら、こんなシュールなアニメーションが出力されたんです。想定していた動きではなかったですが、「イイ!」と感じて採用しました(笑)。
CGW:画像入力だけでこれが出てきたのですか。驚きますね。
フコウエ:ここが面白さと同時に難しさでもあります。火や水といったエフェクト、流体表現などは特にそうですが、オリジナル画像に予想外の動きや変化を加えてくるのが生成AI。現段階では、出力の制御には限界があるので、良い方向に出たショットを採用するということになります。
CGW:ちなみに、本作の制作環境は?
フコウエ:CPUはインテルCore i9、メモリは128GB、GPUはNVIDIA GeForce RTX 4090です。AIの出力にはGPUメモリが非常に重要です。本作も制作においてはRTX 4090で十分対応できました。ただ、3D Gaussian Splattingのような技術を使用する場合には、さらに大容量のGPUメモリが必要になるため、RTX 6000 Adaのような更にハイスペックなGPUが欲しくなり始めています(笑)。
生成AIが出力した画像・動画はあくまで“素材”
CGW:現時点で、動画生成AIにかけて出てくる映像をどう評価していますか?
フコウエ:そうですね、AIで生成したものはあくまで映像素材、というのが現状です。被写界深度、キャラクターの髪色、服装の色味などが、生成した映像素材ごとにバラバラなので、地道に編集する必要があります。
CGW:なるほど。After Effectsでの調整が欠かせないと。
フコウエ:はい。それと、大多数の人が感じる“AIっぽさ”についてですが、これは実写映像にあるカメラの揺れ、自然なブラー、ノイズなどが、生成AIの動画にはない場合が多いからかもしれません。それっぽい映像を生成するところまでは簡単になりましたが、素材のクオリティを高めるためにはまだまだクリエイターの手が必要です。だから現状、動画生成AIが映像制作の完全な代替にはならないだろうとは思っています。
CGW:実際、After Effectsではどういった部分に手を入れてクオリティを高めたのでしょうか。
フコウエ:いくつか紹介しますね。
CGW:なるほど。ひとつひとつを見て、クリエイティブとして重要な演出が加えられていることがわかりました。
フコウエ:そうですね。作品を通して届けたい意図を忠実に表現するには、やはり人の手が欠かせません。広告にしろ、俳優による繊細な演技にしろ、CGによる演出にしろ、「この表現が人にどんな印象を与えるか」を考えて、それを実現するのがクリエイター。今回の作品を振り返っても、自分が使った能力配分は「映像作家としての観点・技術:AIスキル=7:3」といったところです。
CGW:AIは3割程度で、やはりクリエイターの目とスキルが重要、と。
フコウエ:はい。例えば、今、画像生成AIが描いたイラストも話題になっていますが、本職のイラストレーターさんから見たら、気になるところがいっぱいあると思うんですよ(笑)。
CGW:確かに。プロだからこそ気付く違和感がありそうです。
フコウエ:そう。だから実は、今回の作品を発表した意図のひとつは、映像作家の皆さんに「今、AIこれだけすごくなってます!」と伝えたかったからです。映像制作の技術がある人は、AIを活用することで表現に掛け算ができます。ディレクター職やエディター職のクリエイターが動画生成AIを使い出したらすごいことになりそうです(笑)。
CGW:フコウエさんご自身がまさにそうされていますよね。
フコウエ:この作例のように、ニッチで新しいもの同士を掛け合わせると、新しくて面白いことができちゃいます。
LEXUS LC Convertible × 3D Gaussian Splatting
— Arata Fukoe (@Arata_Fukoe) April 25, 2024
3DGSならではの新しい縦動画の見せ方
GoProのフッテージから空間を生成しました。
音源もAIで生成しています。#postshot #sunoai @jawset pic.twitter.com/4stuLJKcC4
動画生成AIの課題は解像度と画質
CGW:動画生成AI全体を見渡して、今の課題は何でしょうか?
フコウエ:やはり「画質」が課題ですね。ほとんどのAIは720p、つまりHDの最低解像度(1280×720)ですから、DVD画質(720×480)よりは高い解像度ではありますが、現在の映像作品の基準であるフルHD(1920×1080)から4K(3840×2160)と比較すると、まだ粗く感じます。今のところアップスケーリングツールで何とか品質を担保していますが、限界はあります。4K出力が可能になる日が待ち遠しいですね。
CGW:最後に、動画生成AIに興味を持った人に一言お願いします。
フコウエ: 映像制作をこれから始めたいという方は、最初はスマホにCapCutをインストールして動画を繋げることから始めれば良いと思います。自分もiMovieやWindows標準のビデオエディターで映像編集を始めたんです。少しずつ作品をつくっていれば、自然と「こうしたいけどどうしよう?」と考えるようになって、腕が上がっていくはずです。結局は人の技術が重要になってくるので、高いスキルを有したクリエイターの方々が、AIを活用することで、どんな新しい表現が生まれるのか楽しみにしています。
CGW:ありがとうございます。これからも新技術を活用したフコウエさんの作品、ウォッチさせていただきます!
TEXT__kagaya(ハリんち)
INTERVIEW&EDIT_中川裕介(CGWORLD)/Yusuke Nakagawa