2023年10月14日、映画『サーチライト〜遊星散歩〜』の主題歌として書き下ろされた楽曲『アムネシア』のMVがYouTubeで公開された。このMVの制作には、動画生成AIGen-2とChatGPTが使われている。
今回は『アムネシア』のMVを制作した合田口洸氏と長池志文氏にインタビューを実施し、Gen-2活用時におけるプロンプトの生成方法や、生成AI時代における「AIディレクション」のあり方などを伺った。
AIへの興味からはじまったMV制作
CGWORLD(以下、「CGW」):まずは2人のそれぞれの自己紹介からよろしくお願いします。はじめに合田口さんからお願いします。
合田口洸氏(以下、合田口):大学生の頃に音楽活動を始めて、その後音楽から一度離れたタイミングで映像制作を始め、その後にまた音楽活動を再開しました。ですので、今は映像クリエイター兼アーティストというかたちで活動しています。
CGW:ありがとうございます。つぎに長池さんお願いします。
長池志文氏(以下、長池):ぼくは大学を卒業してからIMAGICAの品川プロダクションセンターで、フジテレビの番組の編集をしていました。それを5年くらいやっていて使っていたのはAvidが基本だったのですが、友人の結婚式のビデオを作ったりする中でPremireProやAfterEffectsを覚えました。現在は、エルロイに所属しています。
CGW:お二人でAIを使ってMVを作ることになった経緯を教えてください。
長池:合田口さんがAIに関して造詣が深いのは以前から知っていました。私も、Gen-2をさわってみたら面白くて、これでMVを作れるのではないか!?と思い、合田口さんに相談したら「ぜひやりましょう!」と言ってくれました。
合田口:ぼくはプロデューサー的な立ち位置で、制作全般は長池さんにおまかせすることにしました。
CGW:映像やクリエイティブに関わるAI領域の情報収集はどのようにしていますか。
長池:基本的にはX(旧Twitter)で情報を追いかけています。タイムラインで伊藤園のCMやパルコの広告を目にした時は驚きましたね。
合田口:ぼくはChatGPT研究所というメディアのnoteを見ています。Xですとチャエンさん、深津さん、Tsubame さん、アクセラレータさんを追いかけています。あとは落合陽一さんのNewsPicksも見ています。
Gen-2に入力するプロンプトはロールを設定したChatGPTで生成
CGW:MVの制作過程について教えてください。
長池:まずはプロンプトや歌詞をGen-2に入力してみて、生成結果を検証することから始めました。この段階では出力の統一性は考えていなかったのですが、それぞれのクオリティーをみて出力される4秒ずつの動画をつなげればMVを作ることができるという手応えを得ましたね。
Gen-2は、ボタンを押せば動画が生成されますが、生成するためのアイデアが必要になります。
Gen-2は、①プロンプトのみ(TEXT)、②画像のみ(IMAGE)、③プロンプト+画像(IMAGE+DESCRIPTION)、この三つの入力方法いずれかを使用し動画を生成することができます。
長池:②、③の、画像を使用する方法を用いて生成する場合は、StockFootageやArtlistのようなアリネガを使って検証しました。結果①〜③の生成方法で、出力にかなり違いが生まれることを理解しました。
次に、MV全体の構成、ストーリー決めを行いました。最初は歌詞をプロンプト化したものを入力しようと考えていましたが、合田口さんから歌詞とは別に小説(合田口洸『パラレルワールドアムネシア』)のようなものもあると聞いたので、それを使うことにしました。
CGW:歌詞の元になった物語を軸に制作したということですか。
長池:そうです。その物語のおかげで全体のストーリーや、曲が伝えたいことをつかむことができたので、そこから必要なカットを算出しました。
カット作りを始めた当初は、②、③の画像から動画を生成する方法を使用していたのですが、いい画像を入力しても、なかなかいいアニメーションをつけてくれず.....そこで①テキストのみ(TEXT)入力する方法に変更しました。
ChatGPTで生成したプロンプトで動画を作ってみて面白かったのは、Gen-2が良い意味で期待を裏切ってくれるところでした。プロンプトで指示していないのに、(Gen-2が)かわいいキャラクターを生成したりするんですよ。
制作終盤の時期には、かなり長いプロンプトも入力していました。例えば、聖母マリアのカットのプロンプトの生成には、ChatGPTを使用しました。こうしたプロンプトは長めの日本語の文章を考えてから、その文章をChatGPTで英語に翻訳することで作りました。
翻訳にはChatGPTに「言語学エキスパート君」というロール(role:「役割」という意味の英単語)を演じてもらい、美しい英語を出力してもらうように設定しました。正確には分かりませんが、プロンプトが長いほうが、重厚な動画が生成される印象を持ちました。
合田口:プロンプトから動画を生成している時、ぼくは『新約聖書』の「はじめに言葉があった」という一節を思い出しましたね。
CGW:ChatGPTの使い方についてもう少し詳しく教えて頂けますか。
合田口:先ほども話したように、プロンプトを日本語から英語に翻訳する時に言語学エキスパート君というロールを与えたChatGPTを使っていました。このロールについては
「あなたの英語と日本語の教師で、どちらの言語に対しても深い理解を持っており、どちらの言語においても大学教授として言語学の教鞭をふるっている人物です。これから日本語で文章を送るのでその文章を英語に変換して、英語の文章として自然であり、文章としてしっかり意味が通るものでありながら使う単語や文脈においては論文や言語として美しい単語を使用して文章として翻訳し直してください。」
という指示をChatGPTに与えていました。言語学エキスパート君のほかにも、自然な英語に翻訳する「自然言語君」や大学生レベルの英語力で翻訳するものや、さらには小学校低学年レベルの英語力の「小学生君」といったロールを用意していました。
長池:翻訳されるプロンプトが違うと、生成結果が違ってきます。小学生君が作ったプロンプトがいい時もあれば、言語学エキスパート君のほうがいい時もあります。
合田口:あとは「100年後を生きる祖母」というロールを与えて、ChatGPTと会話しました。この時は、ChatGPTに「この世界の始まりから終わりまでの物語を読んで私を寝かしつけてくれた、亡き祖母のように振る舞ってください」という指示をしました。
合田口:ほかにも「哲学において現代人が今だからこそ大事にする必要のある概念を10個教えてください」という質問もしました。さらには「ストーリーテリングの専門家でこの地球における世界一に近い知識を持つ小説家」というロールを与えて、物語の作り方について質問したりもしました。
1回の生成で4秒、最大16秒まで生成可能。制作費は5,000円
CGW:Gen-2は具体的にどのように使用されたのですか?
長池:動画に虹を入れたい時は「rainbow」という単語を入れたり、幻想的なものを生成したい時は「phantasmagorical(「変幻自在な」の意味の英単語)」を使ったりしました。他にも、「paracosm(「子供が考えたような」の意味の英単語)」というものもプロンプトに使いました。
Instagramで海外のアーティストの作品を調べて、その作品で使われていたプロンプトも参考にしました。完成したMVに統一感があるのは、こういった言葉を必ずプロンプトに入れていたからだと思います。
長池:Gen-2はプロンプトを入力すると4つの動画のファーストカットが表示されて、そのうちの1つを選ぶと実際に動画生成が始まってクレジットが消費されるという仕組みになっています。
ある時モンスターのカットが表示されて、このモンスターが口を開けてくれたらいいなぁ、と思いながらそれを選びました。するとかなり理想に近い口を開けた動画が生成されたので、最高でした(笑)。
長池:通常の生成では1クレジットで4秒の動画が出力されるのですが、なかには動きが大きいものも生成されて、この船のカットは動きが良かったので、さらに1クレジット消費して8秒にエクステンドしました。使ったクレジットの総額は約5,000円でした。ファーストカットの段階で生成しない判断もできるので、意外とクレジットは減りませんでした。
CGW:カットをたくさん生成されたとのことですが、それらを歌詞に合わせて並べるのはあまり悩まれずにスムーズにできたのですか。
長池:歌詞、もしくは歌詞の元となった物語を軸に制作しているので、迷いは少なかったですね。足りないカットがあった場合も、そのカットを生成すればいいので。
難しかったのは、歌詞のない間奏でした。間奏のカットでは合田口さんにアイデアを頂いて、メビウスの輪を参考に生成しました。
CGW:今までのお話をまとめると、歌詞やそれの元になった物語にある言葉からプロンプトを作り、そのプロンプトから動画を生成するという流れを繰り返していったというわけですか。
長池:そうです。例えばストーリー的にはこのカットは春だから蝶々(の動画)を入れたり、夏のパートではひまわりを入れたりしていました。ストーリーが1つあると、とてもやりやすかったです。
CGW:今回のMVは、最終的にどのくらい制作に時間がかかりましたか?
長池:制作期間としては3ヶ月くらいですが、実働時間で考えると2週間くらいになると思います。今回のMVを実写撮影で制作するのは難しいですし、CGで制作する場合を考慮しても、レンダリング時間や制作コストを鑑みると、かなりのコストがかかるはずです。
しかしGen-2のおかげで、本来かなりの工数をかけて制作する必要があるカットも容易に制作できましたし、課金額も5,000円ほどで済んだので、画のクオリティ的にも、コスト的にも満足のいく結果になりました。
AIが進化しても制作経験の積み重ねが重要
CGW:今回の制作を通して、AIを活用し映像制作する際に求められる力はどんな力だと感じましたか。
合田口:生成AI時代では、何かを選択することが自身の本質を見つめ直すことにつながり、ひいてはディレクション能力になると思います。現在は、何を選択するのかが非常に重要になってくる時代だと捉えています。
長池:素材を無限に生み出せるようなイメージが近いのかもしれません。今回の制作の中でも、動画を生成した後「この部分は使いたいけれども、レイアウトが悪いなぁ.....」という時は、その動画から使いたい部分だけを抽出して理想の画になるように再編集するというようなことをしました。
CGW:では、そのディレクション能力はどのようにして養われると思いますか。
合田口:私は、自分の思想を持つことが大事だと思っています。毎日ぼんやり生きていたら、結局自分が何を求めているのかわからなくなる。この選択が正解だと自分で決めるには、誰かの意見に流されたり、社会で正とされているものにただ従っていればいいというわけではないと考えています。自分の信念みたいなものがあってはじめて決断できると思います。
長池:私は、結局経験を積み重ねるしかないと考えています。エディターをしていて、ある時は良いものには共通項がある!と感じたり、そう感じていても自分が良いと思っていたものが評価されなかったり、逆にあまり評価していなかったものが評価されたり.....ということを経験してきました。
このような経験の蓄積を経て得た学びがあるから、目的にそった手段、演出を逆算できるようになったと考えています。
CGW:経験を通じて、良し悪しを判断できる自分の評価軸を醸成するというわけですね。
長池:そうですね、結局は作り続けるしかないというか(笑)。やはり色んなものを作るべきだと思います。作った結果、なぜうまくいったのか?逆になぜうまくいかなかったのか?その考える過程で、筋トレのようにディレクションする力が養われて行くのだと思います。
CGW:ありがとうございました。
TEXT_吉本幸記 / Kouki Yoshimoto
PHOTO_弘田充
EDIT_中川裕介(CGWORLD)