2023818日、TOOBOEのデジタルシングル『天晴れ乾杯』のMVTOOBOE 公式YouTubeチャンネルにて公開された。このMVの制作にはAI画像生成ツールStable Diffusionが用いられた。

今回は『天晴れ乾杯』のMVを制作した株式会社Helixes(ヘリクシーズ)の映像事業部maxilla(マキシラ)のディレクター松野 貴仁氏、プロデューサーの矢吹 剛氏、そしてクリエイティブユニットiaiaia(イアイアイア)の九鬼 慧太氏に、khakiの横原氏とCGWORLDで共同インタビューを実施して、AIの活用法や生成AI時代のクリエイターの心得などを伺った。

記事の目次

    AIアニメによって人間臭さを際立たせる

    『天晴れ乾杯』 / TOOBOE

    CGW:まずはTOOBOEさんのMVを制作するに至った経緯について教えて頂きたいです。

    松野 貴仁氏(以下、松野):Helixesはいくつか事業を手がけておりまして、アパレルブランドのブランディングやVTuber事業、広告やミュージックビデオの制作に関しては昔から行っています。こうした実績が評価されてTOOBOEチームからお声がけ頂き、今回の案件につながりました。

    CGW:今回のMVのコンセプトは、日本のアニメ史的な文脈、「人生」と「敗北」、「自意識」や「人間らしさ」だということですが、こうしたコンセプトをAIを活用してどのように表現されたのでしょうか。

    松野:TOOBOEチームから案件のお話を頂いた時は、生成AIがめまぐるしく発展していると報じるニュースが多かったタイミングでした。そんな時にオルタナティブで人間を皮肉ったような歌詞が印象的な『天晴れ乾杯』のお話がきて、これはAIを使うことに意味があると思いました。今回の楽曲の歌詞は人間臭さが印象的だったので、そこであえてAIによる表現をぶつけるとメタ的な演出になるのでは、と考えたのです。

    楽曲から感じたのは、「現代のシステマチックな思考、価値観」と「人間らしい感情」という対立構造で生じる“心の揺らぎ”、“虚しさ”のようなものでした。この“心の揺らぎ”、“虚しさ”を、「AI」と「クラフト」という2つの手法を用いて制作することで表現できるのではないかと考えました。手法としてAIをベースに制作することで逆に「人間らしさ」が浮き彫りになるよう設計し、視聴者に「自分にとって本当に大切なものは何か」を問題提起するアウトプットを目指しました。

    矢吹剛氏(以下、矢吹):この発想に基づき、AIで生成したアニメーションをメインに、サビは80、90年代を感じるようなファンシーなイラストという構成にしました。イラストは、米子ガイナックスの赤井孝美さんに協力していただました。

    米子ガイナックスの赤井孝美氏監修のサビ部分のイラスト

    松野:また、時間軸という観点で言えば、あえて短尺のサビ部分を「クラフト」なイラスト、長尺のその他の部分を「AI」アニメとすることで、視聴者が「クラフト」なイラストからではなくむしろ「AI」で表現されたパートから人間らしいリアリティを感じるというような逆接的な設計にしています。

    制作とR&Dの同時進行で模索した「2023年ならではのAI表現」

    CGW:MVのコンセプトが決定した後、どのように制作を進められたのでしょうか?

    松野:MV制作のお話を頂いた後の3月末に企画書を作成しました。TOOBOEチームに今回の企画を説明した際、賛同のリアクションを頂いて盛り上がったこともあり、最初から制作とR&Dを同時進行させるワークフローにしました。

    本作のワークフロー

    上記のワークフロー図は、上が制作部で下がR&D部のワークフローになります。R&Dで画像生成に関するテストを続けてもらっているあいだ、制作部はキャラクターデザインを固めたり、AIの入力情報として使う実写映像の撮影を進めたりしました。

    CGW:制作とR&Dの同時進行ということは、最終的なアウトプットはかなり未知な状態でのスタートだったのではないでしょうか?

    松野:オリジナルのキャラクターを作りながら、画像生成AIの可能性を模索する同時進行こそが、今回の制作でいちばん意義深いところだったと思っています。同時進行するにあたり、R&Dチームと週次でミーティングを行いました。最新の知見をこまめに共有しながら、最終的なアウトプットのイメージ、制作の進め方を協議し進めていきました。

    横原 大和氏(以下、横原):案件が始まった2023年3月頃だと、AIを活用したMVが海外を含めてほとんど公開されていなかったので、R&Dが大変だったのではないですか。

    九鬼 慧太(以下、九鬼):その頃は本当に毎週新しい手法が出てきて、その手法の組み合わせを考えると無限の可能性があるように感じました。週次の定例では、新たに出てきた技術の検証なども挟みつつゴールに向かってその時の最善の判断を重ねていきました。

    矢吹:TOOBOEチームとミーティングするなかで、2023年の今だからこそ出来るAI表現をやりましょうという方針になりました。企画提案時では、表現揺れが完全に解決できる手段はかなり少なく、逆にそこを活かした表現を考えることを視野に入れていました。

    CGW:R&Dをする過程で苦労したところや課題と思われたところにはどんなことがありますか。

    九鬼:今回の案件で特殊だったのは、キャラクター設定に加えて実写撮影映像も提供されたところです。撮影映像があることで、出力をチューニングする際にソフトウェア部分で解決するか、それとも撮影時に解決してもらうかという選択ができるのです。この選択によって制作時間とコストが変わってくるので、解決策を選ぶのが難しかったです。

    本作のメイキング映像

    撮影映像に近くなるように出力すると映像としてはフレーム間の一貫性が保たれて滑らかな映像になりますが、フィルターをかけただけのような映像となってAIを使う意味が薄まると感じました。反対にキャラクター設定に寄せるとAIの出力に幅が出てくるので、映像の統一感が薄まるリスクがあります。実写映像とキャラクター設定のどちらに寄せるかという話が頻繁に出てきたところも大変でした。

    矢吹:何度も試行錯誤していると突然、面白画像が出力されることもあったんですよ。画像全部が島耕作風の絵柄だったりして(笑)。

    横原:そういう偶然生成される面白い画像はありますよね。でもいざその画像に似た画像を再度出力させようとしても、難しいんですよね。AIの出力の偶然性は、新たな表現につながることもあれば、同時にチューニングの難しさも生んでいるという状態ですね。

    松野:R&Dと制作の同時進行を最大限突き詰めた結果、最終のコンポジットに充てられる時間は4日しかありませんでした(笑)。

    矢吹:しびれるスケジュール感でしたね(笑)。

    表現の幅と著作権に配慮した学習データ

    横原:LoRA (※1)によるキャラクター学習は、キャラクターシートのみを利用されたのですか。

    松野:キャラクターシートはべーシックと追加分を発注しまして、ベーシックではアングルや表情を変えた設定を34枚、追加分を17枚書いていただき、左右反転させる形で倍の34枚を学習に使用しました。

    (※1)LoRA(Low-Rank Adaptation)とは、画像生成AIを追加画像によって訓練することで、意図した画像を生成できるようにする手法。この手法には、画像生成AI開発時に使われるような大量の画像を必要としないと長所がある。

    キャラクターシート①

    キャラクターシート②

    九鬼:キャラクターシートで重要なのは枚数よりバリエーションでして、顔の角度などを変えて用意してもらいました。例えば顔の角度違いだけで5種類ありました。設定資料としては、様々な設定の絵があることが望ましいです。例えば、顔の正面絵が50枚あるよりも、ポーズや背景が異なる20枚の絵がある方が、キャラクターの一貫性や表現の柔軟性が出てきます。

    キャラクターシート発注資料。AIの出力特性を鑑み、学習用に様々な設定、アングルを想定したキャラクターシートを用意





    横原:画像生成に使ったベースのモデルは、どのように選んだのですか。

    矢吹:商用利用できるかどうかを第一に考えました。AIモデルの商用利用については、弊社の法律顧問と協議しながら規約を読み込みました。様々なモデルの規約を読み込んでいく中で「規約Aと規約Bが矛盾している.....」なんてモデルもありましたが、最終的には法的に差し障りがないように逐一精査した上で単一のモデルを選択するに至りました。

    また、独自のキャラクターシートと実写映像を学習データとして用意したのは前述したようにもちろん表現としての意味もあるのですが、意図しない著作権侵害の発生を防ぐという目的も兼ねています。

    変わらないクリエイターの在り方と変わりゆく生成AI

    CGW:AIを活用するうえで、クリエイターはどのようなスタンスでいればベストだと考えていますか。

    松野:AIツールが進化しても、クリエイターの在り方はさほど変わらないと思います。というのも、クリエイターには何かを素晴らしいと感じる“観点”があって、その観点から生まれた“発想”が作品の核となる部分を構築していると考えているからです。何にどんなニュアンスを感じるのかという“観点”と、その集積から生まれる“発想”はAIで代替可能なものではないと考えています。AIは、あくまで“発想”を具現化するツールのひとつだと捉えています。

    なのでAIツールを使う場合は、ただそのまま初期設定で使うのではなく、自分の目的やスタイルに合わせてチューニングしていくことが大切だと思います。作品の核であるクリエイターの“発想”を表現するために、AIをどのように使用するのがより適切なのか試行錯誤を続けていけば新たな表現が生まれていくと考えています。

    CGW:AIを活用したからこそ可能となるような「AI表現の面白さ」には、どのようなものがあるでしょうか。

    九鬼:AI表現の面白さは、AI作品を発表した時期によって「AIっぽさ」が変化することですね。この変化の速さこそが面白みだと思います。あとは、ツールとして表現できる幅が広いことですね。設定を微調整することが可能なので、偶然性はもちろん残りますが、カスタマイズ性も一定担保されています。今回のMVでこだわった、揺らぎを残しつつ画としての一貫性を保つ表現ができたのも、この表現の幅の広さ、AI独特のカスタマイズ性と偶然性のバランスによって成立したと考えています。

    松野:いろいろな技法を混ぜ合わせられるのも、AI活用の面白いところですね。自分が考えるクリエイティビティに沿って、この部分ではこのツールを使って、別の部分ではこのツールを使う、もしくはこのツールで出力した後に、このツールを....というように組み立てられれば、発展性もあるし表現の幅も広がると思います。

    九鬼:AIツールの入出力フォーマットの柔軟性に魅力を感じました。入力はテキストにも実写画像にもアウトライン画像にもできるので、ツール同士の連携が簡単です。生成が速いことも相まって、松野さんがおっしゃったような技法の組み合わせ実験の試行回数を重ねることができました。

    CGW:現在、気になっていたり、使ってみたいと思っているAIツールはありますか。

    松野Wonder Studioを掘り下げています。横原さんがTwitter(現在はX)で紹介していたSimulonも気になっています。現在はVTuberのように自分で色々な表現に挑戦したい人が増えていますが、設備やツールの費用はまだまだ高く感じます。そこでAIのちからを借りれば、もっと手軽に表現できるようになると思います。

    九鬼:最近ではDALL-E 3のようなテキストと画像のより高度な連携がすごく気になっています。NeRFGaussian Splatting のような三次元復元技術にも興味があります。これらの技術は既存の3DCG技術と接続しやすいので、これらを使って新しい表現ができるのではないかと思っています。

    横原:今回AIを活用してMVを制作したことで、今後のAI活用に関する展望のようなものは考えましたか。

    九鬼:AIの進化は速いので、同じ素材と最新AI技術を使って毎年何かを作ってみたら、その変化を感じられそうで面白そうですね。

    松野:AI活用の定点観測的に今回のMVみたいなものをシリーズ化するのはいいですね。

    矢吹:プロデューサー目線で言えば、AIが活用されていくことで制作のワークフローは今後変わってくると思います。企画の初期段階で考えたコンセプト、つまり思い描いた理想により近い、粒度の高い表現ができるようになるのではないかと期待しています。

    CGW:なるほど。本日はありがとうございました。

    TEXT_吉本幸記
    EDIT_中川裕介(CGWORLD)