近年、クリエイティブ関連の生成AI、とりわけ画像生成の領域は「驚きの新技術」から「業務を変革する実用品」へ急速に立場を変えつつあります。
OpenAIは2025年3月、GPT-4oにネイティブな画像生成機能を組み込み、ユーザは単一のチャットスレッド上でテキスト→画像→差分修正を対話的に行えるようになりました。このGPTの画像生成の驚くべきポイントは、従来先進的と言われていたMidjourneyすら不可能だった「文字」の生成を高精度で実現することができたことです。これにより、今までは『素材』として利用することが限界だと思われていた生成AIが、『完成物』として利用できる可能性が見えてきました。
一方、動画領域も目を見張るようなクオリティを実現しています。Google DeepMindが発表したVeoは最長60秒の動画をテキスト入力のみで生成し、複雑なカメラワークや被写界深度表現にも対応しました。その後のアップデートで効果音とダイアログの自動付与も可能となり、主にSNS広告などで利用されるような短尺動画の試作速度は桁違いに向上いたしました。映像のクオリティで言えば、ByteDance系のSeedance 1.0は10秒の複数シーンで構成された動画を短時間で生成することができ、プロンプト追従精度の高さもさることながら、人物のリアリティについては他のモデルを圧倒していると言えそうです。既存静止画をそのまま動かすだけのクリエイティブであればRunwayも負けていません。
これらのトレンドを受けて、国内の導入動向も加速しています。IT専門調査会社 IDC Japan 株式会社の調査レポートによれば、国内生成AIサービス市場は2024年に1,016億円へ達していると言われています(出典:https://my.idc.com/getdoc.jsp?containerId=prJPJ52722724)。実際に、Web広告を見る中で生成AIを利用したと思しき広告を目にする機会は増えてきました。近年のクリエイティブ生成のクオリティを鑑みるに、気づいてすらいないケースもありそうです。また、株式会社伊藤園のテレビコマーシャルで使われたAIモデルを皮切りに、トヨタ自動車株式会社は全編フルで生成AIによって作成されたコマーシャルを放映するなど、今までは大手広告代理店や映像制作会社の選ばれたプロフェッショナルの仕事と思われていた領域においても徐々に生成AIの活用が進んできています。
このように、生成AIをクリエイティブ領域でも使っていこうという潮流は力強いですが、現場感覚としてはまだ実用性との距離を感じています。
第一に、生成モデルそれ自体の技術的限界が依然として大きいことが挙げられます。拡散モデルは高解像度かつ写実的な出力を実現したものの、企業が求める「ブランドカラーや指定フォントの完全厳守」にはまだ届いていません。実際、色コードを拘束変数として与えても誤差が残り、これを補正するために追加アルゴリズムを用いる研究(https://arxiv.org/abs/2404.06865)などが行われている状況です。さらに、テキストを含む画像の生成では文字形状の崩れやスペルミスは一定頻度で発生しています。こうした不整合をゼロにするには、現行モデルの改良だけでは足りず、最終工程での人手確認が必須です。また、1つのクリエイティブを生成する際にかかるコストを鑑みるに、今はまだ人手を元に実行したほうがコストパフォーマンスとして優れてしまう、というケースも多々あります。
第二に、商用運用のワークフローには法務・品質管理の壁が横たわっています。媒体ごとに異なる入稿規定や法令・業界ガイドラインを自動で満たすQC(Quality Control)システムはまだまだ未成熟です。TVCMやWeb広告には入稿時に比率やビットレート、音声など様々な入稿規定が存在します。「自動コンプライアンスチェック」を謳うサービスも出始めているものの、実務では誤検知・漏れ検知が混在するため担当者の目視確認が欠かせません。肖像権や著作権といった法的な論点においても、クリエイティブ生成の領域は未成熟であり、法的にユーザー企業が訴訟されるリスクが低いとはいえ、万が一誰かの著作物と似通ってしまった場合のレピュテーションリスクは避けられません。
第三に、戦略レイヤで必要となる人間の洞察は代替し難いことです。実際にペルソナを書いたりマーケットのニーズを分析したりといった領域においては生成AIを利用することで飛躍的にスピードが上がりました。しかし、その蓋然性を判断するにはトレンドや生活者目線が欠かせず、アイディア出しまではできても筋の良さを判断する審美眼はまだ利用するユーザーに委ねられているところです。
以上の通り、モデル精度、法務・QC、そして人間知という三つの要素が生成AIの業務適用への道を阻む主要因です。ゆえに現段階では、人が方針を示してガードレールを設計し、生成AIが大量案を提示し、その中から数値と直感の両面で選別・磨き上げる――いわゆる『Human-in-the-Loop』こそが現実的な最適解といえます。
全面的にクリエイティブを完成させるところに至るには依然として高い壁があるとはいえ、工程での適用箇所を正しく見極め、生成AIを部分的に挿し込むだけで制作速度と検証サイクルは劇的に短縮されます。
まずは先述の通り静止画バナーの『素材』生成です。商品画像の生成はまだ難しいとはいえ、商品を持っている人物モデルや背景素材、イメージ画像などの領域では十分に活用できるレベルに至っています。BtoBの広告のように素材画像をあまり求めないものであれば、十二分に完成物で利用できる状況です。続いて、『コピーライティング』の領域です。きちんと前段のコミュニケーション設計を情報として与えたうえで、ありきたりなコピーを防ぐようなプロンプトエンジニアリングが一定程度は求められますが、それさえクリアしてしまえばアイディア出しとしてはこれ以上ないサポーターになってくれます。残るトンマナや全体のレイアウトの領域は人手が求められる領域ではありますが、JAPAN AIではこの領域すら生成AIで解消するべく、広告代理店など複数社とPoCを進めており、一定の見込みが立ち始めている状況です。
また、動画広告においては全体のシナリオ構成も忘れてはいけないポイントです。特に長尺の動画を用いた広告であれば、従来はTVショッピングなどの経験を持つ一部のライターのみがストーリーを描ける専門領域でした。しかし、シナリオ構成には一定のパターンが存在しているので、このパターンを決めてしまえばあとは商品ごとの特性を当てはめていくだけで動画広告のシナリオは完成してしまいます。
このように「生成AIはスピードとバリエーションの爆発的拡張を担い、人間は選定と磨き上げに集中する」という役割分担ができている企業であれば、すでに商業広告の現場で効果を上げているという事実は存在しています。制作チームがHuman-in-the-Loopを意識的に設計しさえすれば、AIはアシスタントを超えてターボチャージャーとして機能し、テスト学習サイクルを桁違いに速めます。全面自動化が遠いからこそ、この「部分自動化の爆速利得」を取りに行く価値は大きいと言えるでしょう。
今後はスタイルに完全準拠する拡散モデルの研究が進み、色コードやフォントの逸脱は大きく減るでしょう。テキストと座標を同時に出力するレイアウト対応の言語モデルが登場すれば、バナー生成時のテキスト崩れの問題は解消に向かいます。保証付きの合成人物モデルが普及すれば被写体権リスクも抑えられ、画像とテキストを統合的に解析して媒体規定や NG ワードを自動検知する QC(品質管理)モデルが実用化されれば、入稿前チェックさえも自動化の射程に入ります。今の生成AIの進歩を鑑みるに、これらは決して遠い未来ではないと言えそうです。一方で、人間の欲求や行動をハックしたようなクリエイティブが広告として世の中に氾濫していく中で、社会インサイトに対する深い洞察を生み出すことやブランド戦略の舵取り、リスクの最終判断は人間の領分として残り続けるでしょう。
現時点の最適解は「Human-in-the-Loop」です。まず人間がブリーフとガードレールを設計し、その後 AI に大量案を出させます。数値指標で勝ち筋を素早く見極め、最良案だけを人間が磨き上げる。この循環を高速に回すことで、AI の強みである量産力と人間の強みである洞察力の両方を最大化できます。