エイベックスはAIサービスを利用したライブ来場者分析システムの実験を2017年秋から開始。ノリノリでタオルを振り回すライブ客が「真顔」であるなど意外な発見があった。

ライブで検出される顔のイメージ(加工しています)。検出できる感情は「喜び(笑顔)」「驚き」「悲しみ」「怒り」「嫌悪感」「軽蔑」「恐れ」「中立」の8つ。大量の静止画から顔の領域を切り取り、感情をAIで検出している。大人数の顔を検出できるよう技術検証を重ねてきた(出所:エイベックス)
ライブで検出される顔のイメージ(加工しています)。検出できる感情は「喜び(笑顔)」「驚き」「悲しみ」「怒り」「嫌悪感」「軽蔑」「恐れ」「中立」の8つ。大量の静止画から顔の領域を切り取り、感情をAIで検出している。大人数の顔を検出できるよう技術検証を重ねてきた(出所:エイベックス)
[画像のクリックで拡大表示]

 激しいビートに合わせてノリノリでタオルを振り回すライブ客。だがその表情をマーケティングカメラで捉えると、多くの人が「真顔」のままだった……。

 エイベックスは、米マイクロソフトのAI(人工知能)サービス「Microsoft Cognitive Services」を利用したライブ来場者分析システムの実証実験を2017年秋から続けている。ライブ会場に設置したカメラで来場者の顔を認識して属性(年代、性別)を把握。さらにその表情から感情もリアルタイムに判別し、数値化してライブの“効果”を調べている。

 エイベックスグループ戦略室マーケティング・アナリティクスユニットの山田真一氏は、「精度の高いデータが取れつつある」と話す。このシステムでライブ効果を測定したデータやノウハウを蓄積し、ライブ演奏の曲順や演出などを変更することで、よりライブを楽しんでもらえるようにする計画だ。

意図と違う反応に改善のヒント

 ライブのセットリスト(楽曲のラインアップ)には楽曲のイメージを基に、「ここはアップテンポな曲で盛り上げよう」「ここはバラードで静かに」など作り手の意図が込められている。ところが冒頭で紹介したように、その意図と来場者の反応とは必ずしも一致しない。

あるライブにおける来場者の感情の推移(笑顔、悲しみ、驚きにフォーカスした)。18:35から18:36にかけて「笑顔」が急減し「悲しみ」の方が上回った。このときは「次は最後の曲」と伝えた瞬間に当たる(出所:同)
あるライブにおける来場者の感情の推移(笑顔、悲しみ、驚きにフォーカスした)。18:35から18:36にかけて「笑顔」が急減し「悲しみ」の方が上回った。このときは「次は最後の曲」と伝えた瞬間に当たる(出所:同)
[画像のクリックで拡大表示]

 盛り上がってほしい曲のときに検出した表情が「真顔(中立)」だとすれば、もしかするとタオルを振り回す行為は観客にとってさほど楽しくないのではないか。義務になっているのではないか。そんな仮説が浮かぶ。そのような場合は別の曲に切り替えるなど、データに基づいた改善が可能になる。

 人間の顔をカメラで写して、その表情をデータ分析する取り組みは、動画広告などデジタルマーケティング分野での活用が先行している。動画広告をYouTubeなどで実際に配信する前にモニターに見せて、その表情から「感情の変化」を推測。例えば、強く感情を揺さぶるシーンを冒頭に持ってくることで、動画に対する関心を高めて完全視聴率(動画を最後まで視聴する割合)をアップするといった使い方だ。あるいは、動画に対する関心が強い人の属性(年齢や性別など)を調べて、その層にのみ動画広告を配信することも可能になっている。こうしたマーケティング活用が業種を問わずに広がりつつある。

 実はエイベックスも、ライブだけではなく映画でも昨年10月、同様の実験をしている。その結果、映画の方がシーンごとに「驚き」や「笑い」など目まぐるしく感情が変わることが分かった。このデータを活用すれば、例えば撮影済みのシーンとシーンの順番を見直すなど、編集制作の段階で活用することができそうだ。

現場での画像取得に試行錯誤

 エイベックスが今、注力しているのは主に技術的な検証である。中でもカメラの選定が難しいという。ライブ会場で照明が暗転しても安定的に表情を検出する必要がある。画角が狭いと数十人しか撮影できないため、画角が大きいカメラに変えた。今は数百人ほどを撮れるようになった。画質も最初はHDだったが、それを4Kに変えて、多くの機種で試している。

 もう1つの難題は設置場所だ。カメラは観客の顔を撮影するため、ステージから客席に向かって設置する。カメラ2台を左右のステージ脇に設置することが多いが、スピーカーに載せて“悪目立ち”してしまうこともあった。大きな会場ではカメラを吊るすこともあるが、それだと観客席が遠くなり検知ができない。さらにズームやパンを多用すると画像が粗くなるなどの細かな課題を試行錯誤しつつ検証しているところだ。

 仕組みはこうだ。カメラが撮影する静止画から、カメラとつなげられたPCが顔付近の領域を取り出し、MSの持つクラウド上に送る。ここでAIがリアルタイムで表情を検出する。「ある属性を持った来場客の感情」を把握するためには大量のサンプル数を必要とする。そのためにカメラの画角を大きくしたり、高画質にしたりという工夫を通してなるべく多くの人数を撮影できるようにするのが重要だ。

 米アマゾン ウェブ サービスや米グーグルが提供する画像検出ツールを使った検証も行ったが、優位性があると判断したMSを利用している。ただし「ツールにこだわらずその都度最適なパートナーと組んでいきたい」(山田氏)。

 会場とは別に出入口にも2台ほどカメラを設置して、物販の状況と購入者の属性を把握する試みも進めている。

 そもそもライブの興行主には、来場者の属性が詳細には分からなかった。チケットは1人で複数枚を購入する場合が多く、同伴者の属性までは把握できないからだ。

 「実際の来場者がそのライブの真のターゲットであり、アプローチすべき対象」(山田氏)。そのためデータ分析から例えば「30~40代の女性が多く、大いに楽しんでいる」と分かれば、ライブを案内する広告クリエイティブや出稿先のメディア選定の参考になる。

 山田氏は「今は数百人の規模のライブが対象だが、今後は数千人、1万人といった大規模なライブでも(データ分析に)チャレンジしたい」と意気込む。