状態空間モデルによる広告効果分析

はじめまして、データ分析部の今井です。

今回は私が普段行っている研究の一部を紹介したいと思います。

実店舗で販売されているような商品の売上データを分析する時には、曜日・天気・CM・キャンペーン・イベント等の様々な要因を考える必要があります。それらの売上の要因の分解ができなければ、広告によってどれだけ売上が上がったかを推定することは難しいです。しかし、時系列分析で有名なBox-Jenkins法では、売上の予測はできても売上の要因の分解ができません。従って、この手法を用いても広告効果の算出は困難です。また、欠損値があるとそのままでは適用できないことや、実データの分析においてはどれだけ階差をとっても定常状態の仮定をすることが難しいなどの問題もあります。

このような時系列データは(一般化)状態空間モデルや、より一般化した動的ベイジアンネットワークを用いることによって要因分解を行うことができます。今回は状態空間モデルを用いた分析を紹介します。

SSM

状態空間モデルでは、時間と共に変化をする直接観測できない「状態」から売上データが出てくると考えます。ここでいう直接観測できない「状態」とはCMや曜日などから売上への影響を指します。

実際に状態空間モデルを使って分析を行う場合にはどのような要因を入れるかを考えなければいけません。もし恣意的に要因を入れると、客観的ではなく恣意的な分析結果になります。モデルの予測値と実測値が近いという基準でモデルを選ぶと過学習が起きてしまいます。この場合、一般的に良いモデルが選択されるとは限らないので、正しい分析とはなりません。

一般的に良い統計モデルを選択するためには、情報量規準を用いてモデル選択を行います。よく知られているものではAICやBICというものがありますが、これは正則モデルと呼ばれる性質の良いモデルにしか使えない情報量規準です。状態空間モデルは一般的に特異モデルと呼ばれるもので、AICやBICのような情報量規準を使ってモデル選択をしても、良いモデルを選択するとは限りません。特異モデルにも使える情報量規準としてWAICとWBICがそれぞれ2010年、2013年に提案されています。従って、状態空間モデルのモデル選択においてはWAICかWBICを使ってモデル選択をします。また、何を「良い統計モデル」と考えるかでWAICとWBICの使い分けを行います。

実データによる状態空間モデルを用いた分析結果の一部を紹介します。これは某企業のある製品について、CMが売上に与えた影響の分析を行ったものです。

WAICによりモデル選択を行ったところ、1GRPあたりのCM効果(CMを出したことによる売上の増加分)が一定ではなく時間と共に変わっていくようなモデルが選択されました。そこでまず時間と共に変動するCM効果を推定し、そこから累積GRPと1GRPあたりのCM効果の関係を調べました。その関係をグラフ化したものが以下の図となります。

ad_effect

ここから分かることとして、CMを出し始めた頃はCMを出し続けることにより、1GRPあたりのCM効果は徐々に高くなっていきます。しかし、ある一定以上CMを出し続けると、そこから先は1GRPあたりのCM効果が低くなっていきます。この結果はロジャースのイノベーター理論からも妥当だと言えます。

具体的にどのような状態空間モデルが選択されたかやその他の分析結果につきましては、日本行動計量学会第42回大会で発表予定です。また、理論的な説明及びWBICを用いた分析結果につきましては2014年度統計関連学会連合大会にて発表予定です。もしこちらの内容に興味を持たれましたら、学会にお越しいただけると幸いです。


今井 徹

データ分析部 主任研究員。専門は時系列の統計的因果推論(応用先としては因果推論フレームに基づくMMMなど), Causal Discovery。統計数理研究所(総合研究大学院大学)で社会人ドクターもやっています。