ベイズ情報量規準及びその発展 ~概説編~

今井です。今回より数回にわたってベイズ情報量規準及びその発展について書きたいと思います。

情報量規準と聞くとAIC(Akaike, 1973)やBIC(Schwarz, 1978)が真っ先に思い浮かぶ人が多いかと思います。情報量規準を勉強したことのある人であれば、予測精度を上げるためにモデル選択をするのであればAIC、データが生成されている構造を知ろうとするのであればBICを用いるという使い分けをすることもご存知だと思います。以下ではベイズ情報量規準(BIC)に絞って説明をしていきます。

ベイズ情報量規準の目的である、予測ではなく妥当なモデルの構造を知りたい時とはどういった場合でしょうか。例えば、単なる売上の予測だけではなくMMM(Marketing Mix Modeling)を因果モデル化したモデルによる広告などの施策の効果を知りたい場合や、k-means法でクラスター分析をする時のkを決める時などが上げられます。

後者の方が簡単なので、後者から説明します。先日弊社で行われたデータサイエンティスト養成講座のクラスター分析の岩崎先生による基調講演の中で次のようなお話をされていました。下の3つの混合分布の内、一番右の分布であれば誰でも2つの分布から構成されていることが分かるが、統計を用いて真ん中、さらには一番左の分布も2つの分布から構成されていることが分かるかが問題になる、と。

GMM_distribution

前回のブログ記事でTDA(topological data analysis)でもこの混合数を推定できると説明しましたが、こういった微妙なケースではTDAで判別するのは難しそうです。ではこの問題を情報量規準を用いて解けるかを調べてみます。上記の真ん中の分布であるN(1,1)とN(-1,1)の1/2ずつのmixtureと、少し分布を近づけたN(0.85,1)とN(-0.85,1)の1/2ずつのmixtureが1,2,3つの分布のいくつから構成されているかを情報量規準によるモデル選択を用いて、2つの分布から構成されているということを当てられるかを見てみましょう。2つの混合する分布が近づいていく時、BICを適用できる条件であるフィッシャー情報行列の正則性が無くなっていってしまうので、正則性が成り立たなくても適用できる情報量規準WBIC(Widely applicable BIC, Watanabe 2013)も比較対象として入れて見てみましょう。WBICを計算する際の事前分布は一様分布を用いています。

GMM_IC_result1

このくらいの例だとBICで数千~数万サンプルあれば正しい分布の混合数が選択できそうです。WBICはもう少し混合する分布が近くて特異性が高い所だと力を発揮しますが(渡辺先生のHPの例では分布の差が0.3のケースで見ているので上記よりもっと特異性が高い状況です)、正則条件が成り立つような状況だとBICに負けてしまうようです(正則条件下ではWBICはBICと漸近一致となるような基準ではありますが)。

では次に時系列の因果推論モデルを考えてみましょう。

causal_representation

上記の左図のようにu時点後にa→bに直接的な効果があるものを赤い矢印で表現します。また、上記の右図のように観測されていない潜在変数Lによって、L→aに(s-u)時点後に直接効果があり、L→bにs時点後に直接効果があるとします。この場合、Lが観測されていないことによってa→bにu時点後に効果を与えているように見えてしまいます。これを擬似的な因果関係と呼び、直接的な因果効果と区別するために緑の点線の矢印で表現します。

この2つを識別できるかという問題は高度な設定になってしまうため、まずは次のような簡単なモデル選択で情報量規準の性能を見てみましょう。

causal_candidate_models

データを生成しているモデルとして上図のモデル3のように変数1と変数2に互いに1時点遅れで直接的な因果関係があり( x_1(t-1) \to x_2(t), x_2(t-1) \to x_1(t) )、変数1と変数3には互いに擬似的な因果関係があるとします( L(t-1) \to x_1(t), L(t-2) \to x_3(t), L(t-1) \to x_3(t), L(t-2) \to x_1(t) )。この時、データからは変数2と変数3の間にも2時点遅れで関係があるように見えるため、モデル4, 5のようなモデル候補を用意しておきます。またモデル0, 1, 2はモデル3のサブモデルとしてモデル候補を用意しておきます。この6つのモデルから情報量規準によってモデル3が正しいモデルだと当てられるかをシミュレーションしてみます。マーケティング領域だとデータが週次ベースで、新たなIMC(Integrated Marketing Communication:  統合マーケティングコミュニケーション)施策を行っていた期間が数ヶ月程度の時点で広告施策の効果を知りたいということがあるため、数十サンプル程度でシミュレーションしてみます。また上記のパラメトリックモデルとしてARMAモデルを用いました。

Causal_IC_result1

このモデルでは特異性が高いからかWBICの方がBICよりも高い性能を示しています。数十サンプルでも高い確率で正しいモデル選択がされていることが分かります。

先ほどリリースを出した応用統計学会の発表で受賞した研究は、このWBICの改良版にあたるiWBIC(improved WBIC, Imai & Kuroki 2016)の提案及びその性質を明らかにしたものです。こちらの研究内容も今後ブログで説明予定です。iWBICはWBICで用いているWatanabe理論(参考文献[4])を用いているため、次回以降はWatanabe理論とWBICの説明を行っていく予定です。

シミュレーション結果だけ先にお見せしますと、今回見てきたシミュレーション例に対するiWBICの性能は下図の緑の線のとおりでうまく改善されていることが分かります。

GMM_IC_result2

Causal_IC_result2

それでは次回以降もよろしくお願いいたします。

参考文献

[1] Imai, T. and Kuroki, M. (2016). An improved widely applicable Bayesian information criterion for singular models, In Preparation.
[2] Schwarz, G. E. (1978). Estimating the dimension of a model. Annals of Statistics, 6, 461-464.
[3] Watanabe, S. (2013). A widely applicable Bayesian information criterion. Journal of Machine Learning Research, 14, 867-897.
[4] Watanabe, S. (2009). Algebraic geometry and statistical learning theory. Cambridge University Press