今井の記事一覧

ベイズ情報量規準及びその発展 ~概説編~

今井です。今回より数回にわたってベイズ情報量規準及びその発展について書きたいと思います。

情報量規準と聞くとAIC(Akaike, 1973)やBIC(Schwarz, 1978)が真っ先に思い浮かぶ人が多いかと思います。情報量規準を勉強したことのある人であれば、予測精度を上げるためにモデル選択をするのであればAIC、データが生成されている構造を知ろうとするのであればBICを用いるという使い分けをすることもご存知だと思います。以下ではベイズ情報量規準(BIC)に絞って説明をしていきます。

ベイズ情報量規準の目的である、予測ではなく妥当なモデルの構造を知りたい時とはどういった場合でしょうか。例えば、単なる売上の予測だけではなくMMM(Marketing Mix Modeling)を因果モデル化したモデルによる広告などの施策の効果を知りたい場合や、k-means法でクラスター分析をする時のkを決める時などが上げられます。

後者の方が簡単なので、後者から説明します。先日弊社で行われたデータサイエンティスト養成講座のクラスター分析の岩崎先生による基調講演の中で次のようなお話をされていました。下の3つの混合分布の内、一番右の分布であれば誰でも2つの分布から構成されていることが分かるが、統計を用いて真ん中、さらには一番左の分布も2つの分布から構成されていることが分かるかが問題になる、と。

GMM_distribution

続きを読む ベイズ情報量規準及びその発展 ~概説編~

A→Bなのか、B→Aなのかをデータから見抜くことはできるだろうか?(LiNGAMのシミュレーションをしてみた)

こんにちは、1月よりR&Dユニットのユニットリーダーになりました今井です。

変数A,Bの間に(非線形も含む)相関関係がある場合、(1) A→Bの因果がある、(2) B→Aの因果がある、(3) A→BとB→Aの双方向の因果がある、(4) AとBの間に因果関係は無いという4パターンが考えられます。相関関係があるが因果関係が無いという現象についてなじみが無い方は、以下のサイトが参考になると思います。

因果関係がないのに相関関係があらわれる4つのケースをまとめてみたよ(質問テンプレート付き) ―Take a Risk:林岳彦の研究メモ

今回は話を簡単にするため、「双方向の因果」及び「因果は無いが相関がある」というケースを除いて考えましょう。つまり、A→Bの因果がある、B→Aの因果がある、またはAとBは独立であるという3パターンのどれかであるとします。
続きを読む A→Bなのか、B→Aなのかをデータから見抜くことはできるだろうか?(LiNGAMのシミュレーションをしてみた)

高次元データの可視化の手法をSwiss rollを例に見てみよう

こんにちは、今井です。

データが与えられた時、分析を行う前にまずデータ同士の関係を視覚的に見たいことがあります。しかし特徴量が4つ以上のデータに対してそのまま可視化することはできないため、なるべく元のデータの関係を保ったまま2,3次元で表現できると嬉しいです。特徴量数の多い高次元データの分析は次元の呪いと呼ばれる現象が起こり得るので、これを回避するために高次元データをより少ない次元(一般的に2,3次元とは限りません)にする次元削除や次元圧縮と呼ばれる方法があります。この方法を用いて2,3次元に次元削除を行えば、高次元データを可視化することができます。今回は高次元データの可視化の難しさを知るために、Swiss rollと呼ばれる3次元データから2次元に色々な方法で写してみましょう。 続きを読む 高次元データの可視化の手法をSwiss rollを例に見てみよう

Deep Learningの性能を見てみよう ~Iris編~

こんにちは、今井です。

前回は広告という「原因」から売上という「結果」に与える影響(因果効果)の推定を行いました。結果に対してその原因が与える因果効果の推定をしてモデルを作り、そのモデルから予測をするのが予測精度を高める最も良い方法にみえます。しかし、一般的に因果効果の推定と予測では目的が異なるため、この方法による予測精度が他の手法と比べて良いとは限りません。もちろんこの方法でも実務的に十分精度の高い予測はできますが、予測の部分をより高精度に行うための方法として機械学習を用いることがあります。

今回は機械学習の中でも 最近流行のDeep Learningの性能を簡単なデータセットを用いて調べてみたという話をします。 続きを読む Deep Learningの性能を見てみよう ~Iris編~

状態空間モデルによる広告効果分析

はじめまして、データ分析部の今井です。

今回は私が普段行っている研究の一部を紹介したいと思います。

実店舗で販売されているような商品の売上データを分析する時には、曜日・天気・CM・キャンペーン・イベント等の様々な要因を考える必要があります。それらの売上の要因の分解ができなければ、広告によってどれだけ売上が上がったかを推定することは難しいです。しかし、時系列分析で有名なBox-Jenkins法では、売上の予測はできても売上の要因の分解ができません。従って、この手法を用いても広告効果の算出は困難です。また、欠損値があるとそのままでは適用できないことや、実データの分析においてはどれだけ階差をとっても定常状態の仮定をすることが難しいなどの問題もあります。
続きを読む 状態空間モデルによる広告効果分析