カテゴリー

アナリティクス

DeepLearningがなぜうまく学習出来るのか

データ分析部の島田です。今回はDeepLearningがなぜうまく学習出来ているのか、についてサーベイしてみました(簡単なコード付きです)。

記事アウトライン

ベイズ情報量規準及びその発展 ~概説編~

今井です。今回より数回にわたってベイズ情報量規準及びその発展について書きたいと思います。

情報量規準と聞くとAIC(Akaike, 1973)やBIC(Schwarz, 1978)が真っ先に思い浮かぶ人が多いかと思います。情報量規準を勉強したことのある人であれば、予測精度を上げるためにモデル選択をするのであればAIC、データが生成されている構造を知ろうとするのであればBICを用いるという使い分けをすることもご存知だと思います。以下ではベイズ情報量規準(BIC)に絞って説明をしていきます。

ベイズ情報量規準の目的である、予測ではなく妥当なモデルの構造を知りたい時とはどういった場合でしょうか。例えば、単なる売上の予測だけではなくMMM(Marketing Mix Modeling)を因果モデル化したモデルによる広告などの施策の効果を知りたい場合や、k-means法でクラスター分析をする時のkを決める時などが上げられます。

後者の方が簡単なので、後者から説明します。先日弊社で行われたデータサイエンティスト養成講座のクラスター分析の岩崎先生による基調講演の中で次のようなお話をされていました。下の3つの混合分布の内、一番右の分布であれば誰でも2つの分布から構成されていることが分かるが、統計を用いて真ん中、さらには一番左の分布も2つの分布から構成されていることが分かるかが問題になる、と。

GMM_distribution

続きを読む ベイズ情報量規準及びその発展 ~概説編~

位相的データ解析(Topological Data Analysis)について

データ分析部の藤本、今井です。今回は共同で位相的データ解析(Topological Data Analysis)についてのご紹介をしようと思います。

位相的データ解析とはデータの集合をトポロジーと呼ばれる「柔らかい」幾何を用いて解析する手法です。幾何学を使った統計学ですと情報幾何学と呼ばれる分野がありますが、こちらはデータの集合ではなく確率分布に対して微分幾何という「硬い」幾何学を用いた分野です。

位相的データ解析は最近ホットな分野で、ビジネス業界でもこの位相的データ解析に注力している会社のAyasdiが総額100億円近く資金調達しており非常に期待されています。位相的データ解析の実データへの応用としては画像認識などがあります。

さて、「柔らかい」幾何、トポロジーとは何でしょうか?通常、私たちは以下の図形は別のものと見なしますが、トポロジーの世界では図形を伸ばしたりなど変形させたものも同じ図形と見なすため、これらの図形を全て同じものだとします。

top1

続きを読む 位相的データ解析(Topological Data Analysis)について

t-SNE を用いた次元圧縮方法のご紹介

こんにちは。データ分析部の越水です。

以前、 弊社ブログ記事
高次元データの可視化の手法をSwiss rollを例に見てみよう
にて、高次元データの可視化手法を複数ご紹介いたしました。
今回は、 Kaggle などのデータコンペで最近注目を集めている可視化手法として、
t-SNE をご紹介したいと思います。

t-SNE は、高次元データの次元を圧縮するアルゴリズムであり、特に高次元データを可視化する際に有用です。
高次元データの関係性をうまく捉えられるという特徴があり、
最近 Kaggle などのデータコンペでよく用いられるようになりました。

t-SNE はどんな仕組みなのか?

まず、 t-SNE のアルゴリズムを紹介したいと思います。
厳密さよりも分かりやすさを重視した説明なので、詳細を知りたい方は原論文をご覧ください。

2点間の「近さ」を確率分布で表現する

このアルゴリズムの一番の特徴は、 2 点間の「近さ」を確率分布で表現するところにあります。

t-sneのイメージ
続きを読む t-SNE を用いた次元圧縮方法のご紹介

TensorFlowの特徴と性能

はじめまして、データ分析部の島田です。今日はGoogleが先日公開したTensorFlowについて書かせていただきます。既に、動かしてみた系の記事は出ていますので、サンプルコードを使ったコードの特徴の説明とChainerとの速度比較を中心に書きました。

記事アウトライン

  • TensorFlowとは
  • TensorFlowで出来ること
  • TensorFlowのコードの特徴
  • TensorFlowとChainerの速度比較
  • まとめ

TensorFlowとは

以下の記事ををご参照ください。
TensorFlow – Google’s latest machine learning system, open sourced for everyone
Googleの内部ツールだったDistBeliefをインフラの依存性を排除しつつ、性能を高めてオープンソース化したものです。自社比較ではDistBeliefの2倍速くなったそうです。

続きを読む TensorFlowの特徴と性能

『トピックモデルによる統計的潜在意味解析』読書会を開催中です

はじめまして。データ分析部の越水です。

本日は、弊社セミナールームで定期開催している 『トピックモデルによる統計的潜在意味解析』読書会について ご紹介したいと思います。

続きを読む 『トピックモデルによる統計的潜在意味解析』読書会を開催中です

隠れマルコフモデルと潜在変数の話

初めまして、データ分析部の中野です。

今回は音声認識や自然言語処理、文字認識などで使用される隠れマルコフモデルの話をしていきたいと思います。特に、モデル内で導入される潜在変数の推定について説明していきます。

隠れマルコフモデルは、時系列データの混合分布推定に用いられるモデルです。与えられた時系列データが複数のグループから構成され、それぞれどのような特徴があるかを推定します。また、各グループ間の遷移の様子を確率で表現することもできます。
続きを読む 隠れマルコフモデルと潜在変数の話

神経科学からマーケティングへ…違いと意外な類似

初めまして、この3月からALBERTにジョインしました最上嗣生と申します。

これまでは理化学研究所脳科学総合研究センターで神経科学、いわゆる「脳研究」をやっていました。特に高等動物の高次視覚野が物体の価値の評価へ寄与をしている様子を調べていました。

さて、そのような研究をしていたものが、ALBERTに加わってからはマーケティング領域の分析をしているわけです。びっくりするほどの違いだと思いますよね?そうです、まずは違いからお話しします。(ほかの方の記事のような実用的な記事は、次回以降にご期待ください。)
続きを読む 神経科学からマーケティングへ…違いと意外な類似

対応分析の結果の解釈について

はじめまして、データ分析部の青木です。

今日は多変量解析法の一つである対応分析(コレスポンデンス分析)を題材として、分析結果の解釈の問題についてお話ししたいと思います。

対応分析はクロス集計表の行と列のカテゴリーの関係性を視覚的に把握するための分析手法です。マーケティング・リサーチの分野でよく用いられるため、皆さんの中にも馴染みのある方が多いかと思います。

まずはRでの対応分析の実行方法を簡単に紹介したいと思います。Rで対応分析といえばMASSパッケージのcorresp関数がポピュラーかと思いますが、今回はcaパッケージを利用したいと思います。
続きを読む 対応分析の結果の解釈について

A→Bなのか、B→Aなのかをデータから見抜くことはできるだろうか?(LiNGAMのシミュレーションをしてみた)

こんにちは、1月よりR&Dユニットのユニットリーダーになりました今井です。

変数A,Bの間に(非線形も含む)相関関係がある場合、(1) A→Bの因果がある、(2) B→Aの因果がある、(3) A→BとB→Aの双方向の因果がある、(4) AとBの間に因果関係は無いという4パターンが考えられます。相関関係があるが因果関係が無いという現象についてなじみが無い方は、以下のサイトが参考になると思います。

因果関係がないのに相関関係があらわれる4つのケースをまとめてみたよ(質問テンプレート付き) ―Take a Risk:林岳彦の研究メモ

今回は話を簡単にするため、「双方向の因果」及び「因果は無いが相関がある」というケースを除いて考えましょう。つまり、A→Bの因果がある、B→Aの因果がある、またはAとBは独立であるという3パターンのどれかであるとします。
続きを読む A→Bなのか、B→Aなのかをデータから見抜くことはできるだろうか?(LiNGAMのシミュレーションをしてみた)