タグ

分析手法

DeepLearningがなぜうまく学習出来るのか

データ分析部の島田です。今回はDeepLearningがなぜうまく学習出来ているのか、についてサーベイしてみました(簡単なコード付きです)。

記事アウトライン

位相的データ解析(Topological Data Analysis)について

データ分析部の藤本、今井です。今回は共同で位相的データ解析(Topological Data Analysis)についてのご紹介をしようと思います。

位相的データ解析とはデータの集合をトポロジーと呼ばれる「柔らかい」幾何を用いて解析する手法です。幾何学を使った統計学ですと情報幾何学と呼ばれる分野がありますが、こちらはデータの集合ではなく確率分布に対して微分幾何という「硬い」幾何学を用いた分野です。

位相的データ解析は最近ホットな分野で、ビジネス業界でもこの位相的データ解析に注力している会社のAyasdiが総額100億円近く資金調達しており非常に期待されています。位相的データ解析の実データへの応用としては画像認識などがあります。

さて、「柔らかい」幾何、トポロジーとは何でしょうか?通常、私たちは以下の図形は別のものと見なしますが、トポロジーの世界では図形を伸ばしたりなど変形させたものも同じ図形と見なすため、これらの図形を全て同じものだとします。

top1

続きを読む 位相的データ解析(Topological Data Analysis)について

t-SNE を用いた次元圧縮方法のご紹介

こんにちは。データ分析部の越水です。

以前、 弊社ブログ記事
高次元データの可視化の手法をSwiss rollを例に見てみよう
にて、高次元データの可視化手法を複数ご紹介いたしました。
今回は、 Kaggle などのデータコンペで最近注目を集めている可視化手法として、
t-SNE をご紹介したいと思います。

t-SNE は、高次元データの次元を圧縮するアルゴリズムであり、特に高次元データを可視化する際に有用です。
高次元データの関係性をうまく捉えられるという特徴があり、
最近 Kaggle などのデータコンペでよく用いられるようになりました。

t-SNE はどんな仕組みなのか?

まず、 t-SNE のアルゴリズムを紹介したいと思います。
厳密さよりも分かりやすさを重視した説明なので、詳細を知りたい方は原論文をご覧ください。

2点間の「近さ」を確率分布で表現する

このアルゴリズムの一番の特徴は、 2 点間の「近さ」を確率分布で表現するところにあります。

t-sneのイメージ
続きを読む t-SNE を用いた次元圧縮方法のご紹介

TensorFlowの特徴と性能

はじめまして、データ分析部の島田です。今日はGoogleが先日公開したTensorFlowについて書かせていただきます。既に、動かしてみた系の記事は出ていますので、サンプルコードを使ったコードの特徴の説明とChainerとの速度比較を中心に書きました。

記事アウトライン

  • TensorFlowとは
  • TensorFlowで出来ること
  • TensorFlowのコードの特徴
  • TensorFlowとChainerの速度比較
  • まとめ

TensorFlowとは

以下の記事ををご参照ください。
TensorFlow – Google’s latest machine learning system, open sourced for everyone
Googleの内部ツールだったDistBeliefをインフラの依存性を排除しつつ、性能を高めてオープンソース化したものです。自社比較ではDistBeliefの2倍速くなったそうです。

続きを読む TensorFlowの特徴と性能

隠れマルコフモデルと潜在変数の話

初めまして、データ分析部の中野です。

今回は音声認識や自然言語処理、文字認識などで使用される隠れマルコフモデルの話をしていきたいと思います。特に、モデル内で導入される潜在変数の推定について説明していきます。

隠れマルコフモデルは、時系列データの混合分布推定に用いられるモデルです。与えられた時系列データが複数のグループから構成され、それぞれどのような特徴があるかを推定します。また、各グループ間の遷移の様子を確率で表現することもできます。
続きを読む 隠れマルコフモデルと潜在変数の話

対応分析の結果の解釈について

はじめまして、データ分析部の青木です。

今日は多変量解析法の一つである対応分析(コレスポンデンス分析)を題材として、分析結果の解釈の問題についてお話ししたいと思います。

対応分析はクロス集計表の行と列のカテゴリーの関係性を視覚的に把握するための分析手法です。マーケティング・リサーチの分野でよく用いられるため、皆さんの中にも馴染みのある方が多いかと思います。

まずはRでの対応分析の実行方法を簡単に紹介したいと思います。Rで対応分析といえばMASSパッケージのcorresp関数がポピュラーかと思いますが、今回はcaパッケージを利用したいと思います。
続きを読む 対応分析の結果の解釈について

A→Bなのか、B→Aなのかをデータから見抜くことはできるだろうか?(LiNGAMのシミュレーションをしてみた)

こんにちは、1月よりR&Dユニットのユニットリーダーになりました今井です。

変数A,Bの間に(非線形も含む)相関関係がある場合、(1) A→Bの因果がある、(2) B→Aの因果がある、(3) A→BとB→Aの双方向の因果がある、(4) AとBの間に因果関係は無いという4パターンが考えられます。相関関係があるが因果関係が無いという現象についてなじみが無い方は、以下のサイトが参考になると思います。

因果関係がないのに相関関係があらわれる4つのケースをまとめてみたよ(質問テンプレート付き) ―Take a Risk:林岳彦の研究メモ

今回は話を簡単にするため、「双方向の因果」及び「因果は無いが相関がある」というケースを除いて考えましょう。つまり、A→Bの因果がある、B→Aの因果がある、またはAとBは独立であるという3パターンのどれかであるとします。
続きを読む A→Bなのか、B→Aなのかをデータから見抜くことはできるだろうか?(LiNGAMのシミュレーションをしてみた)

高次元データの可視化の手法をSwiss rollを例に見てみよう

こんにちは、今井です。

データが与えられた時、分析を行う前にまずデータ同士の関係を視覚的に見たいことがあります。しかし特徴量が4つ以上のデータに対してそのまま可視化することはできないため、なるべく元のデータの関係を保ったまま2,3次元で表現できると嬉しいです。特徴量数の多い高次元データの分析は次元の呪いと呼ばれる現象が起こり得るので、これを回避するために高次元データをより少ない次元(一般的に2,3次元とは限りません)にする次元削除や次元圧縮と呼ばれる方法があります。この方法を用いて2,3次元に次元削除を行えば、高次元データを可視化することができます。今回は高次元データの可視化の難しさを知るために、Swiss rollと呼ばれる3次元データから2次元に色々な方法で写してみましょう。 続きを読む 高次元データの可視化の手法をSwiss rollを例に見てみよう

Deep Learningの性能を見てみよう ~Iris編~

こんにちは、今井です。

前回は広告という「原因」から売上という「結果」に与える影響(因果効果)の推定を行いました。結果に対してその原因が与える因果効果の推定をしてモデルを作り、そのモデルから予測をするのが予測精度を高める最も良い方法にみえます。しかし、一般的に因果効果の推定と予測では目的が異なるため、この方法による予測精度が他の手法と比べて良いとは限りません。もちろんこの方法でも実務的に十分精度の高い予測はできますが、予測の部分をより高精度に行うための方法として機械学習を用いることがあります。

今回は機械学習の中でも 最近流行のDeep Learningの性能を簡単なデータセットを用いて調べてみたという話をします。 続きを読む Deep Learningの性能を見てみよう ~Iris編~

状態空間モデルによる広告効果分析

はじめまして、データ分析部の今井です。

今回は私が普段行っている研究の一部を紹介したいと思います。

実店舗で販売されているような商品の売上データを分析する時には、曜日・天気・CM・キャンペーン・イベント等の様々な要因を考える必要があります。それらの売上の要因の分解ができなければ、広告によってどれだけ売上が上がったかを推定することは難しいです。しかし、時系列分析で有名なBox-Jenkins法では、売上の予測はできても売上の要因の分解ができません。従って、この手法を用いても広告効果の算出は困難です。また、欠損値があるとそのままでは適用できないことや、実データの分析においてはどれだけ階差をとっても定常状態の仮定をすることが難しいなどの問題もあります。
続きを読む 状態空間モデルによる広告効果分析