タグ

可視化

DeepLearningがなぜうまく学習出来るのか

データ分析部の島田です。今回はDeepLearningがなぜうまく学習出来ているのか、についてサーベイしてみました(簡単なコード付きです)。

記事アウトライン

t-SNE を用いた次元圧縮方法のご紹介

こんにちは。データ分析部の越水です。

以前、 弊社ブログ記事
高次元データの可視化の手法をSwiss rollを例に見てみよう
にて、高次元データの可視化手法を複数ご紹介いたしました。
今回は、 Kaggle などのデータコンペで最近注目を集めている可視化手法として、
t-SNE をご紹介したいと思います。

t-SNE は、高次元データの次元を圧縮するアルゴリズムであり、特に高次元データを可視化する際に有用です。
高次元データの関係性をうまく捉えられるという特徴があり、
最近 Kaggle などのデータコンペでよく用いられるようになりました。

t-SNE はどんな仕組みなのか?

t-SNE は SNE というアルゴリズムの改良版に当たります。
これらのアルゴリズムでは、(次元圧縮したい)高次元データx_iを低次元空間上の点y_iに対応付けます。その際、 高次元空間におけるデータ同士の「近さ(類似度)」が、低次元空間におけるデータ同士の「近さ」に反映されるよう学習を行う(y_iを変化させる)のです。
「近さ」の指標としてはユークリッド距離やコサイン類似度など様々なものがありますが、 SNE の大きな特徴としてこの「近さ」を確率分布によって表現することが挙げられます。

本記事ではまずは SNE のアルゴリズムを紹介し、それから t-SNE について紹介したいと思います。
厳密さよりも分かりやすさを重視した説明なので、詳細を知りたい方は原論文をご覧ください。
続きを読む t-SNE を用いた次元圧縮方法のご紹介