こんにちは。データ分析部の越水です。
以前、 弊社ブログ記事
「高次元データの可視化の手法をSwiss rollを例に見てみよう」
にて、高次元データの可視化手法を複数ご紹介いたしました。
今回は、 Kaggle などのデータコンペで最近注目を集めている可視化手法として、
t-SNE をご紹介したいと思います。
t-SNE は、高次元データの次元を圧縮するアルゴリズムであり、特に高次元データを可視化する際に有用です。
高次元データの関係性をうまく捉えられるという特徴があり、
最近 Kaggle などのデータコンペでよく用いられるようになりました。
t-SNE はどんな仕組みなのか?
まず、 t-SNE のアルゴリズムを紹介したいと思います。
厳密さよりも分かりやすさを重視した説明なので、詳細を知りたい方は原論文をご覧ください。
2点間の「近さ」を確率分布で表現する
このアルゴリズムの一番の特徴は、 2 点間の「近さ」を確率分布で表現するところにあります。