タグ

主成分分析(PCA)

t-SNE を用いた次元圧縮方法のご紹介

こんにちは。データ分析部の越水です。

以前、 弊社ブログ記事
高次元データの可視化の手法をSwiss rollを例に見てみよう
にて、高次元データの可視化手法を複数ご紹介いたしました。
今回は、 Kaggle などのデータコンペで最近注目を集めている可視化手法として、
t-SNE をご紹介したいと思います。

t-SNE は、高次元データの次元を圧縮するアルゴリズムであり、特に高次元データを可視化する際に有用です。
高次元データの関係性をうまく捉えられるという特徴があり、
最近 Kaggle などのデータコンペでよく用いられるようになりました。

t-SNE はどんな仕組みなのか?

t-SNE は SNE というアルゴリズムの改良版に当たります。
これらのアルゴリズムでは、(次元圧縮したい)高次元データx_iを低次元空間上の点y_iに対応付けます。その際、 高次元空間におけるデータ同士の「近さ(類似度)」が、低次元空間におけるデータ同士の「近さ」に反映されるよう学習を行う(y_iを変化させる)のです。
「近さ」の指標としてはユークリッド距離やコサイン類似度など様々なものがありますが、 SNE の大きな特徴としてこの「近さ」を確率分布によって表現することが挙げられます。

本記事ではまずは SNE のアルゴリズムを紹介し、それから t-SNE について紹介したいと思います。
厳密さよりも分かりやすさを重視した説明なので、詳細を知りたい方は原論文をご覧ください。
続きを読む t-SNE を用いた次元圧縮方法のご紹介

高次元データの可視化の手法をSwiss rollを例に見てみよう

こんにちは、今井です。

データが与えられた時、分析を行う前にまずデータ同士の関係を視覚的に見たいことがあります。しかし特徴量が4つ以上のデータに対してそのまま可視化することはできないため、なるべく元のデータの関係を保ったまま2,3次元で表現できると嬉しいです。特徴量数の多い高次元データの分析は次元の呪いと呼ばれる現象が起こり得るので、これを回避するために高次元データをより少ない次元(一般的に2,3次元とは限りません)にする次元削除や次元圧縮と呼ばれる方法があります。この方法を用いて2,3次元に次元削除を行えば、高次元データを可視化することができます。今回は高次元データの可視化の難しさを知るために、Swiss rollと呼ばれる3次元データから2次元に色々な方法で写してみましょう。 続きを読む 高次元データの可視化の手法をSwiss rollを例に見てみよう