論文コーパスの次元圧縮とLDAによるトピックの関係の可視化

機械学習の方法として教師なし学習で得られた量を特徴量として教師あり学習で使うという方法があります。
OnlineNewsPopularityの列の中にもLDAで推定されたトピックがあるようです。文書データもOnlineNewsPopularityと同じようにLDAで得られた量を使って機械的に分類が可能かと思われます。

そこで例としてNIPS論文の全文に対して各論文の語の頻度が作るベクトルをSVDとt-SNEを用いて２次元に圧縮した場合にきれいに分離されるかを見てみたのですが、うまくいきませんでした。mathutils.corpus2cscを用いたgensimでの疎行列の扱い方、scikit.learnとの連携の例として挙げます。更なる解析の試みとしてはword2vecの使用などが挙げられるかも知れません。
gist.github.com

トピック数10としてトピック間の関係を多次元尺度法を用いて2次元に埋め込んだ結果
f:id:xiangze:20160913012624p:plain
https://dl.dropboxusercontent.com/u/27452774/NIPSpapers/nips2015papers_10.html