xiangze's sparse blog

機械学習、ベイズ統計、コンピュータビジョンと関連する数学について

CVPR論文のトピックモデルによる分類と傾向

コンピュータビジョンの国際学会CVPRの最近の論文全文をトピックモデルに基づいて分類、単語分布を可視化できたのでその結果を手短にまとめます。図を見てもらったほうが早いかもしれません。

手法

https://github.com/colincsl/cvpr2013papers
からforkした
https://github.com/xiangze/cvpr2013papers
を使って論文のダウンロード、全文text化を行いました。さらにgensimを用いてcorpus、辞書の作成、LDAによるトピックの分類を行い(genLDA.py)、pyLDAvisで可視化(genpages.py)しました。

LDAvisはもともとRのパッケージでshinyでクラスタリングの結果を可視化、共有する出来ます。pyLDAvisは見た目は同じでwebページのほかにipython notebook(Jupyter)として表示が出来ます。
f:id:xiangze:20150708231059p:plain
図の見方ですが、左側には各トピックを多次元尺度法(MDS)で2次元に落として配置したものが表示され、円の大きさは各トピックに所属するdocument(論文)の合計をあらわしています。
右側には選択したトピックの頻出単語、同トピック内での出現頻度が大きい単語とその頻度が表示されます。右下に説明がありますが、パラメータλを変えると出現頻度、同トピック内での出現頻度の割合の比率を変えて順位を変えられます。
右側の単語にマウスを重ねると各トピック内における出現頻度が左側の円の大きさとして表示されます。

結果の説明

まずcv-foundation.orgからリストが取得できる2013年以降の結果についてその変遷を見ていきます。

論文総数は
2013 471
2014 540
2015 602
となり増加傾向にあります。

各トピックで多く出現する単語、割合の多い単語をλを変えながら見てピックアップしたものが以下になります。

2015年トピック数=10と固定した場合の各トピックの傾向

https://dl.dropboxusercontent.com/u/27452774/CVPRpapers2015_10.html

  • 1: object detection & segmentation

bounding box,crowd なぜかproposalが多いらしいです。

  • 8: contour

material,scene,cnnが多く、humanが少し多いです。
対象は1に近いですが、輪郭、ニューラルネットに近いことなど手法に違いがあるようです。

semantic text wordなど文章、自然言語処理との対応が見られます。hash,LSHなどといった単語の割合も多く、neural deepといった語も含まれています。

  • 9: deep learning(face)

もっともdeep learningらしいトピックです。cnn,layer,convolutionalなど専門的な単語が並んでいます。適用例としてはfaceが多いようです。

  • 10: face(sparse,辞書学習)

適用対象はfaceで9番と同じようですが、手法が異なるようです。sparse,dictionaryなどが特徴的です。

  • 7:動画からの動作推定

video motion action,trajectoryなどが頻度が多いです。Riemannian,manifold,grassmanなど難しそうな数学的手法の出現頻度が多いです。

  • 6: saliency

saliency(顕著性)はほぼこのトピックにのみ限定されます。binary,quantizationなど4番の手法と共通するものがありますが、位置的には離れています。

  • 5:行列分解?

convex,matrix,solving,submodularなど数学的な研究で個人的には最も特徴が掴みにくかったです。ビジョン特有の単語はあまり見られませんでした。

  • 2: 3次元復元?

matching,gaze,eye,disparity,registration,correspondenceなど視差画像のマッチングに関するものでしょうか。

  • 3: depthと光線

camera,light,blur,sensor,illuminaitonなどが多いです。物体の形状、種類ではなく光に着目した研究のようです。

大まかには1,8,4,9(物体検出、deeplearning), 10,7,6(動画、動作、顕著性) ,5(数学より),2,3(3次元、実世界より)のようなまとまりに見えました。

2014年のtopic(topic number=10)

https://dl.dropboxusercontent.com/u/27452774/papers2014.html

  • 5: saliency

fisher kernel?, neural,deepなども混ざっています。

  • 1: segmentation

attribute,labeling,superpixelなど2015年の8に近いです。

video actionなど動画に関するものですがfaceも多いです。

  • 8:pose, body

人体のポーズや部分(head,eye,limb)の推定に関する研究のようです。

  • 2:detection tracking bounding box

2015年の1に近いです。

  • 7: shape disparity

2015年の2に近いです。

SfMがあるなど再構成のようですが動き(motion,trajectory)の要素もあります。

  • 3: camera,depth,point light

2015年の3に近いです。

2015年の5に近いです。Riemanian,manifold,Hilbertなども多い。

  • 9:binary hash tensor denoising

hashing,圧縮などの研究です。適用対象は動画、動きなどのようです。

2013年のtopic(topic number=10)

https://dl.dropboxusercontent.com/u/27452774/papers2013.html

  • 2: detection bounding box

svm hogなどが主要として頻度が高い。

  • 7: pose,body attribute, active
  • 6: tracking word crowd trajectory

topic

  • 5:video action,spatio-temporal

hash,quantizationなど2014年の9に似ている。

  • 10: saliency
  • 1:face,matrix,clustering

spectral

  • 8:segmentation,superpixel

kernel,manifoldがやや多い

  • 3:camera,point ,shape

light,distortion,calibration

  • 4:depth

surface, stereo,shade,color

傾向

安定した傾向として

  • bounding boxを使った群集検出の研究
  • 光学系の研究
  • depth(深さ)情報を用いるような研究
  • saliencyの研究
  • 行列分解などの数学的手法

などの流れがあります。

一方2013年にはほとんど目立たなかったニューラルネット系の研究が2014年には多くなり始め、2015年には複数のトピックを形成するにいたっています。ニューラルネットの流行と同時に自然言語処理との結びつきも強くなり、hashを用いた研究はニューラルネット自然言語処理クラスタに飲み込まれてしまったようにも見えます。

顔検出、顔識別は大きな分野らしく、複数のトピックに分かれています。その他の人体の各部位や人間の動作の推定の研究も多いですが、手法には変遷があるようです。
多様体、リーマン幾何などの数学的概念は行列分解のところのほかに動作、動画に関する研究で出現頻度が高いです。

2015年topic数15のときの結果

より細かい傾向が見れます。
https://dl.dropboxusercontent.com/u/27452774/CVPRpapers2015_15.html

  • 11: action, human, attribute
  • 1: pascal VOC,bounding box,cnn, semantic,
  • 15: saliency, attention
  • 12: text,word, language,
  • 7: layer, cnn,nn,pooling, architecture
  • 14: tracking crowd, gaze
  • 3: domain,label, class, active, ?
  • 8: face ,landmark, riemannian

ほとんどface

  • 5: binary hashing,code,
  • 9: shape,matching correspondence,
  • 6:matrix,norm,low-rank
  • 13: segmentation, boundary,pixel,

super pixel,foreground,background

  • 4:video,motion, blur, frame, event

trajectory,egocentric

  • 10: pose, depth, body

mirror,social,RGB-D,sfm

課題

  • 複合語の扱いnltk.WordNetLemmatizerとかを使う。
  • topic数が異なる場合の位置あわせ

あまり関係なさそうなトピックが重なって見えてしまう場合があり、トピック数を変えた場合と比較するしか方法がなさそう。
LDAと実装上の特性によるものかもしれません。MDSでは完全な分離は難しいかもしれない。

  • トピック数を変えた場合の安定性(persistence?)
  • ドメイン特化したモデル

研究対象と手法が分離できるようなトピックモデルはあるのかもしれません。

  • 各トピックの時間的な変化をみるにはDTMを使った方がよさそうです。

DTMのプログラムとgensimからの使い方 https://github.com/mihurtado/dtm_gensim http://socialcomputing.ing.puc.cl/uploads/DynamicTopicModellingTutorial.pdf

Reference

  • CVPR2015論文のキーワード、topicごとの表示、類似性の高い論文表示 @karpathyさん作成

http://cs.stanford.edu/people/karpathy/cvpr2015papers/

t-SNEによる論文BoWの次元削減らしいです。

関連書籍

LDAの変分ベイズによるパラメータの更新式の導出と回帰モデルへの適用、逐次推定、DTMなど発展的な内容が書かれています。むずいです。

トピックモデルによる統計的潜在意味解析 (自然言語処理シリーズ)

トピックモデルによる統計的潜在意味解析 (自然言語処理シリーズ)