CVPR論文のトピックモデルによる分類と傾向

コンピュータビジョンの国際学会CVPRの最近の論文全文をトピックモデルに基づいて分類、単語分布を可視化できたのでその結果を手短にまとめます。図を見てもらったほうが早いかもしれません。

手法

https://github.com/colincsl/cvpr2013papers
からforkした
https://github.com/xiangze/cvpr2013papers
を使って論文のダウンロード、全文text化を行いました。さらにgensimを用いてcorpus、辞書の作成、LDAによるトピックの分類を行い(genLDA.py)、pyLDAvisで可視化(genpages.py)しました。

LDAvisはもともとRのパッケージでshinyでクラスタリングの結果を可視化、共有する出来ます。pyLDAvisは見た目は同じでwebページのほかにipython notebook(Jupyter)として表示が出来ます。
f:id:xiangze:20150708231059p:plain
図の見方ですが、左側には各トピックを多次元尺度法(MDS)で2次元に落として配置したものが表示され、円の大きさは各トピックに所属するdocument(論文)の合計をあらわしています。
右側には選択したトピックの頻出単語、同トピック内での出現頻度が大きい単語とその頻度が表示されます。右下に説明がありますが、パラメータλを変えると出現頻度、同トピック内での出現頻度の割合の比率を変えて順位を変えられます。
右側の単語にマウスを重ねると各トピック内における出現頻度が左側の円の大きさとして表示されます。

結果の説明

まずcv-foundation.orgからリストが取得できる2013年以降の結果についてその変遷を見ていきます。

論文総数は
2013 471
2014 540
2015 602
となり増加傾向にあります。

各トピックで多く出現する単語、割合の多い単語をλを変えながら見てピックアップしたものが以下になります。

2015年トピック数=10と固定した場合の各トピックの傾向

https://dl.dropboxusercontent.com/u/27452774/CVPRpapers2015_10.html

1: object detection & segmentation

bounding box,crowd なぜかproposalが多いらしいです。

8: contour

material,scene,cnnが多く、humanが少し多いです。
対象は1に近いですが、輪郭、ニューラルネットに近いことなど手法に違いがあるようです。

4: NLP hashingと少しニューラルネット

semantic text wordなど文章、自然言語処理との対応が見られます。hash,LSHなどといった単語の割合も多く、neural deepといった語も含まれています。

9: deep learning(face)

もっともdeep learningらしいトピックです。cnn,layer,convolutionalなど専門的な単語が並んでいます。適用例としてはfaceが多いようです。

10: face(sparse,辞書学習)

適用対象はfaceで9番と同じようですが、手法が異なるようです。sparse,dictionaryなどが特徴的です。

7:動画からの動作推定

video motion action,trajectoryなどが頻度が多いです。Riemannian,manifold,grassmanなど難しそうな数学的手法の出現頻度が多いです。

6: saliency

saliency(顕著性)はほぼこのトピックにのみ限定されます。binary,quantizationなど4番の手法と共通するものがありますが、位置的には離れています。

5:行列分解？

convex,matrix,solving,submodularなど数学的な研究で個人的には最も特徴が掴みにくかったです。ビジョン特有の単語はあまり見られませんでした。

2: 3次元復元？

matching,gaze,eye,disparity,registration,correspondenceなど視差画像のマッチングに関するものでしょうか。

3: depthと光線

camera,light,blur,sensor,illuminaitonなどが多いです。物体の形状、種類ではなく光に着目した研究のようです。

大まかには1,8,4,9(物体検出、deeplearning), 10,7,6(動画、動作、顕著性) ,5(数学より),2,3(３次元、実世界より)のようなまとまりに見えました。

2014年のtopic(topic number=10)

https://dl.dropboxusercontent.com/u/27452774/papers2014.html

5: saliency

fisher kernel?, neural,deepなども混ざっています。

1: segmentation

attribute,labeling,superpixelなど2015年の8に近いです。

4: face blur

video actionなど動画に関するものですがfaceも多いです。

8:pose, body

人体のポーズや部分(head,eye,limb)の推定に関する研究のようです。

2:detection tracking bounding box

2015年の1に近いです。

7: shape disparity

2015年の2に近いです。

10: motion surface occlution

SfMがあるなど再構成のようですが動き(motion,trajectory)の要素もあります。

3: camera,depth,point light

2015年の3に近いです。

6 matrix subspace,euclidian,

2015年の5に近いです。Riemanian,manifold,Hilbertなども多い。

9:binary hash tensor denoising

hashing,圧縮などの研究です。適用対象は動画、動きなどのようです。

2013年のtopic(topic number=10)

https://dl.dropboxusercontent.com/u/27452774/papers2013.html

2: detection bounding box

svm hogなどが主要として頻度が高い。

7: pose,body attribute, active

6: tracking word crowd trajectory

topic

5:video action,spatio-temporal

hash,quantizationなど2014年の9に似ている。

10: saliency

1:face,matrix,clustering

spectral

8:segmentation,superpixel

kernel,manifoldがやや多い

9:blur,denoize

3:camera,point ,shape

light,distortion,calibration

4:depth

surface, stereo,shade,color

傾向

安定した傾向として

bounding boxを使った群集検出の研究
光学系の研究
depth(深さ)情報を用いるような研究
saliencyの研究
行列分解などの数学的手法

などの流れがあります。

一方2013年にはほとんど目立たなかったニューラルネット系の研究が2014年には多くなり始め、2015年には複数のトピックを形成するにいたっています。ニューラルネットの流行と同時に自然言語処理との結びつきも強くなり、hashを用いた研究はニューラルネット、自然言語処理のクラスタに飲み込まれてしまったようにも見えます。

顔検出、顔識別は大きな分野らしく、複数のトピックに分かれています。その他の人体の各部位や人間の動作の推定の研究も多いですが、手法には変遷があるようです。
多様体、リーマン幾何などの数学的概念は行列分解のところのほかに動作、動画に関する研究で出現頻度が高いです。