読者です 読者をやめる 読者になる 読者になる

xiangze's sparse blog

機械学習、ベイズ統計、コンピュータビジョンと関連する数学について

力学系の性質とその分類、予測への応用に関する論文紹介

cv 力学系 論文

機械学習やコンピュータービジョンの分野で力学系の知見を取り入れること、あるいは力学系研究において機械学習や統計的予測の手法を用いることは有用です。

以下では力学系の特徴的な量を用いた時系列データ、動画の分類、予測生成に関する研究を紹介いたします。

Chaotic Invariants for Human Action Recognition(pdf)

人体を構成する関節の動きを時系列としてとらえ、それを状態空間内に埋め込み、非線形力学系としてとらえた場合の不変量から人間の動作を分類、識別しようと言う試みです。

先行研究

従来の人間の動作の分類、識別の研究では 関節や人体の一部、画像の点の動きの隠れマルコフモデル(HMM)などを用いたモデル化が主流でした。モデル化のためには詳細な情報が必要であり、また学習の手順を踏む必要がありました。
人間の動作のもつ力学系としての性質を使うことでパラメータフィッティングの必要なモデル化を行わず、統計的な学習を経ずして分類を行えるというのがこの論文の主張です。

手順

具体的方法としては

  • 時系列の相空間への埋め込み
  • 決定性の判定(Determinism Test)
  • 力学系の不変量の計算
  • 不変量を用いた分類

の順になっています。

人体関節の動き

時系列(左端)と 推定された遅延値(embedded delay),埋め込み次元(m), 相空間内に再構成された軌道(右端)

時系列の相空間への埋め込み

通常の時系列から力学系のアトラクタを再構成する方法と同様に遅延値の推定、推定された遅延値を用いた埋め込みを各関節の時系列に対して行います。
時系列の値がとりうる最大値、最小値間の範囲を一定間隔ごとに区切ったビン単位での離散的な分布を作り、
その分布である時刻の間とそれからtだけ遅れた値との間の相互情報量が極小となるようなtを遅延値とします。

時系列から間隔tだけ離れたm個の点をとってきてm次元空間内の一点とします。この次元m(埋め込み次元)を決定するためにfalse nearest neighbor methodと呼ばれる方法を用います。これはm次元空間内で近い距離にある2点を選び、
normalized distanceと呼ばれるm次元ベクトルの最後の要素をm次元空間内での距離で割って正規化した値が指定した値よりも大きい場合には実際には近い点ではない(false nearest neighbor)とみなしてその数がデータ点全体のなかで一定割合以下になる次元mを埋め込み次元とします。
本来の埋め込み次元よりも小さな次元では時系列の軌道が不必要に畳み込まれることで実際には近くない点が近くになってしまうので、それを検出し、排除しています。normalized distanceの大きさの判定しきい値とfalse nearest neighbor割合に任意性があります。

決定性の判定(Determinism Test)

次に埋め込まれた時系列が決定的な力学系なのかどうかのテストを行います。
ここでは一般的に知られたサロゲート法に属するような方法ではなく、相関次元を用いた方法を採用しています。
m次元相空間に埋め込まれた時系列の非決定的に見える動きが本当に非決定的なノイズによるものなのか、決定論的カオスによる見かけ上のものなのかを判定するのですが、ここで想定している人間の運動自体を生み出す力学系の次元よりもノイズをもたらす外部の方が次元が高いとはずであることを利用しています。
先ほどの埋め込み次元の候補ごとに相関次元を計算し、その値が安定する次元を非決定的に見える、ノイズ的な動きを含めた力学系の次元とします。これが選ばれた埋め込み次元よりも小さい場合には非決定的に見える動きは決定論的カオスによって生成されたと見なします。
これによってこの論文ではモーションキャプチャーによって得られた歩行する人の身体の一部分の動き(Fig.2 )が決定論的力学系によって作り出されていると判定しています。

力学系の不変量の計算

時系列から再構成された力学系性質を示す不変量として

  1. Maximal Lyapunov Exponent (最大リヤプノフ指数)
  2. Correlation Integral (相関積分)
  3. Correlation Dimension (相関次元)

を用いています。論文のFig.5にあげられた例では最大リヤプノフ指数の値が正であることから動作の力学系がカオス的であると
言えることになります。
ここであげられたfalse nearest neighbor methodや相互情報量リヤプノフ指数、相関次元、相関積分の計算にはTisean,(RからはRTisean)を使うことができます。

実験と結果

datasetとしてFutureLightのモーションキャプチャーデータと先行研究(“Actions as Space-Time Shapes”)で用いられたビデオ画像を用いています。
モーションキャプチャーデータは115個の時系列が5種類の動作(Dance,Jump,Run,Sit,Walk)に分類されています。また各データは身体の各部分の13の時系列で構成されています。
上記の方法で得られた最大リヤプノフ指数、相関積分、相関次元の3種に分散を加えた4次元のベクトルをk-means法でクラスタリングすることで分類を行っています。分類の正確さは89.7%となっておりかなり正確な分類ができていることになります。
一方ビデオ画像のdatasetは先行研究Actions as Space-Time Shapes (pdf ftp://meria.idc.ac.il/Pub/Users/cs/yael/TMP/Tracking%20motion%20&%20activities/GorelickIrani_pami07.pdf)で用いられたものでこれらには人体の6つの部分の動きの時系列の組に9種類(bend, jumping jack, jumping forward, jumping in place, run, side gallop, walk, wave1, wave2)のラベルが付けられています。
9種類に分類された動作を正しく分類する分類の正確さは92.6%で特にJump forwardの誤認識が多いようです。
先行研究では 97.83%=1-20/923で平均を比較するとより優れているように見えますが、この論文では結果の安定性を利点としてあげています。

Time Series Prediction by Chaotic Modeling of Nonlinear Dynamical Systems

上の論文の2nd,3rd auther(Arslan Basharat, Mubarak Shah両氏)が著者です。相空間とそこへ埋め込まれた力学系の再構成による動きの予測、さらにはvideo synthesis(映像合成)への応用を試みています。
前論文のテーマである人間の動作の他に、特にDynamic texture synthesisと称される旗めきや炎の揺らめきのような物理的な運動の予測も試みています。

既存研究と異なる新たな要素として

  • 多変量時系列をもちいた相空間の再構成(前論文との違い)
  • 決定論的力学系に基づくモデル(時間的変化に確率的遷移を用いない)
  • カーネル回帰に基づいた相空間内でのノンパラメトリックなモデル

をあげています。

手法

前論文と同様に相空間への時系列の埋め込みを行った後に時系列 {y_k}の発展をカーネルwでの回帰の式
 z_{t+1}=F(z_t)=\sum_{k=1}^{N_n(z_t)} c(m,t)
で予測します。
具体的には
 z_{t+1}=F(z_t)=\sum_{k=1}^{N_n(z_t)} (y_{k+1}-y{k}+z_{t} ) w_k(z_t,y_k)
カーネルwkとしてはここではNadaraya-Watsonが提唱した
 w_k(z_t,y_k)=\frac{K_h(|||z_t-y_k|)}{\sum_{k=1}^{N_n(z_t)} K_h(|||z_t-y_k|) }}
 K_h(b)=\frac{1}{h} K(b/h)
を用いています。Kはガウシアンなど他の基礎的なカーネル関数であり、分散値などはパラメータとして指定されます。
このカーネル回帰によるの軌道の推定では力学系特有の利点があります。
ある時刻で推定に用いた近傍点を時間発展させたものはまた同様に時間発展させた軌道の近傍となるので改めて近傍点を取り直す手間は少なくなります。
再構成された相空間内の軌道(青)、カーネル回帰によって予測された軌道と予測時系列(赤)

相空間内の軌道が予測されるとそれを時系列に戻る処理を行います。これは単に元データ時系列の埋め込みを行った際の処理を逆に行うだけになります。

実験
  • Action Synthesis

前論文のテーマは人間の動作の分類でありましたが、ここでは人間の動作の予測と合成が対象となり、前論文で使われたFutureLightのデータとCMU data setのデータで評価が行われています。
単一の時系列のみを用いた場合には走っている人の姿勢がずれて斜めになっていしまっているのが身体の各部の時系列を一緒に扱うことで補正されること、CMU data setを用いた比較ではmean absolute errorがGPDM(Gaussian process dynamical models)を用いた手法よりも小さいことなどが示されています。 
このデータセットで生成された典型的な埋め込み次元は3~6次元となるらしいです。

  • Dynamic texture synthesis

人体以外の物体として が予測対象は点ではなく、2次元、3次元の広がりを持った物体であることが問題を困難にしています。
論文ではUCLA data set(48x48 pixels 75 frames),MIT dynamic textures data set(pdf, 114x170 pixels, 200 frames)などのデータを用いており、
それぞれのピクセルに対して独立に時系列をとっています。

UCLA data setの一部 論文では75フレームの動画から225フレームの動画を生成している。

MIT dynamic textures data setをつかってPCAとAR modelを組み合わせた手法,probabilistic PCA (PPCA),closed-loop LDSとの比較がなされています(closed-loop LDSとの比較はfireのみ)。
Mean squared errorをみるとこれらの既存手法と比べ格段に優れていることが示されています。

感想

人間の動作が決定論的力学系で表現できることは言われてみれば当然なのかもしれませんが、力学的な量がほとんどそのまま動作を記述できるという主張は驚きです。分類に関してはパラメータが存在しないため学習の手順を経ずに行われていることも特筆すべき点です。
一方でこの手法の限界としては独立して動く1つの物体にしか適用できない点があげられます。
ノイズへの耐性や複数の物体への適用は難しい課題のように思われます。

参考文献

非線形力学系、カオスで見られる基本的な現象の説明から力学系の不変量、カオスの制御などの発展的な話題まで説明されています。

Chaos in Dynamical Systems

Chaos in Dynamical Systems

遅延埋め込み法、力学系の不変量や時系列の予測に関して章が割かれています。
[rakuten:rakutenkobo-ebooks:10356637:detail]
RTiseanの使い方について日本語で説明されています。
Rパッケージガイドブック

Rパッケージガイドブック

  • 作者: 岡田昌史,荒木孝治,伊藤康広,里洋平,高柳慎一,棚瀬貴紀,谷村晋,中谷朋昭,蓮見亮,林真広,樋口千洋,福島真太朗,牧山文彦,横山貴央,akira,mickey24
  • 出版社/メーカー: 東京図書
  • 発売日: 2011/04/09
  • メディア: 単行本
  • 購入: 2人 クリック: 1,298回
  • この商品を含むブログ (16件) を見る

Dynamic Texture Classification Using Dynamic Fractal Analysis
カオス力学系の相関次元は一般には非整数になり、そのアトラクタはフラクタルの形状を持ちますが、この論文では時間的に変化するテクスチャー画像(dynamic texture)のフラクタルを用いた分類を提唱しています。