読者です 読者をやめる 読者になる 読者になる

xiangze's sparse blog

機械学習、ベイズ統計、コンピュータビジョンと関連する数学について

「情報幾何の新展開」のやばさ

「情報幾何の新展開」という本が話題になっています。
http://www.saiensu.co.jp/?page=book_details&ISBN=ISBN4910054700848&YEAR=2014


著者は情報幾何という学問分野を創始したともいえる甘利俊一先生です。
本書においては今までの分野の総括のみならず機械学習の理論や応用の進展を受けた今後の発展の方向を示しているような非常に野心的であおられているような書き方であったので、非常に簡単ではあり、また理解が不足している部分がありますが感想をまとめます。

4部構成になっていて、第I部、第II部は情報幾何を理解する為の基礎となる数学についての解説で、第III部は統計的な推論を情報幾何的な観点から説明しています。第IV部は機械学習をはじめとする諸分野への情報幾何的な見方の適用を試みたものであり、今後の発展が期待されている分野かと思われます。

第I部 多様体ダイバージェンス

多様体とはある決まった次元のユークリッド空間を張り合わせたものと(ゆるふわには)定義できますが、特定の形をした確率分布の族が作る多様体の関係に関する学問が情報幾何といえるのかもしれません。2つの確率分布の間の近さを幾何学的距離で表現したいという欲求が出てくるのは自然ですが、分布関数の形の違いを表す量としてあげられるKullback-Leiblerダイバージェンス
\( D[p;q]=\int p(x)\log \frac{p(x)}{q(x)} dx\)
が分布p,qに対して対称ではなく、複雑な形状をしていることから、それを多様体の言葉で表現しようとすると難しい幾何学が必要になってしまいます。

非負の関数として定義される確率分布のエントロピーの符号を変えたもの、そして自由エネルギー
\(\psi(x)=\log \int p(x,\theta) dx\)
は凸であることからルジャンドル変換で双対となる変数とそれに対応した自由エネルギー、(双対)ダイバージェンスが一意に定まります。
第4章ではRao先生がFisher情報行列と幾何学における計量の関係を指摘したのが情報幾何の始まりであったことなども書かれています。
分布のパラメータ間の関係が線形補間のような簡単な関係で結ばれる性質は平坦と呼ばれますが、それは多様体上の最短距離(測地線)と考えることが出来ます。異なる平坦性の代表例としてe-平坦(指数型分布の肩のパラメータが結ばれている)とm-平坦(2つの分布の混合分布)が挙げられています。
そしてこの統計学でよく出てくる指数型分布族と混合分布族の間の関係が双対になっていることが説明されています。ダイバージェンスが引数に対して非対称な関数であることから普通のリーマン幾何に加え双対性という概念を考える必要が出てきます。情報幾何においては双対性というのが重要な概念で、8章では詳しくそれが説明されます。
さらにダイバージェンスの一般化、正測度の関数に対する適用、5章では用いる統計量に対する幾何学的量(計量など)の不変性すら仮定しない場合へと議論は一般化していきます…*1

第II部 微分幾何学入門

微分幾何学の入門は第6章、第7章において超速で行われます。
微分幾何を一般的に説明しようとすると記号がたくさん出てきて非常に難解になってしまうと思っていたのですが、本書は第II部の扉に書かれているように「誰にでもわかる楽しい微分幾何」になっています。
普通の微分幾何の本と同様に(リーマン)多様体上のベクトルの平行移動、微分を一般化した概念である共変微分の解説がされています。説明としては考えている多様体より高い次元のユークリッド空間を考えてそこからの射影を使った式で書き、後から考えている多様体の中だけの情報(計量)を用いて共変微分の式を導くというような解説が簡単だと思っていました。しかし本書においては一般に微分が満たすとされる式
\( Z \langle X,Y \rangle = \langle \nabla_Z X,Y \rangle + \langle X,\nabla_Z Y \rangle \)
(X,Y,Zはベクトル場)から多様体上の共変微分とその普通の微分との差に当たるクリストッフェル記号を計量で表した式を導出してしまっています。非常に簡明です。
7章では計量が定義できるような多様体での高次の微分の一般化としての曲率、そして捩れの概念が解説されています*2。部分空間への埋め込み曲率は統計学で重要らしいです。9章で説明される階層的なモデル間の関係につながるからでしょうか。 
8章で情報幾何において特に重要な双対接続について説明されます。個人的に知らないだけかもしれませんが、章の冒頭で書かれているように物理学(相対性理論関係)ではあまり双対接続を使うような場面はないように思っていました*3。情報幾何においてはe-分布族とm-分布族との関係が双対であること、ダイバージェンスの非対称性などから必須の概念となっています。


最後に9章で時系列のモデルのような階層性をもったモデル群の幾何学的な位置づけを葉層という数学的概念を用いて行っています。低次の項と高次の項を双対の関係にある変数でとるのがコツらしいです。
抽象的過ぎることもあってか、神経細胞の発火頻度の分布モデルの話、産業関連表(産業間での取引の量を示す表、マクロ経済の分野で使われるらしい)が出てきます。この章に限らず神経細胞とそのネットワークのモデルはたびたび取り上げられており、甘利先生の長年の研究のモチベーションが現れているように思いました。

第III部 統計的推論の情報幾何

基本的事項として統計学で有名なCramer-Raoの定理は計量を用いて(不変推定量ξと計量(Fisher行列)gに対して
(\ E [ (\hat{\xi}_i - \xi_i ) ( \hat{\xi}_j - \xi_j ) ] >= \frac{g^{-1}}{N} \)

と表現されます。
データ数Nに対する高次の推定誤差が埋め込み曲率を表した結果が示されているのですが、導出に大変苦労されたそうです。
さらに統計的仮説検定は検定対象となるパラメータθの測地線に直交した(双対)超平面としてとらえることができることが説明されています。指数型分布族においてはθの測地線はe-測地線、双対超平面はm-超平面となるそうです。
1次の項まで考えた場合の最も検出力が大きい検定を1次漸近一様最強力検定というらしいのですが、そのような検定方法は複数存在します。検出力のデータ数に対する高次項も考慮に入れて1次漸近一様最強力検定に属する色々な検定方式の検出力の違いを統一的にとらえることが出来ることができるらしいです。

次に11章ではNeyman-Scott問題という一見簡単そうにみえて値の推測の妥当性の理由付けが困難な問題を取り上げています。
一例としてあげられているのは体積と重さの測定値\( x_i, y_i \)に対して測定誤差\(\epsilon_i \)がある場合に
\( x_i=\xi_i+\epsilon_i \)
\( y_i=u\xi_i+\epsilon_i' \)
という関係を満たすような比重u, 真の体積ξiを推測するというもので、最尤値は誤差の最小二乗から定まります。しかしその方法がなぜもっともらしいといえるかの説明は簡単ではないそうで、情報幾何を用いて解析されています。
コンピュータビジョンの分野におけるバンドルアジャストメントという問題に相当し、日本の著名な研究者の方が挙げられています(金谷健一先生、東北大学岡谷貴之先生)*4

12章ではEMアルゴリズムについて触れています。EMアルゴリズムは隠れた変数を持ったモデルでの観測されたデータの表現を最適にする方法ですが、観測データの作る多様体とモデルの多様体との間の射影の繰り返しとして理解することが出来、これをemアルゴリズムとしています。射影の過程で双方の間のKLダーバージェンスが最小になるように隠れ変数、パラメータが選ばれていきます。

統計的推論や検定を空間的なイメージをもってとらえることが出来るのが情報幾何の特長かと思いましたが、個人的に統計学がほとんど分からないため、理解が不足してしまっています。

また個人的には"自然な"事前分布といえるJeffreys分布が体積要素\(\sqrt{|g|}\)であることから情報幾何はベイズ的な考えと相性が良いと思っていたのですが、ここでは統計的仮説検定も幾何的な解釈が可能であることを示していて情報幾何の幅広さが知らしめられています。

第IV部 情報幾何の様々な応用

クラスタリング、サポートベクトル機械(SVM)、Boosting、ニューラルネット、次元圧縮に分類されるアルゴリズム群など機械学習といわれる分野のアルゴリズム幾何学的説明を試みています。
特にニューラルネット(多層パーセプトロン)に関しては解析の困難な特異点をもった多様体という観点から詳しく説明されています。
数学的側面においてもニューラルネットの学習過程を力学系の軌道としてみて不動点の安定性を解析することを行っており、学習過程の軌道が特異点を通る場合には解がミルナーアトラクタという特殊なアトラクタ*5に属するという主張がされていて興味深いです。

ニューラルネットのような複雑なモデルではFisher行列が特異性を持っているため、単純な鞍点法(Laplaece近似)が適用できず、AIC,BICなどの情報量基準は一般には使えません。そのような場合を考慮して提案され、最近注目を集めている"広く使える情報量基準"(WAIC,WBIC)に関しては直接触れられてはいませんが、渡辺澄夫先生の研究と著書「代数幾何と学習理論」がReferenceとしてあげられています*6

本書では情報幾何の考え方を使ってモデルの性能や計算速度が上がったなどという具体的な話はほとんどなかったのですが、一つ一つのトピックでこれから研究が進展して行く(あるいは既にしている)のかもしれません*7

*1: 不変で双対平坦なKLダイバージェンスに関する命題(5.24)はまだ証明されていないらしいです。

*2:一般相対性理論の入門的な本では捩れは取り上げられないことが多いのですが、情報幾何には捩れを入れた理論もあるそうです。

*3:というか知りませんでした。

*4:バンドルアジャストメントに関しては岡谷先生, 金谷先生らの解説とコンピュータビジョン最先端ガイドの解説http://derivecv.tumblr.com/post/4714121053 が参考になります。

*5:力学系の軌道が落ち着く先であるアトラクタとが自身に対応する軌道の初期値の集合(basin)の境界に接しているようなものがミルナーアトラクタ

*6:物理学においてはBICの対応量は自由エネルギーですが、WBICに対応するものが何なのかは個人的にはわかっていません。

*7:MCMCのサンプリング法のRiemannian Manifold MCなどはそうなのかもしれません