xiangze's sparse blog

機械学習、ベイズ統計、コンピュータビジョンと関連する数学について

機械学習の生成モデルと統計モデリングの類似点と相違点

連投です。拡散モデルを初めてとしたディープラーニングの生成モデルとベイズ統計モデリングでは使う計算方法に共通するものが多いのに対し、その目的は異なります。 2つがどのように関係しているのかいまいちよくわかってないので思いついた類似点,相違点について考えを整理します.ご意見ください!

今の理解

現時点では統計モデリングと生成モデルを含む機械学習の目指すものの違いは、個人的には以下のブログに書かれていることを指針としています。

テーゼとしては

機械学習 統計モデリング
分布の推定による予測,最適値の生成  データの分布の説明

となります。

早見表(仮)

機械学習(生成モデル) 統計モデリング
目的 分布の推定(最適値の生成) データの分布の説明
学習での計算法 変分ベイズ、back propagation (NN)等 変分ベイズ,MCMC
推論での計算法 一点のみサンプリング なし?(可視化に相当?)
対応する情報量基準*1 BIC AIC

*2 *3

変分ベイズ(V.B.)による機械学習(ML)と統計推測(Stat)

機械学習(生成モデル)による推論と統計モデルのサンプリング

しっくりこないので機械学習の識別モデルと生成モデルを分けたほうがいいかもしれません。

簡単な例

両者で同じグラフィカルモデルを考えることができます。以下のようなハイパーパラメータα、βの効き方が違う2つのベイズ線形回帰モデルを考えるとすると

ベイズ線形回帰モデル

 y=W*x+b
 W~N(0,α)
 b~N(0,β)

 α~N(0,1)
 β~N(0,1)

ベイズ線形モデル2

 y=W*x+b
 W~N(0,α)
 b~N(0,α)
 
 α~N(0,1)

機械学習ではクロスバリデーションでどちらのモデルが汎化誤差が小さいかで性能を評価、選択するのに対し、 統計モデリングの場合はデータの属性、出処がわかっていてそこから適切なモデリングを行い全部のデータに対して推論計算をするのだと思います。発見法的に複数のモデルの推論を試行してみて事後分布のばらつきが小さいものを選ぶとかはあるかもしれません。

情報量基準との関係

http://watanabe-www.math.dis.titech.ac.jp/users/swatanab/bayes070.pdf 渡辺澄夫先生の資料から引用

AICBICの性質 AICは汎化誤差を推定する指標であり、BICは自由エネルギーを近似計算する指標である。目的が違うので、数式が異なることは矛盾ではない。

  • AICは一致性は持たないが、有効性をもつケースがあることが知られている。

  • BICは一致性を持つが、有効性は持たないことが知られている。

  • 現実の問題では、一方が計算できるときは他方もすぐに計算できるので、両方とも 計算して、異なる角度から真の分布と統計モデルの関係を考察するのがよい。

  • 想定しているモデルの集合の中に真のデータを発生している分布があるとき、 データの数 n→∞のとき、真のデータを発生している(パラメータ数が一番少ない) モデルを選ぶことができる時、そのモデル選択法を「一致性を持つ」という。

  • 考察している有限のモデルの集合の中にデータを発生している分布がないとき、データの数 n→∞のとき、最も汎化誤差を小さくするモデルを選ぶことができるとき、そのモデル選択法を「有効性を持つ」という

一致性と有効性、θは真の分布の真の分布のパラメーター

AICBICの使い分けは サンプルの取得に制約があり、あるいは母集団に影響を与えてしまうあるいは全数取得してしまった場合など真の分布関数を再現しようのないときはAIC , 望めばいくらでもデータが取得でき、原理的には真の分布を再現できる場合(追記:11/19 だがメモリの制約などで十分に当てはめられるモデルが作れない場合(MDLの考えに近い))がBIC, あるいは観測科学と実験科学の違いに相当するのでしょうか。

AICとMDLとBIC

AICは真のモデルを選ばない? » 小泉研究室 | 北海道大学大学院 地球環境科学研究院 動物生態学コース自然界に影響を与えないようにサンプルをとる生態学の人のAICに対する考えは参考になります

ためになる本

PRML - 機械学習の「朱鷺の杜Wiki」 PRMLを完全理解していればなんの問題もなかった…?

その他機械学習の立場からは

統計モデリングの立場からは

など

*1:使えるモデルの形には制約がある

*2:機械学習(生成モデル)の最適値の生成は統計モデリングの”あてはめの原理”の最尤法に相当するので表も最尤法と対置させるべき。だが”あてはめの原理”を機械学習側に持ち込んでいいかはまた別の話

*3:生成モデルでも複数の出力(画像とか)を分布として得たいという用途はあるかもしれない。似たようなイラストを大量に生成してその分布を見て楽しんだり動画にしてみたりする鑑賞方法