機械学習の生成モデルと統計モデリングの類似点と相違点

連投です。拡散モデルを初めてとしたディープラーニングの生成モデルとベイズ統計モデリングでは使う計算方法に共通するものが多いのに対し、その目的は異なります。 2つがどのように関係しているのかいまいちよくわかってないので思いついた類似点，相違点について考えを整理します．ご意見ください！

今の理解
早見表(仮)
簡単な例
情報量基準との関係
ためになる本

今の理解

現時点では統計モデリングと生成モデルを含む機械学習の目指すものの違いは、個人的には以下のブログに書かれていることを指針としています。

テーゼとしては

機械学習	統計モデリング
分布の推定による予測,最適値の生成	データの分布の説明

となります。

早見表(仮)

	機械学習(生成モデル)	統計モデリング
目的	分布の推定(最適値の生成)	データの分布の説明
学習での計算法	変分ベイズ、back propagation (NN)等	変分ベイズ,MCMC
推論での計算法	一点のみサンプリング	なし？(可視化に相当？)
対応する情報量基準*1	BIC	AIC

*2 *3

しっくりこないので機械学習の識別モデルと生成モデルを分けたほうがいいかもしれません。

簡単な例

両者で同じグラフィカルモデルを考えることができます。以下のようなハイパーパラメータα、βの効き方が違う2つのベイズ線形回帰モデルを考えるとすると

 y=W*x+b
 W~N(0,α)
 b~N(0,β)

 α~N(0,1)
 β~N(0,1)

 y=W*x+b
 W~N(0,α)
 b~N(0,α)
 
 α~N(0,1)

機械学習ではクロスバリデーションでどちらのモデルが汎化誤差が小さいかで性能を評価、選択するのに対し、統計モデリングの場合はデータの属性、出処がわかっていてそこから適切なモデリングを行い全部のデータに対して推論計算をするのだと思います。発見法的に複数のモデルの推論を試行してみて事後分布のばらつきが小さいものを選ぶとかはあるかもしれません。

情報量基準との関係

http://watanabe-www.math.dis.titech.ac.jp/users/swatanab/bayes070.pdf 渡辺澄夫先生の資料から引用

AICとBICの性質 AICは汎化誤差を推定する指標であり、BICは自由エネルギーを近似計算する指標である。目的が違うので、数式が異なることは矛盾ではない。

AICは一致性は持たないが、有効性をもつケースがあることが知られている。

BICは一致性を持つが、有効性は持たないことが知られている。

現実の問題では、一方が計算できるときは他方もすぐに計算できるので、両方とも計算して、異なる角度から真の分布と統計モデルの関係を考察するのがよい。

想定しているモデルの集合の中に真のデータを発生している分布があるとき、データの数 n→∞のとき、真のデータを発生している(パラメータ数が一番少ない) モデルを選ぶことができる時、そのモデル選択法を「一致性を持つ」という。

考察している有限のモデルの集合の中にデータを発生している分布がないとき、データの数 n→∞のとき、最も汎化誤差を小さくするモデルを選ぶことができるとき、そのモデル選択法を「有効性を持つ」という

AICとBICの使い分けは　サンプルの取得に制約があり、あるいは母集団に影響を与えてしまうあるいは全数取得してしまった場合など真の分布関数を再現しようのないときはAIC , 望めばいくらでもデータが取得でき、原理的には真の分布を再現できる場合(追記:11/19 だがメモリの制約などで十分に当てはめられるモデルが作れない場合(MDLの考えに近い))がBIC, あるいは観測科学と実験科学の違いに相当するのでしょうか。

AICとMDLとBIC

AICは真のモデルを選ばない？ » 小泉研究室 | 北海道大学大学院地球環境科学研究院動物生態学コース自然界に影響を与えないようにサンプルをとる生態学の人のAICに対する考えは参考になります