xiangze's sparse blog

機械学習、ベイズ統計、コンピュータビジョンと関連する数学について

ホクソエムとその周辺分布

HOXO-M Advent Calendar 2017 - Qiitaの10日目です。

qiitaにpoemタグがあるのを知りました

今や著名なデータサイエンティスト界隈の中核として知られる組織ホクソエムですが、その実態は明らかではない。と去年くらいまでは思っていたのですが、執筆やtidyverseの普及など実際活動が明確になってきていて驚きます。

hoxo-m.com


ホクソエムはR界隈の存在と見なされているようですが、私がpythonに興味を持ったきっかけはhoxo_m社長が某データ分析コンペでscikit-learnを使っていたというのを聴いてからでした*1。stanとベイズ統計モデリングに関しては松浦さんに大きな影響を受けました。
一方的に影響を受けてばかりなのですが自分が何か貢献出来そうな分野があるのかとも思ってしまいます。

代数幾何と学習理論」の本の読み会をしていたのですがそこで展開されている理論では統計モデルを代数多様体上の確率分布として定義することで特異性を持ったモデルに対しても訓練誤差−汎化誤差間の関係や情報量基準を導くことができることが説明されています。

代数幾何と学習理論 (知能情報科学シリーズ)

代数幾何と学習理論 (知能情報科学シリーズ)

Algebraic Geometry and Statistical Learning Theory (Cambridge Monographs on Applied and Computational Mathematics)

Algebraic Geometry and Statistical Learning Theory (Cambridge Monographs on Applied and Computational Mathematics)

自分は数式を追うので精一杯な感じでしたがCEOはこんな感じで自らの疑問をコード化して確かめています。
RPubs - ニューラルネットの学習係数を数値計算で求める
RPubs - Bayes Training Error は本当にマイナスになるのか?
手を動かして学ぶことが重要だと学ばされました。

多様体とは局所的にはユークリッド空間と同じ空間を貼り合わせたものとして定義されています。その中でも複素多様体(Manifold)は局所的に多次元の複素数で座標付けできる多様体として定義できます。
複素数の係数を持つ一次以上の方程式は必ず複素数の解を持つという強い性質(代数学の基本定理)を持っています。1回微分可能な関数(正則関数) は何度でも微分できるという性質(グルサーの定理)もあります。この強い性質は多様体の場合も現れてきてその形状と定義できる関数の自由度の間に制約が入ったりするそうです*2
機械学習や統計の分野では一般に確率が重要になるので実数に値域を持った関数、あるいは関数値関数(確率過程)が重要になるので直接適用するのは難しいのかもしれませんが、こういった性質は回転群を部分群として含む物体の識別や量子力学的な対象のモデリングに使えるのかもしれません。

社長のみならず会社組織の名称となったHoxo-mの起源に思いをはせて見ました。
hoxo-m.com

ポエムもうまくなりたいですがコード書いていきたいというのが今後の抱負です*3

有益パッケージです。
https://github.com/hoxo-m/tpotr

*1:以来簡単なテキスト処理や画像処理はpythonのほうが楽なのですっかりRと疎遠になってしまいました

*2:小平の消滅定理やリーマンロッホの定理など

*3:シリアルパッケージクリエーターがすごい