xiangze's sparse blog

機械学習、ベイズ統計、コンピュータビジョンと関連する数学について

機械学習

2018年12月のまとめ

年が明けてしまいましたが2018年12月のまとめです。

Group Equivariant CNNとM理論について

画像内の物体が回転したり変形したりしていても認識できるような方法に関する研究の論文を読みました。 CNNでは学習データを大量に用意しなければならず、そのために既存の画像に並行や回転などの操作を施して学習を行うと精度が向上することが知られていま…

表現定理の使いどころとkernel SVM

カーネル法に関してずっと勘違いしていたというかちゃんと理解していなかったことを書きます。

論文コーパスの次元圧縮とLDAによるトピックの関係の可視化

機械学習の方法として教師なし学習で得られた量を特徴量として教師あり学習で使うという方法があります。 OnlineNewsPopularityの列の中にもLDAで推定されたトピックがあるようです。文書データもOnlineNewsPopularityと同じようにLDAで得られた量を使って機…

KerasとskoptでのBayesian Optimization

使ったアルゴリズム(random forest, neural net, Bayesian Optimization)とデータ(OnlineNewsPopularity)はTJOさんのブログ記事 と全く同じでPythonのライブラリscikit-learnのrandom forestとKeras, bayesianを使っているところが異なります。

RBMのtheanoコード解説

deeplearning.netのRBM(Restricted Boltzmann Machine)のTheanoでの実装面からの説明です。RBMのアルゴリズムについてはsinhrksさんが Theano で Deep Learning <6>: 制約付きボルツマンマシン <前編> - StatsFragments に書かれています。説明の流れはdeepl…

「情報幾何の新展開」のやばさ

「情報幾何の新展開」という本が話題になっています。 http://www.saiensu.co.jp/?page=book_details&ISBN=ISBN4910054700848&YEAR=2014別冊数理科学 情報幾何学の新展開 2014年 08月号 [雑誌]出版社/メーカー: サイエンス社発売日: 2014/08/22メディア: 雑…

RNN-RBMによる旋律の予測と生成と音楽情報処理に関する紹介

かなり以前(2012年)のものになりますが、deeplearning.netでRecurrent Neural Network(の一種)のTheanoによる実装とMIDIデータからの旋律予測に関する論文の実装が公開されていたの紹介します。またその他機械学習による音楽情報の解析に関して少し紹介しま…

pythonでGPUとMCMC(とR)

GPUでモンテカルロ法の計算をしたくなったりした場合には普通CUDA,OpenCLを使うことになります。 C++でプログラミングする必要があるのですが、変数の確保、解放などで記述が長くなりがちです。pythonを用いると記述を簡潔にできるところが多いらしいので関…

Fisher行列とKL Divergenceの関係とEMアルゴリズム、変分ベイズ推定について少し

Relations between Kullback-Leibler distance and Fisher information に書いてあることそのものです。行列といいながら1次元のときのことしか書いていないのが良くないです(上記ドキュメントではmatrixとは言っていない)。

1行でディープラーニングできなかった(theanoとH2O)。

pip install theanoimport urllib2 exec(urllib2.urlopen("https://gist.githubusercontent.com/xiangze/90c2a215b46dad907329/raw/onelineardA.py").read())data(MNIST)のダウンロードではまったら頑張りましょう。 元ネタ(H2O) BOD Rで一行でディープラー…

コンピュータビジョン最先端ガイド6 第4章ディープラーニングの予習

第4章ディープラーニングの内容に関する個人的ノートです。 詳しくはコンピュータビジョン最先端ガイド6 (CVIMチュートリアルシリーズ)作者:藤代 一成,高橋 成雄,竹島 由里子,金谷 健一,日野 英逸,村田 昇,岡谷 貴之,斎藤 真樹アドコムメディアAmazonを読ん…

Pystanで自然言語処理 scikit.learnのdatasetで試す

scikit.learnは様々な機械学習のアルゴリズムのみならず、データセットも充実しています。stanのpythonラッパーpystanでこれを利用し、Stan manualのLDAのコードの性能を評価することを行いました。 20 newsgroupsというデータセットは名前の通りUsenetの20…

redsvdのwrapper RRedSVDとRパッケージ作成、公開についての覚え書き

疎行列に対する特異値分解の高速な近似実装 redsvdのR wrapperである RRedSVDを作成、公開しました。 https://github.com/xiangze/RRedsvd ライセンスはBSDです。 TokyoRでは特異値分解とは何か、どんな手法があるかなどの基本的説明、RとC++を橋渡しするRcp…

Python, Sympyを用いたVanishing Component Analysisの実装(と動作)

未だ挙動が怪しいですが、Pythonの数式処理ライブラリSympyを用いて Vanishing Component Analysis(論文pdf)を実装しました。 Sympyは可読性が高いのが利点ですが、速度を考慮した実装ではないため特に次数の高い多項式まで求めようとした場合にどんどん動作…

Non-Euclidean Manifold上での近似最近傍探索(論文紹介)

こんにちは。@xiangze750です。Machine Learning Advent Calendar 2012の13日目の投稿になります。 今回はコンピュータビジョンにおける最近傍探索と幾何学についての論文紹介です。 Fast ANN Methods for Non-Euclidean Manifolds with Applications to Hum…

力学系の性質とその分類、予測への応用に関する論文紹介(2)

機械学習の分野で力学系の知見を取り入れること、あるいは力学系研究において機械学習や統計的予測の手法を用いることは有用です。 前のエントリで紹介した2つの論文では時系列を生み出す力学系の方程式を求めるようなことはせず、その不変量から分類、予測…