xiangze's sparse blog

機械学習、ベイズ統計、コンピュータビジョンと関連する数学について

日本の平均気温偏差の変動データのモデリングと分析

気象庁で 1898年から現在までの全国の平均気温の気温偏差を公開していたのでStanで時系列モデルを作り、その性能の評価を試みました。

ここでの結果には実際の気候変動の原因となっていると考えられている諸現象の効果は含まれておらず、大まかな傾向のみを取り出しているものであることにご注意ください。

続きを読む

Stanの現状と将来(v2.0.1)

STAN RELEASE NOTESTo Do Listから個人的に気になる項目をピックアップしました。

DIC, WAIC,multi-threading,疎行列、ragged array、user-defined functionなどがきになります。MATLAB,Julia,Stataなどのインターフェースも提供予定?だそうです。

盛りだくさん過ぎてすべて実施できるのかはわかりません。

 

続きを読む

あなたとpystan,いますぐapt-get

sudo apt-get update

sudo apt-get install python-numpy

sudo apt-get install cython

sudo pip install pystan

  

#additional libraries

sudo apt-get install build-essential python-dev python-setuptools python-scipy libatlas-dev libatlas3-base

sudo apt-get install python-matplotlib

 

sudo pip install -U scikit-learn

#for test

Eight shools model

 

 

Pystanで自然言語処理 scikit.learnのdatasetで試す

scikit.learnは様々な機械学習アルゴリズムのみならず、データセットも充実しています。stanのpythonラッパーpystanでこれを利用し、Stan manualのLDAのコードの性能を評価することを行いました。

20 newsgroupsというデータセットは名前の通りUsenetの20のカテゴリー、20000の文書(英語)からなるデータセットです。

これをsklearn.feature_extraction.text のCounterVectizerを用いて単語数をカウントした行列形式に変換し、Stanのコードに入力します。

コードは以下のようになります。 

続きを読む

FPGAで競技プログラミング

ルーターで競技プログラミングという記事をみて、色々なアーキテクチャで競技プログラミングができることを知りました(採点はしてくれませんが)。

紹介されていたTopcoder SRM 596のDiv 1の250点問題FPGAで解くモジュールを作成してみました。

続きを読む

Stan2.0では離散変数をparameterとできないことについて

Stan2.0で配列のindexとしてCategorical分布から生成したものは使えないためにモデルの記述がわかりにくくなってしまう場合があります。

Stanマニュアルの説明が簡潔すぎて自分にはすぐに理解できなかったためその補足です。

続きを読む

A Brief Survey on Sequence Classification(系列データの分類)の要約

 

最近時系列データの解析を専門とする人たちのお話をきいたり、ブログを読んだりする機会が多くなっています。工学の枠を超えてビジネスでの応用が盛んになっているようなのですが、今まで制御理論などで得られた理論、知見とは大きな隔たりがあります。

 

そこで系列データの分類(sequence classiffcation)に関して簡潔にまとめられたドキュメントであるA Brief Survey on Sequence Classification (pdf) を読みました。表題の通り実質6ページで構成された短いドキュメントですが、自分の理解の為にその内容を簡単ではありますが以下にまとめます。

続きを読む