St_Hakky’s blog

Data Science / Human Resources / Web Applicationについて書きます

統計

【Python】ピアソンの相関係数をいろいろな方法で計算する方法まとめ(SciPy / Numpy / Pandas)

こんにちは。今日は題名の通り。色んな所で目にするピアソンの相関係数ですが、毎回実装の方法調べちゃうので、ピアソンの相関係数をいろんな方法で計算する方法をまとめておきたいと思います。 Pearsonの(積率)相関係数とは ピアソンの相関係数は、英語では…

フォンミーゼス・フィッシャー分布 ( von Mises-Fisher distribution)とは何なのかをPythonを使って確かめる(最尤推定もしてみた)

こんにちは。今日は「フォンミーゼス・フィッシャー分布 ( von Mises-Fisher distribution)」について調べたのでそのことについてまとめます。PRMLの2章にも出てくる分布です(2章はこの前勉強会で話したんですがしんどかったです)。 ◯フォンミーゼス・フィッ…

「日本の人事を科学する 因果推論に基づくデータ活用」を読んだ

こんにちは。お盆を利用して、前から気になっていた「日本の人事を科学する」という本を読んでみましたので、その感想とかを書いておきたいと思います。 ◯読んだ本 今回読んだのは以下の本です。この本は前から気になっていて、というか私自身も人事はもっと…

Gradient Boostingについて調べたのでまとめる

こんにちは。Gradient Boostingについて調べたのでまとめました。その他の手法やBoostingってそもそも何的な説明は以下の記事でしています。st-hakky.hatenablog.com ◯Gradient Boostingとは Gradient Boostingの誕生の経緯とかはこちらに書かれているので、…

AdaBoostについて調べたのでまとめる

こんにちは。今日はAdaBoostについて書きます。Boostingってそもそも何っていうのとか他のBoostingの手法については以下の記事をどうぞ。st-hakky.hatenablog.com AdaBoostとは AdaBoostは"Adaptive Boosting"の略でBoostingのアルゴリズムとしては最初に出…

Boosting(ブースティング)について調べたのでまとめる:AdaBoost / Gradient Boosting / XGBoostなど

こんにちは。最近、アンサンブル学習について勉強しているんですが、この記事ではBoostingについて調べたことを書きます。以下がその他のアンサンブル学習とか全般的な話とかについて書いた記事なので、バギングとか知りたい人は以下の記事をどうぞ。st-hakk…

Bagging(バギング)について調べたのでまとめた:Out-of-Bag(OOB) / Random Forest / Decision Jungles / Deep Forest(gcForest)

こんにちは。Kaggleをやるにあたって(というかふつうに勉強したかったのもある)、アンサンブル学習の方法は勉強しておく必要があるようなーと思って、勉強してみました。他のブースティングやスタッキング、アンサンブル学習全般については以下の記事をどう…

アンサンブル学習について勉強したのでまとめました:Bagging / Boosting / Stacking

こんにちは。今、KaggleのRestaurant Revenue Predictionをやっていて、その中でアンサンブル学習について再度学習してみたので、まとめました。結構ながくなっちゃったかもですが、頑張って参考文献に飛ばしたりとかしてまとめました(笑) アンサンブル学習…

Kaggleを始める際に知っておくべきTipsをまとめてみた

こんにちは*1。Kaggle、熱いですね!Kaggleのコンペなんか参加しようと思ってKaggleサイトをぱらぱら眺めてるんだけど、これカーネルとか眺めてるだけで、下手なところよりも普通に勉強できちゃうな笑— Hakky@Julia勉強中(´・∀・) (@St_Hakky) 2017年11月14日…

時系列解析:自己相関係数, 定常性, White Noise, AR, MA, ARMA, ARIMA, ARIMAX, SARIMAについて【調べたら随時追加】

こんにちは。最近時系列解析をすることになり、AR, MA, ARMA, ARIMA, ARIMAX, SARIMAあたりについて勉強したので、それについてまとめておこうかと思います。ぶっちゃけいろんなところにもうすでに解説は出ているので、これは調べている過程で参考になったリ…

勾配降下法について調べてまとめてみた

こんにちは。今までなんとなくなーなーで勉強していたGradient Descentですが、ちゃんと調べて見ました。OverViewの論文があって(元はブログの投稿なので、これはそうというのかわからないけど)、今回それを読みつついろんな資料を漁る方式で勉強しました。 …

Rで協調フィルタリングをやってみた

こんにちは。実際のレコメンドシステムでは、こういったパッケージを利用するのではなく、独自アルゴリズムなどを開発して自社パッケージとして持っておくのが普通かなぁと思う。んだけど、PoC(Proof of Concept)の段階、つまりレコメンドを実業務に導入する…

Rでアソシエーション分析:アプリオリアルゴリズム編

こんにちは。 ○arulesを使ってアソシエーション分析 ■arules関係のパッケージ 以下のサイトにまとまっている。lyle.smu.edu ■参考サイト ・CRAN - Package arules ・Reference manual : arules.pdf ■インストールと読み込み # “arules”のインストール instal…

「劣モジュラ最適化と機械学習」を読んだ&輪講会をしたのでまとめておく

こんばんは。最近、機械学習プロフェッショナルシリーズの「劣モジュラ最適化と機械学習」を読んで、輪講会を勉強会でしたので、スライドとか参考情報をまとめておきたいと思います。 そもそも興味を持ったきっかけ 劣モジュラ最適化と機械学習について興味…

データ解析のための統計モデリング入門を読んで輪講会した

こんにちは。年末から年始にかけて、「データ解析のための統計モデリング入門」を読んでました。今度、その輪講会をします。僕の担当は1章〜6章までだったので、「自分でスライド全部作ってるのは流石に無理んご」ってなったので、slideshareなどに上がって…

Rでグラフィカルモデル(ベイジアンネットワーク)を行う際に使うパッケージまとめ

こんにちは。Rでグラフィカルモデル(主にベイジアンネットワーク)を行う際に使うパッケージについてまとめておきます。基本的には、おそらく次の3つのRのパッケージで大丈夫かなぁと思います。他にもあればぜひ教えてください。・bnlearn ・deal ・catnet ○b…

評価方法・評価指標についてまとめる(随時更新)

こんばんは。毎回なんだっけなーとなる評価指標についてまとめます。また、英語の文献だけならいいんですが、日本語でたまに言われると面食らうので、それについてもまとめます。 ○混同行列 少しこの評価指標全般について話す前に、混同行列について書きます…