St_Hakky’s blog

Data Science / Human Resources / Web Applicationについて書きます

pipでキャッシュを無効にしてインストール

こんにちは。pipでキャッシュを無効にしてインストールするコマンドを久しぶりに仕事で見かけて、調べちゃったので、簡単にメモします。 キャッシュの無効化 キャッシュを無効にするには --no-cache-dir というオプションをつけるとできます。 $ pip install…

今更感あるけど決定木について調べたのでまとめる

こんにちは。本当にクソいまさらなんですけど、アンサンブル手法とか勉強していたら復習したくなってきたので、ここで復習もかねてまとめておきます。 決定木とは 決定木の概観 決定木はおそらく機械学習とかをやったことがある人なら確実に一回は見たり使っ…

【Python】Jupyter Notebookをssh経由で利用する

こんにちは。いつも調べちゃうことをメモ化することに決めた私です。今日は、Jupyter Notebookをssh経由で利用する際の設定メモです。以下のコンテンツは、Anacondaがインストール済みという前提の元作業を行なっています。 リモートの設定 notebook_config.…

【Python】Pandasで行・列で表示する文字数を指定する

こんにちは。Jupyter Notebookなどで行や列を表示した際に、結構な行数を表示させようとした時などは、「・・・」のような形で省略されて表示されてしまうと思います。これは便利な一方で、省略せずに表示してほしい場合などもあると思います。その際に、行…

【Python】loggingを複数ファイル・モジュール間で使う方法

こんにちは。今日は、loggingを複数ファイル・モジュール間で使う方法について調べたので、そのメモを書きます。ログの設定については下記に書いたので、今回は複数ファイル・モジュール間で使う方法についてだけ描きます。st-hakky.hatenablog.com やり方 …

pandas-datareader でデータをダウンロードしてみた

こんにちは。今日は、pandas-datareader を使ってデータを株価とか人口データをダウンロードしてみたので、そのことについてまとめます。 pandas-datareader とは Web上の様々なソースにアクセスできるライブラリ。か元々はPandasのライブラリの一つであった…

【Python】 Pandas-Profilingを使ってみた

こんにちは。最近Kaggleとかやっていて、EDAやるのめんどくさいとか思ったりしちゃったりした時に、ざくっと簡単に分析することができないかなぁと思って調べていたら「Pandas-Profiling」というものがあったので、実際に使ってみました。 本家のサイトなど …

【Kaggle】 Kaggle APIを使ってみる

こんにちは。今日は、Kaggle APIを使って、データのダウンロードとかしてみたので、その作業内容をまとめる。 Kaggle APIとは Pythonで実装されたコマンドラインツールを使用してアクセス可能なKaggleの公式APIのことです。Pythonのライブラリの一つなので、…

【Kaggle】「Mercari Price Suggestion Challenge」に参加したあと、改めて色々調べてみたのでまとめる

こんにちは。Mercariが主催したKaggleのコンペティションである、「Mercari Price Suggestion Challenge」について、過去に参加して色々見ていたんですが、機会があって改めて調べてみることにしたので、調べた内容とかをまとめてみました。 今回のコンペの…

【Python】時系列解析:Prophetで時系列解析してみたのでまとめる

こんにちは。最近、時系列解析が熱いですね!(ただ、仕事で使っているだけという笑)Rの方がまだ時系列解析のライブラリなどは揃っている感じはあります。Pythonでやろうと思うと、選択肢に上がってくるのは、statsmodelsなどもあると思いますが、今回はFaceb…

【Python】時系列解析:日本の休日を判定するライブラリ「jpholiday」を使ってみた

こんにちは。日本の時系列データを今仕事で扱っている関係もあり、日本の休日を判定する必要がありまして、判定するPythonのライブラリを調べて使って見ました。結構いろんなライブラリがあって、どれを使おうかなと迷ってしまうのですが、「jpholiday」とい…

Centos7のGitを最新のバージョンのupdateしたのでまとめる

こんにちは。Centosでは、デフォルトのyumで入るものは古めのものが多いが、gitは1.8.xが入っていた。このバージョンに虚弱性があるらしく、また最新のコマンドなどを使いたい気持ちがあるので、最新のバージョンに更新したい。ちょうど、今インターン先で開…

Julia入門 - Functions(関数)

こんにちは。 Functions (関数) gist.github.com Pythonとの違いとか 関数の定義の仕方に微妙な違いはあれ、そんなに大きな違いはありませんでした。引数に値を渡すときにどのように値が渡るかとかも、Pythonと同じみたいですし。ただ、一点以下の部分が結構…

Julia入門 - Conditionals(if文/三項演算子)

こんにちは。今日は、Juliaの条件分岐としてif文を書いていこうと思います。 Conditionals(if文/三項演算子) gist.github.com Pythonとの違いとか ■「:」ではなくて、「end」でif文などのbodyを判定する これは結構Pythonに慣れているとムズムズします笑。 ■…

Julia入門 - Loops (while/for/内包表記)

こんにちは。今日は、Loop (while/for/内包表記)についてやっていきます。内包表記もついでにやります笑。 Loops (while/for/内包表記) gist.github.com Pythonとの違いとか ■コロンはいらない 結構書いていて気持ち悪かったですね、、、笑。コロンの代わり…

Julia入門 - Sets(集合)

こんにちは。今日は、Sets(集合)について勉強していきたいと思います。 Sets(集合) Pythonとの違いとか 結構似た印象を感じました。定義の仕方とか集合の操作方法に違いはありますが、基本的には同じような感じで使えるな、と。それでは。st-hakky.hatenablo…

Julia入門 - 辞書型 (Dictionaries)

こんにちは。今日は、辞書型についてやっていきます。 辞書型 (Dictionaries) gist.github.com Pythonとの違いとか 違いはあるといえばあるんですが、今回はだいぶ違う感じの印象を受けたので(定義の仕方から違うなど)、私個人としてはJulia言語として受け取…

Julia入門 - Arrays (配列)

こんにちは。今日は、配列について書きたいと思います。 Arrays (配列) gist.github.com Pythonとの違いとか まだ勉強しきれてないからかもしれないが、なんかNumpyを使っている雰囲気に近いので、違和感とかは少なかった。 ■Juliaは配列の指定とかが1スター…

Julia入門 - Tuples (タプル)

こんにちは。今日は、みんな大好き(?)Tupleについてです。JuliaでのTupleの基本についても書くんですが、Pythonではcollectionsモジュールで使えるNamedTupleがめちゃめちゃ便利なので、Juliaではそこら辺どうやってやるのかも書こうと思います。 Tuples (タ…

Julia入門 - Tutorialを学びながら作ったのでまとめていく【随時更新】

こんにちは。今年の目標の一つに「Juliaを使えるようになって、データサイエンスをJuliaでする」というものがあるので、いろんなサイトとか見て自分で基本を勉強しながらTutorialを作ってみることにしました。これはまとめページです。ちなみに、Julia初心者…

Julia入門 - Strings

こんにちは。今日は、JuliaのString型について書きます。勉強していく中で、Pythonとは少し違う部分があるんだなぁと思ったので、そのあたりを中心にまとめます*1。 String型 以下のJupyter Notebookにやったこととか書き方とかまとめてます。 gist.github.c…

Julia入門 - Hello World / コメント / 基本的な算術演算

こんにちは。Julia入門をしています。今日はお決まりの、Hello Worldあたりを攻めていこうと思います*1。 環境構築 以下でやりました。st-hakky.hatenablog.com Hello World 以下のような感じですね。 gist.github.com少しだけコードの補足を以下に書きます…

【Python】functools.partial()で関数やメソッドの引数の一部を固定する部分適用を行う

こんにちは。最近、化粧のやり方とかを紹介するYoutuberを見て、「へぇー綺麗にできるもんだなぁ」って感心している私ですが、今日はfunctools.partial()の綺麗な使い方を見つけたので、その紹介をメモがてらしようと思います。 関数やメソッドの引数の一部…

Julia入門 - 入門者がまず読むべき参考サイトや本のまとめ【随時更新】

こんにちは。Pythonはある程度かけるが、Juliaに関しては全くの初心者である私がこれからJuliaでデータサイエンスをしたり、Deep Learningをしたりしようと思っているので、その学んだ過程とかで参考になった資料とかをまとめておこうかと思います*1。Julia…

論文を読んでブログにまとめていこうと思うので、そのまとめ方をまとめておく

こんにちは。今日はタイトルの件について書きます*1。 モチベーション これまでは、メモ程度でまとめていたり、発表資料(PPT)とかブログでガッツリまとめて公開したり、さらっとメモをブログの下書き機能で書いたりみたいな感じで*2、全然統一感なくまとめて…

【Python】ピアソンの相関係数をいろいろな方法で計算する方法まとめ(SciPy / Numpy / Pandas)

こんにちは。今日は題名の通り。色んな所で目にするピアソンの相関係数ですが、毎回実装の方法調べちゃうので、ピアソンの相関係数をいろんな方法で計算する方法をまとめておきたいと思います。 Pearsonの(積率)相関係数とは ピアソンの相関係数は、英語では…

【Python】実行時間を測定する方法まとめ

こんにちは。実行時間(処理時間)を計測したいことはよくあると思いますが、今回はPythonで実行時間を測りたいなってなった時の方法を、自分用にまとめておきたいと思います。※なんか章立ての粒度がばらばらになってしまった気がするが、細かいことは気にしな…

【Python】可視化ライブラリであるBokehのインストール

こんにちは。最近、Bokehを使っているんですが、そのインストールについて備忘録かねてメモしておきます。 環境 今回試している環境は、以下の通りです。 $ cat /etc/redhat-release CentOS Linux release 7.3.1611 (Core) Anacondaのインストール この手の…

自然言語処理する時に計算するJaccard係数をPythonで計算する方法まとめ

こんにちは。Jaccard係数についてPythonで実装する時にありそうなパターンをまとめてみました。また、自然言語処理の分野からJaccard係数についても調べました。 Jaccard係数 まず、Jaccard係数について説明して、その後実装の部分に入っていきます。 読み方…

2017年の振り返り

こんにちは。今年は何をやったか思い出せないくらいにはなんかやってた気がします笑。去年もやりましたが、今年も一年の振り返りをしておこうかなぁと思います。st-hakky.hatenablog.comあと、これも去年書いてますが、最近色んな人が私のブログを見てくれて…