St_Hakky’s blog

Data Science / Human Resources / Web Applicationについて書きます

Data Science

自然言語処理向けのデータ作成ツールの「doccano」を使ってみたので、まとめる

こんにちは。最近、仕事で自然言語処理関係のプロジェクトをやっているのですが、その関係でdoccanoというツールを触ってみることになったので、使い方とかをまとめておきます。 doccanoとは doccanoとは、オープンソースのテキストアノテーションツールです…

【 Kedro】Kedroに入門したのでまとめる

こんにちは。最近、Kedroと言う機械学習向けのパイプライン構築用のツールを使ってみたので、それについてまとめます。 Kedroとは? 概要 Kedro は QuantumBlack というデータ分析企業 が公開している、プロダクションレディなデータ分析用ワークフロー構築…

【Python】Pandasのメモリ使用量の削減方法のまとめ

こんにちは。今、とある事情でPandasのメモリ使用量の削減を仕事でしているのですが、その時に改めてPandasのメモリ使用量の削減方法を調べたので、まとめてみます。 メモリ使用量の確認 今回、タスクを実施するにあたってメモリ使用量がどのくらいかかって…

【Python】時系列予測ライブラリProphetで学習したモデルを保存・呼び出しする

こんにちは。随分前ですが、Facebookの時系列予測ライブラリのProphetについて記事を書きました。www.st-hakky-blog.comちょっぴり本格的に使う機運が高まってきて、「そういえばどうやってモデルを保存・呼び出しするんだろう」って思って、調べてみました…

【Plotly】jupyter notebook上でofflineで使う方法

こんにちは。いつも忘れるので、備忘録。 Jupyter Notebook上で使うときの方法 import plotly.graph_objs as go from plotly.offline import init_notebook_mode, plot, iplot init_notebook_mode(connected=True) 参考 Plotly Offline for IPython Notebooks…

【Python】Pandasでapply処理時に複数の値を返せるようにする

こんにちは。いつも忘れてしまうので、書きます。 やりたいこと Pandasで、applyの処理を書くことはよくあると思うのですが、このときに複数の値を返して、一度で複数カラムを追加したいのです。通常、apply関数を使用して素直にやろうとすると、以下のよう…

【folium】Pythonで位置情報の可視化

こんにちは。今回は、Pythonのライブラリである「folium」を使って、位置情報を可視化してみたので、その方法についてまとめてみます。 概要 Pythonで簡単に使える、地理情報の可視化ライブラリです。以下が関連サイト Github:GitHub - python-visualizatio…

【データ分析の民主化】データドリブンな組織になるには何をしたらいいのか考えてみた

こんにちは。今日は、データドリブンな組織になるために、何をしたらいいかを考えてみたので、それについて書きます。 データドリブンな組織の必要性 先日、以下の記事で「データドリブンな組織ってなんで必要なのか」と言う観点で記事を書きました。st-hakk…

データドリブンな組織に何故なるのかについて改めて考えてみる

こんにちは。データドリブンな組織ってそもそもなんの意味があるのかをしっかりとまとめておこうと思い経った機会があったので、まとめてみます*1。 思い立ったきっかけ このところこのテーマについてよく考えるようになり、また必要だなと感じた背景として…

【初めてのABEJA Platform】ABEJA Platformを使ってコード0行でresnet50のモデルをデプロイしてみる

こんにちは。この記事は、ABEJA Platform Adevent Calendarの2日目の記事です。今回は、現在会社で利用しているサービスであるABEJA Platformを使って、学習したモデルをデプロイしてみましたので、そのやり方をまとめます*1。qiita.com ABEJA Platformとは …

【Redash】ユーザーの削除方法について(GUI/Redash CLI/postgres)

こんにちは。最近、社内のプロジェクトの一環として、Redashを導入したのですが、その際に「そういえば、ユーザーの削除ってどうやってやるんやろ」って思って調べて見ました。 結論 今のところGUI上ではバージョン5でないとできないので(びっくらこいた)、p…

決定木の可視化ライブラリ「dtreeviz」が凄かったのでまとめる

こんにちは。決定木の可視化といえば、正直scikit-learnとgraphvizを使うやつしかやったことがなかったのですが、先日以下の記事をみて衝撃を受けました。そこで今回は、以下の解説記事中で紹介されていたライブラリ「dtreeviz」についてまとめます。explain…

今更感あるけど決定木について調べたのでまとめる

こんにちは。本当にクソいまさらなんですけど、アンサンブル手法とか勉強していたら復習したくなってきたので、ここで復習もかねてまとめておきます。 決定木とは 決定木の概観 決定木はおそらく機械学習とかをやったことがある人なら確実に一回は見たり使っ…

pandas-datareader でデータをダウンロードしてみた

こんにちは。今日は、pandas-datareader を使ってデータを株価とか人口データをダウンロードしてみたので、そのことについてまとめます。 pandas-datareader とは Web上の様々なソースにアクセスできるライブラリ。か元々はPandasのライブラリの一つであった…

【Python】 Pandas-Profilingを使ってみた

こんにちは。最近Kaggleとかやっていて、EDAやるのめんどくさいとか思ったりしちゃったりした時に、ざくっと簡単に分析することができないかなぁと思って調べていたら「Pandas-Profiling」というものがあったので、実際に使ってみました。 本家のサイトなど …

【Kaggle】 Kaggle APIを使ってみる

こんにちは。今日は、Kaggle APIを使って、データのダウンロードとかしてみたので、その作業内容をまとめる。 Kaggle APIとは Pythonで実装されたコマンドラインツールを使用してアクセス可能なKaggleの公式APIのことです。Pythonのライブラリの一つなので、…

【Kaggle】「Mercari Price Suggestion Challenge」に参加したあと、改めて色々調べてみたのでまとめる

こんにちは。Mercariが主催したKaggleのコンペティションである、「Mercari Price Suggestion Challenge」について、過去に参加して色々見ていたんですが、機会があって改めて調べてみることにしたので、調べた内容とかをまとめてみました。 今回のコンペの…

【Python】時系列解析:Prophetで時系列解析してみたのでまとめる

こんにちは。最近、時系列解析が熱いですね!(ただ、仕事で使っているだけという笑)Rの方がまだ時系列解析のライブラリなどは揃っている感じはあります。Pythonでやろうと思うと、選択肢に上がってくるのは、statsmodelsなどもあると思いますが、今回はFaceb…

【Python】時系列解析:日本の休日を判定するライブラリ「jpholiday」を使ってみた

こんにちは。日本の時系列データを今仕事で扱っている関係もあり、日本の休日を判定する必要がありまして、判定するPythonのライブラリを調べて使って見ました。結構いろんなライブラリがあって、どれを使おうかなと迷ってしまうのですが、「jpholiday」とい…

Julia入門 - Tutorialを学びながら作ったのでまとめていく【随時更新】

こんにちは。今年の目標の一つに「Juliaを使えるようになって、データサイエンスをJuliaでする」というものがあるので、いろんなサイトとか見て自分で基本を勉強しながらTutorialを作ってみることにしました。これはまとめページです。ちなみに、Julia初心者…

Julia入門 - 入門者がまず読むべき参考サイトや本のまとめ【随時更新】

こんにちは。Pythonはある程度かけるが、Juliaに関しては全くの初心者である私がこれからJuliaでデータサイエンスをしたり、Deep Learningをしたりしようと思っているので、その学んだ過程とかで参考になった資料とかをまとめておこうかと思います*1。Julia…

【Python】ピアソンの相関係数をいろいろな方法で計算する方法まとめ(SciPy / Numpy / Pandas)

こんにちは。今日は題名の通り。色んな所で目にするピアソンの相関係数ですが、毎回実装の方法調べちゃうので、ピアソンの相関係数をいろんな方法で計算する方法をまとめておきたいと思います。 Pearsonの(積率)相関係数とは ピアソンの相関係数は、英語では…

【Python】可視化ライブラリであるBokehのインストール

こんにちは。最近、Bokehを使っているんですが、そのインストールについて備忘録かねてメモしておきます。 環境 今回試している環境は、以下の通りです。 $ cat /etc/redhat-release CentOS Linux release 7.3.1611 (Core) Anacondaのインストール この手の…

自然言語処理する時に計算するJaccard係数をPythonで計算する方法まとめ

こんにちは。Jaccard係数についてPythonで実装する時にありそうなパターンをまとめてみました。また、自然言語処理の分野からJaccard係数についても調べました。 Jaccard係数 まず、Jaccard係数について説明して、その後実装の部分に入っていきます。 読み方…

データ分析とか学習回したりするときのPythonのログ出力について

こんにちは。もう少し勉強していきたいなと思うものの、こればっかり一生懸命になっているとあんまりコードを書く手が進まなくなるので、ぼちぼち勉強して行こうと思っているのが、ログ出力(笑)分析とかしていると、途中で学習が止まっていたり、思っていた…

【Python】数量データの正規化 ( 標準化 ) について

こんにちは。今回はデータの正規化についてです。いろんな文脈で様々な意味で使われている「正規化」っていう言葉ですが、今回は統計や機械学習で扱う数量のデータに対して行うことに絞り、まとめていきたいと思います。 Introduction データの正規化とは こ…

BitbucketでJupyter Notebookがレンダリングされるようになったらしいので、やってみた

こんにちは。今一緒にKaggleをやっているメンバーから、slackでレンダリングのサポートがされていることを聞いたので、やってみました(10/25には既に公開されていたのに知らなかったという笑)。 ◯Githubでは既にあるのに今までなかった… Bitbucketって便利な…

フォンミーゼス・フィッシャー分布 ( von Mises-Fisher distribution)とは何なのかをPythonを使って確かめる(最尤推定もしてみた)

こんにちは。今日は「フォンミーゼス・フィッシャー分布 ( von Mises-Fisher distribution)」について調べたのでそのことについてまとめます。PRMLの2章にも出てくる分布です(2章はこの前勉強会で話したんですがしんどかったです)。 ◯フォンミーゼス・フィッ…

「異常検知と変化検知~機械学習プロフェッショナルシリーズ~」を読んで勉強会も開いて関連の情報とかも調べたのでまとめておく

こんにちは。※このエントリは、途中ですが資料の共有とかのため、突貫で体裁だけ整えて掲載しています。異常検知と変化検知の分野は、初心者なので、「こんな手法あるよ」とか「こんな論文面白いよ」とかあれば教えてほしいです。 読んだ本 最近某勉強会でい…

kerasでmultiple (複数の) 入力 / 出力 / 損失関数を扱う時のTipsをまとめる

こんにちは。 〇この記事のモチベーション Deep Learningで自分でモデルとかを作ろうとすると、複数の入力や出力、そして損失関数を取扱たくなる時期が必ず来ると思います。最近では、GoogleNetとかは中間層の途中で出力を出していたりするので、そういうの…