St_Hakky’s blog

Data Science / Human Resources / Web Applicationについて書きます

Data Engineer

【BigQuery】クエリの単体テストを書こうと思ったけど壁が厚くてどうしようか悩んでいる話

こんにちは。久しぶりのブログ投稿になってしまったのですが、今日は「クエリの単体テストを書こうと思ったけど、壁が厚くてどうしようかなと思った話」を書きたいと思います。はじめに言っておきますが、この記事は特に何か解決策があるわけでもなんでもな…

【Airflow】KubernetesPodOperatorにdag_run.confを渡したい

こんにちは。今日は、airflowと戯れていたら、なんかバグを踏んだか何かをしたので、それについて書きたいと思います。 やりたいこと KubernetesPodOperatorにdag_run.confをenv_varsのパラメーター経由で渡して、そのenv_varsに、実行日を渡して、どの日の…

【Pandas】週の曜日の始まりが違う場合の週ごとの日付を取得する方法があったのでまとめる

こんにちは。 モチベーション 今開発で、週の曜日の始まりが違うケースがあって、でも一年間の週の通し番号ごとに集計をしたい、みたいな感じのことがしたく、週の曜日始まりが違う曜日のスタートで、週ごとの日付を取得したいなという気持ちがありました。p…

自然言語処理向けのデータ作成ツールの「doccano」を使ってみたので、まとめる

こんにちは。最近、仕事で自然言語処理関係のプロジェクトをやっているのですが、その関係でdoccanoというツールを触ってみることになったので、使い方とかをまとめておきます。 doccanoとは doccanoとは、オープンソースのテキストアノテーションツールです…

【kedro】gcsのファイルを読み込むときのcredentialsの設定方法

こんにちは。kedroのドキュメントにもし書いてあったらすみませんなのですが、地味にハマったので、備忘録的に書いておきます。 やりたいこと gcsにあるデータを読み込んで、それを処理のなかで使いたいです。 設定方法 credentials系の情報は、 conf/local/…

【 Kedro】Kedroに入門したのでまとめる

こんにちは。最近、Kedroと言う機械学習向けのパイプライン構築用のツールを使ってみたので、それについてまとめます。 Kedroとは? 概要 Kedro は QuantumBlack というデータ分析企業 が公開している、プロダクションレディなデータ分析用ワークフロー構築…

【AWS】AWS Data PipelineのstartDateTimeの指定で盛大にハマった話

こんにちは。今日は、AWS Data Pipelineを使っていてstartDateTimeの指定で盛大にハマったので、その話を書きます。 そもそもAWS Data Pipelineって何? って方は、以下の記事をどうぞ。まぁ、この記事読んでいる人はこれについては知っているだろうけど。ww…

【AWS】AWS Data Pipelineでプライベートサブネット内にあるDB(RDS)を操作するのに盛大にハマったのでまとめる

こんにちは。今日は、Data Pipelineでプライベートサブネット内にあるDBを操作する場合の対処方法についてはまったので、書いてみたいと思います。 AWS Data Pipelineとは AWS Data Pipelineについては、以前記事にしているので、以下の記事をご覧ください*1…

【AWS】AWS Data Pipeline入門

こんにちは。最近仕事でAWS Data Pipelineを使う機会があったので、その機能についてまとめます。 AWS Data Pipelineとは AWS Data Pipelineとは、一言で言うとAWSが提供するAirflow、みたいな感じになると思います。aws.amazon.comAWSのS3やDynamoDB、Redsh…

【Python】Pandasのメモリ使用量の削減方法のまとめ

こんにちは。今、とある事情でPandasのメモリ使用量の削減を仕事でしているのですが、その時に改めてPandasのメモリ使用量の削減方法を調べたので、まとめてみます。 メモリ使用量の確認 今回、タスクを実施するにあたってメモリ使用量がどのくらいかかって…

【AWS】SAMを使ってLambdaでAuroraを自動で停止させる

こんにちは。先日、開発チームのコスト削減の一環で、開発環境のAuroraをDailyで確認し、起動されていたら、自動的に停止するスクリプトを書きました。そんなに大したことではないのですが、なんかまたありそうなネタなので、自分のブログでまとめておこうか…

【Python】Apache Beamを使ってデータパイプラインを実装してみる

こんにちは。先日、Apache Beamに関する概要の記事を書きました。www.st-hakky-blog.com今回は、Apache Beam SDKのうち、Pythonを使って、実際にデータパイプラインを実装してみようと思います*1。 今回のお題 今回は、Apache Beamの公式のドキュメントをベ…

Apache Beamとは

こんにちは。最近、社内のデータパイプラインの再設計をしておりまして、その中でGCPのDataflowを使う話が出てきました。その中で、Apache Beamの内容について勉強する必要があったので、それについてまとめます*1 Apache Beamとは 公式サイト 本家のサイト…