zawatien

DataScientist 技術メモを中心に展開 まれにポエム

zawatien

DataScientist 技術メモを中心に展開 まれにポエム

マガジン

  • エンジニアリング

    環境構築等やデータ分析系以外の技術について。

  • データサイエンス

    データ前処理、機械学習、分析に関するTips こうするとラクのような抜け穴や、日本語の解説記事がなくて困ったといったあたりが多くなると思います。

  • 統計

最近の記事

README用のディレクトリ構成をラクに書くTips

以下をコマンドラインで実行したらクリップボードに保存される。 tree | clip.exe

    • 【2022年春】気になる本(AI、データサイエンス系中心)

      本屋で立ち読みしてみていいなと思った本。 特に新しめのものを中心に。 データ利活用の教科書 めちゃいいと思う。 作業者にも発注者にもすべての人に自費でプレゼントしたいくらい。 データサイエンス、AI、DX色んな言葉が手を替え品を替えつつ5年ほど前からバズワードになってきた。 で、核になる分析の実装や手法に関する情報は書籍、ネット記事等でたくさん得られるようになってきた。 集計なりなんなりは適当に検索して出てきた方法をそのままやれば、それなりのアウトプットが出せるよう

      • VSCodeでフロー図作成&画像加工

        ちょっとした資料作成で図解したいときに、別途ソフトを開いたり、あまり使い勝手の良くないPowerPointやExcelの中で作業するのは非効率。 そこそこ使い勝手がよいツールがVSCodeのExtentionに存在している。 Luna Paint VSCodeでPhotoShop!?レイヤーを使い分けつつ、画像ファイルに文字を追加したり色を変えたりといったことが可能。回転、複数枚の画像の合成等も可能。 レイヤー情報ごと保存する.psのようなことはできないが、ちょっとした加工

        • plotly-expressのplotを画像で保存する+kaleidoのエラー解消策

          適当に検索して出た方法でplotly expressのプロットを保存しようと思ったらkaleidoやorcaのengineでやたらエラーが出てかなり困った。 バージョンとか色々原因はあるかと思うが、以下で解消していける(はず) ゴール↓が動くなら問題ないので、ブラウザバックしてそのまま驀進 ※必要に応じてpip install等おこなう # jpg形式の保存の場合import pandas as pdimport plotly.express as pxdf = px.d

        README用のディレクトリ構成をラクに書くTips

        マガジン

        • 1本
        • エンジニアリング
          3本
        • データサイエンス
          4本
        • 統計
          1本

        記事

          scoop+VSCode+Pythonの環境作成・切替

          なにからなにまでローカルのものをscoopで管理してしまおうという思想。 開発環境そろえるみたいな時もvenvより直感的に使えておすすめ。 この手の情報は断片的にはありつつも一気通貫したものがなかったので記載。 scoopのインストール+αSet-ExecutionPolicy RemoteSigned -scope CurrentUserinvoke-Expression (New-Object System.Net.WebClient).DownloadString('

          scoop+VSCode+Pythonの環境作成・切替

          ubuntuの仮想環境構築 Python3.x.y+venv

          開発等で特定の環境が必要になった時、指定のバージョンのPythonのインストールと、仮想環境の作成まで一気通貫したものがなかったので作成。 準備以下をコマンドラインに流してインストール sudo apt-get install -y build-essentialsudo apt-get install -y checkinstallsudo apt-get install -y libreadline-gplv2-devsudo apt-get install -y l

          ubuntuの仮想環境構築 Python3.x.y+venv

          bq loadで解決。GoogleCloudStorage→BigQueryへのデータ取り込み

          GCSにcsvがあるとして、BigQueryのテーブルにする。 そういう処理について。 bq loadで解決 解決策の1つはbqコマンド。 中でもbq load csvのデータから、1行目の読み飛ばし、型の自動検出といったあたりを引数にして取り込む例は以下。 bq load --source_format=CSV --skip_leading_rows 1 --autodetect {プロジェクト名}:{データセット名}.{テーブル名} {GCSのURI} テーブルに

          bq loadで解決。GoogleCloudStorage→BigQueryへのデータ取り込み

          BigQueryでラクする日付処理

          "2021-12-24"+1 →"2021-12-25"になったら直感的で嬉しい。 BigQueryならそれに近いことができる。 日常的にSQLを書いてBigQueryからデータを取っているとき、日付型のデータを取り扱うのが少し面倒くさくなってくる。 「2022-01-01」のような日付型のdateというcolumnがあるとき、 BigQueryは忖度して以下のように対応してくれるので非常に便利。 -- 略WHERE date > "2021-12-15" -- 日付が20

          BigQueryでラクする日付処理

          Pandas groupby 列ごとに集計関数を変える

          pd.groupby().sum()とかはよく使うものの、 列ごとにここは合計、ここは平均といった 使い分けをする方法はSQLだと容易にできるがPandasではdplyr的な記法のagg()を使うことになる。 意外と浸透していないようなので記載。 import pandas as pddf = pd.DataFrame([{'col_0': "A", 'col_1': 1, 'col_2': 2}, {'col_0': "A", 'co

          Pandas groupby 列ごとに集計関数を変える