スプレッドシートからcolab上のdataframeにデータを流し込むpythonコードレシピ
ちょっと混み入った集計や分析をしたい時に使えます。
スプレッドシート上のデータは余計な空白やセルの結合はない状態になっており、一行目が列名になっていることが前提です。
ノールックで実行
from google.colab import auth
from google.auth import default
import gspread
import pandas as pd
auth.authenticate_user()
creds, _ = default()
gc = gspread.authorize(creds)
ss_id = ""
workbook = gc.open_by_key(ss_id)
worksheet = workbook.worksheet("")
data =worksheet.get_all_values()
#一行目に不要な行が入っている時 #data .pop(0)
_df = pd.DataFrame(data, columns=data[0])
df = _df.drop(_df.index[0])
df
よく使う前処理
必要なカラムを抽出
df.columns
column_list = []
df = df[column_list]
型を変換
まずは、カラムごとのデータ型を確認
df.dtypes
・日付型に
df["利用日"] = pd.to_datetime(df["利用日"])
・整数値に
df["売上"]=df["売上"].astype(int)
Pandasの表示オプション
・dataframe全てを表示させる
pd.set_option('display.max_rows', None)
pd.set_option('display.max_columns', None)
この記事が気に入ったらサポートをしてみませんか?