スプレッドシートからcolab上のdataframeにデータを流し込むpythonコードレシピ

ちょっと混み入った集計や分析をしたい時に使えます。

スプレッドシート上のデータは余計な空白やセルの結合はない状態になっており、一行目が列名になっていることが前提です。

ノールックで実行

from google.colab import auth
from google.auth import default
import gspread

import pandas as pd

auth.authenticate_user()
creds, _ = default()
gc = gspread.authorize(creds)

ss_id = ""
workbook = gc.open_by_key(ss_id)
worksheet = workbook.worksheet("")
data =worksheet.get_all_values()
 #一行目に不要な行が入っている時  #data .pop(0)

_df = pd.DataFrame(data, columns=data[0])
df = _df.drop(_df.index[0])
df


よく使う前処理


必要なカラムを抽出

df.columns
column_list = []
df = df[column_list]


型を変換

まずは、カラムごとのデータ型を確認

df.dtypes


・日付型に

df["利用日"] = pd.to_datetime(df["利用日"])

・整数値に

df["売上"]=df["売上"].astype(int)


Pandasの表示オプション

・dataframe全てを表示させる

pd.set_option('display.max_rows', None)
pd.set_option('display.max_columns', None)


この記事が気に入ったらサポートをしてみませんか?