python pandas drop_duplicates 重複する行を削除

2023年10月16日 22:18

データフレームの同一列内にある重複する行を削除する、
drop_duplicatesメソッド。
データフレームのオブジェクトからdrop_duplicatesメソッドを呼出し、
引数subsetに重複の削除を行うカラム名を設定。subsetは省略可能。
複数列を設定すると、指定列内すべて満たす場合削除される。
複数列を指定する場合は、リスト表記（角括弧内にコンマで区切り設定していく）。
引数keepにfirstで一番上になる行を残す、lastで一番下になる行を残す。
デフォルトは「 first 」。
df.drop_duplicates( subset=[ "カラム名" ] , keep="last", inplace=True )
引数inplace=True で元のデータフレーム変更。
または、変数へ代入する。その場合は引数inplace=Trueは不要。
df_new = df.drop_duplicates( [ "カラム名", "カラム名" ] )

df.drop_duplicates(subset="備考", keep="last", inplace=True)
または
df_new = df.drop_duplicates(["備考"], keep="last")

カラム名「備考」を設定し、（上）keep=first の場合、（下）keep=last の場合

この記事が気に入ったらサポートをしてみませんか？