差分

このページの2つのバージョン間の差分を表示します。

--- programming:python:packages:pandas:update_multi_column [2019/06/26] – ikatakos
+++ programming:python:packages:pandas:update_multi_column [2021/12/03] – [巨大なDFに対する更新はなるべく一度に] ikatakos
@@ 行 413: / 行 413: @@
 数百～数千万行のDataFrameに対して更新をかけるのは、かなりコストの重い操作となる。たとえ更新する範囲が一部であっても、その場所の特定に時間がかかる。
-もし、groupby() などの分割結果毎に何らかの集計処理し、元のDFに結果を反映させたい場合でも、毎回、元のDFを更新していては相当時間がかかる。
+もし、groupby() などの分割結果毎に何らかの集計処理し、元のDFに結果を反映させたい場合でも、毎回、元のDFを更新していては相当時間がかかる。\\
-（そもそもgroupbyごとにforループ回すのも速度的によろしいことではないが。。。関数的に書けない集計処理が必要になることもあるので仕方ない）
+（そもそもgroupbyごとにforループ回すのも速度的によろしいことではないが。。。関数的に書けない処理が必要になることもあるので仕方ない）
 そんな時、即時更新はせずリストに溜めて、更新は最後に（メモリが厳しいならある程度溜まった後に）行えば、高速化に繋がる。
-下記は一例だが、もっと速い方法もあるかも知れない。
+下記は一例だが、もっと速い方法もあるかも知れない。（例なので処理内容には特に意味は無い）
-<sxh python>
+<sxh python;title:遅い例>
-# 非推奨
+# 'AAA' ごとに 'BBB' カラムを 'CCC' の2倍の値で更新
 for i, grouped_df in df.groupby('AAA'):
     # なんか処理する
-    # 元のDFを更新する → 遅い
+    # 毎回、元のDFを更新する → 遅い
-    df.loc[grouped_df.index, 'BBB'] = grouped_df['CCC']
+    df.loc[grouped_df.index, 'BBB'] = grouped_df['CCC'] * 2
+</sxh>
+<sxh python;title:こっちの方が速い（元のDataFrameから計算される値の場合）>
-# こっちの方が速い
+# 'AAA' ごとに 'BBB' カラムを 'CCC' の2倍の値で更新
 buf = []
 for i, grouped_df in df.groupby('AAA'):
     # なんか処理する
     # とりあえずバッファに溜める
-    buf.append(grouped_df['CCC'])
+    buf.append(grouped_df['CCC'] * 2)
 # 最後に更新する
-update_sr = pd.concat(buf)
+update_sr = pd.concat(buf)  # DataFrameを全部つなげて
 update_sr.sort_index(inplace=True)  # indexは整列されてた方が速い
 df.loc[update_sr.index, 'BBB'] = update_sr
+</sxh>
+<sxh python;title:またはこっち（新規に作成する値の場合）>
+# 'AAA' ごとに 'BBB1' と 'BBB2' を、何らかの値で更新
+update_data = []
+update_indices = []
+for i, grouped_df in df.groupby('AAA'):
+    # なんか処理する
+    # 更新用numpy配列を作る
+    n = len(grouped_df)
+    si = grouped_df.index[0]
+    ti = grouped_df.index[-1]
+    update_table = np.zeros((n, 2))
+    update_table[:, 0] = 長さnの更新したい値
+    update_table[:, 1] = 長さnの更新したい値
+    # 蓄積する
+    update_data.append(update_table)
+    update_indices.extend(range(si, ti + 1))
+# 最後に更新する
+update_table = np.concatenate(update_data, axis=0)  # 全部縦に繋げる
+df.loc[update_indices, ['BBB1', 'BBB2']] = update_table
 </sxh>