差分

このページの2つのバージョン間の差分を表示します。

--- programming:python:packages:pandas:update_multi_column [2019/06/13] – ikatakos
+++ programming:python:packages:pandas:update_multi_column [2021/12/03] (現在) – [巨大なDFに対する更新はなるべく一度に] ikatakos
@@ 行 1: / 行 1: @@
 ======DataFrameの値の更新 - pandas======
-pandasは、DataFrameへのアクセス方法がいろいろあるため、値の取得・代入もよく「この書き方でいいんだっけ」と混乱する。
+pandasは、DataFrameの値の取得方法がいろいろあるため、値の代入更新もつい「この書き方でいいんだっけ」と混乱する。
 基本的には（一般的な代入と同じく）左辺で更新するデータ範囲を、右辺で値を指定するのだが、左辺のデータ範囲の指定方法が様々あるのに加え、右辺での値の指定にも複数方法がある。
@@ 行 20: / 行 20: @@
     * 名前の配列、添字の配列
     * 名前のslice、添字のslice
-    * 列数と同じ長さのbool配列
+    * 列数と同じ長さのbool配列、行数と同じ長さのbool配列
-    * 行数と同じ長さのbool配列
     * DataFrame
     * Series
@@ 行 28: / 行 27: @@
     * 左辺と同じサイズの配列
-ここで、「名前」とは行や列に付けられた名称を差し、「添字」とは0から始まる連番（通常の配列の要素取得に使うもの）を指すものとする。
+※ここで、「名前」とは行や列に付けられた名称を差し、「添字」とは0から始まる連番（通常の配列の要素取得に使うもの）を指すものとする。
-''print(df)'' した時は、名前は表示されるが、添字は表示されない。
+※配列は numpy.ndarray でもよい。
-また、添字は負の値で末尾から数えられるなど、通常の配列の添字と似た機能を持つ。
-      1      2    ←列の添字
-                  col1   col2   col3    ←列の名前
-  2019/01/01
-  2019/01/08
-  2019/01/15
-  ↑         ↑
-  行の添字 行の名前
-配列は numpy.ndarray でもよい。
 ====範囲の指定方法====
@@ 行 49: / 行 37: @@
   * [[http://sinhrks.hatenablog.com/entry/2014/11/12/233216|Python pandas データ選択処理をちょっと詳しく <前編> - StatsFragments]]
-loc, ilocは原則 ''[行, 列]'' の順で、locが名前、ilocが添字として解釈されるため意味を明確にコーディングしたい場合はそちらを使うのが良い。
+loc, ilocは法則性がありわかりやすい。原則 ''loc[行, 列]'' の順で指定する。（bool配列以外は）locが名前、ilocが添字として解釈される。
+意味を明確にコーディングしたい場合はこれらを使うのが良い。
-対してgetitemは、なんとなくよく使う方で解釈されるため、便利な反面、行なのか列なのか時と場合で変わり、紛らわしいので注意。
+対してgetitemは、なんとなくよく使う方で解釈されるため、便利な反面、行なのか列なのか時と場合で変わり、やや紛らわしい。
 ^                                                                  |^  getitem                                                        ^  loc                                              ^  iloc                                         ^
@@ 行 389: / 行 378: @@
 但し、あるidに条件を満たすレコードが1つも無かった場合、そのidのカラムcはnanになる。
+=====その他小ネタ=====
 ====inplaceは効かない====
@@ 行 416: / 行 407: @@
   * [[https://stackoverflow.com/questions/43856701/pandas-inplace-view-copy-confusion|python - Pandas - inplace, view, copy confusion - Stack Overflow]]
   * [[https://github.com/pandas-dev/pandas/issues/11984|Pandas replacing values on specific columns. view vs. copy · Issue #11984 · pandas-dev/pandas · GitHub]]
+====巨大なDFに対する更新はなるべく一度に====
+数百～数千万行のDataFrameに対して更新をかけるのは、かなりコストの重い操作となる。たとえ更新する範囲が一部であっても、その場所の特定に時間がかかる。
+もし、groupby() などの分割結果毎に何らかの集計処理し、元のDFに結果を反映させたい場合でも、毎回、元のDFを更新していては相当時間がかかる。\\
+（そもそもgroupbyごとにforループ回すのも速度的によろしいことではないが。。。関数的に書けない処理が必要になることもあるので仕方ない）
+そんな時、即時更新はせずリストに溜めて、更新は最後に（メモリが厳しいならある程度溜まった後に）行えば、高速化に繋がる。
+下記は一例だが、もっと速い方法もあるかも知れない。（例なので処理内容には特に意味は無い）
+<sxh python;title:遅い例>
+# 'AAA' ごとに 'BBB' カラムを 'CCC' の2倍の値で更新
+for i, grouped_df in df.groupby('AAA'):
+    # なんか処理する
+    # 毎回、元のDFを更新する → 遅い
+    df.loc[grouped_df.index, 'BBB'] = grouped_df['CCC'] * 2
+</sxh>
+<sxh python;title:こっちの方が速い（元のDataFrameから計算される値の場合）>
+# 'AAA' ごとに 'BBB' カラムを 'CCC' の2倍の値で更新
+buf = []
+for i, grouped_df in df.groupby('AAA'):
+    # なんか処理する
+    # とりあえずバッファに溜める
+    buf.append(grouped_df['CCC'] * 2)
+# 最後に更新する
+update_sr = pd.concat(buf)  # DataFrameを全部つなげて
+update_sr.sort_index(inplace=True)  # indexは整列されてた方が速い
+df.loc[update_sr.index, 'BBB'] = update_sr
+</sxh>
+<sxh python;title:またはこっち（新規に作成する値の場合）>
+# 'AAA' ごとに 'BBB1' と 'BBB2' を、何らかの値で更新
+update_data = []
+update_indices = []
+for i, grouped_df in df.groupby('AAA'):
+    # なんか処理する
+    # 更新用numpy配列を作る
+    n = len(grouped_df)
+    si = grouped_df.index[0]
+    ti = grouped_df.index[-1]
+    update_table = np.zeros((n, 2))
+    update_table[:, 0] = 長さnのBBB1を更新したい値
+    update_table[:, 1] = 長さnのBBB2を更新したい値
+    # 蓄積する
+    update_data.append(update_table)
+    update_indices.extend(range(si, ti + 1))
+# 最後に更新する
+update_table = np.concatenate(update_data, axis=0)  # 全部縦に繋げる
+df.loc[update_indices, ['BBB1', 'BBB2']] = update_table
+</sxh>