$a \times b \pmod{n}$の答えを高速に求めるアルゴリズム。$a,b,n$は整数、$0 \le a,b \lt n$。数字が大きくなっても平気。
上記の計算のどこに時間かかるって、コンピュータは、加算は得意、乗算もそこそこできるけど、除算は四則演算の中では苦手。モンゴメリ乗算は、mod nの部分を工夫して、除算を1回のみで行えるようにしてしまう。
1回のみだったら変わらないじゃん、となるのだが、$a \times b \times c \times d ... \pmod{n}$と複数回かけても1回の除算で済む。このような場合、正攻法では、数字が大きくなるとオーバーフローの問題や、桁数に比例して計算時間がかかるため、現実的には$((a \times b \bmod n) \times c \bmod n) \times d \bmod n ...$と、乗算毎に割ることになる。それが1回で済むようになるため、効果が大きい。
概要としては、うまく式変形することで、$\bmod n$の式から$n$による除算を取り除き、任意の定数$R$による除算と剰余(と、その他除算以外の演算)に置き換えてしまう。この$R$は任意に選べるので、コンピュータの得意な2の冪乗数にすることで、実質的にビット演算で行えるようになる。
我々も割り算は苦手でも、$123456789 \div 1000 = 123456 \ \text{あまり} \ 789$のように、割る数が10,100,1000…なら数字を区切るだけで求められるのと同じ。
詳細な説明はWikiとか他のサイトに譲るとして、pythonのコード。冪剰余も求められる。
class Montgomery: def __init__(self, n): self.n = n self.nb = n.bit_length() # Rを、Nより大きい最小の2の冪乗数とする # R^2 mod n : この1回だけ除算が必要になる self.r2 = (1 << (self.nb * 2)) % n # Rを2の冪乗とすることで、mod Rをビットマスクで求められるようになる self.mask = (1 << self.nb) - 1 # N * N' = -1 mod R となるN'の導出 # Rを2の冪乗とすることで加算とビットシフトで求められるようになる self.nr = 0 t = 0 vi = 1 for _ in range(self.nb): if t & 1 == 0: t += n self.nr += vi t >>= 1 vi <<= 1 def reduction(self, t): """モンゴメリリダクション""" c = t * self.nr c &= self.mask c *= self.n c += t c >>= self.nb if c >= self.n: c -= self.n return c def mul(self, a, b): """a * b mod n を計算""" return self.reduction(self.reduction(a * b) * self.r2) def exp(self, a, b): """a ^ b mod n を計算""" p = self.reduction(a * self.r2) x = self.reduction(self.r2) y = b while y: if y & 1: x = self.reduction(x * p) p = self.reduction(p * p) y >>= 1 return self.reduction(x)
pythonには、$a^b \pmod{n}$の計算ならpow(a,b,n)があるから、わざわざ自分で書く必要性は無いんだけどね。組み込みな分、圧倒的に速いし。
import timeit mg = Montgomery(1000000007) print(timeit.timeit('mg.exp(123456789, 987654321)', number=1000, globals=globals())) # => 0.0361 print(timeit.timeit('pow(123456789, 987654321, 1000000007)', number=1000, globals=globals())) # => 0.0037