メルセンヌ・ツイスタ

擬似乱数列生成器 (PRNG) の一種

メルセンヌ・ツイスタ (Mersenne twister、通称MT) は擬似乱数列生成器 (PRNG) の1つである。従来の疑似乱数列生成手法にある多くの欠点を克服し、高品質の疑似乱数列を高速に生成できるものとして、1996年に松本眞西村拓士によって国際会議で発表された(1998年1月に論文掲載)。考案者らによる実装が修正BSDライセンスで公開されている。

特徴

編集

「メルセンヌ・ツイスタ」は厳密にはある手法に基づいた乱数列生成式(あるいは生成法)の族を指し、内部状態の大きさや周期は設定可能である。以下の長所と短所では、メルセンヌ・ツイスタ自体、よく使われている生成法のMT19937、さらにその実装について、区別することなく述べている。

長所

編集
  1. 219937-1 (≒4.315×106001) という長い周期が証明されている。
    • この周期は、名前の由来にもなっているように(24番目の)メルセンヌ素数であり、保証されているいくつかの特徴はメルセンヌ素数を内部的に使用していることによって達成されている。実用上は、これ以上の長い周期を持つ擬似乱数が必要になることはないであろう。
  2. 高次元(623次元)に均等分布する(線形合同法#短所参照)。
    • このことは出力中の連続する値間の相関性が無視できる程度しかないということを意味する。例えば、32ビット版のメルセンヌ・ツイスタを複数回呼び出して64ビット128ビットなどの疑似乱数として利用しても統計的に安全である。
  3. あらゆる擬似乱数列の生成法のうちで統計的に不適当なものを除外して比較すると最も速い(当時)。
    • 近年では、統計的な問題点が少なく、メルセンヌ・ツイスタよりも高速な擬似乱数列の生成器がいくつか考案されている。疑似乱数の生成速度を優先する場合には、それらの生成器が役に立つ可能性がある。メルセンヌ・ツイスタの利点は、長い周期と均等性、および既に広範に使われて実証済みであることである(ただしCPUごとに最適化されたコードであれば、現時点でもメルセンヌ・ツイスタは十分に速い[要出典])。
  4. 出力の中のすべてのビットが統計的に十分ランダムである。
    • メルセンヌ・ツイスタの前身のGFSRではそうではなかった。以下に詳述

メルセンヌ・ツイスタの手法を、以前の生成法に関連付けて表現すると、一般・フィードバック・シフト・レジスタ (General Feedback Shift Register) をひねって (Twisted) 調整した (Tempered) もの(略してTTGFSR)となる(実際に、元はそのように呼んでいた)。GFSRではワード中の各ビットは独立していたが、「ひねる」ことによって各ビットの周期が合わさって長い周期を実現できるようになっている。「調整」は生成された疑似乱数のワードのうち数ビットだけを取り出したときの高次元超立方体への均等分布を改良して理論値に近づけるための工夫である(メルセンヌ・ツイスタは「調整」をしなくても623次元超立方体に均等分布する)。ここまでは先行するTT800と同様であるが、メルセンヌ・ツイスタでは、状態空間が長方形から1ビットだけ突き出した(あるいは31ビット欠けた)形をしている点に特徴がある。これは19937÷32が623余り1であることによる。このような状態空間を採択することによって周期 219937-1 を実現している。

短所

編集

多くのアプリケーションにとって、メルセンヌ・ツイスタは優れた疑似乱数生成法である。しかしながら、実際にプログラムで利用するにあたっては、いくつか留意すべき点がある。

  1. 暗号論的擬似乱数列生成器 (CSPRNG) ではない。
    • メルセンヌ・ツイスタは線形漸化式によって生成されるため、他の一般の疑似乱数生成法と同様に予測可能である。従って暗号用途で利用するには同様に、暗号学的ハッシュ関数のような非可逆な操作を通さなければならない。CryptMTFubukiはメルセンヌ・ツイスタをベースとしているが、単純にその出力を鍵ストリームとして平文と合成しているわけではない。
  2. 内部ベクトルが大きい
    • メルセンヌ・ツイスタは内部に623個の32ビット長の状態ベクトルを持つ。つまり、一般的な擬似乱数列生成器と比較して動作に必要なメモリ量(ワーキングメモリ)が大きい。開発者による実装では32ビット版で624ワード(2496バイト)のワーキングメモリを要する。
    • 第三者による高速化を狙った実装(並列計算を行うなど)は、より多くのワーキングメモリを要する(例えば倍の4992バイトなど)。
    • 内部ベクトルを初期化するシード(乱数種)として19936ビットという長い乱数が必要となるため、シードや物理乱数を擬似乱数や暗号学的ハッシュ関数で伸長し、場合によってはさらにシードや物理乱数でベクトルを撹拌することでこの問題と後述する0の量を解決する必要がある。
      • (当然であるが)メルセンヌ・ツイスタを初期化する擬似乱数にメルセンヌ・ツイスタを用いることはできない。初期化に使用するメルセンヌ・ツイスタを初期化する長いベクトルが用意できないからである。
      • 開発者が公開しているコードでは、単一の32ビット値からなるシードを用いた別の擬似乱数による初期化処理と、固定値で初期化したベクトルを任意個数の32ビット値からなる初期化鍵で撹拌する初期化処理が実装されている。
      • 短い乱数や時刻情報を元に初期化したメルセンヌ・ツイスタはその出力を調べることでシードを推測できる可能性が指摘されている[1]など、初期化に使用する情報量が少ない場合、問題が生じる場合がある。
    • もっとも、メルセンヌ・ツイスタ以前の「良い」擬似乱数列生成器はさらに大きなワーキングメモリを必要とするものがあるため、メルセンヌ・ツイスタは比較的効率が高いと言える。
  3. 初期状態空間に0が多いと、しばらくの間出力にも0が多くなる。
    • これは線形フィードバックシフトレジスタに共通する問題点である。この原因は、大きな配列の数か所を参照して1か所を書き換えるため、全体を書き換えるのに時間がかかることと、状態遷移関数が線形であるために、参照した数か所が全て0の場合、出力も0になるためである。
    • 初期化処理で、状態空間に0が多くならないようにすればよい。
      • 考案者らが提供している実装では、初期化に内部状態空間の小さな擬似乱数生成系を利用しているので(その小ささゆえに、全て0といったような列は生成し得ないので)これは問題とならない。独自の初期化処理を使用する場合には問題が発生する可能性がある。
    • この問題に関する改善をした擬似乱数列生成器にWELLなどがある。

なお、上記の欠点のうち、内部ベクトルの大きさや零超過状態からの回復速度の問題は、SIMD-oriented Fast Mersenne Twister (SFMT) で改善されている。

各種プログラミング言語におけるライブラリ

編集

一部のプログラミング言語では、デフォルトの擬似乱数列生成器としてメルセンヌ・ツイスタが標準ライブラリに取り入れられている。そのような言語の例として、 Python,[2][3] Ruby,[4] R,[5] PHP,[6] MATLAB, C++[7]C++11から) がある。

その他のプログラミング言語におけるライブラリの例として、以下が挙げられる:

余談

編集

開発当初は Primitive Twisted Generalized Feedback Shift Register Sequence という名前であったが、ドナルド・クヌースに「名前が長すぎる」と言われたため、現在の名前に変更した。

Mersenne Twister の略称 MT には、開発者の名前「まこと」と「たくじ」のイニシャルという意味もこめられている。[17] の動画の質疑応答部分を参照。

注釈

編集

出典

編集
  1. ^ アーカイブされたコピー”. 2008年10月19日時点のオリジナルよりアーカイブ。2008年10月17日閲覧。
  2. ^ 9.6 random — Generate pseudo-random numbers”. Python v2.6.8 documentation. 2012年5月29日閲覧。
  3. ^ 8.6 random — Generate pseudo-random numbers”. Python v3.2 documentation. 2012年5月29日閲覧。
  4. ^ "Random" class documentation”. Ruby 1.9.3 documentation. 2012年5月29日閲覧。
  5. ^ Random Number Generators”. CRAN Task View: Probability Distributions. 2012年5月29日閲覧。
  6. ^ mt_srand”. php documentation. 2012年5月29日閲覧。
  7. ^ std::mersenne_twister_engine”. Pseudo Random Number Generation. 2012年9月25日閲覧。

参照

編集
  • M. Matsumoto and T. Nishimura, Mersenne twister: A 623-dimensionally equidistributed uniform pseudorandom number generator, ACM Trans. on Modeling and Computer Simulations, 1998.

関連項目

編集
  • GNU Scientific Library (GSL, GSL ホームページ) はメルセンヌ・ツイスタの実装を含んでいる。
  • R言語 - フリーの統計解析向けプログラミング言語。デフォルトの擬似乱数列生成器がメルセンヌ・ツイスタである。その他の多様な擬似乱数列生成器も標準で備える。ライブラリリポジトリの「CRAN」から、さらに多くの擬似乱数列生成器をダウンロードすることもできる。マルチプラットフォームに対応している。
  • C++11 - C++標準ライブラリの<random>では、MT19937が擬似乱数列生成器として実装される。
  • 64ビット最適均等分布F2-線形発生法 - 上位ビットの高次元均等分布性が完全に最適化された64ビットメルセンヌ・ツイスタ型擬似乱数発生器が開発されている。

外部リンク

編集