尤度関数

尤度関数（ゆうどかんすう、英: likelihood function）とは統計学において、ある前提条件に従って結果が出現する場合に、逆に観察結果からみて前提条件が「何々であった」と推測する尤もらしさ（もっともらしさ）を表す数値を、「何々」を変数とする関数として捉えたものである。また単に尤度ともいう。

その相対値に意味があり、最尤法、尤度比検定などで用いられる。

概要

B = b であることが確定している場合に、 A が起きる確率（条件付き確率）を

P(A\mid B=b)

とする。このとき、逆に A が観察で確認されていることを基にして、上記の条件付き確率を変数 b の関数として尤度関数という。また一般には、それに比例する関数からなる同値類

L(b\mid A)=\alpha P(A\mid B=b)

をも尤度関数という（ここで $\alpha$ は任意の正の比例定数）。

重要なのは数値 $L(b|A)$ 自体ではなく、むしろ比例定数を含まない尤度比 $L(b_{2}\mid A)/L(b_{1}\mid A)$ である。もし $L(b_{2}\mid A)/L(b_{1}\mid A)>1$ ならば、 $b_{1}$ と考えるよりも $b_{2}$ と考えるほうが尤もらしい、ということになる。 $B$ が与えられた場合には、それから $A$ について推論するのには条件付き確率 $P(A\mid B)$ を用いる。逆に、 $A$ が与えられた場合に、それから $B$ について推論するのには条件付き確率 $P(B\mid A)$ （事後確率）を用いるが、これは尤度関数である $P(A\mid B)$ あるいは $P(A\mid B)/P(A)$ から、次のベイズの定理によって求められる：

P(B\mid A)={\frac {P(A\mid B)~P(B)}{P(A)}}

ただし、尤度関数は後に示すように確率密度関数とは別の概念である。

簡単な例

コインを投げるときに、表が出る（'H'）確率が p_H であれば、2回の試行で2回とも表が出る（'HH'）確率は p_H² である。 p_H = 0.5 であれば、2回とも表が出る確率は0.25である。このことを次のように示す：

P({\mbox{HH}}\mid p_{H}=0.5)=0.25

これのもう1つの言い方として、「観察結果が'HH'ならば p_H = 0.5 の尤度は 0.25である」、つまり

L(p_{H}=0.5\mid {\mbox{HH}})=P({\mbox{HH}}\mid p_{H}=0.5)=0.25

.

と言える。一般には

L(p_{H}=x\mid {\mbox{HH}})=P({\mbox{HH}}\mid p_{H}=x)=x^{2}

と書ける。しかしこれを、「観察値が0.25ならば、1回投げて表の出る確率は p_H = 0.5」という意味にとってはならない。極端な場合を例にとると、「観察結果が'HH'ならば p_H = 1 の尤度は1」とはいえる。しかし明らかに、観察値が1だからといって表の出る確率 p_H = 1 ということはない。'HH'という事象は p_H の値が0より大きく1以下のいくつであっても起こりうるのだ。 $L(p_{H}=x\mid {\mbox{HH}})$ の値はxが1に近づくほど大きくなる（しかし現実にはp_H はおよそ0.5である場合が多い）。観察はたった2回の試行に基づくもので、それからとりあえず「p_H = 1 が尤もらしい」といっているにすぎない。また尤度関数は確率密度関数ではなく、積分しても一般に1にはならない。上の例では p_H に関する[0, 1]区間の尤度関数の積分は1/3で、これからも尤度密度関数を p_H に対する確率密度関数としては解釈できないことがわかる。

母数を含むモデルの尤度関数

統計学では標本の観察結果から母集団の分布を表現する母数（パラメータ）を求めることが重要であるが、母集団の母数がある特定の値であることを前提条件として観察結果が得られると考え、統計学の問題に尤度の概念を適用できる。尤度関数は特に最尤法、尤度比検定で重要な意味を持ち、尤度を最大にするという原理により多くの統計学的推定法が導かれる。次のような母数を含む確率密度関数族を考える：

f(x\mid \theta )

ここで x が確率変数、 θ が母数である。尤度関数は

L(\theta \mid x)=f(x\mid \theta )

ここで x は実験の観察値である。θ を定数として、 f(x | θ) を x の関数として見たときには、これは確率密度関数であり、逆に x を定数として θ の関数として見たときには、尤度関数である。この場合も尤度を、観察標本が与えられたときに「この母数が正しい」という確率と混同してはいけない。観察結果はあくまでも少数の標本にすぎず、仮説の尤度を仮説の確率として解釈するのは危険である。

負の対数尤度

負の対数尤度（英: negative log-likelihood, NLL）は尤度関数の対数に $-1$ を掛けたものである。すなわち次の式で表される関数である：

\mathrm {NLL} (\theta )=-\log {L(\theta \mid x)}=-\log {p(x\mid \theta )}

密度関数の値域が $0\leqq p(x)\leqq 1$ であるため、NLLの値域は $+\infty \geqq p(x)\geqq 0$ となる。尤度関数が「 $\theta$ の尤もらしさ」を直観的に表現するのに対し、NLLは「 $\theta$ のありえなさ」を直観的に表現する。

対数は単調増加し $-1$ は大小を逆転させるため、尤度関数が最大値を取る $\theta$ とNLLが最小値を取る $\theta$ は一致する。ゆえに最尤推定、ひいては最尤推定に基づく機械学習の損失関数としてNLLはしばしば用いられる（ $\operatorname {argmax} _{\theta }L(\theta )$ を $\operatorname {argmin} _{\theta }\mathrm {NLL} (\theta )$ で代用する）。

NLLの実現値 $\mathrm {NLL} (\theta =\theta _{i})$ は標本 $x$ の自己情報量と等価である（式が同一）。直観的には、この実現値が表現する「 $\theta _{i}$ 下で $x$ が得られることのありえなさ」がまさに「驚き具合（サプライザル）」であることからわかる。

独立同分布

$n$ 個の観測値 ${\boldsymbol {d}}=\{d_{i}\mid i\in \{1,..,n\}\}$ が独立同分布から得られた場合、NLLは次の式で表現できる ^{[注 1]}：

\mathrm {NLL} (\theta \mid {\boldsymbol {d}})=-\log(\prod _{i=1}^{n}p(d_{i}\mid \theta ))=-\sum _{i=1}^{n}\log {p(d_{i}\mid \theta )}

すなわち無作為抽出されたデータ群に対するNLLは「各データNLLの和」として表現できる。和で表現できるため、 $\mathrm {NLL} (\theta \mid {\boldsymbol {d}})$ を $n$ で割ることで（標本数に依存しない）「 $\mathrm {NLL} (\theta \mid d_{i})$ の標本平均」に相当する値を自然に導出できる^{[注 2]}。

歴史

尤度に関する初期の考察はデンマークの数学者トルバルド・ティエレ（Thorvald N. Thiele）による1889年の著書にみられる。

尤度についての完全な考察が現れた最初の論文は、ロナルド・フィッシャーによる1922年の『On the mathematical foundations of theoretical statistics』である。ここでフィッシャーはまた「最尤法」（method of maximum likelihood）の語を初めて用いている。フィッシャーは統計学的推計の基礎として事後確率を用いることに反対し、代わりに尤度関数に基づく推計を提案している。

脚注

[脚注の使い方]

注釈

^ 引用部分：Under the i.i.d. assumption, the probability of the datapoints given the parameters factorizes as a product of individual datapoint probabilities. The log-probability assigned to the data by the model is therefore given by: $\log p_{\theta }(D)=\sum _{x\in D}\log p_{\theta }(x)$ ^[1]
^ 引用部分：the sum, or equivalently the average, of the log-probabilities assigned to the data by the model.^[2]

出典

^ Kingma & Welling 2019, p. 10, 1.6.1 Dataset.
^ Kingma & Welling 2019, p. 10, 1.6.2 Maximum Likelihood and Minibatch SGD.

参考文献

Kingma, Diederik P.; Welling, Max (2019-06-06). “An Introduction to Variational Autoencoders” (英語). Foundations and Trends in Machine Learning (Now Publishers) 12 (4): 307-392. arXiv:1906.02691. doi:10.48550/arXiv.1906.02691. ISBN 978-1-6808-3622-6.