一般化線形モデル (いっぱんかせんけいモデル、: Generalized linear model、GLM)は、残差を任意の分布とした線形モデル。似たものとして一般線形モデルがあるが、これは残差が多変量正規分布に従うモデル。一般化線形モデルには線形回帰ポアソン回帰ロジスティック回帰などが含まれる。1972年ネルダーウェダーバーンによって提唱された[1]

概要

編集

確率変数  指数型分布族である、つまり確率密度関数   は正準 (canonical) パラメーター  , 分散 (dispersion) パラメーター   とスカラー関数  ,   を用いて指数型

 

で表すことができるものとする。

一般化線形モデルでは、指数型分布族の正準パラメーター   について滑らかであるリンク関数 (link function) と呼ばれる関数   が、別の確率変数   の実現値   を用いて、  と表せるものとする。

一般化線型モデルは下記の3つの要素から構成される。

1. 指数型分布族の確率分布
2. 線形予測子 (linear predictor)  
3. リンク関数 (link function)   such that  

指数分布族の性質

編集

下記のように尤度関数を定める。

 

このとき、下記等式が成立する。

 

この等式を用いて計算すると、確率変数  平均 分散  であることが分かる。

下記の他、多くの確率分布が指数分布族に分類される。

  • 正規分布
  • ベルヌーイ分布
  • ポアソン分布
  • 二項分布
  • ガウス分布

実例

編集

正規分布に従うモデル

編集

既知の値   を用いて  ,  ,   と表されるとき、  は平均  , 分散  正規分布に相当する。

リンク関数として   (正準リンク<canonical link>とよぶ) を取るとき、これは、正規線型モデル (通常の線型回帰) に相当する。平均    で与えられる。

ベルヌーイ分布に従うモデル

編集

  を用いて  ,  ,   と表されるとき、  は生起確率  ベルヌーイ分布に相当する。

リンク関数として   を取るとき、これはロジスティック回帰モデル (logistic regression model) に相当する。  の確率は、それぞれ、

 

 

で与えられる。

リンク関数として   (ただし、  は標準正規分布の累積分布関数) を取るとき、これはプロビット回帰モデルに相当する。 となる。

パラメーターの決定には、ニュートン法を用いた最尤法などがある。

脚注

編集
  1. ^ Nelder, John; Wedderburn, Robert (1972). “Generalized Linear Models”. Journal of the Royal Statistical Society. Series A (General) (Blackwell Publishing) 135 (3): 370–384. doi:10.2307/2344614. JSTOR 2344614. 

参考文献

編集
  • McCullagh, Peter; Nelder, John (1989). Generalized Linear Models, Second Edition. Boca Raton: Chapman and Hall/CRC. ISBN 0-412-31760-5 
  • Henrik Madsen and Poul Thyregod (2011). Introduction to General and Generalized Linear Models. Chapman & Hall/CRC. ISBN 978-1-4200-9155-7 
  • Julia でデータサイエンス 一般化線形モデルにおける各種診断プロットの描画法の Julia コード

関連項目

編集