cs229 笔记 3：广义线性模型

发表于 2018-07-08 分类于机器学习 Waline： 0 阅读次数： 569

前两节分别介绍了一个回归模型和一个分类模型，其中线性回归中假设概率分布为 $y | x; θ \sim N (μ, σ^{2})$ ，二分类中假设概率分布为 $y | x; θ \sim B e r n o u l l i (ϕ)$ 。这两种模型都是广义线性模型 (Generalized Linear Models) 的特殊情况。

指数分布族

在讲广义线性模型之前先介绍下指数族分布，指数族分布是指概率分布可以写如下形式的分布

$\begin{matrix} (1) & p (y; η) = b (y) e x p (η^{T} T (y) - a (η)) \end{matrix}$

其中 $η$ 是自然参数 (natural parameter)，也可以叫做 canonical parameter 。 $T (y)$ 是充分统计量 (sufficient statistic)， $a (η)$ 是 log partition function。 $e^{- a (η)}$ 是归一化常量

给定 T、a、b 的定义，可以得到一族以 $η$ 为参数的分布，变化 $η$ 的值可以得到不同的分布

伯努利分布

均值为 $ϕ$ 的伯努利分布记为： $B e r n o u l l i (ϕ)$ ，满足 $y \in (0, 1)$ 。变化 $ϕ$ 的取值可以得到不同均值的分布。

$\begin{aligned} (2) & p (y = 1; ϕ) & = ϕ \\ (3) & p (y = 0; ϕ) & = 1 - ϕ \end{aligned}$

可以将其概率写成如下形式

$\begin{aligned} (4) & p (y; ϕ) & = ϕ^{y} (1 - ϕ)^{(1 - y)} \\ (5) & = e x p (y l o g ϕ + (1 - y) l o g (1 - ϕ)) \\ (6) & = e x p ((l o g \frac{ϕ}{1 - ϕ}) y + l o g (1 - ϕ)) \end{aligned}$

令自然参数 $η = l o g \frac{ϕ}{1 - ϕ}$ ，如果对 $ϕ$ 求解可以得到 $ϕ = \frac{1}{1 + e^{- η}}$ 。对照指数族分布的形式可以得到 T、a、b 如下

$\begin{matrix} (7) & T (y) = y \end{matrix}$

$\begin{aligned} (8) & a (η) & = - l o g (1 - ϕ) \\ (9) & = l o g (1 + e^{η}) \end{aligned}$

$\begin{matrix} (10) & b (y) = 1 \end{matrix}$

高斯分布

根据之前线性回归概率解释的推导过程可知， $σ^{2}$ 不影响 $θ$ 和 $h (θ)$ 的选择。为简化推导过程，这里令 $σ^{2} = 1$ ，因此可得

$\begin{aligned} (11) & p (y; μ) & = \frac{1}{\sqrt{2 π}} e x p (- \frac{1}{2} (y - μ)^{2}) \\ (12) & = \frac{1}{\sqrt{2 π}} e x p (- \frac{1}{2} y^{2}) \cdot e x p (μ y - \frac{1}{2} μ^{2}) \end{aligned}$

令 T、a、b、 $η$ 如下

$\begin{matrix} (13) & η = μ \end{matrix}$

$\begin{matrix} (14) & T (y) = y \end{matrix}$

$\begin{matrix} (15) & a (η) = \frac{μ^{2}}{2} = \frac{η^{2}}{2} \end{matrix}$

$\begin{matrix} (16) & b (y) = \frac{1}{\sqrt{2 π}} e x p (- \frac{y^{2}}{2}) \end{matrix}$

还有很多其他的分布也属于指数族分布，比如多项式分布、泊松分布、伽马分布、指数分布、beta 分布、Dirichlet 分布等

构造 GLMs

广义线性模型基于指数族分布。为了构造广义线性模型，首先给出关于条件概率分布 $y | x$ 的 3 个假设

$y | x; θ \sim E x p o n e n t i a l F a m i l y (η)$ 。给定 $x 、 θ$ ， $y$ 服从参数为 $η$ 的指数族分布
给定 $x$ ，目标是输出 $T (y)$ 的期望值 ( $E [T (y) | x]$ )，也就是学习算法的输出 $h (x) = E [T (y) | x]$ 。在之前的例子中， $T (y) = y$ ，所以上式为 $h (x) = E [y | x]$ 。比如在逻辑回归中 $h_{θ} (x) = p (y = 1 | x; θ) = 0 \cdot p (y = 0 | x; θ) + 1 \cdot p (y = 1 | x; θ) = E [y | x; θ]$
自然参数 $η$ 和输入变量 $x$ 是线性关系： $η = θ^{T} x$ (如果 $η$ 是向量，则 $η_{i} = θ_{i}^{T} x$ )

最小二乘法

最小二乘法 (Ordinary Least Squares) 是 GLM 的一种特殊情况。目标变量 $y$ 是连续的，对 $y | x$ 使用高斯分布建模，即 $y | x \sim N (μ, σ^{2})$ 。根据之前的推导可知

$\begin{matrix} (17) & y | x; θ \sim E x p F a m i l y (η) \end{matrix}$

根据假设

$\begin{aligned} (18) & h_{θ} (x) & = E [y | x; θ] \\ (19) & = μ \\ (20) & = η \\ (21) & = θ^{x} \end{aligned}$

逻辑回归

目标变量取值范围为 $y \in (0, 1)$ ，对 $y | x$ 使用伯努利分布建模，推导如下

$\begin{aligned} (22) & h_{θ} (x) & = E [y | x; θ] \\ (23) & = ϕ \\ (24) & = \frac{1}{1 + e^{- η}} \\ (25) & = \frac{1}{1 + e^{- θ^{T} x}} \end{aligned}$

引入 $g (η) = E [T (y); η]$ ，它叫做 canonical response function，而 $g^{(- 1)}$ 称为 canonical link function

Softmax Regression

假设分类问题中，输出变量 $y$ 的取值范围为 $1, 2, \dots, k$ ，考虑使用多项分布对其建模。首先将多项分布表示为指数族分布

使用 k 个参数 $ϕ_{1}, \dots, ϕ_{i}$ 表示取到每个值的概率。因为总的概率为 1 ( $\sum_{i = 1}^{k} ϕ_{i} = 1$ )，所以可以使用 k-1 个参数来表示多项分布。其中前 k-1 个参数表示为 $ϕ_{i} = p (y = i; ϕ)$ ，第 k 个参数表示为 $p (y = k; ϕ) = 1 - \sum_{i = 1}^{k - 1} ϕ_{i}$ 。

定义 $T (y) \in R^{(k - 1)}$ 如下

T (y) 定义

引入指示函数 I {.}，如果括号内取值为 True 则结果为 1 (I {True} = 1)，否则结果为 0 (I {False} = 0)。T (y) 和 y 之间的关系可以表示为

$\begin{matrix} (26) & (T (y))_{i} = I y = i \end{matrix}$

因此 $E [(T (y))_{i}] = p (y = i) = ϕ_{i}$ 。将多项分布表示为指数族分布

多项分布

link function 可表示为

$\begin{matrix} (27) & η_{i} = l o g \frac{ϕ_{i}}{ϕ_{k}} \end{matrix}$

为方便表示，定义

$\begin{matrix} (28) & η_{k} = l o g \frac{ϕ_{k}}{ϕ_{k}} = 0 \end{matrix}$

可以得到

$\begin{aligned} (29) & e^{η_{i}} & = \frac{ϕ_{i}}{ϕ_{k}} \\ (30) & ϕ_{k} \cdot e^{η_{i}} & = ϕ_{i} \\ (31) & ϕ_{k} \cdot \sum_{i = 1}^{k} e^{η_{i}} & = \sum_{i = 1}^{k} ϕ_{i} = 1 \end{aligned}$

因此 $ϕ_{k} = \frac{1}{\sum_{i = 1}^{k} e^{η_{i}}}$ ，由此可得

$\begin{matrix} (32) & ϕ_{i} = \frac{e^{η_{i}}}{\sum_{j = 1}^{k} e^{η_{j}}} \end{matrix}$

这个函数将 $η$ 映射到 $ϕ$ ，称为 softmax function

根据假设 3， $η_{i}$ 和 $x$ 线性相关，因此可得 $η_{i} = θ_{i}^{T} x$ (i=1,…,k-1)，其中 $θ_{i}, \dots, θ_{k - 1} \in R^{n + 1}$ 。为方便表示，定义 $θ_{k} = 0$ ，因此 $η_{k} = θ_{k}^{T} x = 0$

$\begin{aligned} (33) & p (y = i | x; θ) & = ϕ_{i} \\ (34) & = \frac{e^{η_{i}}}{\sum_{j = 1}^{k} e^{η_{j}}} \\ (35) & = \frac{e^{θ_{i}^{T} x}}{\sum_{j = 1}^{k} e^{θ_{j}^{T} x}} \end{aligned}$

该模型用于解决多分类问题，叫做 softmax regression，它是逻辑回归的一般化。这里学习函数的输出如下

softmax h(x)

对 $i = 1, \dots, k$ 的每一个值，这个公式输出对应的 $p (y = i | x; θ)$ 的预测概率。注意 $p (y = k | x; θ)$ 可根据前 k-1 个概率得到。

根据以上结论，可以得到 log 似然函数如下。据此可以求出最大似然估计值 (可以使用梯度上升或牛顿方法)

log-likelihood