cs229 笔记 2：逻辑回归

发表于 2018-07-07 分类于机器学习 Waline： 0 阅读次数： 304

二分类 (binary classification) 是最简单的一种分类问题， $y$ 的取值只有两种：0 和 1，对应的样本分别称为负样本和正样本。逻辑回归 (Logistic regression) 可用于处理二分类问题。

逻辑回归

定义 $h_{θ} (x)$

$\begin{matrix} (1) & h_{θ} (x) = g (θ^{T} x) = \frac{1}{1 + e^{- θ^{T} x}} \end{matrix}$

其中用到了 sigmoid function

$\begin{matrix} (2) & g (z) = \frac{1}{1 + e^{- z}} \end{matrix}$

当 $z$ 趋于 $+ \infty$ 时 $g (z)$ 趋于 1；当 $z$ 趋于 $- \infty$ 时 $g (z)$ 趋于 0

sigmoid function

对其求导得到

$\begin{aligned} (3) & g^{'} (z) & = \frac{d}{d z} \frac{1}{1 + e^{- z}} \\ (4) & = \frac{1}{(1 + e^{- z})^{2}} (e^{(- z)}) \\ (5) & = \frac{1}{(1 + e^{- z})} (1 - \frac{1}{(1 + e^{- z})}) \\ (6) & = g (z) (1 - g (z)) \end{aligned}$

假设概率如下

$\begin{matrix} (7) & p (y = 1 | x; θ) = h_{θ} (x) \end{matrix}$

$\begin{matrix} (8) & p (y = 0 | x; θ) = 1 - h_{θ} (x) \end{matrix}$

则可以统一表示为

$\begin{matrix} (9) & p (y | x; θ) = (h_{θ} (x))^{y} (1 - h_{θ} (x))^{(1 - y)} \end{matrix}$

似然函数如下

$\begin{aligned} (10) & L (θ) & = p (\vec{y} | X; θ) \\ (11) & = \prod_{i = 1}^{m} p (y^{(i)} | x^{(i)}; θ) \\ (12) & = \prod_{i = 1}^{m} (h_{θ} (x^{(i)}))^{(y^{(i)})} (1 - h_{θ} (x^{(i)}))^{(1 - y^{(i)})} \end{aligned}$

同样取对数似然函数

$\begin{aligned} (13) & l (θ) & = l o g L (θ) \\ (14) & = \sum_{i = 1}^{m} y^{(i)} l o g (h (x^{(i)})) + (1 - y^{(i)}) l o g (1 - h (x^{(i)})) \end{aligned}$

假设只有一个样本 $(x, y)$ ，根据梯度上升法 $θ := θ + α ▽_{θ} l (θ)$ ，首先对 $θ$ 求偏导得到梯度

$\begin{aligned} (15) & \frac{\partial}{\partial θ_{j}} l (θ) & = (y \frac{1}{g (θ^{T} x)} - (1 - y) \frac{1}{1 - g (θ^{T} x)}) \frac{\partial}{\partial θ_{j}} g (θ^{T} x) \\ (16) & = (y \frac{1}{g (θ^{T} x)} - (1 - y) \frac{1}{1 - g (θ^{T} x)}) g (θ^{T} x) (1 - g (θ^{T} x)) \frac{\partial}{\partial θ_{j}} θ^{T} x \\ (17) & = (y (1 - g (θ^{T} x)) - (1 - y) g (θ^{T} x)) x_{j} \\ (18) & = (y - h_{θ} (x)) x_{j} \end{aligned}$

代入公式得到梯度上升更新规则，注意这里为了使 $L (θ)$ 取到最大值，使用的是梯度上升

$\begin{matrix} (19) & θ_{j} := θ_{j} + α (y^{(i)} - h_{θ} (x^{(i)}) x_{j}^{(i)} \end{matrix}$

感知机

如果逻辑回归的 $g (z)$ 改为如下函数

$\begin{matrix} (20) & g (z) = {\begin{cases} 1 & if z ⩾ 0 \\ 0 & if z < 0 \end{cases} \end{matrix}$

这样可以得到感知机学习算法 (perceptron learning algorithm)

牛顿方法

考虑另外一个最小化 $J (θ)$ 的方法，牛顿方法使用了另外一种思路，它的更新规则如下

$\begin{matrix} (21) & θ := θ - \frac{f (θ)}{f^{'} (θ)} \end{matrix}$

如下图所示，选曲线上一点画出切线，则 $f (θ)$ 表示该点的纵坐标， $f^{'} (θ)$ 表示三角形中纵向长度与横向长度 (注意是在 $f (x) = 0$ 这条线上) 的比值，因此 $\frac{f (θ)}{f^{'} (θ)}$ 表示三角形横向长度。上述式子相当于每次把 $θ$ 减少三角形横向长度。迭代数次后可以找到一个 $θ$ 使得 $f (θ) = 0$ 。

牛顿方法

考虑另一个问题：如何最大化 $l (θ)$ ？当其取最大值时 $l^{'} (θ) = 0$ ，我们只需要找到使该一阶导数为 0 的点，可将其代入上述公式，进而得到如下公式

$\begin{matrix} (22) & θ := θ - \frac{f^{'} (θ)}{f^{″} (θ)} \end{matrix}$

逻辑回归

感知机

牛顿方法

预览: