贝叶斯决策

1. 基本规则

贝叶斯决策理论就是用统计概率的方法研究随机模式的决策问题。用贝叶斯决策理论方法进行分类时要求满足以下两个条件：

1)各类别总体的概率分布是已知的
2)要决策的类别数是一定的

在统计模式识别中，模式分类问题实际上就是把特征空间分割成若干个区域，每一个区域对应一个模式类别。对于确定性模式，由于模式样本的观测值是确定的，所以样本都会被正确地区分到相应的类型区域中。然而对大多数情况而言，这是非常理想的概率分布，许多实际情况下，即使在类型A的条件下，模式样本x位于区域A的概率也小于1，而位于B的概率大于0，这种交错分布的样本使分类发生错误，这是模式随机性的一种体现。如何使分类错误率尽可能小是研究各种分类方法的中心议题。

2. 相关概念

1)先验概率：预先已知的或者可以估计的模式识别系统位于某种类型的概率
2)类条件概率密度函数：系统位于某种类型条件下模式样本X出现的概率密度分布函数。为了强调是同一事物内部，因此这种分布密度函数往往表示成条件概率的形式，即$P(X|Y)$
3)后验概率：系统在某个具体的模式样本X条件下位于某种类型的概率。一个具体事物属于某种类别的概率，比如一个学生用特征向量X表示，他/她是男性或女性的概率表示成$P(Male|X)$和$P(Female|X)$，这就是后验概率，而一个具体事物必然有所属，故有$P(Male|X)+P(Female|X)=1$的约束，这与类分布密度函数是不同的。后验概率与先验概率也不同，后验概率涉及一个具体事物，而先验概率是泛指一类事物，因此$P(Male|X)$和$P(Male)$是不同的概念。后验概率可以根据贝叶斯公式计算，它直接用作分类判别的依据。
4)贝叶斯公式：两个事物X与w联合出现的概率称为联合概率，可写成$P(X,w)$，而它们又可与条件概率联系起来，即$P(X,w)=P(X|w)P(w)=P(w|X)P(X)$，这就是贝叶斯公式。如果将上式中各个项与先验概率、类条件概率密度函数以及后验概率联合起来，可以找到利用先验概率和类条件概率密度函数来计算后验概率的方法

3. 几种常用的决策规则

3.1 最小错误率的贝叶斯决策

基于最小错误概率的贝叶斯决策理论就是按照后验概率的大小作判决的，其决策规则为：
如果$P(w_1|x)>P(w_2|x)$，则$x\in w_1$，否则$x\in w_2$
而上式中：
$$
\begin{equation}
\begin{cases}
P(w_i|x)=\frac{P(x|w_i)}{P(x)}P(w_i) \\
P(x)=\sum_{j=1}^2P(x|w_j)P(w_j)
\end{cases}
\nonumber
\end{equation}
$$
因为分母P(x)在决策时不起作用，最小错误率的决策规则的其他表达形式：

1. 如果$P(x|w_1)P(w_1)>P(x|w_2)P(w_2)$，则$x\in w_1$，否则$x\in w_2$
1. 对于1还可以用比值方式表示，得到相应决策规则为：
  如果$l(x)=\frac{P(x|w_1)}{P(x|w_2)}>\frac{P(w_2)}{P(w_1)}$，则$x\in w_1$，否则$x\in w_2$
  我们称$P(x|w_i)$关于x的似然函数或似然，式中$l(x)$称为似然比，$\frac{P(w_2)}{P(w_1)}$为似然比的阈值。
  因此贝叶斯决策法则也可以表达为：
  如果似然比超过某个阈值$\frac{P(w_2)}{P(w_1)}$（它与x无关），则做决策$x\in w_1$，否则$x\in w_2$
1. 对于2中的$l(x)$取自然对数的负值，决策规则可写为：
  如果$h(x)=-\ln[l(x)]=-\ln P(x|w_1)+\ln P(x|w_2)<\ln\frac{P(w_1)}{P(w_2)}$，则$x\in w_1$，否则就判定$x\in w_2$

以上为两个类别且模式只有一个特征的情况，考虑多个类别并且模式具有多个特征情况下的最小错误率贝叶斯决策规则：
设$\Omega=\{w_1,w_2,\ldots,w_c\}$是c个类别状态的有限集合，特征向量X是d维随机向量，$P(X|w_i)$是模式向量X在$w_i$状态下的类条件概率密度，$P(w_i)$为$w_i$类的先验概率，则根据贝叶斯公式，后验概率$P(w_i|X)=\frac{P(X|w_i)}{P(X)}P(w_i)$，其中：$P(X)=\sum_{j=1}^cP(X|w_j)P(w_j)$。这时最小错误率的贝叶斯决策法为：如果存在$P(w_i|X)>P(w_j|X)$对于一切$i\neq j$成立，则决策为$w_i$
需要注意的是：
当我们考虑一个特征时，只用一个标量x表示；而对于多个特征，则要用向量X代替标量x。另外需要指出的是，如果两种类别的决策概率几近相等，而不做出决定又不太重要时，可以选择拒绝决策。

3.2 最小风险的贝叶斯决策

从不同性质的错误会引起不同程度的损失这一考虑出发，我们宁可扩大一些总的错误率，也要使总的损失减小，因此引进一个与损失有关联的、更为广泛的概念—风险。在作出决策时，要考虑所承担的风险，最小风险的贝叶斯决策规则正是为了体现这一点而产生的，把各种分类错误引起的损失考虑进去的贝叶斯决策法则。
在最小错误概率的贝叶斯决策方法中，分类时的决策单纯取决于观测值X对各类的后验概率中之最大值，因而也就无法估计做出错误决策所带来的损失，为此不妨将做出判决的依据从单纯考虑后验概率最大值，改为对该观测值X条件下各状态后验概率求加权和的方式：
$R_i(X)=\sum_{j=1}^c\lambda_j^{(i)}P(w_j|X)$，式中$\lambda_j^{(i)}$表示观测样本X实属类别j，而被判定为状态i时所造成的损失；$R_i(X)$则表示了观测值X被判为i类时损失的均值。因此加权和$R_i(X)$衡量了观测样本X被判为状态$w_i$所需承担的风险。
下面我们给出一些确切的定义，然后讨论最小风险的贝叶斯决策规则。

1)自然状态与状态空间。自然状态是指待识别对象的类别，而状态空间是由所有自然状态所组成的空间，$\Omega=\{w_1,w_2,\cdots,w_c\}$
2)决策与决策空间。在决策论中，对分类问题所做的判决，称之为决策，由所有决策组成的空间称为决策空间。决策不仅包括根据观测值将样本划归哪一类别(状态)，还可以包括其他决策，如”拒绝”等，因此决策空间内决策总数可以不等于类别数c，表示成如下形式：
$A=\{\alpha_1,\alpha_2,\cdots,\alpha_a\}$
3)损失函数$\lambda(\alpha_i|w_j)$，也记为$\lambda(\alpha_i,w_j)$，这就是我们前面引用的$\lambda_j^{(i)}$，它明确表示对自然状态$w_j$做出决策$\alpha_i$时所造成的损失
4)观测值X条件下的期望损失。$R(\alpha_i|X)=\sum_{j=1}^c\lambda(\alpha_i|w_j)P(w_j|x),i=1,2,3,\ldots,\alpha$ 也称为条件风险

每一个决策都会带来损失，通常它是决策和自然状态的函数，可以用决策表来表示其关系
对于实际问题，最小风险的贝叶斯决策可按下列步骤进行：

1)根据贝叶斯公式计算后验概率
2)根据后验概率和决策表，计算出各个决策的条件风险
3)找出使条件风险最小的决策，就是最小风险贝叶斯决策
对于二类问题：
$$
\begin{equation}
\begin{cases}
R(\alpha_1|X)=\lambda_{11}P(w_1|X)+\lambda_{12}P(w_2|X) \\
R(\alpha_2|X)=\lambda_{21}P(w_1|X)+\lambda_{22}P(w_2|X)
\end{cases}
\nonumber
\end{equation}
$$
其中$\lambda_{ij}=\lambda(\alpha_i,w_j)$，若$R(\alpha_1|X)<R(\alpha_2|X)$，则判定$w_1$为真正状态，否则为$w_2$
也可以用先验概率和类条件概率密度之积替代后验概率,得到其他形式

3.3 限定错误率的两类判别决策

在两类判别决策问题中，有两种错误分类的可能。实际中，有时要求限制其中一类错误率为某个常数，而另一类错误率尽可能小，这就是所谓Neyman-Pearson决策要解决的问题。

3.4 最大最小决策

最小错误率和最小风险贝叶斯决策的决策都是与先验概率有关的，对给定的x，其P(wi)不变。如果P(wi)可变或者先验概率未知，再按照某个固定的P(wi)条件下的决策规则进行决策就往往得不到最小的错误率或风险。最大最小决策就是希望考虑在P(wi)变化的情况下，使最大可能的风险最小，即在最差条件下争取最好的结果

4. 分类器设计

分类器设计实质上是在描述待识别对象的d维特征所组成的特征空间内，将其划分为c个决策域。决策域的边界面称为决策面，在数学上用解析形式表示成决策面方程，用于表达决策规则的某些函数称为判别函数。显然判别函数与决策面方程式密切相关的，并且都由相关决策规则确定的。
判别函数：对于d维特征空间中的c个模式类别，各给出一个由d个特征组成的单值函数，称为判别函数。在c类的情况下，我们共有c个判别函数，分别对应c个模式类

5. 正态分布时的统计决策

正太分布假设是对各种随机变量使用得最普遍的假设。

5.1 单变量正态分布概率密度函数

$p(x)=\frac{1}{\sqrt{2\pi}\sigma}\exp\left[-\frac{1}{2}(\frac{x-\mu}{\sigma})^2\right]$

5.2 多元正太分布概率密度函数

$p(x)=\frac{1}{(2\pi)^{\frac{d}{2}}|\Sigma|^{\frac{1}{2}}}\exp\left[-\frac{1}{2}(x-\mu)^T\Sigma^{-1}(x-\mu)\right]$
其中$\Sigma$是$d\times d$维协方差矩阵，是个半正定的对称矩阵：
$\Sigma=\begin{bmatrix}
\sigma_{11}^2 & \sigma_{12}^2 & \cdots & \sigma_{1d}^2 \\
\sigma_{21}^2 & \sigma_{22}^2 & \cdots & \sigma_{2d}^2 \\
\vdots & \vdots & \ddots & \vdots \\
\sigma_{d1}^2 & \sigma_{d2}^2 & \cdots & \sigma_{dd}^2
\end{bmatrix}$
通常将上式简记为：$p(x)\sim N(\mu,\sigma)$，其中$\mu=E[x]=(\mu_1,\mu_2,\ldots,\mu_d)^T$

5.3 多元正太分布下最小错误率贝叶斯决策

第一种情况：$\Sigma_i=\sigma^2I$
第二种情况：$\Sigma_i=\Sigma$
第三种情况：$\Sigma_i$任意

6. 离散情况的贝叶斯决策

7. 概率密度函数估计

在前面我们都假设类条件概率密度函数是已知的，然后去设计贝叶斯分类器，但在很多情况下，类条件概率密度函数往往必须首先利用统计推断理论中的估计方法从可用的样本集数据中估计出来。从样本集推断总体概率分布主要包括以下两种方法：

7.1 参数估计

如果已知概率密度函数的类型(如正态分布)，而表征概率密度函数的某些参数未知(如均值和方差)，则可以利用参数估计方法

最大似然估计
贝叶斯估计和贝叶斯学习

7.2 非参数估计

如果不知道概率密度函数的形式，但能估计出一些参数(如均值和方差)，则采用非参数估计方法

Parzen窗法
Kn近邻估计法

8. 分类错误率的计算

对于类条件概率密度及先验概率已知的问题，当我们用指定的决策规则来进行分类时，它的错误率应是固定的。但实际中，经常遇到类条件概率密度函数的形式或其参数，甚至是类型的先验概率等都预先未知的情况，再加上训练样本的数据也具有随机性，就使得训练和判决问题变得十分复杂。这种复杂性反映在错误率上，使错误率也具有随机性。因此可以认为，错误率反应了分类问题的固有复杂性，它是分类问题复杂性的一种量度。
对错误率的计算或估计方法可分为以下三个方面：

按理论公式计算(特殊情况才可)
- 正态分布且协方差阵相等的情况下
- 各维为独立随机变量情况下
计算错误率上界
- Chernoff界限
- 用Bhattacharyya系数确定的错误率上界
实验估计