贝叶斯分类器

贝叶斯定理

设 $ \mathbb S $ 为试验$E$的样本空间；${ B } _ { 1 },{ B } _ { 2 },\cdots ,{ B } _ { n }$ 为 $E$ 的一组事件。若 ${ B } _ { i }\cap { B } _ { j }=\emptyset ,i\neq j,i,j=1,2,\cdots ,n$ 且 ${ B } _ { 1 }\cup { B } _ { 2 }\cup \cdots \cup { B } _ { n }=\mathbb S$ 则称 ${ B } _ { 1 },{ B } _ { 2 },\cdots ,{ B } _ { n }$ 为样本空间 $ \mathbb S $ 的一个划分。

如果 ${ B } _ { 1 },{ B } _ { 2 },\cdots ,{ B } _ { n }$ 为样本空间 $ \mathbb S $ 的一个划分，则对于每次试验，事件 ${ B } _ { 1 },{ B } _ { 2 },\cdots ,{ B } _ { n }$ 中有且仅有一个事件发生。

全概率公式：设试验 $E$ 的样本空间为 $ \mathbb S $，$A$ 为 $E$ 的事件，${ B } _ { 1 },{ B } _ { 2 },\cdots ,{ B } _ { n }$ 为样本空间 $ \mathbb S $ 的一个划分，且 $p\left( { B } _ { i } \right) \ge 0\left( i=1,2,\cdots ,n \right) $。则有：

\[p\left( A \right) =p\left( A \| { B }_ { 1 } \right) p\left( { B }_ { 1 } \right) +p\left( A \| { B }_ { 2 } \right) p\left( { B }_ { 2 } \right) +\cdots +p\left( A \| { B }_ { n } \right) p\left( { B }_ { n } \right) =\sum _ { i=1 }^{ n }{ p\left( A \| { B }_ { i } \right) p\left( { B }_ { i } \right) }\]

贝叶斯定理：设试验 $E$ 的样本空间为 $ \mathbb S $，$A$ 为 $E$ 的事件，${ B } _ { 1 },{ B } _ { 2 },\cdots ,{ B } _ { n }$ 为样本空间 $ \mathbb S $ 的一个划分，且 $p\left( A \right) >0,p\left( { B } _ { i } \right) \ge 0\left( i=1,2,\cdots ,n \right) $，则有：

\[p\left( { B }_ { i } \| A \right) =\frac { p\left( A \| { B }_ { i } \right) p\left( { B }_ { i } \right) }{ \sum _ { j=1 }^{ n }{ p\left( A \| { B }_ { j } \right) p\left( { B }_ { j } \right) } }\]

先验概率、后验概率

\[p\left( A \| B \right) =\frac { p\left( B \| A \right) p\left( A \right) }{ p\left( B \right) }\]

其中，

$p\left( A \right)$ 是 $A$ 的先验概率或边缘概率。之所以称为”先验”是因为它不考虑任何$B$方面的因素；

$p\left( B \right) $ 是 $B$ 的先验概率或边缘概率；

$p\left( A | B \right) $ 是已知 $B$ 发生后$A$的条件概率，也由于得自 $B$ 的取值而被称作 $A$ 的后验概率；

$p(B | A)$ 是已知 $A$ 发生后 $B$ 的条件概率，也由于得自 $A$ 的取值而被称作 $B$ 的后验概率。

朴素贝叶斯

描述

朴素贝叶斯是基于贝叶斯定理与特征独立假设的分类方法，之所以称之为“朴素”是由于做了特征间相互独立的假设。

原理

对于给定的待分类项，求解在此项出现的条件下各个类别出现的概率，哪个类别概率最大，就把待分类项标记为那个类别。

设输入空间 $\mathcal X \subseteq \mathbb R^{n} $ 为 $n$ 维向量的集合，输出空间为类标记集合 $\mathcal Y={ { c } _ { 1 },{ c } _ { 2 },\cdots ,{ c } _ { k } } $。令 $x={ \left( { x } _ { 1 },{ x } _ { 2 },\cdots ,{ x } _ { n } \right) }^{ T }$ 为定义在 $ \mathcal X $ 上的随机向量，$y$ 为定义在 $\mathcal Y$ 上的随机变量。令 $p\left( x,y \right) $ 为 $x$ 和 $y$ 的联合概率分布，假设训练数据集 $\mathbb D={ \left( { x } _ { 1 },{ y } _ { 1 } \right) ,\left( { x } _ { 2 },{ y } _ { 2 } \right) ,\cdots ,\left( { x } _ { m },{ y } _ { m } \right) }$ 由 $p\left( x,y \right) $ 独立同分布产生。

朴素贝叶斯通过训练数据集学习联合概率分布 $p\left( x,y \right) $。具体学习下列概率分布：

先验概率分布：$p\left( y \right) $。
条件概率分布：$p\left( x | y \right) =p\left( { x } _ { 1 },{ x } _ { 2 },\cdots ,{ x } _ { n } | y \right) $。

朴素贝叶斯法对条件概率做了特征独立性假设：$p\left( x | y \right) =p\left( { x } _ { 1 },{ x } _ { 2 },\cdots ,{ x } _ { n } | y \right) =\prod _ { j=1 }^{ n }{ p\left( { x } _ { j } | y \right) } $。这意味着在分类确定的条件下，用于分类的特征是条件独立的；该假设使得朴素贝叶斯法变得简单，但是可能牺牲一定的分类准确率。

根据贝叶斯定理：

\[p\left( y \| x \right) =\frac { p\left( x \| y \right) p\left( y \right) }{ \sum _ { { y }^{ \prime } }{ p\left( x \| { y }^{ \prime } \right) p\left( { y }^{ \prime } \right) } }\]

考虑分类特征的条件独立假设有：

\[p\left( y \| x \right) =\frac { p\left( y \right) \prod _ { j=1 }^{ n }{ p\left( { x }_ { j } \| y \right) } }{ \sum _ { { y }^{ \prime } }{ p\left( x \| { y }^{ \prime } \right) p\left( { y }^{ \prime } \right) } }\]

则朴素贝叶斯分类器表示为：

\[f\left( x \right) =arg\max _ { y\in \mathcal Y }{ \frac { p\left( y \right) \prod _ { j=1 }^{ n }{ p\left( { x }_ { j } \| y \right) } }{ \sum _ { { y }^{ \prime } }{ p\left( x \| { y }^{ \prime } \right) p\left( { y }^{ \prime } \right) } } }\]

由于上式的分母 $p\left( x \right) $ 与 $y$ 的取值无关，则分类器重写为：

\[f\left( x \right) =arg\max _ { y\in \mathcal Y }{ p\left( y \right) \prod _ { j=1 }^{ n }{ p\left( { x }_ { j } \| y \right) } }\]

算法

在朴素贝叶斯中，学习意味着估计概率：$p\left( y \right) $，$p\left( { x } _ { i } | y \right) $。可以用极大似然，估计相应概率。先验概率 $p\left( y \right) $ 的极大似然估计为：

\[p\left( y={ c }_ { k } \right) =\frac { \sum _ { i=1 }^{ m }{ I\left( { \tilde { y } }_ { i }={ c }_ { k } \right) } }{ m }\]

设第 $j$ 个特征 ${ x } _ { j }$ 可能的取值为 ${ { a } _ { j,1 },{ a } _ { j,2 },\cdots ,{ a } _ { j,{ s } _ { j } } }$，则条件概率 $p\left( { x } _ { j }={ a } _ { j,l } | y={ c } _ { k } \right) $ 的极大似然估计为：

\[p\left( { x }_ { j }={ a }_ { j,l } \| y={ c }_ { k } \right) =\frac { \sum _ { i=1 }^{ m }{ I\left( { x }_ { i,j }={ a }_ { j,l } \| { \tilde { y } }_ { i }={ c }_ { k } \right) } }{ \sum _ { i=1 }^{ m }{ I\left( { \tilde { y } }_ { i }={ c }_ { k } \right) } }\]

其中：$j=1,2,\cdots ,n$；$l=1,2,\cdots ,{ s } _ { j }$；$k=1,2,\cdots ,K$；$I$ 为示性函数；${ x } _ { i,j }$ 表示第 $i$ 个样本的第 $j$ 个特征。

伪码

输入

训练集$\mathbb D={ \left( { x } _ { 1 },{ y } _ { 1 } \right) ,\left( { x } _ { 2 },{ y } _ { 2 } \right) ,\cdots ,\left( { x } _ { m },{ y } _ { m } \right) }$。${ x } _ { i }={ \left( { x } _ { i,1 }{ x } _ { i,2 },\cdots ,{ x } _ { i,n } \right) }^{ T }$，${ x } _ { i,j }$ 表示第 $i$ 个样本的第 $j$ 个特征。其中 ${ x } _ { i,j }\in { { a } _ { j,1 },{ a } _ { j,2 },\cdots ,{ a } _ { j,{ s } _ { j } } } $，${ a } _ { j,l }$ 为第 $j$ 个特征可能取到的第 $l$ 个值。
实例 $x$。

输出：实例 $x$ 的分类

算法步骤

计算先验概率以及条件概率：

$p\left( y={ c }_ { k } \right) =\frac { \sum _ { i=1 }^{ m }{ I\left( { \tilde { y } }_ { i }={ c }_ { k } \right) } }{ m }$ 其中，$k=1,2,\cdots ,K$； $p\left( { x }_ { j }={ a }_ { j,l } \| y={ c }_ { k } \right) =\frac { \sum _ { i=1 }^{ m }{ I\left( { x }_ { i,j }={ a }_ { j,l } \| { \tilde { y } }_ { i }={ c }_ { k } \right) } }{ \sum _ { i=1 }^{ m }{ I\left( { \tilde { y } }_ { i }={ c }_ { k } \right) } }$ 其中：$j=1,2,\cdots ,n$；$l=1,2,\cdots ,{ s } _ { j }$；$k=1,2,\cdots ,K$。

对于给定的实例 $x={ \left( { x } _ { 1 },{ x } _ { 2 },\cdots ,{ x } _ { n } \right) }^{ T }$，计算：$p\left( y={ c } _ { k } \right) \prod _ { j=1 }^{ n }{ p\left( { x } _ { j } | y={ c } _ { k } \right) } $。
确定实例 $x$ 的分类：$\hat { y } =arg\max _ { { c } _ { k } }{ p\left( y={ c } _ { k } \right) \prod _ { j=1 }^{ n }{ p\left( { x } _ { j } | y={ c } _ { k } \right) } } $。

优点

性能好，速度快，可以避免维度灾难
支持大规模数据的并行学习，且天然的支持增量学习
既可用于二分类又可用于多分类
算法简单、所估计参数少、对缺失数据不太敏感
对小规模数据表现很好

缺点

~~1. 无法给出分类概率，因此难以应用于需要分类概率的场景。~~

朴素贝叶斯假设样本各个特征之间相互独立，这个假设在实际应用中往往不成立，从而影响分类正确性
对数据输入的表达形式很敏感

贝叶斯估计

在估计概率 $p\left( { x } _ { i } | y \right) $ 的过程中，分母 $\sum _ { i=1 }^{ m }{ I\left( { \tilde { y } } _ { i }={ c } _ { k } \right) } $ 可能为 $0$。这是由于训练样本太少才导致 ${ c } _ { k }$ 的样本数为 $0$。而真实的分布中，${ c } _ { k }$ 的样本并不为 $0$。

解决的方案是采用贝叶斯估计（最大后验估计）。假设第 $ j $ 个特征 ${ x } _ { j }$ 可能的取值为 ${ { a } _ { j,1 },{ a } _ { j,2 },\cdots ,{ a } _ { j,{ s } _ { j } } } $，贝叶斯估计假设在每个取值上都有一个先验的计数 $\lambda$。即：

\[{ p }_ { \lambda }\left( { x }_ { j }={ a }_ { j,l } \| y={ c }_ { k } \right) =\frac { \sum _ { i=1 }^{ m }{ I\left( { x }_ { i,j }={ a }_ { j,l } \| { \tilde { y } }_ { i }={ c }_ { k } \right) } +\lambda }{ \sum _ { i=1 }^{ m }{ I\left( { \tilde { y } }_ { i }={ c }_ { k } \right) } +{ s }_ { j }\lambda }\]

其中，$j=1,2,\cdots ,n$；$l=1,2,\cdots ,{ s } _ { j }$；$k=1,2,\cdots ,K$。它等价于在 ${ x } _ { j }$ 的各个取值的频数上赋予了一个正数 $\lambda$。若 ${ c } _ { k }$ 的样本数为 $0$，则它假设特征 ${ x } _ { j }$ 每个取值的概率为 $\frac { 1 }{ { s } _ { j } } $，即等可能的。

采用贝叶斯估计后，$p\left( y \right) $ 的贝叶斯估计调整为:

\[{ p }_ { \lambda }\left( y={ c }_ { k } \right) =\frac { \sum _ { i=1 }^{ m }{ I\left( { \tilde { y } }_ { i }={ c }_ { k } \right) } +\lambda }{ m+K\lambda }\]

其中，$K$为类别个数。当 $\lambda=0$ 时，为极大似然估计；当 $\lambda=1$ 时，为拉普拉斯平滑。若 ${ c } _ { k }$ 的样本数为 $0$，则假设赋予它一个非零的概率 $\frac { \lambda }{ m+K\lambda } $。

半朴素贝叶斯分类器

朴素贝叶斯法对条件概率做了特征的独立性假设：$p\left( x | y \right) =p\left( { x } _ { 1 },{ x } _ { 2 },\cdots ,{ x } _ { n } | y \right) =\prod _ { j=1 }^{ n }{ p\left( { x } _ { j } | y \right) } $。但是现实任务中这个假设有时候很难成立。若对特征独立性假设进行一定程度上的放松，这就是半朴素贝叶斯分类器 semi-naive Bayes classifiers。

半朴素贝叶斯分类器原理：适当考虑一部分特征之间的相互依赖信息，从而既不需要进行完全联合概率计算，又不至于彻底忽略了比较强的特征依赖关系。

独依赖估计 OED

独依赖估计 ($One-Dependent Estimator:OED$) 是半朴素贝叶斯分类器最常用的一种策略。它假设每个特征在类别之外最多依赖于一个其他特征，即：

\[p\left( x \| y \right) =p\left( { x }_ { 1 },{ x }_ { 2 },\cdots ,{ x }_ { n } \| y \right) =\prod _ { j=1 }^{ n }{ p\left( { x }_ { j } \| y,{ x }_ { j }^{ P } \right) }\]

其中，${ x } _ { j }^{ P }$ 为特征 ${ x } _ { j }$ 所依赖的特征，称作的 ${ x } _ { j }$ 父特征。

如果父属性已知，那么可以用贝叶斯估计来估计概率值 $p\left( { x } _ { j } | y,{ x } _ { j }^{ P } \right) $。现在的问题是：如何确定每个特征的父特征？不同的做法产生不同的独依赖分类器。

SPODE

最简单的做法是：假设所有的特征都依赖于同一个特征，该特征称作超父。然后通过交叉验证等模型选择方法来确定超父特征。这就是 ($SPODE:Super-Parent ODE$) 方法。假设节点 $Y$ 代表输出变量 $y$ ，节点 $Xj$ 代表属性 ${ x } _ { j }$。下图给出了超父特征为 ${ x } _ { 1 }$ 时的 $SPODE$。

SPODE

TAN

$TAN$ ($Tree Augmented naive Bayes$) 是在最大带权生成树算法基础上，通过下列步骤将特征之间依赖关系简化为如下图所示的树型结构：

计算任意两个特征之间的条件互信息。记第 $i$ 个特征 ${ x } _ { i }$ 代表的结点为 $\mathbf X _ i$，标记代表的节点为 $\mathbf{Y}$ 则有: $I\left( { X }_ { i },{ X }_ { j } \| Y \right) =\sum _ { y }{ \sum _ { { x }_ { i } }{ \sum _ { { x }_ { j } }{ p\left( { x }_ { i },{ x }_ { j } \| y \right) \log { \frac { p\left( { x }_ { i },{ x }_ { j } \| y \right) }{ p\left( { x }_ { i } \| y \right) p\left( { x }_ { j } \| y \right) } } } } }$ 如果两个特征 ${ x } _ { i }$ 和 ${ x } _ { j }$ 相互条件独立，则 $p\left( { x } _ { i },{ x } _ { j } | y \right) =p\left( { x } _ { i } | y \right) p\left( { x } _ { j } | y \right) $。则有条件互信息 $I\left( { X } _ { i },{ X } _ { j } | Y \right) =0$，则在图中这两个特征代表的结点没有边相连。
以特征为结点构建完全图，任意两个结点之间边的权重设为条件互信息 $I\left( { X } _ { i },{ X } _ { j } | Y \right) =0$。
构建此完全图的最大带权生成树，挑选根结点（下图中根节点为节点 $\mathbf X _ 1$)，将边置为有向边。
加入类别结点 $\mathbf Y$，增加 $\mathbf Y$ 到每个特征的有向边。因为所有的条件概率都是以 $y$ 为条件的。

TAN

莫小苝

贝叶斯分类器