Laplace Smoothing

January 12, 2021•14 words

背景:为什么要做平滑处理?
　　零概率问题，就是在计算实例的概率时，如果某个量x，在观察样本库（训练集）中没有出现过，会导致整个实例的概率结果是0。在文本分类的问题中，当一个词语没有在训练样本中出现，该词语调概率为0，使用连乘计算文本出现概率时也为0。这是不合理的，不能因为一个事件没有观察到就武断的认为该事件的概率是0。

拉普拉斯的理论支撑
　　为了解决零概率的问题，法国数学家拉普拉斯最早提出用加1的方法估计没有出现过的现象的概率，所以加法平滑也叫做拉普拉斯平滑。
　　假定训练样本很大时，每个分量x的计数加1造成的估计概率变化可以忽略不计，但可以方便有效的避免零概率问题。

说点接地气的，在机器学习中常常会碰到对从未发生过的事件的预测，拉普拉斯的方法就可以发挥作用。比如下面是一些邮件的数据，左边两列是邮件中的是否包含某些关键字，第三列是该邮件是否为垃圾邮件，最后一列是这样的邮件有多少封：

$test$

根据上面的数据容易得到，包含“发票”和“微信”且是垃圾邮件（表中第八行）的概率为（机器学习中一般是计算条件概率，这里为了解释方便，只去计算了如下概率）：
$P(包含“发票”和“微信”且是垃圾邮件)=\frac{9}{8+2+1+7+0+0+1+9}=\frac{1}{3}\\$

仔细观察会发现，只包含“微信”的情况是没有数据的（表中第五、六行），此时就可用拉普拉斯的办法，给每一项都加上1（“太阳升起”问题中只有两种状态，这里有八种状态，在思想实验中，可以给每种状态都预先加上1，表现出来的结果就是在表格中给每一项都加上1）：

$\begin{array}{c|c|c} \hline \quad “发票”\quad\quad&\quad “微信”\quad&\quad 垃圾邮件\quad&\quad 数量\quad\\ \hline \\ \quad ✘ \quad &\quad ✘\quad &\quad 不是\quad&\quad 8+\color{red}{1}\quad \\ \quad ✘ \quad &\quad ✘\quad &\quad 是\quad&\quad 2+\color{red}{1}\quad \\ \quad ✓\quad &\quad ✘ \quad &\quad 不是\quad&\quad 1+\color{red}{1}\quad \\ \quad ✓\quad &\quad ✘ \quad &\quad 是\quad&\quad 7+\color{red}{1}\quad \\ \quad ✘\quad &\quad ✓ \quad &\quad 不是\quad&\quad 0+\color{red}{1}\quad \\ \quad ✘\quad &\quad ✓ \quad &\quad 是\quad&\quad 0+\color{red}{1}\quad \\ \quad ✓\quad &\quad ✓ \quad &\quad 不是\quad&\quad 1+\color{red}{1}\quad \\ \quad ✓\quad &\quad ✓ \quad &\quad 是\quad&\quad 9+\color{red}{1}\quad \\ \\ \hline \end{array} \\$

这样就可以估计只包含“微信”且是垃圾邮件（表中第六行）的概率为：

$P(只包含“微信”且是垃圾邮件)=\frac{1}{9+3+2+8+1+1+2+10}=\frac{1}{36}\\$

这种方法在机器学习中也叫拉普拉斯平滑

Naive Bayes

December 16, 2022•37 words

Naive Bayes 文章： https://tinyurl.com/2k5vw3cf 他也是翻译的： https://tinyurl.com/2ga7nqoc 简单的说，就是用Bayes Rule来预测 Training Data用来计算 prior probability 然后prediction其实就是计算posterior probability 强调一下什么是Naive Being Naive 我们假设一个句子中的每个单词都与其他单词无关。这意味着我们不再看整个句子，而是单个单词。我们把 P(A very close game) 写成： P(a very close game)=P(a)×P(very)×P(close)×P(game) 这个假设非常强大，但是非常有用。这使得整个模型能够很好地处理可能被错误标签的少量数据或数据。下一步将它应用到我们以前所说的： P（a very close game|Sports)=P(a|Sports)×P(very|Sports)×P(close|Sports)×P(game|Sports) 现在，我...

Read post

Laplace Smoothing

More from ML
All posts

Beta Distribution

Naive Bayes

Laplace Smoothing

More from MLAll posts

Beta Distribution

Naive Bayes

More from ML
All posts