拉普拉斯平滑（Laplacian smoothing）

潜心学习的渣渣

25490人浏览 · 2020-06-07 16:16:46

潜心学习的渣渣 · 2020-06-07 16:16:46 发布

概念

零概率问题：在计算事件的概率时，如果某个事件在观察样本库（训练集）中没有出现过，会导致该事件的概率结果是0。这是不合理的，不能因为一个事件没有观察到，就被认为该事件一定不可能发生（即该事件的概率为0）。

拉普拉斯平滑(Laplacian smoothing) 是为了解决零概率的问题。

法国数学家 拉普拉斯 最早提出用加1 的方法，估计没有出现过的现象的概率。
理论假设：假定训练样本很大时，每个分量x的计数加1造成的估计概率变化可以忽略不计，但可以方便有效的避免零概率问题

具体公式

总结：分子加一，分母加K，K代表类别数目。

应用场景举例

假设在文本分类中，有3个类：C1、C2、C3。
在指定的训练样本中，某个词语K1，在各个类中观测计数分别为0，990，10。
则对应K1的概率为0，0.99，0.01。

显然C1类中概率为0，不符合实际。

于是对这三个量使用拉普拉斯平滑的计算方法如下：
　　1/1003 = 0.001，991/1003=0.988，11/1003=0.011
　　
在实际的使用中也经常使用加 λ（0≤λ≤1）来代替简单加1。如果对N个计数都加上λ，这时分母也要记得加上N*λ

参考文献

https://blog.csdn.net/qq_25073545/article/details/78621019

GitCode 开源社区

旨在为数千万中国开发者提供一个无缝且高效的云端环境，以支持学习、使用和贡献开源项目。

更多推荐

cover

颠覆开发效率！国内首个开源微服务编排框架Juggle入驻GitCode

GitCode 开源社区

cover

“盲水印”技术新标杆：blind_watermark加入GitCode

GitCode 开源社区

cover

开源平台GitCode招人啦，大量好岗！

GitCode 开源社区

所有评论(0)

潜心学习的渣渣

@weixin_43868020

已为社区贡献1条内容

相关推荐查看更多

llama_index

271

LlamaIndex（前身为GPT Index）是一个用于LLM应用程序的数据框架

halo

98

强大易用的开源建站工具。

freeCodeCamp

79

freeCodeCamp.org的开源代码库和课程。免费学习编程。

运营活动

活动日历查看更多

直播时间 2025-04-25 15:00:00

开源友的聊-中美AI对决

直播时间 2025-04-23 19:00:00

GitTalk：国内首个微服务编排框架Juggle实战解析

直播时间 2025-04-22 18:31:56

字节AI 黑科技！从 Manus Agent 入门 Eino

直播时间 2025-04-09 14:34:18

樱花限定季｜G-Star校园行&华中师范大学专场

直播时间 2025-04-07 14:51:20

樱花限定季｜G-Star校园行&华中农业大学专场

目录