机器学习的核心概念置信度和置信区间，我用这个例子把它讲明白

点击上方“小白学视觉”，选择加"星标"或“置顶”重磅干货，第一时间送达1引出概念今天，讲一个数据分析或机器学习里非常重要的概念，置信度和置信区间。为什么说置信度和置信区间非常重要？举个例子。拿到一个电影数据集，为了挑选出喜剧类型的电影，在豆瓣上评分前10名。这看似并不困难，使用pandas几行代码差不多就能完成分析，给出一个结果。但是，当回过头来仔细检查时，却发现，选出的10部电影，竟然有5部电.

小白学视觉

2794人浏览 · 2022-08-24 10:05:25

小白学视觉 · 2022-08-24 10:05:25 发布

点击上方“小白学视觉”，选择加"星标"或“置顶”

重磅干货，第一时间送达

1 引出概念

今天，讲一个数据分析或机器学习里非常重要的概念，置信度和置信区间。为什么说置信度和置信区间非常重要？举个例子。

拿到一个电影数据集，为了挑选出喜剧类型的电影，在豆瓣上评分前10名。这看似并不困难，使用pandas几行代码差不多就能完成分析，给出一个结果。

但是，当回过头来仔细检查时，却发现，选出的10部电影，竟然有5部电影只有一个人评分，并且都是给了10分。

基于这种情况，评选出的前10名，自然不能服众，不具有很强的说服力。

我们更期望的是，一部电影被众多观影者打分，然后从这些电影中，挑选得分更高的电影。

这里就能引出：置信度和置信区间的概念。

一部电影被众多人打分，最后平均得分为8.5，那么这部电影的得分在8.2~8.8分，置信度将会很高，假设为90%；

相反，一部电影只有两个人打分，尽管最后平均分为9.5分，但是在区间：9.2~9.8分的置信度，可能就没那么高，预估为50%吧。言外之意，这个置信区间9.2~9.8被否的可能性会更大，毕竟只有50%吗。

2 理论解释

如果我们叫无数个观影者给某部电影打分，下面的图就是总体分布图，其平均得分为 μ ，标准差为 σ ：

如果我们已经得出μ 和 σ ，我们可以说约 68％的样本会落在红色区域：平均得分在上下两个 σ内的置信度就是95%.

假设样本无穷大，这样得到某部电影的平均得分就是总体分布得分，平均分为0.65分(满分为1分)，标准差为0.03.

那么这部电影的平均得分在置信区间0.62~0.68 分的置信度约为95%.

所以，为了增强结果的说服力，可以过滤掉那些被评分较少的电影，那么到底少于多少就应该被过滤掉，这里也有说法。

3 求95%置信度对应样本个数

已知样本标准差，Z值，置信区间的长度，根据公式，便能计算出样本个数，具体计算公式大家自行查询，在此不列出。

表格参考如上，如果我们按照95%的置信度，允许误差为5%的话，需要的样本个数至少为385.

所以，我们的问题已经解决了，要找出至少有385次被评分的所有电影，按照喜剧的平均分依次从大到小排序，选出前10.

因为用到Z值，在此说明下Z值的求法，作为知识扩充。

4 求95%置信度对应的Z值

允许电影评分有左右各有误差，即0.05/2=0.025。此时要查尾部面积是0.025时的Z值。

查Z值表时要在表中间找到0.975。从这一行水平往左得到1.9，往上对得到0.06，把两个数加起来就是1.96。

5 求95%置信度对应的置信区间

计算置信区间：

第一步，已知样本，求样本平均值、标准差和标准误差。样本标准误差：

第二步，确定置信度（置信水平），常用的置信度是95%。

第三步，求置信区间[a,b]上下限，Z值求法参考上面，所以容易得出：

a = 总体平均值 - Z*标准误差

b = 总体平均值 + Z*标准误差

以上这些知识点，相信大家在网上也能搜出来，但是学习最重要的是知识逻辑梳理。一个一个的知识点这就好比放到那里的一个一个的珠子，而知识的逻辑体系就好比那一根线，它把一个一个的珠子串联起来，这根线就是逻辑线。我更希望通过辛苦总结，形成这样一根串珠子的线，这才是最大的价值所在，而像珠子的知识获取手段目前从来都不匮乏。

好消息！

小白学视觉知识星球

开始面向外开放啦👇👇👇

下载1：OpenCV-Contrib扩展模块中文版教程

在「小白学视觉」公众号后台回复：扩展模块中文教程，即可下载全网第一份OpenCV扩展模块教程中文版，涵盖扩展模块安装、SFM算法、立体视觉、目标跟踪、生物视觉、超分辨率处理等二十多章内容。


下载2：Python视觉实战项目52讲
在「小白学视觉」公众号后台回复：Python视觉实战项目，即可下载包括图像分割、口罩检测、车道线检测、车辆计数、添加眼线、车牌识别、字符识别、情绪检测、文本内容提取、面部识别等31个视觉实战项目，助力快速学校计算机视觉。


下载3：OpenCV实战项目20讲
在「小白学视觉」公众号后台回复：OpenCV实战项目20讲，即可下载含有20个基于OpenCV实现20个实战项目，实现OpenCV学习进阶。


交流群

欢迎加入公众号读者群一起和同行交流，目前有SLAM、三维视觉、传感器、自动驾驶、计算摄影、检测、分割、识别、医学影像、GAN、算法竞赛等微信群（以后会逐渐细分），请扫描下面微信号加群，备注：”昵称+学校/公司+研究方向“，例如：”张三 + 上海交大 + 视觉SLAM“。请按照格式备注，否则不予通过。添加成功后会根据研究方向邀请进入相关微信群。请勿在群内发送广告，否则会请出群，谢谢理解~

亚马逊云科技技术品牌专区

更多推荐

STM32节点移植lorawan协议连接腾讯云物联网开发平台（IoT Explorer）

STM32移植lorawan协议连接腾讯云物联网开发平台（IoT Explorer）前言前言在移植协议之前，先给大家科普一下Lora 和 lorawan 的区别。LoRa 是LPWAN通信技术中的一种，是美国Semtech公司采用和推广的一种基于扩频技术的超远距离无线传输方案。这一方案改变了以往关于传输距离与功耗的折衷考虑方式为用户提供一种简单的能实现远距离、长电池寿命、大容量的系统，进而扩...

亚马逊云科技技术品牌专区

物联网主机E6000引领工业自动化的新篇章

亚马逊云科技技术品牌专区

搞 IoT 物联网，你居然要懂这么多种协议...

物联网协议是指在物联网环境中用于设备间通信和数据传输的协议。根据不同的作用，物联网协议可分为传输协议、通信协议和行业协议。传输协议：一般负责子网内设备间的组网及通信。例如 Wi-Fi、Ethernet、NFC、 Zigbee、Bluetooth、GPRS、3G/4G/5G等。这些协议能够确保在网络上传输的数据的安全性和可靠性。通讯协议：主要是运行在传统互联网TCP/IP协议之上的设备通讯协议，负责