机器学习之欠采样和过采样

机器学习之欠采样和过采样过采样和欠采样是处理非平衡分类问题时的常用手段。拿二元分类为例，如果训练集中阳性样本有1000个，阴性样本有10万个，两者比例为1：100严重失衡。为了一些模型的性能考虑，我们需要进行一些处理使得两者的比例尽可能接近。过采样：对少的一类进行重复选择，比如我们对1000个阳性样本进行有放回的抽样，抽5万次（当然其中有很多重复的样本），现在两类的比例就变成了1：2，比较平衡。欠

过境�

4947人浏览 · 2020-10-23 19:36:52

过境� · 2020-10-23 19:36:52 发布

机器学习之欠采样和过采样

过采样和欠采样是处理非平衡分类问题时的常用手段。

拿二元分类为例，如果训练集中阳性样本有1000个，阴性样本有10万个，两者比例为1：100严重失衡。为了一些模型的性能考虑，我们需要进行一些处理使得两者的比例尽可能接近。

过采样：对少的一类进行重复选择，比如我们对1000个阳性样本进行有放回的抽样，抽5万次（当然其中有很多重复的样本），现在两类的比例就变成了1：2，比较平衡。

欠采样：对多的一类进行少量随机选择，比如我们对10万个阴性样本进行随机选择，抽中2000个（当然原样本中很多样本未被选中），现在两类的比例就变成了1：2，比较平衡。

SMOTE：SMOTE算法的基本思想就是对少数类别样本进行分析和模拟，并将人工模拟的新样本添加到数据集中，进而使原始数据中的类别不再严重失衡。该算法的模拟过程采用了KNN技术。

关于SMOTE：
https://blog.csdn.net/weixin_36431280/article/details/82560988

亚马逊云科技技术品牌专区

更多推荐

cover

只用中文就能开发应用？10分钟让Q Developer替你打工

亚马逊云科技技术品牌专区

cover

大模型选型实战——基于Amazon Bedrock测评对比和挑选最合适业务的大模型

亚马逊云科技技术品牌专区

cover

客户心声，AI解码！Amazon Bedrock与Nova大模型开启洞察新纪元

亚马逊云科技技术品牌专区

所有评论(0)

查看更多评论

过境�

@weixin_44896001

已为社区贡献1条内容