加入收藏 | 设为首页 | 会员中心 | 我要投稿 大同站长网 (https://www.0352zz.com/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 大数据 > 正文

大多都会遇到数据失衡的烦恼

发布时间:2021-05-17 10:13:06 所属栏目:大数据 来源:互联网
导读:任何真正与数据打交道的人大多都会遇到数据失衡的问题。比如,遇到分类问题时使用逻辑回归给新数据赋值0或1。目标变量预计0和1各占50%的可能。然而,结果完全出乎预料。 如果试着将一种新动物归类为狗或者猫,就需要猫狗各1000列的训练数据。这样,模型才足

任何真正与数据打交道的人大多都会遇到数据失衡的问题。比如,遇到分类问题时使用逻辑回归给新数据赋值0或1。目标变量预计0和1各占50%的可能。然而,结果完全出乎预料。

如果试着将一种新动物归类为狗或者猫,就需要猫狗各1000列的训练数据。这样,模型才足够辨别二者的不同之处。如果训练数据中猫有1900只,狗只有100只,那么就可能产生误解,认为多数新动物都是猫,这是个很常见的问题。

可能的解决方案是使用其他补强少数部分的机器学习算法,或者创建新的综合数据。有一种技术叫不均衡学习(imbalanced-learn),可以采用下列具体方法进行过采样:

  • ADASYN算法(Adaptive Synthetic,自适应综合过采样)
  • BorderlineSMOTE算法
  • KMeansSMOTE算法
  • RandomOverSampler算法
  • SMOTNC算法
  • SVMSMOTE算法(Nominal andContinuous)

这些过采样方法都非常有效,而且能解决数据不均衡问题。还有很多方法,比如欠采样、二者相结合、组合法、Keras和TensorFlow的批量生成器。下面是过采样操作的示例:

  • 画一幅二维视图
  • 绘制已知数据点
  • 选择一个已知点
  • 找出最邻近点
  • 在邻近点与原始数据点之间画一条线
  • 然后随机将大头针丢在这些线上
  • 这就是新合成的过采样数据

像RandomForest之类的一些机器算法函数库的参数要指定均衡数据也很简单。

(编辑:大同站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    热点阅读