大多都会遇到数据失衡的烦恼

发布时间：2021-05-17 10:13:06 所属栏目：大数据来源：互联网

导读：任何真正与数据打交道的人大多都会遇到数据失衡的问题。比如，遇到分类问题时使用逻辑回归给新数据赋值0或1。目标变量预计0和1各占50%的可能。然而，结果完全出乎预料。如果试着将一种新动物归类为狗或者猫，就需要猫狗各1000列的训练数据。这样，模型才足

任何真正与数据打交道的人大多都会遇到数据失衡的问题。比如，遇到分类问题时使用逻辑回归给新数据赋值0或1。目标变量预计0和1各占50%的可能。然而，结果完全出乎预料。

如果试着将一种新动物归类为狗或者猫，就需要猫狗各1000列的训练数据。这样，模型才足够辨别二者的不同之处。如果训练数据中猫有1900只，狗只有100只，那么就可能产生误解，认为多数新动物都是猫，这是个很常见的问题。

可能的解决方案是使用其他补强少数部分的机器学习算法，或者创建新的综合数据。有一种技术叫不均衡学习(imbalanced-learn)，可以采用下列具体方法进行过采样：

这些过采样方法都非常有效，而且能解决数据不均衡问题。还有很多方法，比如欠采样、二者相结合、组合法、Keras和TensorFlow的批量生成器。下面是过采样操作的示例：

像RandomForest之类的一些机器算法函数库的参数要指定均衡数据也很简单。

（编辑：大同站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

人工智能技术实践于趋	imu音响怎么样 imu音响
大数据关键技术分析之	张家界搞元宇宙被质疑