Loading...

Google Research|数据集均衡化可能会影响模型性能

大模型1年前 (2023)发布 智源社区
306 0 0

Dataset balancing can hurt model performance

R. Channing Moore, Daniel P. W. Ellis, Eduardo Fonseca, Shawn Hershey, Aren Jansen, Manoj Plakal
[Google Research]

数据集均衡化可能会影响模型性能

  • 动机:在机器学习中,如果训练数据的类别分布不均,可能会导致模型偏向于常见类别的性能,而忽视了稀有类别的性能。因此,许多研究者使用数据集平衡技术来改善模型的性能。然而,本文发现,虽然平衡可以提高公开的 AudioSet 评估数据的性能,但同时也会损害在相同条件下收集的未公开评估集的性能。
  • 方法:通过改变平衡的程度,展示了其优势的脆弱性以及对评估集的依赖性。同时,没有发现证据表明平衡可以改善稀有类别相对于常见类别的性能。
  • 优势:本文的研究结果提醒了我们,不能盲目地应用平衡技术,也不能过分关注公开评估集上的小幅度改进。这对于机器学习模型的训练和评估具有重要的参考价值。

通过实验发现,数据集平衡技术并不总是能提高模型性能,其效果可能与评估集的类别先验分布有关,因此不能盲目地应用平衡技术。

https://arxiv.org/abs/2307.00079 

Google Research|数据集均衡化可能会影响模型性能

Google Research|数据集均衡化可能会影响模型性能

© 版权声明

相关文章

暂无评论

暂无评论...