数据不平衡带来什么问题
假设茬一个分类问题中,如果预测类别中存在一个或多个样本量极少的情况比如在图像分类中识别恶性肿瘤(训练样本中含有肿瘤的图像远仳没有肿瘤的图像少)。如果不考虑数据平衡的问题模型的性能会出现问题。
原因: 1.对于不平衡类别模型无法充分考察样本,从而不能及时有效地优化模型参数
2.它对验证和测试样本的获取造成了一个问题,因为在一些类观测极少的情况下很难在类中有代表性。换句話说训练集中的数据过少,影响了模型对该类识别的泛化能力
- 对数据不平衡的类别进行严格的数据增强;
-
γ为调节参数。当正样本的預测概率1?y^?接近0那么(1?y^?)γ就会变得更小。换句话说当样本分类合理时,函数会降低损失惩罚防止对参数过度优化,避免过拟合而当正样本的预测概率1?y^?接近1,因此