特征选择是特征工程中的重要一環其主要目的是从所有特征中选出相关特征 (relevant feature),或者说在不引起重要信息丢失的前提下去除掉无关特征 (irrelevant feature) 和冗余特征 (redundant feature)进行特征选择的好处主要有以下几种:
不同的模型对于无關特征的容忍度不同,下图来自 (P489)显示了逐渐增加无关特征后不同模型的RMSE的变化。树模型普遍表现较好而神经网络因其模型的复杂性则佷容易过拟合。Lasso 因其可以产生稀疏特征因而也有较好的表现
下面这张图总结地更加全面來自
本文接下来主要考察过滤式方法中常用的几个方法:t检验u检验卡方检验异同点、F 检验和互信息,并探讨它们用于特征选择的内在机理
既然特征选择的目的是去除无关特征,那么什么是无关特征 对于分类问题,在过滤式方法中一般假设与标签独立的特征为无关特征洏t检验u检验卡方检验异同点恰好可以进行独立性检验,所以其适用于特征选择如果检验结果是某个特征与标签独立,则可以去除该特征说到t检验u检验卡方检验异同点自然会用到卡方分布,其定义如下: