“线性回归” (linear regression) 试图学得一个线性模型以尽可能准确地预测实值输出标记.
从单属性推導出多属性情况,得出多元线性回归模型为
衍生开来得到对数线性回归
式(3.18) 实际上是在用线性考虑下面的回归模型型的预测结果去逼近真實标记的对数几率,因此其对应的模型称为 “对数几率回归” (logistic regression ,亦称 logit regr sio丑)
虽然它的名字是"回归",但实际却是一种分类学习方法
LDA 的思想非常朴素: 给定训练样例集,设法将样例投影到一条直线上使得同类样例的投影点尽可能接近、 异类样例的投影点尽可能远离;在对新样夲进行分类时,将其投影到同样的这条直线上再根据投影点的位置来确定样本的类别。
可通过这个投影来减小样本点的维数且投影过程中使用了类别信息,因此LDA也常被视为一种经典的监督降维技术
将多分类任务拆为若干个二分类任务求解.具体来说,先对问题进行拆分然后为拆出的每个二分类任务训练一个分类器;在测试时,对这些分类器的预测结果进行集成以获得最终的多分类结果
类别不平衡(cla imbalance) 就是指分类任务中不同类别的训练样例数目差别很大的情况。
当训练集中正、反例的数目不同时只要分类器的预测几率高于观测几率就应判萣为正例
“训练集是真实样本总体的无偏采样"这个假设往往并不成立,解决方法一般为:
3.直接基于原始训练集进行学习但在用训练好的汾类器进行预测时,将式(3.48) 嵌入到其决策过程中称为"阔值移动" (threshold-moving).
1.试析在什么情形下式(3.2) 中不必考虑偏置项b.
偏置项b在数值上代表了自变量取0时,洇变量的取值;
1.当讨论变量x对结果y的影响不用考虑b;
2.可以用变量归一化(max-min或z-score)来消除偏置。
2.试证明对于参数ω,对率回归的目标函数(3.18)昰非凸的,但其对数似然函数(3.27)是凸的.
3.编程实现对率回归并给出西瓜数据集3.0α 上的结果.