逐步回归直线方程例题详解后的方程还可排名吗

多重共线性是指在进行多元回归矗线方程例题详解分析时自变量间存在较强的线性相关关系。共线关系的存在可使得估计系数方差加大,系数估计不稳结果分析困難。因此在多因素线性回归直线方程例题详解分析时特别是当回归直线方程例题详解结果难以用专业知识解释时,要进行共线性诊断找出存在共线性且不重要的那些自变量,剔出方程另行回归直线方程例题详解分析。 对于存在共线性的资料可以利用共线性诊断有选擇的保留自变量以消除共线性;或者采用岭回归直线方程例题详解、主成分回归直线方程例题详解等回归直线方程例题详解分析方法以避免共线性指标对结果的影响。剔除某个造成共线性的自变量重建回归直线方程例题详解方程;合并自变量;采用逐步回归直线方程例题詳解方法。 4.多重共线性 多重共线性的表现在实际应用中主要表现为: (1)模型拟合效果很好但偏回归直线方程例题详解系数几乎都无統计学意义; (2)偏回归直线方程例题详解系数估计值的方差很大; (3)偏回归直线方程例题详解系数估计值不稳定,随着样本含量的增減各偏回归直线方程例题详解系数发生较大变化或当一个自变量被引入或剔除时其余变量偏回归直线方程例题详解系数有很大变化; (4)偏回归直线方程例题详解系数估计值的大小与符号可能与事先期望的不一致或与经验相悖结果难以解释 出现以上表现,提示存在多重共線性问题应进行多重共线性诊断。 方差膨胀因子VIF (2) 容忍度(tolerance) 以每个自变量作为应变量对其他自变量进行回归直线方程例题详解分析时嘚到的残差比例,大小用1-R2来表示该指标越小,则说明该自变量被其余变量预测的越精确共线性可能越严重。如果自变量的容忍度小于0.1则可能存在共线性问题。 5 哑变量的设定 2分类可用一个(0,1)变量如性别 k分类,k-1个(01)变量,如血型 多重线性回归直线方程例题詳解分析有时先将有序变量或无序多分类变量转换成为多个二分类变量之后,才能将它们引入回归直线方程例题详解模型 将有序变量或無序多分类变量转换成为多个二分类变量的过程常被称为“哑元化(dummying)”,得到的多个二分类变量称为“哑变量(dummy variable)”。 一般情况下若某萣性变量有k个水平,就需要引入k-1个二值的哑变量 血型是一个无序多分类变量,它的取“值”是A、B、AB、O四种 可以用3个二分类变量来描述。令 表11-5 用二分类哑变量描述血型 血型 变量 1 0 0 0 1 0 0 0 1 0 0 0 (1)无序多分类变量 定量 数据格式回归直线方程例题详解方程 建立回归直线方程例题详解方程 b1 :楿当A 型相对于O 型的差别 b2 :相当B 型相对于O 型的差别 b3 :相当AB 型相对于O 型的差别 (2)等级 定量 一般是将等级从弱到强转换为 (或 )如文化程度汾为小学、中学、大学、大学以上四个等级。 Y 为经济收入 解释:b(b1)反映X(X1) 增加1个单位, 增加b个单位(如:500元) 表示中学文化者较小学攵化者收入多500, 大学较中学多500余类推。 b1, b2, b3分别反映中学、大学、大学以上相对于小学文化程度者经济收入差别的大小 也可将K个等级转换为K-1個(01)变量 为了检验两个自变量是否具有交互作用, 普遍的做法是在方程中加入它们的乘积项 6. 变量间的交互作用 例2 某项研究调查了3334名囿心脏疾患的妇女,了解血清高密度脂蛋白胆固醇(HDL cholesterolmg/dl)与体质指数(body mass index, BMI, 是相同的,表现为相同的偏回归直线方程例题详解系数 -0.391 在多重线性囙归直线方程例题详解模型中引入一个新的自变量(DMBMI)定义为BMI和DIABETES的乘积,这个乘积项描述的是两个自变量与反应变量之间的关系由于兩个自变量已经在模型中,乘积项就可以解释为交互作用 表13-5 以体质指数、是否患糖尿病为自变量,包含交互作用项

回归直线方程例题详解分析是一種预测性的建模技术它研究的是因变量(目标)和自变量(预测器)之间的关系。这种技术通常用于预测分析时间序列模型以及发现變量之间的因果关系。例如司机的鲁莽驾驶与道路交通事故数量之间的关系,最好的研究方法就是回归直线方程例题详解

回归直线方程例题详解分析是建模和分析数据的重要工具。在这里我们使用曲线 / 线来拟合这些数据点,在这种方式下从曲线或线到数据点的距离差异最小。我会在接下来的部分详细解释这一点

我们为什么使用回归直线方程例题详解分析?

如上所述回归直线方程例题详解分析估計了两个或多个变量之间的关系。下面让我们举一个简单的例子来理解它:

比如说,在当前的经济条件下你要估计一家公司的销售额增长情况。现在你有公司最新的数据,这些数据显示出销售额增长大约是经济增长的 2.5 倍那么使用回归直线方程例题详解分析,我们就鈳以根据当前和过去的信息来预测未来公司的销售情况

使用回归直线方程例题详解分析的好处良多。具体如下:

  1. 它表明自变量和因变量の间的显著关系;
  2. 它表明多个自变量对一个因变量的影响强度

回归直线方程例题详解分析也允许我们去比较那些衡量不同尺度的变量之間的相互影响,如价格变动与促销活动数量之间联系这些有利于帮助市场研究人员,数据分析人员以及数据科学家排除并估计出一组最佳的变量用来构建预测模型。

我们有多少种回归直线方程例题详解技术

有各种各样的回归直线方程例题详解技术用于预测。这些技术主要有三个度量(自变量的个数因变量的类型以及回归直线方程例题详解线的形状)。我们将在下面的部分详细讨论它们

对于那些有創意的人,如果你觉得有必要使用上面这些参数的一个组合你甚至可以创造出一个没有被使用过的回归直线方程例题详解模型。但在你開始之前先了解如下最常用的回归直线方程例题详解方法:

它是最为人熟知的建模技术之一。线性回归直线方程例题详解通常是人们在學习预测模型时首选的技术之一在这种技术中,因变量是连续的自变量可以是连续的也可以是离散的,回归直线方程例题详解线的性質是线性的

线性回归直线方程例题详解使用最佳的拟合直线(也就是回归直线方程例题详解线)在因变量(Y)和一个或多个自变量(X)の间建立一种关系。

用一个方程式来表示它即 Y=a+b*X + e,其中 a 表示截距b 表示直线的斜率,e 是误差项这个方程可以根据给定的预测变量(s)来預测目标变量的值。

一元线性回归直线方程例题详解和多元线性回归直线方程例题详解的区别在于多元线性回归直线方程例题详解有(>1)个自变量,而一元线性回归直线方程例题详解通常只有 1 个自变量现在的问题是 “我们如何得到一个最佳的拟合线呢?”

如何获得最佳拟合线(a 和 b 的值)?

这个问题可以使用最小二乘法轻松地完成最小二乘法也是用于拟合回归直线方程例题详解线最常用的方法。对于觀测数据它通过最小化每个数据点到线的垂直偏差平方和来计算最佳拟合线。因为在相加时偏差先平方,所以正值和负值没有抵消

峩们可以使用 R-square 指标来评估模型性能。想了解这些指标的详细信息可以阅读:模型性能指标 Part 1,Part 2 .

  • 自变量与因变量之间必须有线性关系

  • 多元回归矗线方程例题详解存在多重共线性,自相关性和异方差性

  • 线性回归直线方程例题详解对异常值非常敏感。它会严重影响回归直线方程例題详解线最终影响预测值。

  • 多重共线性会增加系数估计值的方差使得在模型轻微变化下,估计非常敏感结果就是系数估计值不稳定

  • 茬多个自变量的情况下,我们可以使用向前选择法向后剔除法和逐步筛选法来选择最重要的自变量。

逻辑回归直线方程例题详解是用来計算 “事件 = Success” 和 “事件 = Failure” 的概率当因变量的类型属于二元(1 / 0,真 / 假是 / 否)变量时,我们就应该使用逻辑回归直线方程例题详解这里,Y 的值从 0 到 1它可以用下方程表示。

上述式子中p 表述具有某个特征的概率。你应该会问这样一个问题:“我们为什么要在公式中使用对數 log 呢”。

因为在这里我们使用的是的二项分布(因变量)我们需要选择一个对于这个分布最佳的连结函数。它就是 Logit 函数在上述方程Φ,通过观测样本的极大似然估计值来选择参数而不是最小化平方和误差(如在普通回归直线方程例题详解使用的)。

它广泛的用于分類问题

逻辑回归直线方程例题详解不要求自变量和因变量是线性关系。它可以处理各种类型的关系因为它对预测的相对风险指数 OR 使用叻一个非线性的 log 转换。

为了避免过拟合和欠拟合我们应该包括所有重要的变量。有一个很好的方法来确保这种情况就是使用逐步筛选方法来估计 逻辑回归直线方程例题详解。

它需要大的样本量因为在样本数量较少的情况下,极大似然估计的效果比普通的最小二乘法差

自变量不应该相互关联的,即不具有多重共线性然而,在分析和建模中我们可以选择包含分类变量相互作用的影响。

如果因变量的徝是定序变量则称它为序逻辑回归直线方程例题详解。

如果因变量是多类的话则称它为多元逻辑回归直线方程例题详解。

对于一个回歸直线方程例题详解方程如果自变量的指数大于 1,那么它就是多项式回归直线方程例题详解方程如下方程所示:

这种回归直线方程例題详解技术中,最佳拟合线不是直线而是一个用于拟合数据点的曲线。

虽然会有一个诱导可以拟合一个高次多项式并得到较低的错误泹这可能会导致过拟合。你需要经常画出关系图来查看拟合情况并且专注于保证拟合合理,既没有过拟合又没有欠拟合下面是一个图唎,可以帮助理解:

明显地向两端寻找曲线点看看这些形状和趋势是否有意义。更高次的多项式最后可能产生怪异的推断结果

处理多個自变量时,我们可以使用这种形式的回归直线方程例题详解在这种技术中,自变量的选择是在一个自动的过程中完成的其中包括非囚为操作。

这一壮举是通过观察统计的值如 R-square,t-stats 和 AIC 指标来识别重要的变量。逐步回归直线方程例题详解通过同时添加 / 删除基于指定标准嘚协变量来拟合模型下面列出了一些最常用的逐步回归直线方程例题详解方法:

标准逐步回归直线方程例题详解法做两件事情。即增加囷删除每个步骤所需的预测

向前选择法从模型中最显著的预测开始,然后为每一步添加变量

向后剔除法与模型的所有预测同时开始,嘫后在每一步消除最小显着性的变量

这种建模技术的目的是使用最少的预测变量数来最大化预测能力。这也是处理高维数据集的方法之┅

岭回归直线方程例题详解分析是一种用于存在多重共线性(自变量高度相关)数据的技术。在多重共线性情况下尽管最小二乘法(OLS)对每个变量很公平,但它们的差异很大使得观测值偏移并远离真实值。岭回归直线方程例题详解通过给回归直线方程例题详解估计上增加一个偏差度来降低标准误差。

上面我们看到了线性回归直线方程例题详解方程。还记得吗它可以表示为:

这个方程也有一个误差项。完整的方程是:

在一个线性方程中预测误差可以分解为 2 个子分量。一个是偏差一个是方差。预测错误可能会由这两个分量或者這两个中的任何一个造成在这里,我们将讨论由方差所造成的有关误差

岭回归直线方程例题详解通过收缩参数λ(lambda)解决多重共线性問题。看下面的公式

在这个公式中有两个组成部分。第一个是最小二乘项另一个是β2(β- 平方)的λ倍,其中β是相关系数。为了收缩參数把它添加到最小二乘项中以得到一个非常低的方差

除常数项以外,这种回归直线方程例题详解的假设与最小二乘回归直线方程例题詳解类似;

它收缩了相关系数的值但没有达到零,这表明它没有特征选择功能

这是一个正则化方法并且使用的是 L2 正则化。

它类似于岭囙归直线方程例题详解Lasso (Least Absolute Shrinkage and Selection Operator)也会惩罚回归直线方程例题详解系数的绝对值大小。此外它能够减少变化程度并提高线性回归直线方程例題详解模型的精度。看看下面的公式:

Lasso 回归直线方程例题详解与 Ridge 回归直线方程例题详解有一点不同它使用的惩罚函数是绝对值,而不是岼方这导致惩罚(或等于约束估计的绝对值之和)值使一些参数估计结果等于零。使用惩罚值越大进一步估计会使得缩小值趋近于零。这将导致我们要从给定的 n 个变量中选择变量

  • 除常数项以外,这种回归直线方程例题详解的假设与最小二乘回归直线方程例题详解类似;

  • 它收缩系数接近零(等于零)这确实有助于特征选择;

  • 这是一个正则化方法,使用的是 L1 正则化;

如果预测的一组变量是高度相关的Lasso 會选出其中一个变量并且将其它的收缩为零。

ElasticNet 是 Lasso 和 Ridge 回归直线方程例题详解技术的混合体它使用 L1 来训练并且 L2 优先作为正则化矩阵。当有多個相关的特征时ElasticNet 是很有用的。Lasso 会随机挑选他们其中的一个而 ElasticNet 则会选择两个。

  • 在高度相关变量的情况下它会产生群体效应;

  • 选择变量嘚数目没有限制;

如何正确选择回归直线方程例题详解模型?

当你只知道一个或两个技术时生活往往很简单。我知道的一个培训机构告訴他们的学生如果结果是连续的,就使用线性回归直线方程例题详解如果是二元的,就使用逻辑回归直线方程例题详解!然而在我們的处理中,可选择的越多选择正确的一个就越难。类似的情况下也发生在回归直线方程例题详解模型中

在多类回归直线方程例题详解模型中,基于自变量和因变量的类型数据的维数以及数据的其它基本特征的情况下,选择最合适的技术非常重要以下是你要选择正確的回归直线方程例题详解模型的关键因素:

  1. 数据探索是构建预测模型的必然组成部分。在选择合适的模型时比如识别变量的关系和影響时,它应该首选的一步

  2. 比较适合于不同模型的优点,我们可以分析不同的指标参数如统计意义的参数,R-squareAdjusted R-square,AICBIC 以及误差项,另一个昰 Mallows’ Cp 准则这个主要是通过将模型与所有可能的子模型进行对比(或谨慎选择他们),检查在你的模型中可能出现的偏差

  3. 交叉验证是评估预测模型最好额方法。在这里将你的数据集分成两份(一份做训练和一份做验证)。使用观测值和预测值之间的一个简单均方差来衡量你的预测精度

  4. 如果你的数据集是多个混合变量,那么你就不应该选择自动模型选择方法因为你应该不想在同一时间把所有变量放在哃一个模型中。

Logistic回归直线方程例题详解虽然名字叫”回归直线方程例题详解” 但却是一种分类学习方法。使用场景大概有两个:第一用来预测第二寻找因变量的影响因素。 

线性回归矗线方程例题详解和Logistic回归直线方程例题详解都是广义线性模型的特例

假设有一个因变量y和一组自变量x1, x2, x3, ... , xn,其中y为连续变量我们可以拟合┅个线性方程:

并通过最小二乘法估计各个β系数的值。

如果y为二分类变量,只能取值01那么线性回归直线方程例题详解方程就会遇到困难方程右侧是一个连续的值,取值为负无穷到正无穷而左侧只能取值[0,1],无法对应为了继续使用线性回归直线方程例题详解的思想,統计学家想到了一个变换方法就是将方程右边的取值变换为[0,1]。最后选中了Logistic函数:

这是一个S型函数值域为(0,1),能将任何数值映射到(0,1)且具囿无限阶可导等优良数学性质。

我们将线性回归直线方程例题详解方程改写为:

此时方程两边的取值都在01之间

进一步数学变换,可以寫为:

Ln(y/(1-y))称为Logit变换我们再将y视为y取值为1的概率p(y=1),因此1-y就是y取值为0的概率p(y=0),所以上式改写为:

接下来就可以使用”最大似然法”估计出各個系数β。

-1.12546等于系数β0。可以得出关系:

根据这个交叉表对于男性(Male),其处在荣誉班级的概率为17/91处在非荣誉班级的概率为74/91,所以其处在荣誉班级的几率odds1=(17/91)/(74/91) = 17/74 = 0.23;相应的女性处于荣誉班级的几率odds2

ln(OR)exp(x)函数为指数函数,代表ex次方)

.,是非常小的因为在我们的数据中,没囿math成绩为0的学生所以这是一个外推出来的假想值。

2.66倍或者说,女性的几率比男性高166%

      所谓交互效应,是指一个变量对结果的影响因另┅个变量取值的不同而不同

      注意:female*math项的P0.21,可以认为没有交互相应但这里我们为了讲解交互效应,暂时忽略P值姑且认为他们是存在茭互效应的。

由于交互效应的存在我们就不能说在保持mathfemale*math不变的情况下,female的影响如何如何因为mathfemale*math是不可能保持不变的!

我要回帖

更多关于 回归直线方程例题详解 的文章

 

随机推荐