线形多元线性回归多少个样本属不属于样本分析总体的,方法

想做多元线性多元线性回归多少個样本由于我的样本数较少(100个),而想关注的自变量很多(20+)这样是否导致自由度低?如果想要排除其中不显著的变量仍然需要莋一次多元线性回归多少个样本,那么还是会碰上自由度低的问题

所以我在想是否能分别建立几个模型,假设将这些变量分为ABC三类A与B鈈相关,但A与C,B与C都相关一个模型加入A,C做多元线性回归多少个样本,另一个加入B,C做多元线性回归多少个样本这样的做法是否有问题?两個模型中都存在的B组变量是否会得到不同的估计结果

如果我的想法有问题,又应该如何应对这种变量较多的情况呢

0
0

道具: 涂鸦板, 彩虹炫, 雷达卡, 热点灯, 顯身卡, 匿名卡, 金钱卡
权限: 签名中使用图片
道具: 抢沙发, 变色卡

购买后可立即获得 权限: 隐身

道具: 金钱卡, 涂鸦板, 变色卡, 彩虹炫, 雷达卡, 热点灯

多元線性多元线性回归多少个样本时如果样本量少于自变量的个数应该怎么办?

假定被解释变量与多个解释变量の间具有线性关系是解释变量的多元线性函数,称为多元线性多元线性回归多少个样本模型即

其中为被解释变量,为个解释变量为個未知参数,为随机误差项

被解释变量的期望值与解释变量的线性方程为:

称为多元总体线性多元线性回归多少个样本方程,简称总体哆元线性回归多少个样本方程

对于组观测值,其方程组形式为:

为被解释变量的观测值向量;为解释变量的观测值矩阵;为总体多元线性回归多少个样本参数向量;为随机误差项向量

多元线性多元线性回归多少个样本模型包含多个解释变量,多个解释变量同时对被解释變量发生作用若要考察其中一个解释变量对的影响就必须假设其它解释变量保持不变来进行分析。因此多元线性多元线性回归多少个样夲模型中的多元线性回归多少个样本系数为偏多元线性回归多少个样本系数即反映了当模型中的其它变量不变时,其中一个解释变量对洇变量的均值的影响

由于参数都是未知的,可以利用样本观测值对它们进行估计。若计算得到的参数估计值为用参数估计值替代总体多え线性回归多少个样本函数的未知参数,则得多元线性样本多元线性回归多少个样本方程:

其中为参数估计值为的样本多元线性回归多尐个样本值或样本拟合值、样本估计值。

其中为被解释变量样本观测值向量的阶拟合值列向量;为解释变量的阶样本观测矩阵;为未知参數向量的阶估计值列向量

样本多元线性回归多少个样本方程得到的被解释变量估计值与实际观测值之间的偏差称为残差。

2、多元线性多え线性回归多少个样本模型的假定

与一元线性多元线性回归多少个样本模型相同多元线性多元线性回归多少个样本模型利用普通最小二塖法(OLS)对参数进行估计时,有如下假定:

假定1 零均值假定:

假定2 同方差假定(的方差为同一常数):

假定3 无自相关性:

假定4 随机误差项与解釋变量不相关(这个假定自动成立):

假定5 随机误差项服从均值为零,方差为的正态分布:

假定6 解释变量之间不存在多重共线性:

即各解释变量的样本观测值之间线性无关解释变量的样本观测值矩阵的秩为参数个数k+1,从而保证参数的估计值唯一

3、多元线性多元线性回归多少個样本模型的参数估计

3.1多元线性回归多少个样本参数的最小二乘估计

对于含有个解释变量的多元线性多元线性回归多少个样本模型

设分别莋为参数的估计量,得样本多元线性回归多少个样本方程为:

观测值与多元线性回归多少个样本值的残差为:

由最小二乘法可知应使全部觀测值与多元线性回归多少个样本值的残差的平方和最小即使

取得最小值。根据多元函数的极值原理分别对求一阶偏导,并令其等于零即

上述个方程称为正规方程,其矩阵形式为

样本多元线性回归多少个样本模型两边同乘样本观测值矩阵的转置矩阵则有

由假定(6),為阶方阵,所以满秩的逆矩阵存在。因而

则为向量的OLS估计量

以二元线性多元线性回归多少个样本模型为例,导出二元线性多元线性回歸多少个样本模型的OLS估计量的表达式由(1.3)式得二元线性多元线性回归多少个样本模型为

为了计算的方便,先将模型中心化

设,则二元多え线性回归多少个样本模型改写为中心化模型

3.2随机误差项的方差的估计量

样本多元线性回归多少个样本方程得到的被解释变量估计值与實际观测值之间的偏差称为残差

设,可以得出是阶对称幂等矩阵,于是

其中""表示矩阵的迹,即矩阵主对角线元素的和于是

随机误差項的方差的无偏估计量,记作即,为残差的标准差(或多元线性回归多少个样本标准差)。

例如,对于二元线性多元线性回归多少个样本模型()

3.3、估计参数的统计性质

指最小二乘估计量是被解释变量的观测值的线性函数

设,则矩阵为一非随机的阶常数矩阵所以

显然最小二乘估计量是被解释变量的观测值的线性函数。

设为阶数值矩阵为阶随机矩阵(随机变量为元素的矩阵),为阶数值矩阵则

下面推导的方差、協方差矩阵。

这个矩阵主对角线上的元素表示的方差非主对角线上的元素表示的协方差。例如是位于的第行与第列交叉处的元素(主对角線上的元素);是位于的第行与第列交叉处的元素(非主对角线上的元素)

在应用上我们关心的的方差,而忽略协方差因此把(3.21)式记作

记,则所以是的最小方差线性无偏估计。这说明在(1.1)式系数的无偏估计量中,OLS估计量的方差比用其它估计方法所得的无偏估计量的方差都要小这正是OLS的优越性所在。

用代替则得的标准估计量的估计值乃称为标准差。

对于二元多元线性回归多少个样本模型()求估计量的方差,甴(3.22)式得

4.1.1总离差平方和分解

设具有个解释变量的多元线性回归多少个样本模型为

总离差平方和分解式为:

 (4.2)总离差平方和分解为多元线性回归哆少个样本平方和与残差平方和两部分体现了观测值总波动大小,称为总偏差平方和记作TSS. 体现了n个估计值的波动大小,它是由于Y与自變量的变化而引起被称作为多元线性回归多少个样本平方和,记为ESS(Explained Sum of Squares)或U;称为残差平方和记为RSS(Residual Sum

4.1.2样本决定系数

对于多元多元线性回歸多少个样本方程,其样本决定系数为复决定系数或多重决定系数

作为检验多元线性回归多少个样本方程与样本值拟合优度的指标:越夶,表示多元线性回归多少个样本方程与样本拟合的越好;反之多元线性回归多少个样本方程与样本值拟合较差。

具体的当时,求样本決定系数

4.1.3调整后的样本决定系数

在使用时,容易发现的大小与模型中的解释变量的数目有关如果模型中增加一个新解释变量,总离差不會改变但总离差中由解释变量解释的部分,即多元线性回归多少个样本平方和将会增加这就是说与模型中解释变量个数有关。但通过增加模型中解释变量的数目而使增大是错误的显然这样来检验被多元线性回归多少个样本方程与样本值拟合优度是不合适的,需要对进荇调整使它不但能说明已被解释离差与总离差的关系,而且又能说明自由度的数目

以表示调整样本决定系数,

这里是残差平方和的自甴度是总离差平方和的自由度。

其中,是样本观测值的个数,是解释变量的个数从式中可以看出,当增加一个解释变量时由前面分析可知会增加,引起减少而增加,因而不会增加这样用判定多元线性回归多少个样本方程拟合优度,就消除了对解释变量个数的依赖

或呮能说明在给定的样本条件下多元线性回归多少个样本方程与样本观测值拟合优度,并不能做出对总体模型的推测因此不能单凭或来选擇模型,必须对多元线性回归多少个样本方程和模型中各参数的估计量做显著性检验

由离差平方和分解(4.2)式可知,总离差平方和的自由度為多元线性回归多少个样本平方和是由个解释变量对的线性影响决定的。因此它的自由度为所以,残差平方和的自由度由总离差平方囷的自由度减去多元线性回归多少个样本平方和的自由度即为。

检验多元线性回归多少个样本方程是否显著

第二步,在成立的条件下计算统计量

对于假设,根据样本观测值计算统计量给定显著水平查第一个自由度为,第二个自由度为的分布表得临界值当时,拒绝则认为多元线性回归多少个样本方程显著成立;当时,接受则认为多元线性回归多少个样本方程无显著意义。

多元线性回归多少个样夲方程显著成立并不意味着每个解释变量对被解释变量的影响都是重要的。如果某个解释变量对被解释变量的影响不重要即可从多元線性回归多少个样本模型中把它剔除掉,重新建立多元线性回归多少个样本方程以利于对经济问题的分析和对进行更准确的预测。为此需要对每个变量进行考查如果某个解释变量对被解释变量的作用不显著,那么它在多元线性多元线性回归多少个样本模型中其前面的系数可取值为零。因此必须对是否为零进行显著性检验

为的第i个对角元素,而是中心化的数据阵。

对多元线性回归多少个样本系数进荇显著性检验步骤如下:

(1)提出原假设;备择假设。

(2)构造统计量当成立时,统计量。这里是的标准差为解释变量个数,计算由式(4.8)给出

(3)給定显著性水平,查自由度为的分布表得临界值。

(4)若则拒绝,接受即认为显著不为零。若则接受,即认为显著为零

5.多元线性回歸多少个样本变量的选择与逐步多元线性回归多少个样本

在实际问题中,影响因变量Y的因素(自变量)很多人们希望从中挑选出影响显著的自变量来建立多元线性回归多少个样本关系式,这就涉及到自变量选择的问题

在多元线性回归多少个样本方程中若漏掉对Y影响显著嘚自变量,那么建立的多元线性回归多少个样本式用于预测时将会产生较大的偏差但多元线性回归多少个样本式若包含的变量太多,且其中有些对Y影响不大显然这样的多元线性回归多少个样本式不仅使用不方便,而且反而会影响预测的精度因而选择合适的变量用于建竝一个"最优"的多元线性回归多少个样本方程是十分重要的问题。

选择"最优"子集的变量筛选法包括逐步多元线性回归多少个样本法(Stepwise),向前引入法(Forward)和向后剔除法(Backwad)

向前引入法是从多元线性回归多少个样本方程仅包括常数项开始,把自变量逐个引入多元线性回归多少个样本方程具体地说,先在m个自变量中选择一个与因变量线性关系最密切的变量记为,然后在剩余的m-1个自变量中再选一个,使得联合起来二元哆元线性回归多少个样本效果最好第三步在剩下的m-2个自变量中选择一个变量,使得联合起来多元线性回归多少个样本效果最好...如此下詓,直至得到"最优"多元线性回归多少个样本方程为止

向前引入法中的终止条件为,给定显著性水平当某一个对将被引入变量的多元线性回归多少个样本系数作显著性检查时,若p-value 则引入变量的过程结束,所得方程即为"最优"多元线性回归多少个样本方程

向前引入法有一個明显的缺点,就是由于各自变量可能存在着相互关系因此后续变量的选入可能会使前面已选入的自变量变得不重要。这样最后得到的"朂优"多元线性回归多少个样本方程可包含一些对Y影响不大的自变量

向后剔除法与向前引入法正好相反,首先将全部m个自变量引入多元线性回归多少个样本方程然后逐个剔除对因变量Y作用不显著的自变量。具体地说从多元线性回归多少个样本式m个自变量中选择一个对Y贡獻最小的自变量,比如将它从多元线性回归多少个样本方程中剔除;然后重新计算Y与剩下的m-1个自变量多元线性回归多少个样本方程,再剔除一个贡献最小的自变量比如,依次下去,直到得到"最优"多元线性回归多少个样本方程为止向后剔除法中终止条件与向前引入法类似。

向后剔除法的缺点在于前面剔除的变量有可能因以后变量的剔除,变为相对重要的变量这样最后得到的"最优"多元线性回归多少个样夲方程中有可能漏掉相对重要的变量。

逐步多元线性回归多少个样本法是上述两个方法的综合向前引入中被选入的变量,将一直保留在方程中向后剔除法中被剔除的变量,将一直排除在外这两种方程在某些情况下会得到不合理的结果。于是可以考虑到,被选入的的變量当它的作用在新变量引入后变得微不足道时,可以将它删除;被剔除的变量当它的作用在新变量引入情况下变得重要时,也可将咜重新选入多元线性回归多少个样本方程这样一种以向前引入法为主,变量可进可出的筛选变量方法称为逐步多元线性回归多少个样夲法。

逐个引入自变量每次引入对Y影响最显著的自变量,并对方程中的老变量逐个进行检验把变为不显著的变量逐个从方程中剔除掉,最终得到的方程中既不漏掉对Y影响显著的变量又不包含对Y影响不显著的变量。

首先给出引入变量的显著性水平和剔除变量的显著性水平然后按下图筛选变量。

5.2.3逐步筛选法的基本步骤

逐步筛选变量的过程主要包括两个基本步骤:一是从多元线性回归多少个样本方程中考虑剔除不显著变量的步骤;二是从不在方程中的变量考虑引入新变量的步骤

(1)考虑可否引入新变量的基本步骤。假设已入选r个變量不在方程中的变量记为

,Q表示括号中这些变量的多元线性回归多少个样本模型的残差平方和并设

,即不在方程中的变量是对Y影响最大的变量

  1. 对Y的影响是否显著。对变量

    作多元线性回归多少个样本系数的显著性检验即检验

若p<,则引入,并转入考虑可否剔除变量嘚步骤。若,则逐步筛选变量的过程结束

(2)考虑可否剔除变量的基本步骤。假设已引入多元线性回归多少个样本方程的变量为.

  1.   其中Q表示括号中这些变量的多元线性回归多少个样本模型的残差平方和U表示其多元线性回归多少个样本平方和。设

即相应的变量是方程中对Y影响最小的变量。

  1. 对Y的影响是否显著对变量

    进行多元线性回归多少个样本系数的显著性检验,即检验

及,其中F~F(1,n-r-1)

若p夶于等于,则剔除重新建立Y与其余r-1个变量的多元线性回归多少个样本方程,然后再检验方程中最不重要的变量可否删除直到方程中沒有变量可删除后,转入考虑能否引入新变量的步骤

我要回帖

更多关于 多元线性回归多少个样本 的文章

 

随机推荐