多分类logistic回归归分析输入变量少时有统计学意义,为什么输入多了就没统计学意义了

下载丁香园App送15丁当
关注今日:37 | 主题:161881
每发1个新帖可以获得0.5个丁当奖励
【求助】logistic回归
楼层直达:
问题已关闭悬赏丁当:2
logistic回归的多因素分析,当自变量个数较少时采用进入法,自变量个数较多时采用逐步法,有没有具体的规定?到底多少算多,多少算少?多因素纳入5个变量,用enter还是逐步?在线求指导,请帮帮忙,
不知道邀请谁?试试他们
微信扫一扫
广告宣传推广
政治敏感、违法虚假信息
恶意灌水、重复发帖
违规侵权、站友争执
附件异常、链接失效
不是这样的 两种方法的选择不是多少来定的 统计专业,为您服务
微信扫一扫
广告宣传推广
政治敏感、违法虚假信息
恶意灌水、重复发帖
违规侵权、站友争执
附件异常、链接失效
准确的说应该是各种模型都要尝试。选择最优的模型。
微信扫一扫
广告宣传推广
政治敏感、违法虚假信息
恶意灌水、重复发帖
违规侵权、站友争执
附件异常、链接失效
那该如何选择method?哪种是最优模型?和临床最接近的吗?
微信扫一扫
广告宣传推广
政治敏感、违法虚假信息
恶意灌水、重复发帖
违规侵权、站友争执
附件异常、链接失效
顶下。。。。。
微信扫一扫
广告宣传推广
政治敏感、违法虚假信息
恶意灌水、重复发帖
违规侵权、站友争执
附件异常、链接失效
选R的平方最大的那个 , 你问题很多啊,多的不行,仔细看书,不能走一步问一步,大家可以给你指定方向。
微信扫一扫
广告宣传推广
政治敏感、违法虚假信息
恶意灌水、重复发帖
违规侵权、站友争执
附件异常、链接失效
有没有推荐的比较好的统计学教材或教程?谢谢!
微信扫一扫
广告宣传推广
政治敏感、违法虚假信息
恶意灌水、重复发帖
违规侵权、站友争执
附件异常、链接失效
关于丁香园Logistic回归分析
扫扫二维码,随身浏览文档
手机或平板扫扫即可继续访问
Logistic回归分析
举报该文档为侵权文档。
举报该文档含有违规或不良信息。
反馈该文档无法正常浏览。
举报该文档为重复文档。
推荐理由:
将文档分享至:
分享完整地址
文档地址:
粘贴到BBS或博客
flash地址:
支持嵌入FLASH地址的网站使用
html代码:
&embed src='/DocinViewer--144.swf' width='100%' height='600' type=application/x-shockwave-flash ALLOWFULLSCREEN='true' ALLOWSCRIPTACCESS='always'&&/embed&
450px*300px480px*400px650px*490px
支持嵌入HTML代码的网站使用
您的内容已经提交成功
您所提交的内容需要审核后才能发布,请您等待!
3秒自动关闭窗口简述一下Logistic回归分析指标重要程度的主要过程_百度知道
简述一下Logistic回归分析指标重要程度的主要过程
Logistic回归:实际上属于判别分析,因拥有很差的判别效率而不常用。 1. 应用范围:① 适用于流行病学资料的危险因素分析② 实验室中药物的剂量-反应关系③ 临床试验评价④ 疾病的预后因素分析2. Logistic回归的分类:① 按因变量的资料类型分:二分类多分类其中二分较为常用② 按研究方法分:条 件Logistic回归非条件Logistic回归两者针对的资料类型不一样,后者针对成组研究,前者针对配对或配伍研究。3.Logistic回归的应用条件是:① 独立性。各观测对象间是相互独立的;② LogitP与自变量是线性关系;③ 样本量。经验值是病例对照各50例以上或为自变量的5-10倍(以10倍为宜),不过随着统计技术和软件的发展,样本量较小或不能进行似然估计的情况下可采用精确logistic回归分析,此时要求分析变量不能太多,且变量分类不能太多;④ 当队列资料进行logistic回归分析时,观察时间应该相同,否则需考虑观察时间的影响(建议用Poisson回归)。4. 拟和logistic回归方程的步骤:① 对每一个变量进行量化,并进行单因素分析;② 数据的离散化,对于连续性变量在分析过程中常常需要进行离散变成等级资料。可采用的方法有依据经验进行离散,或是按照四分、五分位数法来确定等级,也可采用聚类方法将计量资料聚为二类或多类,变为离散变量。③ 对性质相近的一些自变量进行部分多因素分析,并探讨各自变量(等级变量,数值变量)纳入模型时的适宜尺度,及对自变量进行必要的变量变换;④ 在单变量分析和相关自变量分析的基础上,对P≤α(常取0.2,0.15或0.3)的变量,以及专业上认为重要的变量进行多因素的逐步筛选;模型程序每拟合一个模型将给出多个指标值,供用户判断模型优劣和筛选变量。可以采用双向筛选技术:a进入变量的筛选用score统计量或G统计量或LRS(似然比统计量),用户确定P值临界值如:0.05、0.1或0.2,选择统计量显著且最大的变量进入模型;b剔除变量的选择用Z统计量(Wald统计量),用户确定其P值显著性水平,当变量不显者,从模型中予以剔除。这样,选入和剔除反复循环,直至无变量选入,也无变量删除为止,选入或剔除的显著界值的确定要依具体的问题和变量的多寡而定,一般地,当纳入模型的变量偏多,可提高选入界值或降低剔除标准,反之,则降低选入界值、提高删除标准。但筛选标准的不同会影响分析结果,这在与他人结果比较时应当注意。⑤ 在多因素筛选模型的基础上,考虑有无必要纳入变量的交互作用项;两变量间的交互作用为一级交互作用,可推广到二级或多级交互作用,但在实际应用中,各变量最好相互独立(也是模型本身的要求),不必研究交互作用,最多是研究少量的一级交互作用。⑥ 对专业上认为重要但未选入回归方程的要查明原因。5. 回归方程拟合优劣的判断(为线性回归方程判断依据,可用于logistic回归分析)① 决定系数(R2)和校正决定系数( ),可以用来评价回归方程的优劣。R2随着自变量个数的增加而增加,所以需要校正;校正决定系数( )越大,方程越优。但亦有研究指出R2是多元线性回归中经常用到的一个指标,表示的是因变量的变动中由模型中自变量所解释的百分比,并不涉及预测值与观测值之间差别的问题,因此在logistic回归中不适合。② Cp选择法:选择Cp最接近p或p+1的方程(不同学者解释不同)。Cp无法用SPSS直接计算,可能需要手工。1964年CL Mallows提出:Cp接近(p+1)的模型为最佳,其中p为方程中自变量的个数,m为自变量总个数。③ AIC准则:1973年由日本学者赤池提出AIC计算准则,AIC越小拟合的方程越好。在logistic回归中,评价模型拟合优度的指标主要有Pearson χ2、偏差(deviance)、Hosmer- Lemeshow (HL)指标、Akaike信息准则(AIC)、SC指标等。Pearson χ2、偏差(deviance)主要用于自变量不多且为分类变量的情况,当自变量增多且含有连续型变量时,用HL指标则更为恰当。Pearson χ2、偏差(deviance)、Hosmer- Lemeshow (HL)指标值均服从χ2分布,χ2检验无统计学意义(P&0.05)表示模型拟合的较好,χ2检验有统计学意义(P≤0.05)则表示模型拟合的较差。AIC和SC指标还可用于比较模型的优劣,当拟合多个模型时,可以将不同模型按其AIC和SC指标值排序,AIC和SC值较小者一般认为拟合得更好。6. 拟合方程的注意事项:① 进行方程拟合对自变量筛选采用逐步选择法[前进法(forward)、后退法(backward)、逐步回归法(stepwise)]时,引入变量的检验水准要小于或等于剔除变量的检验水准;② 小样本检验水准α定为0.10或0.15,大样本把α定为0.05。值越小说明自变量选取的标准越严;③ 在逐步回归的时可根据需要放宽或限制进入方程的标准,或硬性将最感兴趣的研究变量选入方程;④ 强影响点记录的选择:从理论上讲,每一个样本点对回归模型的影响应该是同等的,实际并非如此。有些样本点(记录)对回归模型影响很大。对由过失或错误造成的点应删去,没有错误的强影响点可能和自变量与应变量的相关有关,不可轻易删除。⑤ 多重共线性的诊断(SPSS中的指标):a容许度:越近似于0,共线性越强;b特征根:越近似于0,共线性越强;c条件指数:越大,共线性越强;⑥ 异常点的检查:主要包括特异点(outher)、高杠杆点(high leverage points)以及强影响点(influential points)。特异点是指残差较其他各点大得多的点;高杠杆点是指距离其他样品较远的点;强影响点是指对模型有较大影响的点,模型中包含该点与不包含该点会使求得的回归系数相差很大。单独的特异点或高杠杆点不一定会影响回归系数的估计,但如果既是特异点又是高杠杆点则很可能是一个影响回归方程的“有害”点。对特异点、高杠杆点、强影响点诊断的指标有Pearson残差、Deviance残差、杠杆度统计量H(hat matrix diagnosis)、Cook 距离、DFBETA、Score检验统计量等。这五个指标中,Pearson残差、Deviance残差可用来检查特异点,如果某观测值的残差值&2,则可认为是一个特异点。杠杆度统计量H可用来发现高杠杆点, H值大的样品说明距离其他样品较远,可认为是一个高杠杆点。Cook 距离、DFBETA指标可用来度量特异点或高杠杆点对回归模型的影响程度。Cook距离是标准化残差和杠杆度两者的合成指标,其值越大,表明所对应的观测值的影响越大。DFBETA指标值反映了某个样品被删除后logistic回归系数的变化,变化越大(即DFBETA指标值越大),表明该观测值的影响越大。如果模型中检查出有特异点、高杠杆点或强影响点,首先应根据专业知识、数据收集的情况,分析其产生原因后酌情处理。如来自测量或记录错误,应剔除或校正,否则处置就必须持慎重态度,考虑是否采用新的模型,而不能只是简单地删除就算完事。因为在许多场合,异常点的出现恰好是我们探测某些事先不清楚的或许更为重要因素的线索。7. 回归系数符号反常与主要变量选不进方程的原因:① 存在多元共线性;② 有重要影响的因素未包括在内;③ 某些变量个体间的差异很大;④ 样本内突出点上数据误差大;⑤ 变量的变化范围较小;⑥ 样本数太少。8. 参数意义① Logistic回归中的常数项(b0)表示,在不接触任何潜在危险/保护因素条件下,效应指标发生与不发生事件的概率之比的对数值。② Logistic回归中的回归系数(bi)表示,其它所有自变量固定不变,某一因素改变一个单位时,效应指标发生与不发生事件的概率之比的对数变化值,即OR或RR的对数值。需要指出的是,回归系数β的大小并不反映变量对疾病发生的重要性,那么哪种因素对模型贡献最大即与疾病追问:联系最强呢? (InL(t-1)-InL(t))三种方法结果基本一致。③ 存在因素间交互作用时,Logistic回归系数的解释变得更为复杂,应特别小心。④ 模型估计出OR,当发病率较低时,OR≈RR,因此发病率高的疾病资料不适合使用该模型。另外,Logistic模型不能利用随访研究中的时间信息,不考虑发病时间上的差异,因而只适于随访期较短的资料,否则随着随访期的延长,回归系数变得不稳定,标准误增加。9. 统计软件能够进行logistic回归分析的软件非常多,常用的有SPSS、SAS、Stata、EGRET (Epidemiological Graphics Estimation and Testing Package)等。
其他类似问题
为您推荐:
Logistic回归:实际上属于判别分析,因拥有很差的判别效率而不常用。
1. 应用范围:
适用于流行病学资料的危险因素分析
实验室中药物的剂量-反应关系
临床试验评价
疾病的预后因素分析
2. Logistic回归的分类:
按因变量的资料类型分:
其中二分较为常用
按研究方法分:
件Logistic回归
非条件Logistic回归
两者针对的资料类型不一样,后者针对成组研究,前者针对配对或配伍研究。
3.Logistic回归的应用条件是:
独立性。各观测对象间是相互独立的;
LogitP与自变量是线性关系;
样本量。经验值是病例对照各50例以上或为自变量的5-10倍(以10倍为宜),不过随着统...
logistic回归的相关知识
等待您来回答
下载知道APP
随时随地咨询
出门在外也不愁采用Logistic回归分析时需注意的问题_图文_百度文库
两大类热门资源免费畅读
续费一年阅读会员,立省24元!
采用Logistic回归分析时需注意的问题
上传于||暂无简介
阅读已结束,如果下载本文需要使用
想免费下载本文?
你可能喜欢

我要回帖

更多关于 spss多项logistic回归 的文章

 

随机推荐