- 积分
- 465
好友
记录
日志
相册
回帖0
主题
分享
精华
威望 旺
钢镚 分
推荐 人
|
注册后推荐绑定QQ,之后方才可以使用下方的“用QQ帐号登录”。
您需要 登录 才可以下载或查看,没有账号?立即注册
×
---转载
今天看到一篇文章中写到Logistic回归分析:
“将调查数据先进行单因素logistic回归分析,对单因素分析中差异有统计学意义的变量,再进行行多因素非条件logistic回归分析,逐步将变量纳入方程”
原文位置:http://www.paper.edu.cn/paper.php?serial_number=200608-250
但是,看了本书《医学统计学基础与典型错误辨析》(胡良平、李子建主编),讲到“这是一种错误的分析策略,自变量之间可能有交互作用,对应变量得贡献可能受其他因素得影响,所以正确得做法是把所有变量代如回归方程,逐步回归分析,必要是多用几种筛选变量得技术,同时要考虑因素得交互作用,综合分析”
请问:
1.碰到这种情况到底该如何分析?
2.书中所说得“多用几种筛选变量得技术”是指什么?
统计学得非常不好,请各位指教,谢谢
个人理解如果样本量比较大,一般超过自变量的15~20倍,可以直接采用多因素分析,样本量比较小,需要先进行单因素分析。几种筛选技术包括逐步法、向前法、向后法。
对于logistic回归的诊断问题,很多统计教材都几乎没怎么说。变量筛选的几种方法在共线不很严重时也许很方便,但是如果存在多重共线时,也许效果并不好。
logistic回归的原理上是和多元线性回归一样的,只是进行了概率转换而已。 logistic回归的诊断也和线性回归一样,基本上线性回归的诊断方法一般是可以用到logistic回归诊断中。
也有人提出诸如主成分分析等诊断方法,当然也很麻烦,最后要根据主成分情况要代入logistic回归后方程当中,也许损失一定的信息。
更多的情况时,很多书中根本没提logistic回归诊断问题。
1,单变量分析是为了解你的数据,是多重分析的前提。
2,一般在单变量分析时设定i概率为0。25-。30,这样,对于一些不显著的变量可以不予考虑。
3,胡的意思不是说不要做单变量,而是说单的可能有偏倚。
4,逻辑回归选变量可以参考一下hosmer的应用逻辑回归。
5,变量的选择是专业和统计的结合。
一般情况下,单因素logistic回归可作为资料的基础分析,以对变量做初步筛选,将有意义的变量和专业上有意义的变量(不管统计分析结果是否有意义)一起进入多因素分析。
多因素回归则可控制混杂因素。
但是也有不同意见,有学者说如果自变量数目不多,一般不必进行单因素回归,直接进行多因素逐步回归也可。
还有就是,在回归时自变量的离散问题,也是很有说法,有学者说如果不很必要的话可以不离散,以保持信息的完整;也有人说,一般情况下都要离散,否则不利于结果的解释。
根据自己情况,斟酌吧。我做的时候,只是做了下相关矩阵大致看了下,相关性很弱,就没继续向下分析了!
单因素分析没有什么问题,就是在选择进入多因素分析模型的时候,把单因素分析的a值设高一些,如0.3甚至0.5,以免丢失信息,然后进行多因素分析,当然,建议在进行多因素分析之前检验一下各指标的相关性,如果比较大,还得考虑一下主成分分析或其他的解决办法
个人愚见。
周末没法上网,非常感谢各位的积极回复,看来到底要用单因素还是多因素是没有定律的,要根据具体情况而定了?
统计之星---“样本量比较大,一般超过自变量的15~20倍,可以直接采用多因素分析,样本量比较小,需要先进行单因素分析”,是为什么呢,样本量是怎么影响结果的呢?
mrguo1234---“hosmer的应用逻辑回归”,我没怎么听说过,网上有相关的理论么?我了解一下。
另外谢谢zhangxiaoke520,yuew_l的经验之谈,不过我还是不太明白,需要再琢磨一下,谢谢了。
统计学是我学过的最难的东西,学来学去是“只见树木不见森林”啊!以后还请各位指教。
这是两种不同的学术观点,
1
一种认为为了避免损失信息,应该全部纳入变量建立方程,然后就如同你所提到的采用多种筛选方法,找出较为适合的模型.
另一种就是我们现在常用的,先进行单变量分析,然后放宽纳入标准(0.6)这个界值不是一定的,和你的研究目的有关,如果你所关心的变量单变量分析p值较大,可以适当放宽标准,当然如果从专业上考虑通过单因素分析无法纳入的变量是你的研究变量可以采用强迫法纳入.
2 共线性的问题,除了考虑相关矩阵外还应考虑其几个诊断指标(已有文献发现,相关性并不是共线性诊断的一个凭据).因为logistic回归其实质也是线性模型,所以在进行诊断时(以上战友已提及)可以借鉴多元线性回归的诊断方法
3如果想要比较前面的了解一个模型,往往涉及的方面很多,需要相当长的一段时间学习.如果你的目的只是简单的应用,国内的教材就可以满足你的需要.
4样本含量的问题,如果你的样本含量不足,那么会造成你最后建立的模型系数估计不稳定,出现意想不到的情况(比如说系数特大)从而影响模型的正确拟和.一般为自变量的15-20倍是一个经验值,一般认为>15倍后拟和的方程就相对比较稳定了.
5一点建议,现在比较的倾向是采用单因素分析(0.3-0.6)后,再进行多因素分析.在进行多因素分析时对变量间共线性进行诊断.如果变量间共线性较大.可以采用主成分logistic回归等方法. |
|