热度 2|
缺失值(十七)
正如前文中所讨论的那样,imputation是通过假设值来取代缺失值的方法。而single imputation则是每个缺失值都用一个单一的值来取代,由于没有考虑到缺失值造成的不确定性(uncertainty),因此对治疗效果的估计的变异度被过分地低估。考虑到single imputation的这一缺点,Rubin提出了multiple imputation,与single imputation用单一的值来取代缺失值不同,multiple imputation是指指用复杂方法给每个缺失值都构造m 个估计值( m > 1) ,以形成m 个完全数据集,对每个完全数据集分别使用相同的分析方法进行处理,综合得到的m 个处理结果,以获得对分析变量的估计。分解开来,multiple imputation可以分为三个步骤:
(1)缺失值被填充m次,从而产生m个完整的数据集
(2)这m个数据集分别使用标准的方法进行分析
(3)综合m个数据集分析的结果进行推断估计
由此,我们可以看出multiple imputation主要优点就是multiple imputation考虑到了缺失值的不确定性(uncertainty):由于multiple imputation对每个缺失值是采用多个值来填充,由此而造成的不确定性就会被引入到分析中,而缺点也显而意见,第一它需要足够的样本量,第二是比较复杂,需要做大量的数据管理和分析工作,当然这一点随着许多统计软件的出现,通过软件进行multiple imputation,大大减少了其工作量和复杂度,也使得multiple imputation成为缺失值处理的一种常见方法。
常用的multiple imputation方法有以下三种:
(1)Regression method 回归法
(2)Propensity score method 倾向得分法
(3)MCMC( Markov Chain Monte Carlo ) 马尔科夫链蒙特卡罗法
下篇博文,小胖将就这三种常见的方法作一简单介绍。
手机版|会员|至尊|接种|公卫人 ( 沪ICP备06060850号-3 )
GMT+8, 2024-6-4 01:17 , Processed in 0.029457 second(s), 5 queries , Gzip On, MemCached On.
Powered by Discuz! X3.4
© 2001-2023 Discuz! Team.