热度 1|
离群值(Outliers)(一)
我们在临床试验的数据收集中可能会碰到一些诸如此类的数据:
(1)某病人的身高220cm
(2)某病人的收缩压250mmHg
。。。。
这时我们的第一感觉就是这些数据不正常,不符合常规,其实这就是所谓的离群值(Outliers),即某个数据值和其他的数据值看上去不一致。从统计学上来说,离群值有很低的概率来源于其他数据相同的统计分布。
那么造成这些离群值的原因有哪些呢?其实想来,无外乎两种可能:
(1)数据错误,这可能是我们的第一反应。当我们再重新核对原始资料后,可能发现这些值可能是数据记录或数据输入等方面的错误。
(2)人家这个值确实就是这样的,那只能说明这些值是一些罕见的情况,比如人家确实身高就220cm,人家血压就高,就是250mmHg,世界之大,无奇不有吗。。。而且虽然人家罕见,但确实也是总体的一部分吗。
那outliers会带来什么问题呢?最大的影响莫过于所有基于均数和标准差的统计检验都会被损害,由此带来的问题包括:
(1)估计发生偏倚
(2)sums of squares增大
(3)p值错误
(4)结论错误
关于outliers的危害,小胖在下篇博文中将结合一个例子来给大家简单介绍一下。。。
手机版|会员|至尊|接种|公卫人 ( 沪ICP备06060850号-3 )
GMT+8, 2024-6-2 20:46 , Processed in 0.029581 second(s), 5 queries , Gzip On, MemCached On.
Powered by Discuz! X3.4
© 2001-2023 Discuz! Team.