公卫人

 找回密码
 立即注册

QQ登录

只需一步,快速开始

不劳无获:如何获取钢镚? 因为论坛,所以相逢。 捐赠百科答题至尊

公卫考研:一起风雨兼程 因为梦想,所以努力。 真题答案政治英语

职称考试:诸君逢考必过 因为热爱,所以执着。 模拟考场技能执医中级

查看: 262|回复: 1

[经验] 丁小丁SPSS系列专讲15:统计描述之发现异常值(1)

[复制链接]
小食指1991 发表于 2017-8-16 15:16:29 | 显示全部楼层 |阅读模式

注册后推荐绑定QQ,之后方才可以使用下方的“用QQ帐号登录”。

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
我们在处理数据时经常会遇到一些影响分析结果的个别数值,即所谓离群值或异常值,当我们将其剔除或修正以后,一切问题又瞬间迎刃而解,所以,对于异常值的处理就显得非常重要。我们先从描述开始。
6 y1 O. U2 F; W, N8 Y! k
$ P# s/ P; d" ^) j0 }6 Z4 e咱们仍然以02-01为例(没有全套教学数据的同学私下与我联系),将检测变量红细胞数选人变量框后,点击选项按钮,可弹出右边界面,大家可以发现,在显示顺序以上的部分,完全和频率菜单里的统计量是一样的,而且后者所提供的统计量要比前者多,至于显示顺序让默认就可以了。在这里,可能有同学会想,既然描述和频率所得出的结果并无二致,为何不合并成一个菜单呢?之前我也讲过关于软件功能重复的问题,普通软件功能的重复只是单纯的重复,但SPSS不是普通软件,它会在重复的基础上突显出各自的闪光点,在此处,便是界面左下角处的将标准化得分另存为变量。我们可以利用这个选项发现异常值。
$ r; n6 g# c& o, \3 P, N7 n
+ R9 s2 z' _( T, |2 \勾选此选项以后,结果会自动生成在数据编辑器界面,前面的Z表示标准化的意思,我们给新生成的Z红细胞数取绝对值,最后结果大于2的就表示异常。9 s) }& [1 q8 x) }7 F* P4 P

. |# I, s1 f- Q3 d当数据较少时,我们可以通过目测搞定,但数据很多时,显然就会极为不便,这时我们就得借助软件快速完成。首先,我们给这列数据取绝对值。
4 ]& f0 E3 P4 x! K# d$ R& a 图片4.jpg " A, f( H- U( R5 B
点击计算变量后,弹出如下界面,一定记着给新生成的变量起个合适的名字,比如就叫绝对值吧,然后在函数组中点击算术,接着双击Abs函数,即绝对值(这些函数Excel里都有,可以自己看看),此时函数公式会出现在数字表达式里,但其括号内是个问号,此时我们把要转换的Z红细胞数选入数字表达式,将问好替换,点击完成,即可返回数据视图查看。) f% x6 g6 r7 @' M$ r% G
图片5.jpg
- q$ {5 Q: W# l' ^注意,当新变量生成以后,由于系统默认的小数位是2,所有我们为了不丢失数据信息,可以将绝对值的小数位也精确到5,以便与原始数据保持一致。+ {+ d/ w. O6 ~4 Y
图片6.jpg 1 l/ g- `' ~' O- K
现在回想一下我们的目的,我们是要找出绝对值大于2的数,所以对绝对值进行降序(从大到小)排序,由于SPSS很智能,当我们在调整某一列变量的顺序时,其他变量的顺序也会随之发生改变,总而言之,就是确保原始数据每个个案信息分毫不变。、0 V+ C' }5 `+ `3 p
图片7.jpg
6 T0 F8 B0 j) N" U/ |在进行了这些处理以后,我们一眼就可以看到有8个异常值,其中大于5的红细胞数是整份数据中偏大的,而小于3的是些偏小的,属于离群值。1 i1 d0 U1 u; t5 S, y6 k) j
图片8.jpg 7 t( W5 h+ u4 N' P+ l
不知大家是否还记得,前面在讲正态性检验时,我们提到过箱图和茎叶图也能发现异常值。如图所示,大家看红细胞数所得出的箱图。箱图发现的是异常个案,圆圈旁边是数值表示个案,也就是行数,从这里我们可以看到,现在这份数据的异常个案是第1,第2个案,即第1、2行对应的数据(5.46和3.07)* b2 e. s- h' Q/ t, ]
图片9.jpg 1 j% E! l/ b) B$ ]  M$ p) v
看到这里,可能前期学的比较认真的同学发现了问题,同样一份数据,怎么做出的图不一样,以前做的箱图应该是下面这样的,异常个案是24和38。(这里顺便讲讲箱图,其上下手柄上的短横线分别表示该份数据的最小值和最大值,矩形下边框表示下四分位数,上边框表示上四分位数,矩形的宽表示四分位间距,中间的横线说过了,它表示中位数。)
7 T, g3 D' z' W0 F( ~" n* c 图片10.jpg 1 J/ C0 |/ _' T% t7 V
不一样吗?其实是一模一样的,不信我上图给你看,异常值依然是5.46和3.07,这里之所以个案数会变,那是因为我们对绝对值降序排列过,所以原始红细胞数也会跟着从大到小排列。由于不同方法发现的异常值略有差别,所以我们在进行异常值筛选时,一定要综合多种方法以及现实考量去权衡,更要分析一下这些被发现的异常值是人为输错数据,还是原始数据记录错误,亦或是检测方法出了问题,一定要做到了然于心,如此才能去剔除或修正异常数据。
  s$ Z. n9 t9 e  s/ w  E5 Z

本帖被以下淘专辑推荐:

luoqiong 发表于 2018-7-3 20:39:05 | 显示全部楼层
前面都很清楚明白,这个还是有些不懂。。。。。继续摸索学习吧
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

提现|充值|关于|接种|公卫人 ( 沪ICP备06060850号-3 )

GMT+8, 2018-7-17 04:12 , Processed in 0.171381 second(s), 39 queries , Gzip On, MemCache On.

Powered by Discuz! X3.4

© 2001-2017 Comsenz Inc.

快速回复 返回顶部 返回列表