热度 2001|
Data Comparison after Data Double Entry
数据双录入后需数据比对,查找并纠正录入错误,常用办法及软件如下:
(1)若用Epidata建库, Epidata 有Consistency Check功能(一般是在“工具”—“一致性检验”选项,也有汉化版本放在“其它功能”—“相同数据文件有效性检查”),可以一步完成比对。注意:关键字段的记录值不可以重复。
(2)若用Access建库,方法一:使用Epi info(free from CDC USA)提供的Data Compare程序,“file--new script—Standard Table”—以某一mdb文件为标准表,选入“MDB1”另一人录入的数据表选入“MDB2”—选定唯一关键字段,即可完成比对。方法二:惯用Epidata者可将mdb数据表另存为dbf格式(强大的数据库文件格式,与spss、SAS、xls等兼容),再导入Epidata生成相应的rec文件,重复(1)。方法一“正面出击”,方法二为“迂回战术”;法一的优势是针对不一致的录入结果,可以直接在Access库中修改输入错误的原始记录。当一个access库中有多个mdb表时,只能一个表一个表的核对,尚不能把同一个调查对象在多张表中的错误记录汇总报告,这使得清洗原始数据时不太方便, 算是小缺点(此劣势epidata同样存在)。
(3)若是xls表(尤其是数据量较小时),使用函数—if函数—logist test 也可找出不一致的记录,但xls只是返回不一致的条件值,不知道两次录入中的原始记录分别是多少。另,因为if函数只是按照两张表的记录顺序逐一比较,不是真正的按关键字段(如ID号)匹配后再核对,故使用if前要求对关键字段排序,且关键字段下的记录数相同,才能得到正确的核对结果。
这是这两天的数据核对工作的总结,不是学数据库的,希望有专业人士提供更好的方法,分享学习。
手机版|会员|至尊|接种|公卫人 ( 沪ICP备06060850号-3 )
GMT+8, 2024-6-11 00:15 , Processed in 0.033717 second(s), 8 queries , Gzip On, MemCached On.
Powered by Discuz! X3.4
© 2001-2023 Discuz! Team.