定义
复合变量偏倚(Composite Variable Bias, CVB),指在流行病学研究中,当使用由多个不同组成部分构成的复合变量(如综合评分、指数或量表)时,由于这些组成部分具有异质性、权重分配不合理或内部相关结构被忽视,导致研究结果产生偏倚。
思路
控制CVB的根本在于因果思维导向与变量选择的审慎性[1]。研究者应当优先避免创建和使用复合变量,转而采用原始、非派生的单一变量作为暴露或结局指标。这一原则建立在对因果关系本质的深刻理解之上:当复合变量(如BMI、变化分数或相对变化)包含在因果路径中时,它们往往同时包含混杂因素、中介变量或结果变量,导致因果效应估计产生系统性偏差。整个控制策略应以有向无环图(DAG)为指导框架,清晰区分变量的时间顺序与因果角色,确保分析策略与目标因果参数严格匹配。这种系统方法要求研究者在设计阶段就明确区分不同类型的暴露变量(先天变量、基线后变量等),并在分析阶段保持理论驱动而非数据驱动的决策逻辑,从根本上避免因变量构建不当导致的偏倚。
策略
应围绕分解与规避复合变量展开,以DAG指导分析路径,保持严格的因果思维。
首先,针对结局变量选择,评估体重相关效应时应直接使用随访体重作为结局并调整基线体重,而非使用BMI或体重变化分数;其次,应用DAG系统识别需要调整的混杂因素与不应调整的中介变量,特别警惕复合变量组成部分间的确定性关系;第三,根据暴露变量类型实施差异化策略——对先天变量(如性别)仅评估其对随访体重的影响,对基线后变量则通过调整基线体重评估其对体重变化的影响,对复杂因果路径采用因果中介分析等高级方法;第四,严格避免统计陷阱,如不在回归方程两侧同时包含基线测量、不当调整既是混杂又是中介的变量等;最后,对新提出的复合指标(如BRI、ABSI)保持科学质疑,认识到它们在群体描述中可能有实用价值,但在个体因果推断中往往不可靠。