- 积分
- 7310
好友
记录
日志
相册
回帖0
主题
分享
精华
威望 旺
钢镚 分
推荐 人
|
本帖最后由 xiaopang1980 于 2009-2-26 11:59 编辑
* n/ o" X: U! V* d6 z: E. S9 g
( |/ Y* E/ g7 J* D" I; F小胖学统计之十:随机化
8 |$ _$ d, }5 y1 \6 v( m. S/ G5 }( n4 J9 B: m
和前面所提到的盲法一样,随机化也是在临床试验中避免偏倚的重要设计技巧。啥是随机化呢,很简单,通俗地说,受试者到底分在那个组,必须是随机的,服从概率论的原理,不受研究者和受试者主观意愿的影响。随机化可以消除由于治疗分配带来的偏倚,可以使治疗组和对照组具有较好的可比性,更为重要的是随机化是合理的统计检验的基础,也就是说只有在随机化的试验中应用统计检验才是合理的。
* G- S7 l2 g) e# G9 \( V4 _随机化有哪些方法呢?通常有以下几种随机化方法:简单随机化、区组随机化、分层随机化和动态随机化。下边小胖将对这几种方法一一做简单介绍。3 g) h& \! b; v$ h. d, W
1. 简单随机化:我们可以简单地理解为扔硬币,来了一个受试者,扔一次硬币,正面进一组,反面进另一组,简单易行,但大家可以想到,比如你扔了10次可能正好有5正5反,也可能有4正6反,等等,当然你扔的次数越多,正反出现的概率就会越接近。这就出现了一个问题,我们临床试验一般例数有限,有时就会出现各组例数相差较大的情况。曾经有人做过计算,你扔100次,正好50正50反的概率只有8%。
9 [. t" e7 `3 L w2. 区组随机化:就是按照区组进行随机化,从而保证某一相等区间内各组病人完全相等。举个简单的例子吧,两个处理组A组和B组,我们设计4个病人为一个区组,比如一共A组和B组每组要入选100例病人共200例吧,那一共有50个区组,4个病人为一组,在这一组中保证有两个A和两个B,这样随机1-4号里两个A两个B,5-8号两个A两个B,这样依次类推。。。这样我们就可以较好地做到两组的病人基本相等。为什么呢,很简单,如果我们能完成200例入组的话,可能会出现下边几种情况:' H" @0 \5 \" A8 i
(1) 入组例数正好是4的倍数,比如说200例,204例等,这时入组例数正好是整倍的区间数(50,51个区间),由于每个区间都是两个A两个B,那么最后每组的病人数肯定是相等的(100,102例)
# b' b" O2 U3 C3 M" e$ N, X(2) 入组例数除以4的余数是1,比如说201例,那么有一个组会多出1例来
n: B6 D/ x4 s G(3) 入组例数除以4的余数是2,比如说202例,这时会有两种情况,一种是多出来的2例都是一个组的,那么有一个组会多出2例来,另一种是那多出来的2例各分在两个组,那么最后两组的例数还是相等的$ R( s2 A) Q; F, ~( m# p
(4) 入组例数除以4的余数是3,比如说203例,那么多出来的3例肯定有2例分在一个组,另1例分在另一个组,最后有一个组会多出1例来。
# Q) m* D$ z2 M' I- d4 ^如上所述,最不理想的情况,最多一个组比另一个组会多出2例来,这样我们就可以做到两组病例数的基本相同。+ F( C. h: E# }
区组随机化一个重要的问题就是区组大小的问题,上边这个例子我们取的区组大小就是4,那么怎么确定区组大小呢?
+ _4 i3 F7 Z- T8 A$ B" C0 K1 [ F8 p6 ^& _, C- W0 Y& S; x
随机化方法是让医生无法预测下一个病人划分到哪个组,因此我们在确定区组大小时也要谨记这个原则。如果两个组别而你的区组大小为2,那第一个病人是A组,那第二个病人肯定就是B组了,那这种随机性就相当差了。很好理解,区组越小,我们就越容易猜到下一个病人是哪个组的,因而我们应避免前边提及的只有两位病人的区组。但区组大小也不能太大,否则会可能产生由于中断一个区组而使两组例数有较大的差异。怎么理解呢,举个例子,两个组别,如果你的区间长度为16,比如说你最后入选了168例病人吧,这时一共有10个完整的区组,另外最后还有一个区组被中断了,只有8例病人,这时这多余的8例病人的分配就有如下可能:
: c4 Y; S& h9 n情况1 A:0 B: 8 两组相差8例
$ R" B6 ^7 ~( u( k: d情况2 A:1 B: 7 两组相差6例
& x+ M; k1 A* B情况3 A:2 B: 6 两组相差4例% ~6 D* g/ a8 T! E6 }! i% l6 d
情况4 A:3 B: 5 两组相差2例. O; w9 P/ l5 i
情况5 A:4 B: 4 两组相差0例6 K1 z+ c3 t' |# V
情况6 A:5 B: 3 两组相差2例. k; n5 x3 O# T' G" U" J* R
情况7 A:6 B: 2 两组相差4例/ m: c6 W7 m4 ?1 b
情况8 A:7 B: 1 两组相差6例
, C9 z$ N9 e7 p. H* O# O情况9 A:8 B: 0 两组相差8例# \; y/ ?2 d, I- ]( y* s) N2 u
8 @: j" F* T( o7 W
如上所述,这时就会出现两组例数相差较多的情况,最大可能相差8例。正如小胖在上篇博文中举的例子,如果区间长度为4的话,最大可能相差则为2例。
& f2 H5 @' ^4 A+ H3 j因此,区间长度的选择不宜太小,也不宜太大。通常情况下,如果只有两个组别,区间长度一般可取4-10,就小胖的以前的做法,一般我会取4或6。最后小胖罗唆一句,区间长度必须是组别个数的倍数哦,不然你咋分配病人呢,呵呵。
5 q! A( N( J4 s9 T3 T+ g- `% _" q3 @* z" n1 G( s
3.分层随机化:啥意思?就是每个重要因素或重要因素组合为一单独层(也就是单独的随机表格),而在每一单独层内,各组病人例数保持均衡,从而最后达到这个重要因素在各个治疗组分布均衡的结果。举个简单的例子,两个治疗组试验组(drug X)和对照组(drug Y),按照基因型B或C分层,可能会产生以下两个随机表格:
" V0 a4 r3 o3 C4 W+ ~+ N$ w2 B6 k6 h3 S' `5 w& @: n" K* @
- g9 u& ?6 I, A3 c第一个表格:
$ j) d) u" P1 \& M9 c- T# P l) i7 ~
基因型 分组
) g* h. z- S/ Z: c8 ?* [8 s/ hB drug X" b2 f( S# i$ X! \$ Q9 i% v! P) N+ l
B drug Y* l1 r0 r+ t/ F- K* l/ f* y
B drug Y& k, l3 p. Z+ O4 D( B+ J9 j
B drug X
! ?3 W* s% c s. l. ^* E$ E; U
$ H' }: w. I3 {; O……, e: p! O0 `) w. @2 B$ t
6 G9 ~" N' i0 ^ ?1 K+ B+ N- x/ H8 g
第二个表格:5 a6 [6 |3 o# b& W' L5 q
6 `' {" ] f7 k$ D- P基因型 分组) Z# x( w7 N/ y$ q& D
C drug Y
2 @" k. {+ ~; `* Y! E, YC drug X# b$ N7 y. d& D4 d2 I
C drug Y
# O B7 V% i; k* fC drug X& r/ p# F. D9 L
……: l% [0 w, T+ S7 J+ t* f) `
% z: f- j8 W! S9 e2 C, S
在入组病人时,先看以下这个病人是什么基因型的,如果是基因B型的,则根据第一个表格的随机顺序入组;如果是基因C型的,则根据第二个表格的随机顺序入组,最后我们能基本保证试验组和对照组的基因B型和C型的病人大致相等。这就是最简单的分层随机化的过程。
% v8 Z+ X& b+ ~7 u& X4 Z其实大家应该很熟悉分层随机化,我们现在进行的临床试验大部分都是多中心临床试验,而我们在随机的过程中一般都会采取分中心随机化。这时的分中心随机化其实就是以研究中心为层的分层随机化。在中心随机化中,每个中心都有自己单独的一个随机表格,病人随机时,各个中心入选的病人按照各个中心的随机表格的顺序进行入组,最后保证的也是试验组和对照组在各个中心的病人数大致相等,也可以理解为,每个中心试验组和对照组的病人数大致相等。
7 B1 \5 B( ]3 a/ d" j
7 U$ F, m; D! k上文中简单说了分层随机化的一些基本内容,那么为什么我们要进行分层随机化呢,很简单的道理,我们在作临床试验时总希望某些对疗效结果有较大影响的因素在各个治疗组内尽可能分布均衡。举个例子吧,在乙肝临床试验中,大家都知道基因型对最后的应答有很大的影响,通常情况下,基因C型的比基因B型的更难治,即疗效差;如果试验组基因C型(难治的)的过多则试验组的总体应答情况就会被拉下来,试验组与对照组疗效的差异就会比实际的变小;试验组基因C型(难治的)的过少则试验组的总体疗效就会被提上去了,试验组与对照组疗效的差异就会比实际的变大;总之,试验组和对照组基因型分布差异很大,就会影响到对疗效的评价。因此,我们需要把基因型作为分层因素进行分层随机化,使基因型在两组分布保持均衡。2 N u1 e. l2 j+ X" V' X
当然小胖还需要说明的一点是,虽然我们不按照某些重要因素进行分层随机化,在统计分析中,可以使用一些多元统计方法(如多元回归、多元logistic回归、COX分析等)对这些重要的预后因素进行调整和分析,但这势必也降低了统计效率。还有一点,如果我们临床试验的样本量足够大,根据概率论的原理,重要因素在各个治疗组应该不会相差很大。但话说回来,我们临床试验的样本量一般也不会太大。综合以上几点,对重要因素进行分层随机化有时还是十分有必要的。" U& {; [, O0 t, P
小胖还要说明的一点是,现在我们做的多中心临床试验,由于研究中心是影响研究的一个十分重要的因素(比如各中心临床试验条件、评估者、评估方法、评估结果等都不尽一样),一般都会进行中心随机化。
5 q' N' [0 Z0 W
+ p* w/ L p6 Z4 X# X分层随机化中如何选择分层因素呢?这个更多地根据不同的疾病而定,选择那些对疗效有重要影响的因素。这些更多地取决于临床实践,而非统计学。小胖在这里要说的是,多个分层因素的选择。有的临床试验选择的分层因素不止一个,最常见的是你首先把研究中心当一个分层因素,然后在此之外又选择了别的分层因素,如年龄、疾病亚型啊等等,这时就会出现分层因素组合的情况。下边是分层因素组合的一个简单例子:, R3 J% [5 C; W& d! J- o8 Q
两组:A组和B组
# Z8 m4 {5 H7 B* b7 W. j. q分层因素:研究中心(10个中心)、疾病亚型(两个亚型I型和II型)
, |' C+ n! L9 Y$ g( X, g# U1 _这时我们一共有10×2=20层,即需20个随机安排表:9 ?( b+ v, ^/ O
& h+ @4 m- \+ Q9 }; k; R随机表格1:' p O1 Z+ N1 X; o0 ^9 _4 [
% H% J$ L- K; R( t0 z, s研究中心 基因型 分组
, b- y+ W9 O8 i5 i2 R8 M01 I A0 V( b& {9 s9 I3 h3 }6 K( @
01 I B8 ]$ v: q( d: f' S8 G
01 I A
1 |/ g+ ~, B) f) j2 }01 I B, |/ x+ x; [" a$ L
……) y, N3 y4 Q& N& \/ X3 {
6 M4 e( j3 m. U4 @" ]: g5 ~) a h& b/ s" P2 ^' y, k& S
随机表格2:) A! P" G' @4 u+ J* v9 m( K
2 Z" F/ r7 q9 S3 I' k) k研究中心 基因型 分组" y0 W0 o+ e: p" _; Y/ z
01 II A
* r+ `. g) g- }/ P1 R* P7 J# J01 II A/ H+ f6 X W2 u% i6 G) I
01 II B1 ] }% x5 X3 {; r$ m3 y
01 II B
0 p' n9 E6 t a……
5 f% w7 x( y! G- Z ]* S
- [" d4 V+ R# W& y1 y
+ h! m" w9 i8 {1 z' p8 p随机表格3:
) d; r/ V5 y; d& f
* [; {, f& U4 x/ S$ A! }研究中心 基因型 分组
; s. x( a# E; z2 Z1 L7 l9 t% R02 I B+ {+ H! z4 @. e$ [( ]6 ^
02 I B2 W5 w% M1 b% Y. S
02 I A
1 M6 j% T5 O; z: C02 I A2 ]* y0 v3 {, C, O; I
……6 e/ M, E2 j/ J6 s8 h: Z$ h+ _. h8 _
9 d9 _3 b' {5 z" } W
9 ~* v; I* X4 f# Q6 ^5 h! E8 `% f6 t& v/ d6 R* t/ T, {2 k
2 F: U5 G1 O/ l随机表格4:
; q, O; a. ~1 Y& M1 }- v2 X- Z8 w k Y3 O0 f6 y/ N
研究中心 基因型 分组' Y! b+ Z. c/ q5 t- J
02 II A
" t1 @) R' O9 t, x) F1 i' H9 O02 II B
+ n/ m: [+ c9 P2 [02 II B
, H. r8 |, R7 \. k02 II A
9 t& `- r/ A% K' x3 N4 J……
" a+ U+ `5 d2 }) d0 Y2 x( B9 _! ^# {9 p- \6 P3 Q' k
( g2 { e: G4 g3 ?# l2 ]9 Z…………………..& W4 c- f/ ~0 n5 @* b7 |
. F" d, o; T- F: p
- H5 i; t$ x" ]7 p/ m+ f2 p随机表格19:
; C; j# r: ?; q2 G
9 Z q3 Q4 i$ v研究中心 基因型 分组" f. I% C5 W$ l+ k4 h
10 I B
; r: [0 z' T Q' V" | Q10 I A( ?8 t' j! c6 \ l. ?/ G
10 I A
# f5 R- }( Q9 @! T. h1 g0 v10 I B, |$ p3 p( {. p7 s
……
; a; E' z6 M, _1 J O$ X- C
{, i6 y% s8 i5 g$ o0 `- u5 U" g0 e7 }
随机表格20:5 n; w7 y3 K% p1 _8 n5 L# x
! ~3 w- \( ]5 k4 B9 g ^" j7 A6 f研究中心 基因型 分组; b; z7 l6 G5 o) ?0 q/ D0 s; ~9 u
10 II A/ h5 U3 T! I7 R0 M$ f2 X [2 _5 ^5 i
10 II B
8 k6 q% V4 h: a1 H& u9 o- j10 II A
: b- Y/ p) b5 b, ^% ]6 ?10 II B4 s! i3 L+ b. [5 Y4 G1 p
……+ v8 W( q1 t, \! H) M( J& W
# T1 j2 {' U/ v6 u v# y当然,小胖要强调的一点是,分层的因素不能过多,因为因素一多则组合数就多,层数也就多,层数一多,就会使有些层次的人数不足。例如多中心临床试验中心为分层因素(10个中心),另外还有2个分层因素,每个因素各分成2层,则共有10×2×2=40层,一共需要安排40个随机表格。如果一共入选200例病人的话,每层平均5个人,甚至有的层人数会很少,难以实施统计处理。因此分层因素不宜过多,要进行精选。通常来说两个以上的分层因素就会使分层难以实施。 |
|