热度 75
一提到概率分布,我们一般第一想到的便是正态分布,有人说没有正态分布就没有统计,由此正态分布的普遍性和重要性不言而喻。
那么为什么正态分布如此普遍和重要呢?
首先,很多情况下,自然界很多东西都是自然呈正态分布的,而更重要的原因在于中心极限定理(central limit theorem)的应用。所谓中心极限定理是指当样本量足够大时,无论其总体分布如何,其样本均数趋于正态分布。中心极限定理为正态分布的普遍应用提供了最为坚实的理论基础。而对于上则几百例病人的临床试验来说,正态分布更是找到了其适合生长的最好土壤。另外,我们常用的一些统计方法都是依赖于正态分布的:
(1) 一些统计方法如t检验和方差分析,其应用的前提条件就是要求数据服从正态分布
(2) 而对于一些统计模型来说,比如线性模型,往往要求其残差服从正态分布。
关于正态分布在统计模型中的应用,下边有一段论述很有意思,小胖摘抄下来供大家参考:
正态分布对统计学家从某种角度来说是“垃圾的分布”。
当向一个统计学家问什么是正态分布时,他会回答:当一个变量有多个、解释不清的因素决定,而且每个因素的作用都不强,于是变量就呈现正态分布。
一个随机变量中有两种成分,一是非随机成分,一是随机成分分。建模把非随机部分用模型(函数形式)来表达,纯随机的成分就成了残差。
回归不论线性与否,残差是正态,说明模型不能表达的成分确实是“垃圾”,不能再处理的。
但是,我们把数据馈入模型,结果发现残差非正态(或并非白噪音),怎么办,最理想的办法是修改模型,使其符合正态假设。回归其实就是在杂乱的信息中,把有规律的信息用模型表达出来,而无规律的白噪声滤掉。
手机版|会员|至尊|接种|公卫人 ( 沪ICP备06060850号-3 )
GMT+8, 2024-4-24 09:47 , Processed in 0.047343 second(s), 7 queries , Gzip On, MemCached On.
Powered by Discuz! X3.4
© 2001-2023 Discuz! Team.