库克距离-统计

库克距离(Cook's distance),又称“Cook 距离”,指一种用于衡量数据集中的个别数据点对回归模型拟合结果影响程度的统计量,该值越大,表示该数据点对回归模型的拟合结果产生的影响越大。

最大似然估计-统计

最大似然估计(maximum likelihood estimation,MLE),又用“极大似然估计”,指一种参数估计方法,通过极大化似然函数寻找最可能产生观测数据的参数值。利用样本信息,使观测数据出现的概率最大。具有一致性、渐近正态性等优良性质。广泛应用于统计学、机器学习等领域,为模型参数估计提供理论基础。 ...

逻辑斯谛回归-统计

逻辑斯谛回归(logistic regression),指一种用于二分类或多分类问题的广义线性模型。通过对数单位函数(logit 函数)将线性预测结果映射为概率值,描述解释变量与类别概率之间的非线性关系。采用极大似然估计等方法求解参数,输出结果具有概率解释。广泛应用于疾病诊断等分类预测领域。 ...

概率单位变换-统计

概率单位变换(probit transformation),指采用标准正态分布的累积概率函数的反函数对概率做单位变换

去死因寿命表-统计

去死因寿命表(cause-eliminated life table),指通过假设特定死亡原因被消除,重新计算群体生存概率和预期寿命的统计工具。用于评估特定疾病或风险因素对整体寿命的影响,帮助理解如果消除某一死因,群体寿命将如何改变。

高杠杆点-统计

高杠杆点(high leveragepoints),指回归分析中自变量(X)取值极端、远离数据中心的观测点,其杠杆值显著高于平均水平。这类点可能对回归系数的估计产生较大影响,但若因变量(Y)合模型预测趋势,则未必导致模型偏差。高杠杆点需结合残差分析判断其实际影响,常用杠杆值阈值进行识别。 ...

训练集-统计

训练集(training set),指用于构建和调整统计模型的数据子集。通过输入特征与对应标签,使模型和算法学习数据内在规律,优化模型参数。通常占总数据 60-80%,与验证集、测试集共同构成完整数据集。质量直接影响模型性能,需保证代表性、无偏性。 ...

布雷斯洛检验-统计

布雷斯洛检验(Breslow test),又称“Breslow 检验”,指一种单因素方法,用于不同组生存曲线的比较,对近期差异敏感。

测试集-统计

测试集(testing set),指用于最终评估统计模型和机器学习模型性能的独立数据子集。通过模拟真实应用场景,测试模型在完全未见数据上的泛化能力。通常占总数据 10-20%,仅在模型训练和调优完成后使用。提供模型性能的客观评价,反映实际应用效果。 ...

内部验证-统计

内部验证(internal validation),指利用训练数据本身评估模型性能的方法。通过重采样技术如交叉验证、自助法,在训练集内部分割出验证集。提供模型泛化能力的初步估计,用于模型选择与参数调优。计算成本较高,但充分利用有限数据,评估结果相对稳定。 ...

比值比-统计

比值比(odds ratio),又称“优势比”,指病例组暴露人数与非暴露人数的比值除以对照组暴露人数与非暴露人数的比值,是反映疾病与暴露之间关联强度的指标。

尺度偏移量-统计

尺度偏移量(scaled deviance),指基于标准误校正的残差偏移量,反映模型的拟合离散度。

树状图-统计

树状图(tree diagram),表示集群(包括单个样本)间内在联系与差异的一种结构图,其中“分枝”表示较小集群,“根”表示较大集群。用于指导在聚类过程中相似性水平的选取。

k 均值聚类-统计

k 均值聚类(k-means clustering),指一种聚类的方法,首先指定需要划分类的个数,然后按照某种原则选择原始数据中根据预先指定分类个数的样本作为初始凝聚点;基于样本间距离,对除初始凝聚点外的所有样本进行逐个归类,将每个样本归入离初始凝聚点最近的那个类中,该类新的凝聚点更新为该类的均值。重复上述过程,直至所 ...

聚类数-统计

聚类数(number of clusters),指在多均值聚类中,将数据集分为不同类的预定数量,预定的数量通常由分析人员事先决定。

空间自相关-统计

空间自相关(spatial autocorrelation),指描述地理空间中邻近位置观测值之间相似性或依赖性的统计特性,常用 Moran's I 等指标度量,反映空间数据的聚集或分散模式,广泛应用于地理学、生态学等领域。

质量调整寿命年-统计

质量调整寿命年(quality adjusted life years,QALY),指又称“质量调整生命年”。将生存时间按生存质量高低分段,生存质量高的权重大,权重值取0~1,得到的一种健康状况和寿命质量的正向综合测量指标,1单位取值反映 1 个健康生存年。 ...

中间距离法-统计

中间距离法(intermediate neighbor),指以两类中所有样本点之间距离的平均值来进行聚类的方法。

无限总体-统计

无限总体(infinite population),是研究对象的数量不受限制,或在时间、空间、人群范围上无限制,难以准确计数全部单位的总体,通常用 于理论分析或假设场景。

BP 检验-统计

BP 检验(Breusch–Pagan test),指通过对模型残差的平方与自变量进行回归来检验线性回归模型中异方差是否存在的方法,相比怀特检验在残差平方回归模型中不包括原解释变量的平方值和交互项。
12345678910... 36下一页