连接函数-统计

连接函数(link function),指将线性预测器与响应变量的期望值关联起来的函数。通过变换响应变量,使其与线性组合的自变量相关联,常见形式包括逻辑函数、对数函数和概率单位函数。 适用于处理不同类型的响应变量,如二项分布和泊松分布,增强模型的灵活性和适应性。 ...

指数族分布-统计

指数族分布(exponential family of distributions),指一类重要的概率分布集合,概率密度函数可表示为指数形式,具有统一的数学结构,通过自然参数、充分统计量和规范化函数描述,包括正态分布、泊松分布、二项分布等。广泛应用于广义线性模型、统计力学等领域。具有共轭先验、充分统计量等良好性质,便于理论分析与计算 ...

广义线性模型-统计

广义线性模型(generalized linear regression),指一般线性模型的扩展,通过分布函数选择因变量为非正态分布;通过连接函数建立因变量的数学期望值与自变量之间的回归关系。当因变量的分布为正态分布,连接函数为恒等(Identity link)时,可简化为一般线性模型。 ...

泛化性-统计

泛化性(generalizability),指机器学习模型在面对未见过的数据时的性能表现。

外部验证-统计

外部验证(external validation),指利用独立于训练数据的外部数据集评估模型性能的方法。通过测试模型在完全未见数据上的表现,客观反映其泛化能力和实际应用效果。常用于模型最终评估和比较,结果更具说服力,但需要额外收集数据。 ...

欠拟合-统计

欠拟合(underfitting),指模型在训练数据和新数据上均表现不佳的现象。由于过于简单,模型未能充分学习数据中的潜在规律。常见于参数过少、训练时间不足的情况。可通过增加模型复杂度、延长训练时间等方法改善。

过拟合-统计

过拟合(overfitting),指模型在训练数据上表现优异,但在新数据上性能显著下降的现象。由于过度复杂,模型捕捉了训练数据中的噪声和细节,导致泛化能力差。常见于参数过多、训练时间过长的情况。可通过正则化、早停等方法缓解。 ...

内部验证-统计

内部验证(internal validation),指利用训练数据本身评估模型性能的方法。通过重采样技术如交叉验证、自助法,在训练集内部分割出验证集。提供模型泛化能力的初步估计,用于模型选择与参数调优。计算成本较高,但充分利用有限数据,评估结果相对稳定。 ...

留出法-统计

留出法(holdout method),指一种简单的模型评估方法。将数据集随机分为互斥的两部分,大部分用于训练模型,小部分用于测试模型性能。通常训练集占70-80%,测试集占 20-30%。实现简单,计算成本低,但评估结果可能受数据划分影响较大。 ...

留一法交叉验证-统计

留一法交叉验证(leave-one-out cross validation),指一种模型验证的方法,每次从包含n 个样本的数据集中留出1 个样本作为测试集,其余 n-1 个样本作为训练集,重复 n 次后以平均误差评估模型性能。其优势在于充分利用数据且无随机性,但因需训练n 次模型,计算成本较高,适用于小样本场景。 ...

K 折交叉验证-统计

K 折交叉验证(K-fold cross validation),指一种评估模型性能的交叉验证方法。将数据集均分为K 个子集,依次以其中一个子集为验证集,其余为训练集,重复 K 次训练与验证。计算 K 次结果的平均值作为模型性能指标。有效利用有限数据,提供稳定可靠的模型评估结果。 ...

测试集-统计

测试集(testing set),指用于最终评估统计模型和机器学习模型性能的独立数据子集。通过模拟真实应用场景,测试模型在完全未见数据上的泛化能力。通常占总数据 10-20%,仅在模型训练和调优完成后使用。提供模型性能的客观评价,反映实际应用效果。 ...

验证集-统计

验证集(validation set),指用于评估和选择统计模型和机器学习模型性能的数据子集。通过测试模型在未见数据上的表现,调整超参数,防止过拟合。通常占总数据 10-20%,独立于训练集和测试集。提供模型泛化能力的初步估计,为最终模型选择提供依据。 ...

训练集-统计

训练集(training set),指用于构建和调整统计模型的数据子集。通过输入特征与对应标签,使模型和算法学习数据内在规律,优化模型参数。通常占总数据 60-80%,与验证集、测试集共同构成完整数据集。质量直接影响模型性能,需保证代表性、无偏性。 ...

交叉验证-统计

交叉验证(cross validation),指一种评估模型泛化能力的统计方法。将数据集分为训练集和验证集,多次重复训练与验证过程,计算平均性能指标。常见形式包括 k 折、留一法等。有效防止过拟合,广泛应用于机器学习、数据挖掘等领域,为模型选择与参数调优提供可靠依据。 ...

贝叶斯信息量准则-统计

贝叶斯信息量准则(Bayesian information criterion, BIC),指一种基于贝叶斯理论的模型选择标准,由吉迪思·施瓦茨(Gideon Schwarz)提出。通过惩罚复杂模型,平衡拟合优度与参数数量,选择最优模型。公式为-2 倍对数似然值加上参数个数乘以样本量的对数,值越小模型越好。适用于大样本情况下的模型比较。 ...

赤池信息量准则-统计

赤池信息量准则(Akaike information criterion, AIC),指一种评估统计模型拟合优度的标准,由日本统计学家赤池弘次提出。通过权衡模型复杂度与拟合精度,选择最优模型。公式为-2 倍对数似然值加上2 倍参数个数,惩罚过多参数以避免过拟合。值越小模型越好。广泛应用于时间序列分析、回归分析等领域。 ...

信息准则-统计

信息准则(information criterion),指用于评估统计模型优劣的标准,平衡模型复杂度与拟合精度。通过量化模型对数据的解释能力与参数数量,帮助选择最优模型,避免过拟合或欠拟合。常见形式包括赤池信息量准则、贝叶斯信息量准则等。 ...

校正决定系数-统计

校正决定系数(adjusted coefficient of determination),指用于评估回归模型解释变量对因变量解释能力的指标,考虑到随着模型自变量数目的增加,决定系数也随之逐步增加的特点,在决定系数公式中引入一个惩罚项(自由度),对决定系数进行调整后所得的值。该值小于等于决定系数。 ...

决定系数-统计

决定系数(coefficient of determination),指衡量一个回归模型对观测数据的拟合程度的统计量,可以理解为因变量的变异中被模型解释的比例。
1 ...262728293031323334... 63下一页