专业词条 - 词条分类 - 公卫百科

逻辑斯谛回归-统计

逻辑斯谛回归（logistic regression），指一种用于二分类或多分类问题的广义线性模型。通过对数单位函数（logit 函数）将线性预测结果映射为概率值，描述解释变量与类别概率之间的非线性关系。采用极大似然估计等方法求解参数，输出结果具有概率解释。广泛应用于疾病诊断等分类预测领域。 ...

定义

最大似然估计-统计

最大似然估计（maximum likelihood estimation,MLE），又用“极大似然估计”，指一种参数估计方法，通过极大化似然函数寻找最可能产生观测数据的参数值。利用样本信息，使观测数据出现的概率最大。具有一致性、渐近正态性等优良性质。广泛应用于统计学、机器学习等领域，为模型参数估计提供理论基础。 ...

定义

连接函数-统计

连接函数（link function），指将线性预测器与响应变量的期望值关联起来的函数。通过变换响应变量，使其与线性组合的自变量相关联，常见形式包括逻辑函数、对数函数和概率单位函数。适用于处理不同类型的响应变量，如二项分布和泊松分布，增强模型的灵活性和适应性。 ...

定义

指数族分布-统计

指数族分布（exponential family of distributions），指一类重要的概率分布集合，概率密度函数可表示为指数形式，具有统一的数学结构，通过自然参数、充分统计量和规范化函数描述，包括正态分布、泊松分布、二项分布等。广泛应用于广义线性模型、统计力学等领域。具有共轭先验、充分统计量等良好性质，便于理论分析与计算 ...

定义

广义线性模型-统计

广义线性模型（generalized linear regression），指一般线性模型的扩展，通过分布函数选择因变量为非正态分布；通过连接函数建立因变量的数学期望值与自变量之间的回归关系。当因变量的分布为正态分布，连接函数为恒等(Identity link)时，可简化为一般线性模型。 ...

定义

泛化性-统计

泛化性（generalizability），指机器学习模型在面对未见过的数据时的性能表现。

定义

外部验证-统计

外部验证（external validation），指利用独立于训练数据的外部数据集评估模型性能的方法。通过测试模型在完全未见数据上的表现，客观反映其泛化能力和实际应用效果。常用于模型最终评估和比较，结果更具说服力，但需要额外收集数据。 ...

定义

欠拟合-统计

欠拟合（underfitting），指模型在训练数据和新数据上均表现不佳的现象。由于过于简单，模型未能充分学习数据中的潜在规律。常见于参数过少、训练时间不足的情况。可通过增加模型复杂度、延长训练时间等方法改善。

定义

过拟合-统计

过拟合（overfitting），指模型在训练数据上表现优异，但在新数据上性能显著下降的现象。由于过度复杂，模型捕捉了训练数据中的噪声和细节，导致泛化能力差。常见于参数过多、训练时间过长的情况。可通过正则化、早停等方法缓解。 ...

定义

内部验证-统计

内部验证（internal validation），指利用训练数据本身评估模型性能的方法。通过重采样技术如交叉验证、自助法，在训练集内部分割出验证集。提供模型泛化能力的初步估计，用于模型选择与参数调优。计算成本较高，但充分利用有限数据，评估结果相对稳定。 ...

定义

留出法-统计

留出法（holdout method），指一种简单的模型评估方法。将数据集随机分为互斥的两部分，大部分用于训练模型，小部分用于测试模型性能。通常训练集占70-80%，测试集占 20-30%。实现简单，计算成本低，但评估结果可能受数据划分影响较大。 ...

定义

留一法交叉验证-统计

留一法交叉验证（leave-one-out cross validation），指一种模型验证的方法，每次从包含n 个样本的数据集中留出1 个样本作为测试集，其余 n-1 个样本作为训练集，重复 n 次后以平均误差评估模型性能。其优势在于充分利用数据且无随机性，但因需训练n 次模型，计算成本较高，适用于小样本场景。 ...

定义

K 折交叉验证-统计

K 折交叉验证（K-fold cross validation），指一种评估模型性能的交叉验证方法。将数据集均分为K 个子集，依次以其中一个子集为验证集，其余为训练集，重复 K 次训练与验证。计算 K 次结果的平均值作为模型性能指标。有效利用有限数据，提供稳定可靠的模型评估结果。 ...

定义

测试集-统计

测试集（testing set），指用于最终评估统计模型和机器学习模型性能的独立数据子集。通过模拟真实应用场景，测试模型在完全未见数据上的泛化能力。通常占总数据 10-20%，仅在模型训练和调优完成后使用。提供模型性能的客观评价，反映实际应用效果。 ...

定义

验证集-统计

验证集（validation set），指用于评估和选择统计模型和机器学习模型性能的数据子集。通过测试模型在未见数据上的表现，调整超参数，防止过拟合。通常占总数据 10-20%，独立于训练集和测试集。提供模型泛化能力的初步估计，为最终模型选择提供依据。 ...

定义

训练集-统计

训练集（training set），指用于构建和调整统计模型的数据子集。通过输入特征与对应标签，使模型和算法学习数据内在规律，优化模型参数。通常占总数据 60-80%，与验证集、测试集共同构成完整数据集。质量直接影响模型性能，需保证代表性、无偏性。 ...

定义

交叉验证-统计

交叉验证（cross validation），指一种评估模型泛化能力的统计方法。将数据集分为训练集和验证集，多次重复训练与验证过程，计算平均性能指标。常见形式包括 k 折、留一法等。有效防止过拟合，广泛应用于机器学习、数据挖掘等领域，为模型选择与参数调优提供可靠依据。 ...

定义

贝叶斯信息量准则-统计

贝叶斯信息量准则（Bayesian information criterion, BIC），指一种基于贝叶斯理论的模型选择标准，由吉迪思·施瓦茨(Gideon Schwarz)提出。通过惩罚复杂模型，平衡拟合优度与参数数量，选择最优模型。公式为-2 倍对数似然值加上参数个数乘以样本量的对数，值越小模型越好。适用于大样本情况下的模型比较。 ...

定义

赤池信息量准则-统计

赤池信息量准则（Akaike information criterion, AIC），指一种评估统计模型拟合优度的标准，由日本统计学家赤池弘次提出。通过权衡模型复杂度与拟合精度，选择最优模型。公式为-2 倍对数似然值加上2 倍参数个数，惩罚过多参数以避免过拟合。值越小模型越好。广泛应用于时间序列分析、回归分析等领域。 ...

定义

信息准则-统计

信息准则（information criterion），指用于评估统计模型优劣的标准，平衡模型复杂度与拟合精度。通过量化模型对数据的解释能力与参数数量，帮助选择最优模型，避免过拟合或欠拟合。常见形式包括赤池信息量准则、贝叶斯信息量准则等。 ...

定义

中国健康与养老追踪调查