主成分-统计

主成分(principal component),指原始变量的线性组合,旨在以较少的综合变量概括原始数据蕴含的绝大部分信息,从而达到降维的目的。

特征向量-统计

特征向量(eigenvector),又称“固有向量”、“本征向量”,指表示协方差矩阵的特征值的向量,通过计算数据矩阵的协方差矩阵并选择使矩阵方差最大的若干个特征,组成特征向量矩阵。可将数据矩阵转换到新的低维空间中,实现数据特征的降维。 ...

特征值-统计

特征值(eigenvalue),又称“固有值”、“本征值”,指主成分的方差,常用于奇异值分解。

降维-统计

降维(dimensionality reduction),指将高维度的数据保留下一些最重要的特征,去除噪声与次要特征,以提高数据处理速度的高维度特征数据预处理方法。

主成分分析-统计

主成分分析(principal component analysis, PCA),又称“主分量分析”,指一种基于多个定量变量之间相互关系,利用降维思想,并通过线性变换提取少数几个关键综合变量的多元统计分析方法。

两步聚类-统计

两步聚类(two-step clustering),指包含两个步骤的聚类算法。第一步,使用预处理方法将数据点分为多个较小的子集,以降低计算复杂度;第二步,在每个子类上应用聚类算法(通常使用系统聚类方法),将预处理得到的子类合并成最终的聚类结果,以进一步细化聚类结构。 ...

动态样品聚类-统计

动态样品聚类(dynamical clustering methods),指一种针对随时间变化或按时间顺序生成的数据集进行聚类分析的方法,能够根据数据的动态特性实时更新和调整,以适应新数据点或变化模式。常用的方法包括窗口式聚类、递增式聚类和在线聚类等。 ...

有序样品聚类-统计

有序样品聚类(ordinal clustering methods),一种专门用于处理有序数据的聚类方法,对于按照一定顺序排列的数据,要求在聚类过程中保持原始顺序不被打乱。通过分析数据点之间的顺序或序列关系,将序列划分为若干连续的区段,使每段内部样品之间的差异最小,而不同区段之间的差异最大。 ...

模糊聚类-统计

模糊聚类(fuzzy clustering),指允许数据点同时属于多个不同的簇,而不是严格地属于单个簇的聚类算法。每个数据点具有对于每个簇的隶属度值,表示它属于每个簇的程度,适用于存在交叉特征或模糊边界的数据集样本。

最小相似系数法-统计

最小相似系数法(minimum similarity coefficient method),以分属两类的两个对象两两距离 (相似系数) 的最小值,做两类间距离(相似系数)的一种系统聚类法。

最大相似系数法-统计

最大相似系数法(maximum similarity coefficient method),指以分属两类的两个对象两两距离 (相似系数) 的最大值,做两类间距离(相似系数)的一种系统聚类法。

类间相似度计算准则-统计

类间相似度计算准则(calculation criterion of inter-class similarity),指评估不同簇或类之间的相似性或差异的标准或指标,帮助确定聚类质量的算法,特别是在没有真实类别信息的情况下。

肯德尔秩相关系数-统计

肯德尔秩相关系数(Kendall rank correlation coefficient),指简称“Kendall 秩相关系数”。衡量两个变量之间数据点的排序或排名的相似性。量化了协调对的数量(在两个变量中具有相同顺序的数据点对)和不协调对的数量(在两个变量中具有不同顺序的数据点对)。 ...

列联系数-统计

列联系数(coefficient of contigency),指用于衡量两个分类变量之间关联程度的指标。它基于列联表计算,表示变量之间的依赖关系强度。其值介于0 和 1 之间,其中 0 表示两个变量完全独立, 1表示完全依赖。

余弦相似度-统计

余弦相似度(cosine similarity),指用于衡量两个向量在多维空间中相似程度的指标,定义为这两个向量的夹角余弦值,通过向量的点积除以它们的模长的乘积计算。

皮尔逊相关系数-统计

皮尔逊相关系数(Pearson correlation coefficient),指又称“Pearson 相关系数”。用于度量两个连续型变量之间线性关联程度和方向的指标。数值介于-1 和1 之间,其中1 表示完全正相关,-1 表示完全负相关,0表示不相关。

变量间相似度-统计

变量间相似度(variable similarity),指在聚类分析中,对数据集内变量之间相似或相关性的评估。用于确定聚类过程中不同变量的相关性和重要性。

变量聚类-统计

变量聚类(variable clustering),又称“R 型聚类(R-type clustering)”,指基于变量之间的相似性或相关性将变量分组在一起的方法,每个聚类可以用一个单独的成分或变量来表示。

快速聚类-统计

快速聚类(quick cluster),指采用近似计算、降维、采样、初始化优化等策略使得在更短时间内完成聚类分析的一类聚类算法。

聚类数-统计

聚类数(number of clusters),指在多均值聚类中,将数据集分为不同类的预定数量,预定的数量通常由分析人员事先决定。
1 ...67891011121314... 36下一页