摘 要: | 肠道菌群与诸多人类重大疾病相关,研究在不同条件下的肠道菌群数据具有重要意义。由于菌群数据出现零膨胀现象,采用成对比率几何平均值(GMPR)方法对其进行归一化。本研究以2型糖尿病数据集为例,提出一种改进的Spectrum算法。首先,使用基于特征加权的相似度矩阵,避免忽视每个样本/特征所对应的不同特征值大小在该样本中所占据的权重;其次,将拉普拉斯矩阵替换为Hessian矩阵,避免传统谱聚类的灵敏度问题,将ISODATA聚类算法代替原本的K-means算法,有效地调整聚类中心数K。试验结果表明,GMPR+改进Spectrum在2型糖尿病中的标准化互信息(NMI)为0.423,戴维森堡丁指数(DBI)为4.751,Calinski-Harabasz指标(CH)为25.541,兰德指数(RI)为0.835,调整兰德指数(ARI)为0.019,较改进前的效果有所提升,并且该算法可以识别出不同类型患病人群在肠道菌群上的结构差异,挖掘出肠道微生物组的关键细菌。
|