基于多次重复液相质谱生物实验数据校准方法研究 |
| |
引用本文: | 崔健,马媛媛,张法伟,马鑫,郭兆龙.基于多次重复液相质谱生物实验数据校准方法研究[J].基因组学与应用生物学,2019,38(3):1229-1235. |
| |
作者姓名: | 崔健 马媛媛 张法伟 马鑫 郭兆龙 |
| |
作者单位: | 中国石油大学胜利学院,东营,257000;中国石油大学胜利学院,东营,257000;中国石油大学胜利学院,东营,257000;中国石油大学胜利学院,东营,257000;中国石油大学胜利学院,东营,257000 |
| |
基金项目: | 2017年地方高校国家级大学生创新创业训练计划项目 |
| |
摘 要: | 在蛋白质组学中,进行液相质谱(LC-MS)实验谱数据处理,发现并分析生物标志物的复杂肽或蛋白质样本的差异是重点,而校准相同样本的多次重复实验中肽链产生的洗脱时间峰信号(LC峰)是进行量化、分析差异的关键。目前多个重复实验数据的校准通常是在重复的实验数据集中根据液相二级质谱(LC-MS/MS)实验标识LC峰的时间特征,然后使用翘曲函数对时间特征进行对齐。由于多重数据的洗脱时间误差产生是随机的,统一使用翘曲函数校准会产生较大误差。为了解决这个问题,本研究重点研究了多个重复实验数据中LC峰的时间校准算法。我们选取了两个重复实验数据,采用机器学习的思路,通过选用两个数据的LC-MS/MS中重复检测到的肽链数据作为可信数据,部分选为训练序列,部分作为测试序列,建立统计数学模型,提出了一种新的校准算法,并采用测试序列对该统计模型进行准确率测试,表明算法的准确性达到95%以上;然后,将该模型应用在两个实验数据的所有LC-MS/MS肽链检测值上,提高检测值在多个数据中的覆盖率,表明覆盖率可以到达85%以上。
|
关 键 词: | 蛋白质组学 液相质谱(LC-MS) 时间特征 校准 统计学习模型 |
本文献已被 CNKI 万方数据 等数据库收录! |
|