摘 要: | 从大规模癌样本基因突变扫查数据中识别癌基因具有重要的意义. 一些重要功能的改变对于癌的发生发展是必需的, 因此将它们定义为癌功能类, 并从GO(Gene Ontology)中选择一组显著富集已知癌基因的细致功能类来代表它们. 为了评价以癌相关功能类作为特征识别癌基因的效果, 将已知的蛋白激酶癌基因定义为阳性金标准, 而将其他的蛋白激酶基因定义为阴性金标准. 结果表明, 与利用选择压力作为特征的方法比较, 利用癌相关功能类作为特征的方法可以更有效地识别癌基因. 进一步结合癌相关功能类与基因非同义突变个数可以产生更可靠的预测结果. 最后, 将46个注释到癌相关功能类并且其非同义突变个数至少为3的蛋白激酶基因预测为癌基因, 预测精确率达到0.42.
|