首页 | 本学科首页   官方微博 | 高级检索  
   检索      

蛋白质二级结构预测: 基于词条的最大熵马尔科夫方法
引用本文:董启文,王晓龙,林磊,关毅,赵健.蛋白质二级结构预测: 基于词条的最大熵马尔科夫方法[J].中国科学C辑,2005,35(1):87-96.
作者姓名:董启文  王晓龙  林磊  关毅  赵健
作者单位:哈尔滨工业大学计算机科学与技术学院,哈尔滨,150001
基金项目:国家自然科学基金(批准号: 60373100)和"863"计划(批准号: 2002AA117010-09)资助项目
摘    要:提出了一种新的蛋白质二级结构预测方法. 该方法从氨基酸序列中提取出和自然语言中的“词”类似的与物种相关的蛋白质二级结构词条, 这些词条形成了蛋白质二级结构词典, 该词典描述了氨基酸序列和蛋白质二级结构之间的关系. 预测蛋白质二级结构的过程和自然语言中的分词和词性标注一体化的过程类似. 该方法把词条序列看成是马尔科夫链, 通过Viterbi算法搜索每个词条被标注为某种二级结构类型的最大概率, 其中使用词网格描述分词的结果, 使用最大熵马尔科夫模型计算词条的二级结构概率. 蛋白质二级结构预测的结果是最优的分词所对应的二级结构类型. 在4个物种的蛋白质序列上对这种方法进行测试, 并和PHD方法进行比较. 试验结果显示, 这种方法的Q3准确率比PHD方法高3.9%, SOV准确率比PHD方法高4.6%. 结合BLAST搜索的局部相似的序列可以进一步提高预测的准确率. 在50个CASP5目标蛋白质序列上进行测试的结果是: Q3准确率为78.9%, SOV准确率为77.1%. 基于这种方法建立了一个蛋白质二级结构预测的服务器, 可以通过http://www.insun.hit.edu.cn:81/demos/biology/index.html来访问.

关 键 词:蛋白质二级结构词条  词网格  最大熵马尔科夫模型  蛋白质二级结构预测
收稿时间:2004-09-11
修稿时间:2004年9月11日
本文献已被 CNKI 万方数据 等数据库收录!
点击此处可从《中国科学C辑》浏览原始摘要信息
点击此处可从《中国科学C辑》下载免费的PDF全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号