首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到14条相似文献,搜索用时 46 毫秒
1.
基于支持向量机(SVM)的剪接位点识别   总被引:14,自引:1,他引:13  
剪接位点的识别作为基因识别中的一个重要环节, 一直受到研究人员的关注。考虑到剪接位点附近存在的序列保守性,已有一些基于统计特性的方法被用于剪接位点的识别中,但效果仍有待进一步改进。支持向量机(Support Vector Machines) 作为一种新的基于统计学习理论的学习机,近几年有了很大的发展,已被应用在模式识别的许多问题中。文中将其用于剪接位点的识别中,并针对满足GT- AG 规则的序列样本中虚假剪接位点的样本数远大于真实位点这一特性, 提出了一种基于SVM 的平衡取小法以获得更好的识别效果。实验结果表明,应用支持向量机进行剪接位点的识别能更好地提取位点附近保守序列的统计特征,对测试集具有更好的推广能力,并且使用上更加简单。这一结果为剪接位点的识别提供了一种新的方法,同时也为生物大分子研究中结构和位点的识别问题的解决提供了新的线索。  相似文献   

2.
基于支持向量机的人类5’非翻译区剪接位点识别   总被引:5,自引:0,他引:5  
基因非编码区域剪接位点的识别是基因识别中一个非常具有挑战性的问题,尤其是5’非翻译区中剪接位点的识别。与一般剪接位点不同,5’非翻译区剪接位点的两侧不存在由编码到非编码的状态转移,所以通常的剪接位点识别算法在非翻译区的性能不太理想。文章采用了基于支持向量机的方法对5’非翻译区中的剪接位点进行识别。为了提高识别精度,采用了基于矩阵相似性度量的核函数参数选取方法,它能够简单快速地确定合适的核函数参数,进而提高核函数的识别性能。通过实验验证,经过参数选择后的支持向量机能够较好地识别5'非翻译区剪接位点。  相似文献   

3.
4.
选择性剪切是调解基因表达的重要机制。识别选择性剪切位点是后基因组时代的一个重要工作。本文从最新的EBI人类基因选择性剪切数据库中,选取5′/3′选择性剪切位点作为正集,选取在剪切位点附近的假剪切位点作为负集,并把所有的选择性剪切位点和假剪切位点随机分成训练集和测试集。本文选用的预测选择性剪切位点的方法是基于位置权重矩阵和离散增量的支持向量机方法。此方法仅基于训练集,以不同位点的单碱基概率和序列片断的三联体频数作为信息参数,利用位置权重矩阵和离散增量算法结合支持向量机,得到了选择性供体位点和受体位点的分类器,并用此分类器对测试集中的选择性供体位点和受体位点进行预测。对独立测试集中的选择性供体位点和选择性受体位点的预测成功率分别为88.74%和90.86%,特异性分别为85.62%和81.19%。本文预测选择性剪切位点的方法成功率高于其它选择性剪切位点预测方法预测成功率,此预测方法进一步提高了对选择性剪切位点的理论预测能力。  相似文献   

5.
选择性剪切是调解基因表达的重要机制.识别选择性剪切位点是后基因组时代的一个重要工作.本文从最新的EBI人类基因选择性剪切数据库中,选取5'/3'选择性剪切位点作为正集,选取在剪切位点附近的假剪切位点作为负集,并把所有的选择性剪切位点和假剪切位点随机分成训练集和测试集.本文选用的预测选择性剪切位点的方法是基于位置权重矩阵和离散增量的支持向量机方法.此方法仅基于训练集,以不同位点的单碱基概率和序列片断的三联体频数作为信息参数,利用位置权重矩阵和离散增量算法结合支持向量机,得到了选择性供体位点和受体位点的分类器,并用此分类器对测试集中的选择性供体位点和受体位点进行预测.对独立测试集中的选择性供体位点和选择性受体位点的预测成功率分别为88.74%和90.86%,特异性分别为85.62%和81.19%.本文预测选择性剪切位点的方法成功率高于其它选择性剪切位点预测方法预测成功率,此预测方法进一步提高了对选择性剪切位点的理论预测能力.  相似文献   

6.
用支持向量机预测人类基因5'/3'选择性剪切位点   总被引:1,自引:0,他引:1  
选择性剪切是调解基因表达的重要机制.识别选择性剪切位点是后基因组时代的一个重要工作.本文从最新的EBI人类基因选择性剪切数据库中,选取5'/3'选择性剪切位点作为正集,选取在剪切位点附近的假剪切位点作为负集,并把所有的选择性剪切位点和假剪切位点随机分成训练集和测试集.本文选用的预测选择性剪切位点的方法是基于位置权重矩阵和离散增量的支持向量机方法.此方法仅基于训练集,以不同位点的单碱基概率和序列片断的三联体频数作为信息参数,利用位置权重矩阵和离散增量算法结合支持向量机,得到了选择性供体位点和受体位点的分类器,并用此分类器对测试集中的选择性供体位点和受体位点进行预测.对独立测试集中的选择性供体位点和选择性受体位点的预测成功率分别为88.74%和90.86%,特异性分别为85.62%和81.19%.本文预测选择性剪切位点的方法成功率高于其它选择性剪切位点预测方法预测成功率,此预测方法进一步提高了对选择性剪切位点的理论预测能力.  相似文献   

7.
翻译起始位点(TIS,即基因5’端)的精确定位是原核生物基因预测的一个关键问题,而基因组GC含量和翻译起始机制的多样性是影响当前TIS预测水平的重要因素.结合基因组结构的复杂信息(包括GC含量、TIS邻近序列及上游调控信号、序列编码潜能、操纵子结构等),发展刻画翻译起始机制的数学统计模型,据此设计TIS预测的新算法MED.StartPlus.并将MED.StartPlus与同类方法RBSfinder、GS.Finder、MED-Start、TiCo和Hon-yaku等进行系统地比较和评价.测试针对两种数据集进行:当前14个已知的TIS被确认的基因数据集,以及300个物种中功能已知的基因数据集.测试结果表明,MED-StartPlus的预测精度在总体上超过同类方法.尤其是对高GC含量基因组以及具有复杂翻译起始机制的基因组,MED-StartPlus具有明显的优势.  相似文献   

8.
9.
膜蛋白是一类结构独特的蛋白质,是细胞执行各种功能的物质基础。根据其在细胞膜上的不同存在方式,主要分为六种类型。本文利用压缩的氨基酸对原始膜蛋白序列进行信息压缩,再对压缩序列进行氨基酸组成和顺序特征的提取,最后采用支持向量机构建分类模型。通过五叠交叉验证的结果表明,该方法对于六种膜蛋白的分类预测,准确度最高可达98%以上,平均预测准确度在85%以上,可有效实现膜蛋白六种类型的划分,为进一步分析膜蛋白的结构和功能奠定基础。  相似文献   

10.
低维输入空间的支持向量机识别人类剪接位点   总被引:1,自引:0,他引:1  
真核生物剪接位点的识别作为基因阵构成的向量来表示序列,用支持向量机在六维向量空间中寻找最优超平面,从而将真实的剪接位点和虚假的剪接位点进行分类.计算结果表明,利用这样的算法预测人类的剪接位点,有较好的预测效果.与其他的一些算法相比,表现出参数少,精度高等优点.  相似文献   

11.
12.
Translation is a key process for gene expression. Timely identification of the translation initiation site (TIS) is very important for conducting in-depth genome analysis. With the avalanche of genome sequences generated in the postgenomic age, it is highly desirable to develop automated methods for rapidly and effectively identifying TIS. Although some computational methods were proposed in this regard, none of them considered the global or long-range sequence-order effects of DNA, and hence their prediction quality was limited. To count this kind of effects, a new predictor, called “iTIS-PseTNC,” was developed by incorporating the physicochemical properties into the pseudo trinucleotide composition, quite similar to the PseAAC (pseudo amino acid composition) approach widely used in computational proteomics. It was observed by the rigorous cross-validation test on the benchmark dataset that the overall success rate achieved by the new predictor in identifying TIS locations was over 97%. As a web server, iTIS-PseTNC is freely accessible at http://lin.uestc.edu.cn/server/iTIS-PseTNC. To maximize the convenience of the vast majority of experimental scientists, a step-by-step guide is provided on how to use the web server to obtain the desired results without the need to go through detailed mathematical equations, which are presented in this paper just for the integrity of the new prection method.  相似文献   

13.
本文采用神经网络方法对真核基因的PolyA信号进行识别.文中选择了人类、牛、猪、猫、山羊、兔、绵羊、大鼠、小鼠、小马、鸡、仓鼠共12种真核生物的270个基因组作为研究对象,训练组包括230个基因,预测组包括40个基因.结果表明,结合PolyA上游的碱基顺序特异性(紧挨PolyA的上游地GC),可以从神经网络识别的大量可能PolyA信号中得到正确PolyA信号.  相似文献   

14.
根据支持向量机的基本原理,给出一种推广误差上界估计判据,并利用该判据进行最优核参数的自动选取。对三种不同意识任务的脑电信号进行多变量自回归模型参数估计,作为意识任务的特征向量,利用支持向量机进行训练和分类测试。分类结果表明,优化核参数的支持向量机分类器取得了最佳的分类效果,分类正确率明显高于径向基函数神经网络。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号