首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 62 毫秒
1.
基于支持向量机(SVM)的剪接位点识别   总被引:14,自引:1,他引:13  
剪接位点的识别作为基因识别中的一个重要环节, 一直受到研究人员的关注。考虑到剪接位点附近存在的序列保守性,已有一些基于统计特性的方法被用于剪接位点的识别中,但效果仍有待进一步改进。支持向量机(Support Vector Machines) 作为一种新的基于统计学习理论的学习机,近几年有了很大的发展,已被应用在模式识别的许多问题中。文中将其用于剪接位点的识别中,并针对满足GT- AG 规则的序列样本中虚假剪接位点的样本数远大于真实位点这一特性, 提出了一种基于SVM 的平衡取小法以获得更好的识别效果。实验结果表明,应用支持向量机进行剪接位点的识别能更好地提取位点附近保守序列的统计特征,对测试集具有更好的推广能力,并且使用上更加简单。这一结果为剪接位点的识别提供了一种新的方法,同时也为生物大分子研究中结构和位点的识别问题的解决提供了新的线索。  相似文献   

2.
基于支持向量机的人类5’非翻译区剪接位点识别   总被引:5,自引:0,他引:5  
基因非编码区域剪接位点的识别是基因识别中一个非常具有挑战性的问题,尤其是5’非翻译区中剪接位点的识别。与一般剪接位点不同,5’非翻译区剪接位点的两侧不存在由编码到非编码的状态转移,所以通常的剪接位点识别算法在非翻译区的性能不太理想。文章采用了基于支持向量机的方法对5’非翻译区中的剪接位点进行识别。为了提高识别精度,采用了基于矩阵相似性度量的核函数参数选取方法,它能够简单快速地确定合适的核函数参数,进而提高核函数的识别性能。通过实验验证,经过参数选择后的支持向量机能够较好地识别5'非翻译区剪接位点。  相似文献   

3.
磷酸化是蛋白质翻译后的主要修饰,可分为激酶特异性和非激酶特异性两种类型.以非激酶特异性磷酸化位点Dou数据集为基础,本文发展了一种基于位置的卡方差表特征χ2-pos,融合伪氨基酸序列进化信息PsePSSM表征序列,构建正负样本均衡的支持向量机分类器,S, T, Y独立测试Matthew相关系数、ROC曲线下面积分及准确率分别达到了(0.59、0.87、79.74%),(0.55、0.85、77.68%)和(0.50、0.81、75.22%),明显优于文献报道结果. χ2-pos、PsePSSM两种特征的融合在蛋白质磷酸化位点预测中有广泛应用前景.  相似文献   

4.
糖基化是蛋白质翻译后的主要修饰,O-糖基化的固定模式未知,高精度识别O-糖基化位点是机器学习面临的挑战性问题.以迄今最大的人O-糖基化位点Steentoft数据集为基础,本文首次提出了基于位置的卡方差表特征χ~2-pos,融合伪氨基酸序列进化信息Pse PSSM以及无方向的k间隔氨基酸对组分Undirected-CKSAAP表征序列,构建5个正负样本均衡的支持向量机分类器,经加权投票,独立测试准确率、Matthew相关系数及ROC曲线下面积,分别达到了89.62%、0.79、0.96,明显优于文献报道结果.χ~2-pos、Pse PSSM与Undirected-CKSAAP三种特征的融合在蛋白质糖基化、磷酸化等位点预测中有广泛应用前景.  相似文献   

5.
低维输入空间的支持向量机识别人类剪接位点   总被引:1,自引:0,他引:1  
真核生物剪接位点的识别作为基因阵构成的向量来表示序列,用支持向量机在六维向量空间中寻找最优超平面,从而将真实的剪接位点和虚假的剪接位点进行分类.计算结果表明,利用这样的算法预测人类的剪接位点,有较好的预测效果.与其他的一些算法相比,表现出参数少,精度高等优点.  相似文献   

6.
蛋白质亚细胞定位预测对蛋白质的功能、相互作用及调控机制的研究具有重要意义。本文基于物化性质和结构性质对氨基酸的约化,描述序列局部和全局信息的"组成"、"转换"和"分布"特征,并利用氨基酸亲疏水性的数值统计特征,提出了一种新的蛋白质特征表示方法(NSBH)。分别使用三种分类器KNN、SVM及BP神经网络进行蛋白质亚细胞定位预测,比较了几种方法和特征融合方法的预测结果,显示融合特征表示及结合SVM分类器时能够达到更好的预测准确率。同时,还详细讨论了不同参数对实验结果的影响,具体的实验及比较结果显示了该方法的有效性。  相似文献   

7.
在抗艾滋病治疗中,HIV-1蛋白酶抑制剂发挥着重要作用。对于HIV-1蛋白酶裂解作用位点的研究有助于找到新的治疗靶点。为了对HIV-1蛋白酶特异位点进行预测,本研究用氨基酸索引数据库(Amino Acid Index,AAIndex)中的531个氨基酸物理化学性质参数直接表征肽样本的结构,通过二层特征筛选,最终将4248个表征参数降为57个表征参数。分别采取四种核函数进行HIV-1蛋白酶特异位点的支持向量机(SVM)建模,并通过10折交叉验证及外部测试集方法来验证建模的准确性。结果表明选取NormalizePolyKernel核函数进行SVM建模效果优于其他核函数(PolyKernel、PUK、RBFKernel),所建立的模型对于训练集的10组交叉验证预测准确率达到93.947%,对于外部测试集的预测正确率达到93.684%。  相似文献   

8.
启动子预测是研究基因转录调控的重要环节,但现有算法的预测正确率偏低.在深入分析启动子生物特征的基础上,提出了一种基于支持向量机的枯草杆菌启动子预测算法,在启动子序列的组成特征、信号特征和结构特征中选取9种典型特征作为预测的依据,对于信号特征,除了利用保守模式的一致序列,还考虑了间隔距离的分布信息.首先通过特征描述模型分别计算每种特征在启动子序列和非启动子序列中的得分,将特征得分组合成9维特征向量,再利用支持向量机在特征向量集上进行训练和判别.对实际数据集进行的刀切法测试验证了算法的有效性.对σ启动予的预测,平均正确率达到了90.7%;对几种其它σ因子启动子的预测,平均正确率也超过了80%.算法不但有广泛的适用性,还有良好的可扩展性,能够方便的容纳新特征,使识别性能不断提高.  相似文献   

9.
基于已知的人类PolII启动子序列数据,综合选取启动子序列内容和序列信号特征,构建启动子的支持向量机分类器.分别以启动子序列的6-mer频数作为离散源参数构建序列内容特征。同时选取24个位点的3-mer频数作为序列信号特征构建PWM,将所得到的两类参数输入支持向量机对人类启动子进行预测.用10折叠交叉检验和独立数据集来衡量算法的预测能力,相关系数指标达到95%以上,结果显示结合了支持向量机的离散增量算法能够有效的提高预测成功率,是进行真核生物启动子预测的一种很有效的方法.  相似文献   

10.
杨科利  许强 《生物技术》2008,18(2):39-42
目的:改进真核生物启动子的理论预测方法。方法:基于启动子序列的信号特征和内容特征,构建6个标准离散源,计算每条序列相对于标准离散源的离散增量;构建信号特征的启动子位置权重矩阵,计算其对应位置的位置权重打分函数,将所得到的两类参数输入支持向量机对果蝇启动子进行预测。结果:利用self-consistency和cross-validation两种方法对此算法进行检验,均获得了较高的预测成功率,结果表明五种转录因子结合位点的预测成功率均超过91%。结论:结果显示结合了支持向量机的离散增量算法能够有效的提高预测成功率,是进行真核生物启动子预测的一种很有效的方法。  相似文献   

11.
在蛋白质结构预测的研究中,一个重要的问题就是正确预测二硫键的连接,二硫键的准确预测可以减少蛋白质构像的搜索空间,有利于蛋白质3D结构的预测,本文将预测二硫键的连接问题转化成对连接模式的分类问题,并成功地将支持向量机方法引入到预测工作中。通过对半胱氨酸局域序列连接模式的分类预测,可以由蛋白质的一级结构序列预测该蛋白质的二硫键的连接。结果表明蛋白质的二硫键的连接与半胱氨酸局域序列连接模式有重要联系,应用支持向量机方法对蛋白质结构的二硫键预测取得了良好的结果。  相似文献   

12.
基于SVM 的药物靶点预测方法及其应用   总被引:1,自引:0,他引:1       下载免费PDF全文
目的:基于已知药物靶点和潜在药物靶点蛋白的一级结构相似性,结合SVM技术研究新的有效的药物靶点预测方法。方法:构造训练样本集,提取蛋白质序列的一级结构特征,进行数据预处理,选择最优核函数,优化参数并进行特征选择,训练最优预测模型,检验模型的预测效果。以G蛋白偶联受体家族的蛋白质为预测集,应用建立的最优分类模型对其进行潜在药物靶点挖掘。结果:基于SVM所建立的最优分类模型预测的平均准确率为81.03%。应用最优分类器对构造的G蛋白预测集进行预测,结果发现预测排位在前20的蛋白质中有多个与疾病相关。特别的,其中有两个G蛋白在治疗靶点数据库(TTD)中显示已作为临床试验的药物靶点。结论:基于SVM和蛋白质序列特征的药物靶点预测方法是有效的,应用该方法预测出的潜在药物靶点能够为发现新的药靶提供参考。  相似文献   

13.
MicroRNA(miRNA)是一类长度约为21 nt的非编码RNA,在动植物中发挥着重要而广泛的转录后调控作用. 现有的计算预测方法通常不能很好地识别具有多分枝茎环二级结构的pre miRNA.为进一步提高对pre miRNA的预测精度,本文在以往研究的基础上,新引用了一类多茎环生物学特征,将遗传算法(GA)与支持向量机(SVM)结合以进行特征选择,同时优化SVM分类器模型参数(c,g),并对数据集的不平衡性进行处理,构造出新的分类器.本文采用人类pre miRNA作为研究数据集,通过5折交叉验证,实验结果显示,新的分类器能够有效地提高预测精度.  相似文献   

14.
随着各种生物基因组序列测定工作的完成,大量的DNA序列数据涌现出来,为研究在基因组中寻找水平转移基因提供了极大的便利.将基因序列特征分析和支持向量机技术结合起来,通过分析基因序列的特征差异发现水平转移基因.依据以前研究工作的基础,选取了绝对密码子使用频率(FCU)作为序列特征,主要因为它既包含了基因密码子使用偏性的信息,也包含了基因所编码蛋白的氨基酸组成信息,支持向量机利用这些信息进行水平转移基因分析和预测,可以提高预测的准确性.另外,提出了基于分链的水平转移基因预测新方法,即将细菌基因组前导链和滞后链上的基因区别对待,分别进行水平转移基因预测.结果显示,基本预测方法要优于目前预测结果最好的Tsirigos等提出的基于八联核苷酸频率的打分算法,命中率的相对提高率最高达31.47%,而基于分链的方法对水平转移基因的预测取得了更好的结果.  相似文献   

15.
《IRBM》2020,41(3):161-171
BackgroundThe voice is a prominent tool allowing people to communicate and to change information in their daily activities. However, any slight alteration in the voice production system may affect the voice quality. Over the last years, researchers in biomedical engineering field worked to develop a robust automatic system that may help clinicians to perform a preventive diagnosis in order to detect the voice pathologies in an early stage.MethodIn this context, pathological voice detection and classification method based on EMD-DWT analysis and Higher Order Statistics (HOS) features, is proposed. Also DWT coefficients features are extracted and tested. To carry out our experiments a wide subset of voice signal from normal subjects and subjects which suffer from the five most frequent pathologies in the Saarbrücken Voice Database (SVD), is selected. In The first step, we applied the Empirical Mode Decomposition (EMD) to the voice signal. Afterwards, among the obtained candidates of Intrinsic Mode Functions (IMFs), we choose the robust one based on temporal energy criterion. In the second step, the selected IMF was decomposed via the Discrete Wavelet Transform (DWT). As a result, two features vector includes six HOSs parameters, and a features vector includes six DWT features were formed from both approximation and detail coefficients. In order to classify the obtained data a support vector machine (SVM) is employed. After having trained the proposed system using the SVD database, the system was evaluated using voice signals of volunteer's subjects from the Neurological department of RABTA Hospital of Tunis.ResultsThe proposed method gives promising results in pathological voices detection. The accuracies reached 99.26% using HOS features and 93.1% using DWT features for SVD database. In the classification, an accuracy of 100% was reached for “Funktionelle Dysphonia vs. Rekrrensparese” based on HOS features. Nevertheless, using DWT features the accuracy achieved was 90.32% for “Hyperfunktionelle Dysphonia vs. Rekurrensparse”. Furthermore, in the validation the accuracies reached were 94.82%, 91.37% for HOS and DWT features, respectively. In the classification the highest accuracies reached were for classifying “Parkinson versus Paralysis” 94.44% and 88.87% based on HOS and DWT features, respectively.ConclusionHOS features show promising results in the automatic voice pathology detection and classification compared to DWT features. Thus, it can reliably be used as noninvasive tool to assist clinical evaluation for pathological voices identification.  相似文献   

16.
蛋白质的亚细胞定位是进行蛋白质功能研究的重要信息.蛋白质合成后被转运到特定的细胞器中,只有转运到正确的部位才能参与细胞的各种生命活动,有效地发挥功能.尝试了将保守序列及蛋白质相互作用数据的编码信息结合传统的氨基酸组成编码,采用支持向量机进行蛋白质亚细胞定位预测,在真核生物中5轮交叉验证精度达到91.8%,得到了显著的提高.  相似文献   

17.
Li N  Hou T  Ding B  Wang W 《Proteins》2011,79(11):3208-3220
PDZ domain is one of the abundant modular domains that recognize short peptide sequences to mediate protein-protein interactions. To decipher the binding specificity of PDZ domain, we analyzed the interactions between 11 mouse PDZ domains and 2387 peptides using a method called MIEC-SVM, which energetically characterizes the domain-peptide interaction using molecular interaction energy components (MIECs) and predicts binding specificity using support vector machine (SVM). Cross-validation and leave-one-domain-out test showed that the MIEC-SVM using all 44 PDZ-peptide residue pairs at the interaction interface outperformed the sequence-based methods in the literature. A further feature (residue pair) selection procedure illustrated that 16 residue pairs were uninformative to the binding specificity, even though they contributed significantly (~50%) to the binding energy. If only using the 28 informative residue pairs, the performance of the MIEC-SVM on predicting the PDZ binding specificity was significantly improved. This analysis suggests that the informative and uninformative residue interactions between the PDZ domain and the peptide may represent those contributing to binding specificity and affinity, respectively. We performed additional structural and energetic analyses to shed light on understanding how the PDZ-peptide recognition is established. The success of the MIEC-SVM method on PDZ domains in this study and SH3 domains in our previous studies illustrates its generality on characterizing protein-peptide interactions and understanding protein recognition from a structural and energetic viewpoint.  相似文献   

18.
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号