首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
艾亮  冯杰 《生物信息学》2023,21(3):179-186
本文提出了一种新的快速非比对的蛋白质序列相似性与进化分析方法。在刻画蛋白质序列特征时,首先将氨基酸的10种理化性质通过主成分分析浓缩为6个主成分,并且将每条蛋白质序列里的氨基酸数目作为权重对主成分得分值进行加权平均,然后再融合氨基酸的位置信息构成一个26维的蛋白质序列特征向量,最后利用欧式距离度量蛋白质序列间的相似性及进化关系。通过对3个蛋白质序列数据集的测试表明,本文提出的方法能将每条蛋白质序列准确聚类,并且简便快捷,说明了该方法的有效性。  相似文献   

2.
为了更多地挖掘隐藏在蛋白质序列中的信息,本研究将20种氨基酸均匀地排列在单位圆周上,得到每种氨基酸对应的二维坐标,再与氨基酸的6个理化指标结合起来,最终用一个八维向量来刻画蛋白质序列。为避免数据极差对分析结果造成的影响,本研究对蛋白质序列所对应的八维向量作归一化处理。基于归一化后的蛋白质序列的向量表示,运用神经网络对蛋白质序列进行分类,并根据向量之间的欧式距离来量化序列之间的相似性。最后,以9个不同物种的ND5蛋白质序列以及8个不同物种的ND6蛋白质序列为例,Clustal W序列比对方法为基准,对本研究的方法与5-字母方法进行验证和比较,结果表明本研的方法是有效的。  相似文献   

3.
图聚类用于蛋白质分类问题可以获得较好结果,其前提是将蛋白质之间复杂的相互关系转化为适当的相似性网络作为图聚类分类的输入数据。本文提出一种基于BLAST检索的相似性网络构建方法,从目标蛋白质序列出发,通过若干轮次的BLAST检索逐步从数据库中提取与目标蛋白质直接或间接相关的序列,构成关联集。关联集中序列之间的相似性关系即相似性网络,可作为图聚类算法的分类依据。对Pfam数据库中依直接相似关系难以正确分类的蛋白质的计算表明,按本文方法构建的相似性网络取得了比较满意的结果。  相似文献   

4.
以序列相似性低于40%的1895条蛋白质序列构建涵盖27个折叠类型的蛋白质折叠子数据库,从蛋白质序列出发,用模体频数值、低频功率谱密度值、氨基酸组分、预测的二级结构信息和自相关函数值构成组合向量表示蛋白质序列信息,采用支持向量机算法,基于整体分类策略,对27类蛋白质折叠子的折叠类型进行预测,独立检验的预测精度达到了66.67%。同时,以同样的特征参数和算法对27类折叠子的4个结构类型进行了预测,独立检验的预测精度达到了89.24%。将同样的方法用于前人使用过的27类折叠子数据库,得到了好于前人的预测结果。  相似文献   

5.
构建基于折叠核心的全α类蛋白取代矩阵   总被引:1,自引:0,他引:1  
氨基酸残基取代矩阵是影响多序列比对效果的重要因素,现有的取代矩阵对低相似序列的比对性能较低.在已有的 BLOSUM 取代矩阵算法基础上,定义了基于蛋白质折叠核心结构的序列 结构数据块;提出一种新的基于全α类蛋白质折叠核心结构的氨基酸残基取代矩阵——TOPSSUM25,用于提高低相似度序列的比对效果.将矩阵TOPSSUM25导入多序列比对程序,对相似性小于25%的一组四螺旋束序列 结构数据块的测试结果表明,基于 TOPSSUM25的多序列比对效果明显优于BLOSUM30矩阵;基于一个BAliBASE子集的比对检验也进一步表明, TOPSSUM25在全α类蛋白质的两两序列比对上优于BLOSUM30矩阵.研究结果可为进一步的阐明低同源蛋白质序列 结构 功能关系提供帮助.  相似文献   

6.
蛋白质结构类预测是生物信息和蛋白质科学中重要的研究领域.基于Chou提出的伪氨基酸离散模型框架,从蛋白质序列出发,设计一种新的伪氨基酸组成方法表示蛋白质序列样本.抽取氨基酸组合(10-D)在序列中出现的频率和疏水氨基酸模式(6-D)表示蛋白质序列的附加特征,用和传统的氨基酸组成(20-D)一起构成的36维的伪氨基酸组成向量来表示蛋白质序列的特征.使用遗传算法来优化附加特征的权重系数.伪氨基酸组成向量作为输入数据,模糊支持向量机作为预测工具.使用三个常用的标准数据集来验证算法的性能.Jack-knife检验结果说明本方法具有较高的准确率,有望成为潜在的预测蛋白质功能的工具.  相似文献   

7.
蛋白质序列的一种新的三维图形表示及其应用   总被引:1,自引:0,他引:1  
基于氨基酸的五字母模型,给出蛋白质序列的一种新的三维图形表示,然后构造一个12维向量来刻画蛋白质序列,这个向量的分量是与12个图形相对应的D/D矩阵的正规化的ALE-指标。最后基于s结构蛋白对冠状病毒进行系统发生分析来阐明该方法的有用性。  相似文献   

8.
依据蛋白质折叠子中氨基酸保守性,以氨基酸、氨基酸的极性、氨基酸的电性以及氨基酸的亲—疏水性为参数,从蛋白质的氨基酸序列出发,采用"一对多"的分类策略,通过构建打分矩阵和选取氨基酸序列模式片断,利用5种相似性打分函数对27类折叠子进行识别,最好的预测精度达到83.46%。结果表明,打分矩阵是预测多类蛋白质折叠子有效的方法。  相似文献   

9.
通过研究神经网络权值矩阵的算法,挖掘蛋白质二级结构与氨基酸序列间的内在规律,提高一级序列预测二级结构的准确度。神经网络方法在特征分类方面具有良好表现,经过学习训练后的神经元连接权值矩阵包含样本的内在特征和规律。研究使用神经网络权值矩阵打分预测;采用错位比对方法寻找敏感的氨基酸邻域;分析测试集在不同加窗长度下的共性表现。实验表明,在滑动窗口长度L=7时,预测性能变化显著;邻域位置P=4的氨基酸残基对预测性能有加强作用。该研究方法为基于局部序列特征的蛋白质二级结构预测提供了新的算法设计。  相似文献   

10.
李楠  李春 《生物信息学》2012,10(4):238-240
基于氨基酸的16种分类模型,给出蛋白质序列的派生序列,进而结合加权拟熵和LZ复杂度构造出34维特征向量来表示蛋白质序列。借助于贝叶斯分类器对同源性不超过25%的640数据集进行蛋白质结构类预测,准确度达到71.28%。  相似文献   

11.
张堃  赵静静  唐旭清 《生命科学研究》2011,15(2):101-106,124
基于经典HP模型,利用蛋白质序列的矩阵图谱表达法(MGR)及数值刻画的思想提出了一种新的蛋白质序列的比对方法,通过观察蛋白质序列的数值刻画图及计算两蛋白质序列之间的欧氏距离d,对木聚糖酶两家族的蛋白质序列进行了相似性分析.发现被划分为同一木聚糖酶家族的蛋白质序列之间的相似性更大,而且蛋白质序列的相似性程度与分子大小、结构和分子进化相关.  相似文献   

12.
邹凌云  王正志  黄教民 《遗传学报》2007,34(12):1080-1087
蛋白质必须处于正确的亚细胞位置才能行使其功能。文章利用PSI-BLAST工具搜索蛋白质序列,提取位点特异性谱中的位点特异性得分矩阵作为蛋白质的一类特征,并计算4等分序列的氨基酸含量以及1~7阶二肽含量作为另外两类特征,由这三类特征一共得到蛋白质序列的12个特征向量。通过设计一个简单加权函数对各类特征向量加权处理,作为神经网络预测器的输入,并使用Levenberg-Marquardt算法代替传统的EBP算法来调整网络权值和阈值,大大提高了训练速度。对具有4类亚细胞位置和12类亚细胞位置的两种蛋白质数据集分别进行"留一法"测试和5倍交叉验证测试,总体预测精度分别达到88.4%和83.3%。其中,对4类亚细胞位置数据集的预测效果优于普通BP神经网络、隐马尔可夫模型、模糊K邻近等预测方法,对12类亚细胞位置数据集的预测效果优于支持向量机分类方法。最后还对三类特征采取不同加权比例对预测精度的影响进行了讨论,对选择的八种加权比例的预测结果表明,分别给予三类特征合适的权值系数可以进一步提高预测精度。  相似文献   

13.
蛋白质三维结构叠加面临的主要问题是,参与叠加的目标蛋白质的氨基酸残基存在某些缺失,但是多结构叠加方法却大多数需要完整的氨基酸序列,而目前通用的方法是直接删去缺失的氨基酸序列,导致叠加结果不准确。由于同源蛋白质间结构的相似性,因此,一个蛋白质结构中缺失的某个区域,可能存在于另一个同源蛋白质结构中。基于此,本文提出一种新的、简单、有效的缺失数据下的蛋白质结构叠加方法(ITEMDM)。该方法采用缺失数据的迭代思想计算蛋白质的结构叠加,采用优化的最小二乘算法结合矩阵SVD分解方法,求旋转矩阵和平移向量。用该方法成功叠加了细胞色素C家族的蛋白质和标准Fischer’s 数据库的蛋白质(67对蛋白质),并且与其他方法进行了比较。数值实验表明,本算法有如下优点:①与THESEUS算法相比较,运行时间快,迭代次数少;②与PSSM算法相比较,结果准确,运算时间少。结果表明,该方法可以更好地叠加缺失数据的蛋白质三维结构。  相似文献   

14.
基于混沌游走方法的Rh血型系统中RHD基因的分析   总被引:3,自引:0,他引:3  
高雷  齐斌  朱平 《生命科学研究》2009,13(5):408-412
利用基于经典HP模型的蛋白质序列混沌游走方法(chaos game representation,CGR),给出了RHD基因的蛋白质序列CGR图,可视作蛋白质序列二级结构的一个特征图谱描述.对临床上的血型鉴别有一定的参考价值.另外.还根据由Jeffrey在1990年提出的描绘DNA序列的CGR方法,给出了RHD基因的DNA序列的CGR图.并且根据RHD基因DNA序列的CGR图算出了尺日D基因相应的马尔可夫两步转移概率矩阵,从概率矩阵表可以看出RHD基因对编码氨基酸的三联子的第3个碱基的使用偏好性.  相似文献   

15.
从蛋白质序列出发,对经Dr.G.P.S.Raghava整理和使用过的168条非冗余的ATP与蛋白质结合氨基酸序列进行分段,对ATP与蛋白质结合位点进行了统计分析。在此基础上,利用20种氨基酸的亲疏水性将20种氨基酸约化为6类。以氨基酸组分和6类亲疏水紧邻为参数,用多样性增量(ID)方法将氨基酸组分和6类亲疏水紧邻降维并将降维后的特征参数输入支持向量机中运算,本文运算结果显示用氨基酸组分ID值和6类亲疏水紧邻ID值共同作为特征参数结果最优,在七交叉检验下的预测总精度达到了99.67%,相关系数达到0.9934,好于前人的预测结果。  相似文献   

16.
《生命科学研究》2016,(2):119-124
在传统表征蛋白质序列的40维特征向量的基础上,依据氨基酸的种类与理化性质,将蛋白质序列40维向量分解为20维、4维和16维3种子特征向量描述。结合33条H1N1流感病毒血凝素(hemagglutinin,HA)蛋白质序列和统计学相关性分析理论,进行了蛋白质序列两两之间及每条病毒蛋白质序列对应的不同子特征向量之间的相关性分析,发现病毒蛋白质序列之间存在高度相关性,且每条病毒蛋白质序列对应的20维子特征向量与其他两种子特征向量之间均不显著相关,而4维与16维子特征向量之间显著相关。进一步依据不同的特征向量对33条HA蛋白质序列进行分类,研究发现依据40维特征向量与16维特征向量进行的分类结果高度一致。因此,在不影响表征病毒序列特性的前提下,对于已有的表征蛋白质序列的40维特征向量,可以用16维的特征向量进行代替,以减少计算复杂度。  相似文献   

17.
本文在菱形网格上研究讨论了二维HP模型。首先,将蛋白质结构预测问题转化成一个数学问题,并简化成氨基酸序列中每个氨基酸与网格格点的匹配问题。为了解决这个数学问题,我们改进并扩展了经典的粒子群算法。为了验证算法和模型的有效性,我们对一些典型的算例进行数值模拟。通过与方格网上得到的蛋白质构象进行比较,菱形网上的蛋白质构象更自然,更接近真实。我们进一步比较了菱形网格上的紧致构象和非紧致构象。结果显示我们的模型和算法在菱形网格上预测氨基酸序列的蛋白质结构是有效的有意义的。  相似文献   

18.
本文在菱形网格上研究讨论了二维HP模型。首先,将蛋白质结构预测问题转化成一个数学问题,并简化成氨基酸序列中每个氨基酸与网格格点的匹配问题。为了解决这个数学问题,我们改进并扩展了经典的粒子群算法。为了验证算法和模型的有效性,我们对一些典型的算例进行数值模拟。通过与方格网上得到的蛋白质构象进行比较,菱形网上的蛋白质构象更自然,更接近真实。我们进一步比较了菱形网格上的紧致构象和非紧致构象。结果显示我们的模型和算法在菱形网格上预测氨基酸序列的蛋白质结构是有效的有意义的。  相似文献   

19.
基于氨基酸特征序列的蛋白质结构分析   总被引:2,自引:1,他引:2  
针对蛋白质序列中氨基酸的核苷酸组成部分及其相关特征信息,提出另外的σ-等序列的概念,并讨论了其主要特征与次要特征,可作为对蛋白质进行定性和定量比较的一种方法,用来判断这些物种的同源性和相似性程度。然后,对所取的全α螺旋,全β折叠和αβ类序列,利用σ-,τ-,στ序列的概念,给出蛋白质序列的相关氨基酸特征序列。同时对三类共18个蛋白质序列进行数值刻划,给出数值刻划图并进行分析。  相似文献   

20.
给出了蛋白质序列的一种六维表示方法,根据这种表示方法有3种不同表示形式,利用这3种形式来构造距离矩阵的信息熵,然后通过信息熵向量的欧式距离、夹角来比较序列之间的相似性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号