首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
陶华  唐旭清 《生物信息学》2012,10(4):269-273,279
基于模糊邻近关系的粒度空间,对蛋白质序列进行聚类结构分析。利用MEGA软件计算选取的木聚糖酶序列间的比对距离,引入内积将其转化为模糊邻近关系(或矩阵),再应用算法求解其粒度空间,进行序列的聚类结构分析和最佳聚类确定研究。这些研究为蛋白质序列提供了定量分析的工具。  相似文献   

2.
用比较聚类法寻找转录因子的结合位点   总被引:3,自引:1,他引:3  
将动态序列比较和自动聚类算法相结合,对92个mRNA的转录调控区域的所有8元碱基片段进行了分析,得到了52个聚类中心,并与已知的转录因子结合位点相比较,结果表明,用本方法寻找蛋白质基因调控区的转录因子结合位点是简单可行的。  相似文献   

3.
图聚类用于蛋白质分类问题可以获得较好结果,其前提是将蛋白质之间复杂的相互关系转化为适当的相似性网络作为图聚类分类的输入数据。本文提出一种基于BLAST检索的相似性网络构建方法,从目标蛋白质序列出发,通过若干轮次的BLAST检索逐步从数据库中提取与目标蛋白质直接或间接相关的序列,构成关联集。关联集中序列之间的相似性关系即相似性网络,可作为图聚类算法的分类依据。对Pfam数据库中依直接相似关系难以正确分类的蛋白质的计算表明,按本文方法构建的相似性网络取得了比较满意的结果。  相似文献   

4.
氨基酸组成聚类、蛋白质结构型和结构型的预测   总被引:11,自引:0,他引:11  
用信息聚类方法对蛋白质的氨基酸组成进行聚类,发现存在梯级成团(大集团分解成小集团)现象,645个蛋白质可分成15个小集团,每一个小集团与蛋白质二级结构含量决定的结构型有一定相关性,但与蛋白质五大结构型相关性不明显。指出了由氨基酸成分和二级结构含量预测结构型的方案中存在的问题。提出了由蛋白质二级结构序列预测蛋白质结构型的新方法,并给出了预测蛋白质结构型的简明预测规则  相似文献   

5.
基于最近邻居算法,从蛋白质一级序列出发,利用蛋白质序列氨基酸组成、二肤组成以及混合组成方法对蛋白质单聚体、二聚体、三聚体、四聚体、五聚体、六聚体和八聚体进行分类研究。结果表明:采用二肽组成编码方法的预洲效果最好,Jackknife检验和独立测试集检验的总体预测精度分别达到90.83%和95.48%,比相同数据集上基于伪氨基酸组成和组分耦合预测的方法提高了12和15个百分点;特别是对于五聚体蛋白,预测精度分别提高了90和50个百分点;说明二肽组成对于蛋白质四级结构分类研究是一种非常有效的特征提取方法。  相似文献   

6.
使用图像特征构建快速有效的蛋白质折叠识别方法   总被引:2,自引:0,他引:2  
蛋白质结构自动分类是探索蛋白质结构- 功能关系的一种重要研究手段。首先将蛋白质折叠子三维空间结构映射成为二维距离矩阵,并将距离矩阵视作灰度图像。然后基于灰度直方图和灰度共生矩阵提出了一种计算简单的折叠子结构特征提取方法,得到了低维且能够反映折叠结构特点的特征,并进一步阐明了直方图中零灰度孤峰形成原因,深入分析了共生矩阵特征中灰度分布、不同角度和像素距离对应的结构意义。最后应用于27类折叠子分类,对独立集测试的精度达到了71.95 %,对所有数据进行10 交叉验证的精度为78.94 %。与多个基于序列和结构的折叠识别方法的对比结果表明,此方法不仅具有低维和简洁的特征,而且无需复杂的分类系统,能够有效和高效地实现多类折叠子识别。  相似文献   

7.
付新  徐振源 《生物信息学》2007,5(3):113-116
利用一种新的基于图论理论的DNA序列(片段)分析的方法,即通过复杂网络研究生物体的拓扑结构,主要通过测量聚类系数(集团系数)构建网络的拓扑结构。依据DNA序列的前缀、后缀关联性质构造了所选取DNA序列(片段)的相关网络,发现该网络分布满足幂率特征,有较大的聚类系数。结果表明构建得到的网络同时满足小世界网络和无尺度网络的特征,证明DNA序列不全是随机的序列,而是有随机扰动的确定结构的序列。  相似文献   

8.
蛋白质网络聚类是识别功能模块的重要手段,不仅有利于理解生物系统的组织结构,对预测蛋白质功能也具有重要的意义。针对目前蛋白质网络聚类算法缺乏有效分析软件的事实,本文设计并实现了一个新的蛋白质网络聚类算法分析平台ClusterE。该平台实现了查全率、查准率、敏感性、特异性、功能富集分析等聚类评估方法,并且集成了FAG-EC、Dpclus、Monet、IPC-MCE、IPCA等聚类算法,不仅可以对蛋白质网络聚类分析结果进行可视化,并且可以在不同聚类分析指标下对多个聚类算法进行可视化比较与分析。该平台具有良好的扩展性,其中聚类算法以及聚类评估方法都是以插件形式集成到系统中。  相似文献   

9.
目的:对新测序菌株Synechococcus sp.PCC 7336的基因组结构分析。方法:利用多种生物信息学工具进行基本信息分析。构建本地比对数据库进行多序列比对分析。构建本地注释数据库进行基因、蛋白质功能分析。基于16S rRNA构建进化树对不同菌株进行聚类并分析进化差异。结果:GC含量为53.7%,共有5 096个蛋白质编码基因,47个RNA基因和不同类型的重复回文序列。与光合作用相关的基因分为9大类,信号传导以"双组分调控系统"为代表,11个次级代谢基因簇合成生物活性物质。进化分析显示其与传统聚球藻菌株差异较大,而与无类囊体蓝藻亲缘关系更密切。结论:Synechococcus sp.PCC 7336是聚球藻属中一个特殊的菌株,在基因组结构、基因数量、进化历程等方面都与其他菌株存在较大差异。  相似文献   

10.
基于知识的蛋白质结构预测   总被引:5,自引:0,他引:5  
介绍了近几年基于知识的蛋白质三维结构预测方法及其进展.目前,基于知识的结构预测方法主要有两类,一类是同源蛋白模建,这种技术比较成熟,模建的结果可靠性比较高,但只适用于同源性比较高的目标序列的模建;另一类方法即蛋白质逆折叠技术,主要包括3D profile方法和基于势函数的方法,给出的是目标蛋白质的空间走向,它主要可用于序列同源性比较低的蛋白质的结构预测.  相似文献   

11.
艾亮  冯杰 《生物信息学》2023,21(3):179-186
本文提出了一种新的快速非比对的蛋白质序列相似性与进化分析方法。在刻画蛋白质序列特征时,首先将氨基酸的10种理化性质通过主成分分析浓缩为6个主成分,并且将每条蛋白质序列里的氨基酸数目作为权重对主成分得分值进行加权平均,然后再融合氨基酸的位置信息构成一个26维的蛋白质序列特征向量,最后利用欧式距离度量蛋白质序列间的相似性及进化关系。通过对3个蛋白质序列数据集的测试表明,本文提出的方法能将每条蛋白质序列准确聚类,并且简便快捷,说明了该方法的有效性。  相似文献   

12.
唐羽  李敏 《生物信息学》2014,12(1):38-45
蛋白质网络聚类是识别功能模块的重要手段,不仅有利于理解生物系统的组织结构,对预测蛋白质功能也具有重要的意义.聚类结果的可视化分析是实现蛋白质网络聚类的有效途径.本论文基于开源的Cytoscape平台,设计并实现了一个蛋白质网络聚类分析及可视化插件CytoCluster.该插件集成了MCODE,FAG-EC,HC-PIN,OH-PIN,IPCA,EAGLE等六种典型的聚类算法;实现了聚类结果的可视化,将分析所得的clusters以缩略图列表的形式直观地显示出来,对于单个cluster,可显示在原网络中的位置,并能生成相应的子图单独显示;可对聚类结果进行导出,记录了算法名称、参数、聚类结果等信息.该插件具有良好的扩展性,提供了统一的算法接口,可不断添加新的聚类算法.  相似文献   

13.
李楠  李春 《生物信息学》2012,10(4):238-240
基于氨基酸的16种分类模型,给出蛋白质序列的派生序列,进而结合加权拟熵和LZ复杂度构造出34维特征向量来表示蛋白质序列。借助于贝叶斯分类器对同源性不超过25%的640数据集进行蛋白质结构类预测,准确度达到71.28%。  相似文献   

14.
基于蛋白质网络功能模块的蛋白质功能预测   总被引:1,自引:0,他引:1  
在破译了基因序列的后基因组时代,随着系统生物学实验的快速发展,产生了大量的蛋白质相互作用数据,利用这些数据寻找功能模块及预测蛋白质功能在功能基因组研究中具有重要意义.打破了传统的基于蛋白质间相似度的聚类模式,直接从蛋白质功能团的角度出发,考虑功能团间的一阶和二阶相互作用,提出了模块化聚类方法(MCM),对实验数据进行聚类分析,来预测模块内未知蛋白质的功能.通过超几何分布P值法和增、删、改相互作用的方法对聚类结果进行预测能力分析和稳定性分析.结果表明,模块化聚类方法具有较高的预测准确度和覆盖率,有很好的容错性和稳定性.此外,模块化聚类分析得到了一些具有高预测准确度的未知蛋白质的预测结果,将会对生物实验有指导意义,其算法对其他具有相似结构的网络也具有普遍意义.  相似文献   

15.
双绕蛋白质的分类与识别   总被引:1,自引:0,他引:1  
蛋白质折叠识别是蛋白质结构研究的重要内容。双绕是α/β蛋白质中结构典型的常见折叠类型。选取22个家族中序列一致性小于25%的79个典型双绕蛋白质作为训练集,以RMSD为指标进行系统聚类,并对各类建立基于结构比对的概形隐马尔科夫模型(profile-HMM)。将Astral1.65中序列一致性小于95%的9 505个样本作为检验集,整体识别敏感性为93.9%,特异性为82.1%,MCC值为0.876。结果表明:对于成员较多,无法建立统一模型的折叠类型,分类建模可以实现较高准确率的识别。  相似文献   

16.
基于四肽构象的可视化聚类的结果,提出了一种新的编码方法,由此可将蛋白质三维构象空间映射到一维编码空间,将蛋白质三维结构空间中的模式搜索和模式发现问题转化为一维编码空间中的相应问题。通过两个算法从模式检索以及模式发现两方面验证了编码的有效性;同时利用熵的概念探讨了序列、结构之间的相关度,得到了一些重要的序列.结构模式.实验结果表明,该编码方法能更加准确地反映四肽构象空间中的分布情况,其结果可解释性更强.  相似文献   

17.
蛋白质折叠模式识别是一种分析蛋白质结构的重要方法。以序列相似性较低的蛋白质为训练集,提取蛋白质序列信息频数及疏水性等信息作为折叠类型特征,从SCOP数据库中已分类蛋白质构建1 393种折叠模式的数据集,采用SVM预测蛋白质1 393种折叠模式。封闭测试准确率达99.612 2%,基于SCOP的开放测试准确率达79.632 9%。基于另一个权威测试集的开放测试折叠准确率达64.705 9%,SCOP类准确率达76.470 6%,可以有效地对蛋白质折叠模式进行预测,从而为蛋白质从头预测提供参考。  相似文献   

18.
双壳贝类线粒体基因组结构的比较   总被引:4,自引:0,他引:4  
宋文涛  高祥刚  李云峰  刘卫东  刘莹  赫崇波 《遗传》2009,31(11):1127-1134
利用比较基因组学和生物信息学方法, 比较分析了已登录到GenBank中的14种海产双壳贝类和2种淡水双壳贝类的线粒体基因组的结构特征。结果发现, 双壳贝类线粒体的基因组结构、基因排列顺序均互不相同; 不同目、科和属之间线粒体基因组的大小、基因排列方式以及基因种类也存在明显的差异, 尤其是基因排列方式没有明显的规律。对16种双壳贝类的线粒体基因组全序列、编码基因序列进行系统分析, 分别得到了不同的聚类结果, 即用基因组全序列聚类时, 16种贝类的聚类结果与传统的形态学分类地位基本相同; 而将16种贝类的所有蛋白质编码基因和2个rRNA基因按照一致顺序排列起来进行聚类时, 所得的系统分类情况与这些贝类传统的形态学分类地位相差较大。  相似文献   

19.
张堃  赵静静  唐旭清 《生命科学研究》2011,15(2):101-106,124
基于经典HP模型,利用蛋白质序列的矩阵图谱表达法(MGR)及数值刻画的思想提出了一种新的蛋白质序列的比对方法,通过观察蛋白质序列的数值刻画图及计算两蛋白质序列之间的欧氏距离d,对木聚糖酶两家族的蛋白质序列进行了相似性分析.发现被划分为同一木聚糖酶家族的蛋白质序列之间的相似性更大,而且蛋白质序列的相似性程度与分子大小、结构和分子进化相关.  相似文献   

20.
基于氨基酸的疏水性和相对分子质量,先把20种氨基酸分为8类,按不同间隔角度放置于圆周上。根据z轴坐标的划分,建立一个坐标空间。将蛋白质序列中的氨基酸按排列顺序映射到空间坐标系中,得到序列的3D模型。将3D模型转换为20维矩阵图,分析序列中氨基酸对数量特征及相似性。进一步将空间坐标转换为数值序列,进行离散傅里叶变换(discrete Fourier transform,DFT),得到原蛋白质序列的功率谱,将不同长度的功率谱扩展到数据集中最长序列的长度m维。再通过计算功率谱序列间的欧氏距离来度量序列相似性,构建系统发育树。最后对不同数据集进行验证,结果显示:聚类结果与矩阵图的分析相符,且优于其他算法的效果,表明此算法对蛋白质相似性研究具有一定的有效性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号