首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 78 毫秒
1.
本研究提出了一种新的RNA二级结构的图形表示方法,这种方法不同于以往的表示方式。根据所提出的RNA二级结构的图形表示,将对9种病毒的RNA二级结构进行图形表示,构建系统进化树,进行序列间相似性的比较和分析。根据最终结果,可以很清晰地发现,AVII与LRMV两种病毒是最为相似的,另外,较大的距离值出现在了APMV与ALMV;PDV与AVII中,这说明这几种RNA二级结构明显不相似。这一研究结果与前人相似性分析的结果是十分相似的,同时,所采取的方法更加简单易于区分观察且得到的结果又是十分可靠的,因此,这些更加证明了该方法是有效的。  相似文献   

2.
为了更多地挖掘隐藏在蛋白质序列中的信息,本研究将20种氨基酸均匀地排列在单位圆周上,得到每种氨基酸对应的二维坐标,再与氨基酸的6个理化指标结合起来,最终用一个八维向量来刻画蛋白质序列。为避免数据极差对分析结果造成的影响,本研究对蛋白质序列所对应的八维向量作归一化处理。基于归一化后的蛋白质序列的向量表示,运用神经网络对蛋白质序列进行分类,并根据向量之间的欧式距离来量化序列之间的相似性。最后,以9个不同物种的ND5蛋白质序列以及8个不同物种的ND6蛋白质序列为例,Clustal W序列比对方法为基准,对本研究的方法与5-字母方法进行验证和比较,结果表明本研的方法是有效的。  相似文献   

3.
基于DNA序列的3D图形表示,通过L/L矩阵的规范化最大特征值组成的3维向量来刻画了DNA序列,并基于这种方法,用β-globin基因的第一个外显子分析了11个物种的相似性问题。  相似文献   

4.
给出了蛋白质序列的一种六维表示方法,根据这种表示方法有3种不同表示形式,利用这3种形式来构造距离矩阵的信息熵,然后通过信息熵向量的欧式距离、夹角来比较序列之间的相似性。  相似文献   

5.
艾亮  冯杰 《生物信息学》2023,21(3):179-186
本文提出了一种新的快速非比对的蛋白质序列相似性与进化分析方法。在刻画蛋白质序列特征时,首先将氨基酸的10种理化性质通过主成分分析浓缩为6个主成分,并且将每条蛋白质序列里的氨基酸数目作为权重对主成分得分值进行加权平均,然后再融合氨基酸的位置信息构成一个26维的蛋白质序列特征向量,最后利用欧式距离度量蛋白质序列间的相似性及进化关系。通过对3个蛋白质序列数据集的测试表明,本文提出的方法能将每条蛋白质序列准确聚类,并且简便快捷,说明了该方法的有效性。  相似文献   

6.
基于四肽构象的可视化聚类的结果,提出了一种新的编码方法,由此可将蛋白质三维构象空间映射到一维编码空间,将蛋白质三维结构空间中的模式搜索和模式发现问题转化为一维编码空间中的相应问题。通过两个算法从模式检索以及模式发现两方面验证了编码的有效性;同时利用熵的概念探讨了序列、结构之间的相关度,得到了一些重要的序列.结构模式.实验结果表明,该编码方法能更加准确地反映四肽构象空间中的分布情况,其结果可解释性更强.  相似文献   

7.
为了研究核苷酸变异,通过DNA序列的同源率,建立了DNA序列进化的动力学方程,进而得到了一种新的物种间进化距离dy(选择进化距离).由于核苷酸替代模型有很多,选用其中的4种模型,计算出其相应的选择进化距离dy,该进化距离包含了4种模型下的p距离、替代率为常数的距离d和替代率服从Г分布的Г距离dG.进一步根据动力学方程的特点,将模型转化为一元线性回归问题,用最小二乘法求得选择模型中的动力学参数b和各核苷酸位点每年的平均替代速率r.以16个物种的线粒体基因序列为例,说明这种新的进化距离并通过构建不同进化距离下的基因进化树来对各进化距离进行比较.结果表明:选择进化距离dy是一种有效的构建进化距离的方法.  相似文献   

8.
信号肽序列及其在蛋白质表达中的应用   总被引:12,自引:0,他引:12  
信号肽在蛋白分泌的过程中起重要作用,分泌性蛋白质合成后由信号肽引导其穿过合成所在的细胞到其他组织细胞中。可以利用因特网在线工具和信号序列捕获系统来判定基因序列中是否含有信号肽序列。外源蛋白的表达形式多为细胞内不溶性表达(包涵体),少数为细胞外分泌表达。利用信号肽来引导外源蛋白分泌可避免因包涵体复性带来的困难。研究表明,多种外源基因连接上信号肽后在原核表达系统如大肠杆菌、L型细菌、芽孢杆菌和乳酸杆菌中等都得到了分泌表达;信号肽也广泛应用于真核表达系统如毕赤酵母和昆虫杆状病毒表达系统,以提高蛋白的表达量。  相似文献   

9.
蛋白质序列中的关联规则发现及其应用   总被引:2,自引:0,他引:2  
随着蛋白质序列-结构分析中使用的机器学习算法越来越复杂,其结果的解释和发现过程也随之复杂化,因此有必要寻找简单且理论上可靠的方法。通过引入原理简单、理论可靠、结果具有很强实际意义的关联规则发现算法,找到了蛋白质序列中数以万计的模式。结合实例演示了如何将这些模式应用于蛋白质序列分析中,如保守区域发现、二级结构预测等。同时根据这些结果构建了一个二级结构规则库和一种简单的二级结构预测算法,实验结果表明,约81%的二级结构可以由至少一条关联规则预测得到。  相似文献   

10.
11.
We consider a novel 2-D graphical representation of DNA sequences according to chemical structures of bases, reflecting distribution of bases with different chemical structure, preserving information on sequential adjacency of bases, and allowing numerical characterization. The representation avoids loss of information accompanying alternative 2-D representations in which the curve standing for DNA overlaps and intersects itself. Based on this representation we present a numerical characterization approach by the leading eigenvalues of the matrices associated with the DNA sequences. The utility of the approach is illustrated on the coding sequences of the first exon of human beta-globin gene.  相似文献   

12.
We introduce a novel 2D graphical representation of DNA sequences based on the pairs of the neighboring nucleotides (PNNs). Then we get the PNNs' distributions and obtain a y-M. The construction of the PNN-curve has some important advantages (1) It avoids loss of information and the PNN-curve standing for DNA sequences does not overlap or intersect with itself. (2) The novel 2D representation is more sensitive. The utility of this method can be illustrated by the examination of similarities/dissimilarities among the coding sequences of the first exon of beta-globin gene of eleven different species in Table 2.  相似文献   

13.
Li C  Xing L  Wang X 《BMB reports》2008,41(3):217-222
Based on a five-letter model of the 20 amino acids, we propose a new 2-D graphical representation of protein sequence. Then we transform the 2-D graphical representation into a numerical characterization that will facilitate quantitative comparisons of protein sequences. As an application, we construct the phylogenetic tree of 56 coronavirus spike proteins. The resulting tree agrees well with the established taxonomic groups.  相似文献   

14.
DNA sequencing has resulted in an abundance of data on DNA sequences for various species. Hence, the characterization and comparison of sequences become more important but still difficult tasks. In this paper, we first give a 2-D ladderlike graphical representation for the characteristic sequences of a DNA sequence, and then construct a 3-component vector, in which the normalized ALE-indices extracted from such three 2-D graphs via D/D matrices are individual components, to characterize the DNA sequence. The examination of similarities/dissimilarities among sequences of the beta-globin genes of different species illustrates the utility of the approach.  相似文献   

15.
A new approach using a 3-D Cartesian coordinate system to represent protein sequences has been derived. By the 3-D Graphical representation we make a comparison of sequences belonging to nine different proteins.  相似文献   

16.
17.
In this paper, we first present a new concept of ‘weight’ for 64 triplets and define a different weight for each kind of triplet. Then, we give a novel 2D graphical representation for DNA sequences, which can transform a DNA sequence into a plot set to facilitate quantitative comparisons of DNA sequences. Thereafter, associating with a newly designed measure of similarity, we introduce a novel approach to make similarities/dissimilarities analysis of DNA sequences. Finally, the applications in similarities/dissimilarities analysis of the complete coding sequences of β-globin genes of 11 species illustrate the utilities of our newly proposed method.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号