首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到15条相似文献,搜索用时 93 毫秒
1.
随机森林方法预测膜蛋白类型   总被引:2,自引:0,他引:2       下载免费PDF全文
膜蛋白的类型与其功能是密切相关的,因此膜蛋白类型的预测是研究其功能的重要手段,从蛋白质的氨基酸序列出发对膜蛋白的类型进行预测有重要意义。文章基于蛋白质的氨基酸序列,将组合离散增量和伪氨基酸组分信息共同作为预测参数,采用随机森林分类器,对8类膜蛋白进行了预测。在Jackknife检验下的预测精度为86.3%,独立检验的预测精度为93.8%,取得了好于前人的预测结果。  相似文献   

2.
DNA甲基化作为直接作用于DNA序列的一种表观遗传修饰,能够在不改变DNA分子一级结构的情况下影响基因表达,在生命活动中扮演着重要的角色.在哺乳动物中,DNA甲基化主要发生在C_pG二核苷酸的胞嘧啶上,并且在基因组中呈现不均匀分布.准确预测DNA甲基化位点有助于阐明DNA甲基化对基因表达的调控作用,并为肿瘤的早期诊断及治疗提供新的依据.本文应用离散增量结合二次判别分析的方法,对人类的C_pG二核苷酸甲基化状态进行了识别.5折交叉检验的整体准确率超过了80%,受试者操作特性曲线面积也达到了0.86.与现有方法相比,预测成功率显著提高.这说明离散增量结合二次判别分析方法适用于甲基化位点的预测;基因组序列中甲基化位点具有序列依赖性.  相似文献   

3.
根据凋亡蛋白的亚细胞位置主要决定于它的氨基酸序列这一观点,基于局部氨基酸序列的n肽组分和序列的亲疏水性分布信息,采用离散增量结合支持向量机(ID_SVM)算法,对六类细胞凋亡蛋白的亚细胞位置进行预测。结果表明,在Re-substitution检验和Jackknife检验下,ID_SVM算法的总体预测成功率分别达到了94.6%和84.2%;在5-fold检验和10-fold检验下,其总体预测成功率也都达到了83%以上。通过比较ID和ID_SVM两种方法的预测能力发现,结合了支持向量机的离散增量算法能够改进预测成功率,结果表明ID_SVM是预测凋亡蛋白亚细胞位置的一种很有效的方法。  相似文献   

4.
用离散增量结合支持向量机方法预测蛋白质亚细胞定位   总被引:3,自引:0,他引:3  
赵禹  赵巨东  姚龙 《生物信息学》2010,8(3):237-239,244
对未知蛋白的功能注释是蛋白质组学的主要目标。一个关键的注释是蛋白质亚细胞定位的预测。本文应用离散增量结合支持向量机(ID_SVM)的方法,对阳性革兰氏细菌蛋白的5类亚细胞定位点进行预测。在独立检验下,其总体预测成功率为89.66%。结果发现ID_SVM算法对预测的成功率有很大改进。  相似文献   

5.
蛋白质超二级结构预测是三级结构预测的一个非常重要的中间步骤。本文从蛋白质的一级序列出发,对5793个蛋白质中的四类简单超二级结构进行预测,以位点氨基酸为参数,采用3种片段截取方式,分别用离散增量算法预测的结果不理想,将组合的离散增量值作为特征参数输入支持向量机,取得了较好的预测结果,5交叉检验的平均预测总精度达到83.0%,Matthew’s相关系数在0.71以上。  相似文献   

6.
利用分散量的数学理论,提出了基于最小分散增量的蛋白质序列辨识方法.通过多种特征联合对蛋白质序列进行编码,并建立基于最小分散增量的分类器MID_OMP,应用于革兰氏阴性细菌外膜蛋白序列辨识.在数据集上的Jackknife测试中,MID_OMP辨识外膜蛋白和α螺旋跨膜蛋白的准确率达到95.7%,辨识外膜蛋白和球状蛋白的准确率达到91.0%;在14个细菌基因组内挖掘结果显示,MID_OMP具有较高的敏感性和特异性,预测结果的可信度明显优于另外一种OMPs挖掘工具TMBETA-GENOME.  相似文献   

7.
Transmembrane proteins allow cells to extensively communicate with the external world in a very accurate and specific way. They form principal nodes in several signaling pathways and attract large interest in therapeutic intervention, as the majority pharmaceutical compounds target membrane proteins. Thus, according to the current genome annotation methods, a detailed structural/functional characterization at the protein level of each of the elements codified in the genome is also required. The extreme difficulty in obtaining high-resolution three-dimensional structures, calls for computational approaches. Here we review to which extent the efforts made in the last few years, combining the structural characterization of membrane proteins with protein bioinformatics techniques, could help describing membrane proteins at a genome-wide scale. In particular we analyze the use of comparative modeling techniques as a way of overcoming the lack of high-resolution three-dimensional structures in the human membrane proteome.  相似文献   

8.
带4.2蛋白是一种重要的红细胞膜蛋白,与红细胞的形态、可变形性及携氧功能有至关重要的联系。它通过与带3蛋白(阴离子通道蛋白)、锚蛋白结合,稳定的连接在细胞膜的内表面,连接着膜骨架网架结构与细胞膜,是膜骨架与脂质双分子层连接的重要纽带。带4.2蛋白的缺失会引起球形或椭圆形红细胞增多症及不同程度的溶血性贫血,严重的情况需要摘除脾脏来进行治疗。近年来研究认为,带4.2蛋白在维持细胞膜骨架的完整性和稳定性方面扮演了重要角色。现对带4.2蛋白结构及功能的研究状况进行综述。  相似文献   

9.
刘佳  蔡禄  邢永强 《生物信息学》2010,8(4):341-343,346
蛋白质是一切生命活动的物质基础,研究蛋白质的相互作用有助于理解生物过程的分子机制,阐明疾病的分子机理。本文依据蛋白质序列组分特征,应用基于多样性增量的二次判别分析方法,对人类的1 963对蛋白质相互作用进行了预测。自洽检验的各项预测指标均在79%以上,且交叉检验的总精度也大于60%,表明本算法可以用于蛋白质相互作用预测。  相似文献   

10.
Protein trans-splicing using split inteins is well established as a useful tool for protein engineering. Here we show, for the first time, that this method can be applied to a membrane protein under native conditions. We provide compelling evidence that the heptahelical proteorhodopsin can be assembled from two separate fragments consisting of helical bundles A and B and C, D, E, F, and G via a splicing site located in the BC loop. The procedure presented here is on the basis of dual expression and ligation in vivo. Global fold, stability, and photodynamics were analyzed in detergent by CD, stationary, as well as time-resolved optical spectroscopy. The fold within lipid bilayers has been probed by high field and dynamic nuclear polarization-enhanced solid-state NMR utilizing a 13C-labeled retinal cofactor and extensively 13C-15N-labeled protein. Our data show unambiguously that the ligation product is identical to its non-ligated counterpart. Furthermore, our data highlight the effects of BC loop modifications onto the photocycle kinetics of proteorhodopsin. Our data demonstrate that a correctly folded and functionally intact protein can be produced in this artificial way. Our findings are of high relevance for a general understanding of the assembly of membrane proteins for elucidating intramolecular interactions, and they offer the possibility of developing novel labeling schemes for spectroscopic applications.  相似文献   

11.
The genetic diversity of 43 sources of Upland cotton germplasm with different parental origins, breeding periods, and ecological growing areas in China were studied on the basis of simple sequence repeat (SSR) markers. A total of 130 gene alleles with 80% polymorphism were detected from 36 SSR primers. The number of alleles per primer ranged from two to eight with an average of 3.6. The polymorphism information content (PIC) range was 0.278-0.865, with an average of 0.62. The average genotype diversity index (H') was 1.102, the highest was 2.039 and the lowest was 0.451. The average coefficient of the genetic similarity of SSR markers among source germplasm was 0.610, ranging from 0.409 to 0.865. These indicated that the genetic diversity at the genomic level of the selected source germplasm was rich, and was representative of the diversity of the germplasms, in general. The diversity at the genome level of the base germplasm from the second and third breeding periods was decreased compared to that of the first period, indicating that the cotton genetic background in China became narrow gradually. The diversity of SSR markers among the base germplasm from early maturity cotton growing areas in the north was higher than those from the Huanghe and Yangtze growing areas. The molecular marker genetic similarity index of the domestic varieties was higher than that in the introduced varieties, which indicates that the genetic diversity in domestic cultivars was lower than that in the introduced varieties. This study gives an overview of the genetic diversity of the cotton germplasm base in China, and provides a guide for breeders to develop new cultivars efficiently.  相似文献   

12.
林昊 《生物信息学》2009,7(4):252-254
由于蛋白质亚细胞位置与其一级序列存在很强的相关性,利用多样性增量来描述蛋白质之间氨基酸组分和二肽组分的相似程度,采用修正的马氏判别式(这里称为IDQD方法)对分枝杆菌蛋白质的亚细胞位置进行了预测。利用Jackknife检验对不同序列相似度下的蛋白质数据集进行了预测研究,结果显示,当数据集的序列相似度小于等于70%时,算法的预测精度稳定在75%左右。在对整体852条蛋白质的预测成功率达到87.7%,这一结果优于已有算法的预测精度,说明IDQD是一种有效的分枝杆菌蛋白质亚细胞预测方法。  相似文献   

13.
张振慧  王勇献  王正华 《激光生物学报》2007,16(2):249-252,F0003
细胞凋亡蛋白对生物体的发育、维持内环境稳定及人们理解细胞凋亡机制非常重要。文中提出了一种新的蛋白质序列特征提取方法—三肽离散源方法。计算了蛋白质序列中紧邻三联体的出现个数,利用离散增量极小化对凋亡蛋白进行定位预测;同时推广了张春霆等提出的内容平衡精度指数,使其能评估任意类的分类问题。实验结果表明:在凋亡蛋白定位预测研究中,三肽离散源方法在提高总体预测精度的同时,能够较好的解决样本不均衡问题;而内容平衡精度指数能比传统的总体预测精度更准确的评估预测算法的预测能力,有效的反映预测算法对样本不均衡问题的相容能力。  相似文献   

14.
利用昆虫杆状病毒表达SARS冠状病毒的刺突蛋白和膜蛋白   总被引:1,自引:0,他引:1  
SARS冠状病毒是人的严重急性呼吸综合征的病原体。对其他种类冠状病毒的研究结果显示,刺突蛋白(S蛋白)和膜蛋白(M蛋白)是病毒主要的结构蛋白。重组M蛋白和S蛋白可被用来作为抗原检测冠状病毒的感染和制备疫苗。这两个蛋白质分别被克隆并重组到昆虫杆状病毒基因组中,利用重组杆状病毒感染昆虫细胞来表达重组M蛋白和S蛋白,并对M蛋白进行了细胞内定位,融合蛋白的绿色荧光暗示了该蛋白质定位在细胞膜上。  相似文献   

15.
我国陆地棉基础种质遗传多样性的SSR分子标记分析   总被引:18,自引:1,他引:18  
陈光  杜雄明 《遗传学报》2006,33(8):733-745
利用398对BNL、JESPR、TMB等SSR引物,对不同亲本来源、不同选育时期、不同种植生态区的43份陆地棉基础种质进行了遗传多样性的SSR分子标记分析。扩增产物用8%的非变性聚丙烯酰胺凝胶检测,银染观察并照相。遗传多样性带型分析按位点多态信息量(PIC),Shannon-weaver多样性指数(H^+)等方法,利用NTSYSpc2.1软件计算品种间的遗传相似系数(Jaccard系数),并用类平均法(UPGMA)进行聚类。结果表明所选择多态性引物分布在棉花基因组的第3、4、5、8、9、10、16、18、20、23号等染色体上,36对多态性引物在基础种质中扩增等位基因130个,其中多态性等位基因占80%,每个引物扩增等位基因2~8个,平均3.6个,PIC为0.278~0.865,平均0.62,基因型多样性(H^+)为0.451~2.039,平均1.102,基础种质问SSR遗传相似系数平均为0.610,变幅为0.409~0.865,这说明所选基础种质基因组水平的多样性较丰富,变化范围大、代表性强。按品种不同选育时期来讲,第一、二、三期基础种质的SSR分子标记平均遗传相似系数分别是0.587、0.630、0.630,说明现代基础种质比早期基础种质在基因组水平的差异呈下降的趋势,可能是由于育种者偏重于使用优质高产性状的亲本品种,致使我国棉花的育种基础逐渐变窄。不同棉区基础种质SSR标记性状差异大,北部特早熟棉区基础种质间的SSR标记的多样性大于黄河、长江棉区,主要原因是长江、黄河棉区的育种过分强调高产、优质品种选育,品种间的差异变小;基础种质中的国内品种SSR相似系数(0.624)比引进品种(0.85)高,说明国内品种在遗传多样性上目前还没有超越国外品种。总之,我国棉花现代基础种质比早期基础种质的遗传多样性呈下降的趋势,黄河、长江主产棉区基础种质的遗传多样性还没有超过国外基础种质,品种间的遗传背景较为狭窄,还必须采用多种途径丰富我国棉花种质资源的遗传多样性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号