首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到16条相似文献,搜索用时 62 毫秒
1.
新近的基因识别软件比先前的软件有着显著的提高 ,但是在外显子水平上的敏感性和特异性仍然不十分令人满意 .这是因为已有软件对于剪接位点 ,翻译起始等生物信号位点的识别还不够有效 .如果能够分别提高这些生物信号位点的识别效果 ,就能够提高整体的基因识别效率 .隐半马氏模型能够很好地刻画 3′剪接位点 (acceptor)的结构 .据此开发的一套对acceptor进行识别的算法在Burset/Guigo的数据集上经过检验 ,获得了比已有算法更好的识别率 .该模型的成功还使得我们对剪接点上游的分支位点和嘧啶富含区的概貌有了一定的认识 ,加深了人们对于acceptor的结构和剪接过程的理解  相似文献   

2.
隐半马氏模型在3′剪接位点识别中的应用(英)   总被引:1,自引:0,他引:1  
新近的基因识别软件比先前的软件有着显著的提高,但是在外显子水平上的敏感性和特异性仍然不十分令人满意.这是因为已有软件对于剪接位点,翻译起始等生物信号位点的识别还不够有效.如果能够分别提高这些生物信号位点的识别效果,就能够提高整体的基因识别效率.隐半马氏模型能够很好地刻画3′剪接位点(acceptor)的结构.据此开发的一套对acceptor进行识别的算法在Burset/Guigo的数据集上经过检验,获得了比已有算法更好的识别率.该模型的成功还使得我们对剪接点上游的分支位点和嘧啶富含区的概貌有了一定的认识,加深了人们对于acceptor的结构和剪接过程的理解.  相似文献   

3.
广义隐Markov模型(GHMM)是基因识别的一种重要模型,但是其计算量比传统的隐Markov模型大得多,以至于不能直 接在基因识别中使用。根据原核生物基因的结构特点,提出了一种高效的简化算法,其计算量是序列长度的线性函数。在此 基础上,构建了针对原核生物基因的识别程序GeneMiner,对实际数据的测试表明,此算法是有效的。  相似文献   

4.
针对传统基因剪接位点识别方法具有所用到的序列长,且参数多的问题,论文提出了一种基于KL距离的变长马尔可夫模型(Kullback Leibler divergence-variable length Markovmodel,KL-VLMM)。该模型在变长马尔可夫模型的基础上进行改进,由KL距离代替原来的概率比值来判断序列扩展的方向,有效地提高了特征序列的识别能力,且模型阶数由二阶降为一阶,降低了算法的空间复杂度。利用人类剪接位点数据库N269,对该模型和其他传统方法的识别性能进行了比较。实验结果表明,采用KL-VLMM方法预测人类基因剪接位点的预测效果更好。  相似文献   

5.
基于隐马氏模型对编码序列缺失与插入的检测(英)   总被引:2,自引:0,他引:2  
在基因组测序工作完成后,利用计算工具进行基因识别以及基因结构预测受到了越来越多人的重视.人们开发了大量的相关应用软件,如GenScan, Genemark, GRAIL等,这些软件在寻找新基因方面提供了很重要的线索.但基因的识别和预测问题仍未得到完全解决,当目标基因的编码序列有缺失和插入时,其预测结果和基因的实际结构相差很大.为了消除测序错误对预测结果的影响,希望能找出编码序列区的测序错误.基于这种想法,尝试根据DNA序列的一些统计特性,利用隐马尔科夫模型(Hidden Markov Model),引入缺失和插入状态,然后用Viterbi算法,从中找出含有缺失和插入的外显子序列片段.在常用的Burset/Guigo检测集进行检测,得到的结果在外显子水平上,Sn(sensitivity)和Sp(specificity)均达到84%以上.  相似文献   

6.
隐马尔可夫模型-改进的预测蛋白质二级结构方法   总被引:1,自引:0,他引:1  
引入蛋白质二级结构预测的新方法:隐马尔可夫模型,其中将蛋白质的二级结构分成三类:H(指α-螺旋),E(β-折叠)及O(包括转角,卷曲及其结构).该方法属于统计方法,但考虑了相邻氮基酸之间的相互作用(体现在状态传输概率).通过模型的改进及参数的确定后,我们编制了程序HMMPS.用它来预测蛋白质二级结构,具有很高的准确度.其中关于H,F和O的准确率分别达到80.1%.72.0%和63.2%这表明.我们的方法是较为可靠的。  相似文献   

7.
周海廷 《生物技术》2002,12(5):33-34
用非数学语言描述了隐马尔科夫过程(hidden mark-ov model,HMM),介绍了HMM用于基因识别的原理及基于HMM开发的,比较常用的基因识别程序。  相似文献   

8.
本工作从NCBI数据库(https://www.ncbi.nlm.nih.gov/)获取了秀丽隐杆线虫(Caenorhabditis elegans)自胚胎分离的120 min到分离后480 min共5个时序点(T0、T1、T2、T3、T4)的10个肠组织样本的RNA-seq测序数据,质控后平均读段数1.3×107;构建了秀丽隐杆线虫肠组织发育过程中的基因表达矩阵(20191/基因数×10/样本数),识别了不同时序点间的差异表达基因;建立了每个时序点的可变剪接图谱,并识别了不同时序点间的差异可变剪接事件。结果表明,随着原肠形成的进行,源于内胚层的肠组织中大量基因的表达量上调,保证了原肠运动过程中细胞大量增殖的精准调控。可变3′在肠组织5个时序点中的平均占比最高,外显子跳跃、可变5′、内含子保留的平均占比相近。相较其他4个时序点,T1时序点的可变剪接丰度最大,表明可变剪接在原肠运动起始阶段有着重要的调控作用。肠组织增殖期的起始阶段(T0)与增殖期后期(T3)和型态形成期(T4)间的差异可变剪接事件丰度较高,表明部分基因通过形成不同的异构体参与秀丽隐杆线虫肠发育调控。...  相似文献   

9.
隐马尔科夫过程在生物信息学中的应用   总被引:3,自引:0,他引:3  
隐马尔科夫过程(hidden markov model,简称HMM)是20世纪70年代提出来的一种统计方法,以前主要用于语音识别。1989年Churchill将其引入计算生物学。目前,HMM是生物信息学中应用比较广泛的一种统计方法,主要用于:线性序列分析、模型分析、基因发现等方面。对HMM进行了简明扼要的描述,并对其在上述几个方面的应用作一概略介绍。  相似文献   

10.
低维输入空间的支持向量机识别人类剪接位点   总被引:1,自引:0,他引:1  
真核生物剪接位点的识别作为基因阵构成的向量来表示序列,用支持向量机在六维向量空间中寻找最优超平面,从而将真实的剪接位点和虚假的剪接位点进行分类.计算结果表明,利用这样的算法预测人类的剪接位点,有较好的预测效果.与其他的一些算法相比,表现出参数少,精度高等优点.  相似文献   

11.
MicroRNAs are one class of small single-stranded RNA of about 22 nt serving as important negative gene regulators. In animals, miRNAs mainly repress protein translation by binding itself to the 3′ UTR regions of mRNAs with imperfect complementary pairing. Although bioinformatics investigations have resulted in a number of target prediction tools, all of these have a common shortcoming—a high false positive rate. Therefore, it is important to further filter the predicted targets. In this paper, based on miRNA:target duplex, we construct a second-order Hidden Markov Model, implement Baum-Welch training algorithm and apply this model to further process predicted targets. The model trains the classifier by 244 positive and 49 negative miRNA:target interaction pairs and achieves a sensitivity of 72.54%, specificity of 55.10% and accuracy of 69.62% by 10-fold cross-validation experiments. In order to further verify the applicability of the algorithm, previously collected datasets, including 195 positive and 38 negative, are chosen to test it, with consistent results. We believe that our method will provide some guidance for experimental biologists, especially in choosing miRNA targets for validation.  相似文献   

12.
13.
使用估计的反应自由能预测组成性和可变剪接位点   总被引:2,自引:0,他引:2  
基因结构预测中的一个重要步骤是精确地识别剪接位点。基于剪接反应的基本物理原则,最大信息原理被应用到剪接反应的理论分析中,进而导出了反应自由能估计表达式。作为一个简化模型,这个表达式能被用来估计一个5′剪接区或者3′剪接区所参与的剪接反应中的自由能变化。它不但较全面地概括了各个碱基之间的关联,而且还考虑了基因组背景概率的影响。这个反应自由能表达式被用来预测了人类基因中的组成性和可变剪接位点,预测结果是令人满意的,其预测能力比得上当前的一些流行方法。这说明最大信息原理可以作为研究某些核酸-蛋白质相互作用系统(如剪接反应)的理论出发点,导出的反应自由能表达式较好地符合了剪接反应过程。  相似文献   

14.
We developed a computer program, GeneHackerTL, which predictsthe most probable translation initiation site for a given nucleotidesequence. The program requires that information be extractedfrom the nucleotide sequence data surrounding the translationinitiation sites according to the framework of the Hidden MarkovModel. Since the translation initiation sites of 72 highly abundantproteins have already been assigned on the genome of Synechocystissp. strain PCC6803 by amino-terminal analysis, we extractednecessary information for GeneHackerTL from the nucleotide sequencedata. The prediction rate of the GeneHackerTL for these proteinswas estimated to be 86.1%. We then used GeneHackerTL for predictionof the translation initiation sites of 24 other proteins, ofwhich the initiation sites were not assigned experimentally,because of the lack of a potential initiation codon at the amino-terminalposition. For 20 out of the 24 proteins, the initiation siteswere predicted in the upstream of their amino-terminal positions.According to this assignment, the processed regions representa typical feature of signal peptides. We could also predictmultiple translation initiation sites for a particular genefor which at least two initiation sites were experimentallydetected. This program would be e.ective for the predictionof translation initiationsites of other proteins, not only inthis species but also in other prokaryotes as well.  相似文献   

15.
Recent applications of Hidden Markov Models in computational biology   总被引:2,自引:0,他引:2  
This paper examines recent developments and applications of Hidden Markov Models (HMMs) to various problems in computational biology, including multiple sequence alignment, homology detection, protein sequences classification, and genomic annotation.  相似文献   

16.
现有蛋白质亚细胞定位方法针对水溶性蛋白质而设计,对跨膜蛋白并不适用。而专门的跨膜拓扑预测器,又不是为亚细胞定位而设计的。文章改进了跨膜拓扑预测器TMPHMMLoc的模型结构,设计了一个新的二阶隐马尔可夫模型;采用推广到二阶模型的Baum-Welch算法估计模型参数,并把将各个亚细胞位置建立的模型整合为一个预测器。数据集上测试结果表明,此方法性能显著优于针对可溶性蛋白设计的支持向量机方法和模糊k最邻近方法,也优于TMPHMMLoc中提出的隐马尔可夫模型方法,是一个有效的跨膜蛋白亚细胞定位预测方法。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号