首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到10条相似文献,搜索用时 15 毫秒
1.
转录因子结合位点的计算预测是研究基因转录调控的重要环节,但常用的位置特异得分矩阵方法预测特异性偏低.通过深入分析结合位点的生物特征,提出了一种综合利用序列保守模体和局部构象信息的结合位点预测方法,以极大相关得分矩阵作为保守模体的描述模型,并根据二苷参数模型计算位点序列的局部构象,将两类信息得分组合为多维特征向量,在二次判别分析的框架下进行训练和滑动预测.预测过程中还引入了位置信息量以优化似然得分和过滤备选结果.针对大肠杆菌CRP和Fis结合位点数据的留一法测试结果表明,描述模型的改进和多种信息的融合能有效地改善预测方法的性能,大幅度提高特异性.  相似文献   

2.
金冬  张萌  贾藏芝 《生物信息学》2022,20(3):182-188
在遗传学中,终止子是位于poly(A)位点下游、长度在数百碱基以内、包含多个回文序列、具有终止转录功能的DNA结构域,其主要作用是使转录终止。在原核生物基因组中有两类转录终止子,即Rho-dependent因子和Rho-independent因子。在本项研究中,提出了一种新的预测模型(TermCNN)来快速准确地识别细菌转录终止子。该模型将具有代表性的6-mer特征子集(2 537个特征)和电子—离子相互作用伪电位(EIIP)作为输入向量,利用卷积神经网络(CNN)构建预测模型。五折交叉验证和独立测试的结果表明该模型优于最新的预测模型iTerm-PseKNC。值得注意的是,该模型在跨物种试验中具有明显的优势。它可以高度精确地预测大肠杆菌(E. coli)和枯草芽孢杆菌(B. subtilis)的转录终止子。  相似文献   

3.
原核生物操纵子结构的准确注释对基因功能和基因调控网络的研究具有重要意义,通过生物信息学方法计算预测是当前基因组操纵子结构注释的最主要来源.当前的预测算法大都需要实验确认的操纵子作为训练集,但实验确认的操纵子数据的缺乏一直成为发展算法的瓶颈.基于对操纵子结构的认识,从基因间距离、转录翻译相关的调控信号以及COG功能注释等特征出发,建立了描述操纵子复杂结构的概率模型,并提出了不依赖于特定物种操纵子数据作为训练集的迭代自学习算法.通过对实验验证的操纵子数据集的测试比较,结果表明算法对于预测操纵子结构非常有效.在不依赖于任何已知操纵子信息的情况下,算法在总体预测水平上超过了目前最好的操纵子预测方法,而且这种自学习的预测算法要优于依赖特定物种进行训练的算法.这些特点使得该算法能够适用于新测序的物种,有别于当前常用的操纵子预测方法.对细菌和古细菌的基因组进行大规模比较分析,进一步提高了对基因组操纵子结构的普遍特征和物种特异性的认识.  相似文献   

4.
转录起始位点的计算定位是基因转录调控研究的重要内容,但现有方法的识别性能较低。文章作者在已有原核启动子识别算法的基础上,提出了一种基于滑动窗口的原核转录起始位点计算定位方法,通过在合理限定的定位范围内对序列进行滑动扫描,来预测转录起始位点的位置。首先根据窗口序列的交迭组分特征和启动子其它特征分别建立二次判别分类器,用其计算对应位置的似然得分,再利用转录起始位点与翻译起始位点的间隔经验分布信息对似然得分进行修正,最后依照似然得分的分布情况由阈值定位算法确定预测位置。对大肠杆菌真实序列数据的测试结果表明,该定位算法可实现对真实转录起始位点位置的有效预测,与已有算法相比,当敏感性指标同为0.85左右时,特异性指标可从0.20提高至0.65,从而使得定位准确率提高了约20个百分点。  相似文献   

5.
转录因子结合位点的计算预测是研究基因转录调控的重要环节,但现有算法的预测特异性偏低.在深入分析转录因子结合位点生物特征的基础上,对当前基于保守模体和基于比较基因组学的两类计算预测方法进行了综述,指出了方法各自的优点和不足,并探讨了可能的改进方向.  相似文献   

6.
刘林梦  温权  欧竑宇 《微生物学通报》2014,41(12):2583-2592
【目的】为识别已完成全测序细菌基因组中的ncRNA基因,对3个常用ncRNA预测工具s RNAPredict、PORTRAIT和s RNAscanner进行评估。【方法】选择了细菌ncRNA数据库BSRD收录的含有已知ncRNA基因数目大于30的9个细菌基因组,并按基因组G+C含量进行分类,比较s RNAPredict和PORTRAIT工具的预测准确性。提取不同G+C含量基因组中ncRNA基因转录起始和终止区的序列特征,对s RNAscanner预测结果进行评估。【结果】s RNAPredict对细菌ncRNA基因的预测特异性和阳性检出率均高于PORTRAIT,而敏感性则较差;两种工具预测效果均随基因组G+C含量不同而产生明显变化。在不同G+C含量的细菌基因组中,ncRNA基因启动子和终止子区域的序列特征有明显差异。利用这些序列特征能提高s RNAscanner预测ncRNA基因的平均水平。【结论】3种ncRNA基因工具预测效果随基因组G+C含量变化而不同。不同G+C含量基因组中ncRNA基因的转录起始和终止区特征可作为ncRNA基因预测的重要参数之一。  相似文献   

7.
外膜蛋白(Outer Membrane Proteins, OMPs)是一类具有重要生物功能的蛋白质, 通过生物信息学方法来预测OMPs能够为预测OMPs的二级和三级结构以及在基因组发现新的OMPs提供帮助。文中提出计算蛋白质序列的氨基酸含量特征、二肽含量特征和加权多阶氨基酸残基指数相关系数特征, 将三类特征组合, 采用支持向量机(Support Vector Machine, SVM)算法来识别OMPs。计算了包括四种残基指数的多种组合特征的识别结果, 并且讨论了相关系数的阶次和权值对预测性能的影响。在数据集上的十倍交叉验证测试和独立性测试结果显示, 组合特征识别方法对OMPs和非OMPs的识别精度最高分别达到96.96%和97.33%, 优于现有的多种方法。在五种细菌基因组内识别OMPs的结果显示, 组合特征方法具有很高的特异性, 并且对PDB数据库中已知结构的OMPs识别准确度超过99%。表明该方法能够作为基因组内筛选OMPs的有效工具。  相似文献   

8.
外膜蛋白(Outer Membrane Proteins, OMPs)是一类具有重要生物功能的蛋白质, 通过生物信息学方法来预测OMPs能够为预测OMPs的二级和三级结构以及在基因组发现新的OMPs提供帮助。文中提出计算蛋白质序列的氨基酸含量特征、二肽含量特征和加权多阶氨基酸残基指数相关系数特征, 将三类特征组合, 采用支持向量机(Support Vector Machine, SVM)算法来识别OMPs。计算了包括四种残基指数的多种组合特征的识别结果, 并且讨论了相关系数的阶次和权值对预测性能的影响。在数据集上的十倍交叉验证测试和独立性测试结果显示, 组合特征识别方法对OMPs和非OMPs的识别精度最高分别达到96.96%和97.33%, 优于现有的多种方法。在五种细菌基因组内识别OMPs的结果显示, 组合特征方法具有很高的特异性, 并且对PDB数据库中已知结构的OMPs识别准确度超过99%。表明该方法能够作为基因组内筛选OMPs的有效工具。  相似文献   

9.
闫妍  万平 《生物信息学》2015,13(2):125-130
启动子是基因转录起始的一个关键性元件。本研究利用数据库中提供的大肠杆菌启动子数据,基于位点特异性打分矩阵(Position-specific scoring matrix,PSSM)算法建立了大肠杆菌启动子预测方法,并采用ROC曲线对预测结果进行评估。结果显示,本方法对大肠杆菌sigma24、sigma28、sigma32、sigma38、sigma54和sigma70启动子预测的准确度分别达到86%,96%,93%,96%,97%和74%。由于原核生物启动子序列的保守性,可将该方法推广至其他原核生物的启动子预测。  相似文献   

10.
基于转录终点序列特征预测大肠杆菌sRNA   总被引:1,自引:0,他引:1  
细菌sRNA是一类长度在40~500nt的调控RNA,在细菌与环境相互作用中发挥重要功能,因此,细菌sRNA识别研究具有重要意义。然而,与蛋白编码基因具有易于识别的特征不同,目前细菌sRNA识别仍是一件比较困难的事。此方法介绍了一个基于已知细菌sRNA转录终点的碱基频率矩阵来识别sRNA的预测策略,并在大肠杆菌K-12 MG1655中进行了sRNA的预测。结果表明,该模型在独立测试集中具有较高的特异性和阳性检出率,因此,这一方法将为实验发现细菌sRNA提供较好的生物信息学支持。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号