首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 171 毫秒
1.
启动子预测是研究基因转录调控的重要环节,但现有算法的预测正确率偏低.在深入分析启动子生物特征的基础上,提出了一种基于支持向量机的枯草杆菌启动子预测算法,在启动子序列的组成特征、信号特征和结构特征中选取9种典型特征作为预测的依据,对于信号特征,除了利用保守模式的一致序列,还考虑了间隔距离的分布信息.首先通过特征描述模型分别计算每种特征在启动子序列和非启动子序列中的得分,将特征得分组合成9维特征向量,再利用支持向量机在特征向量集上进行训练和判别.对实际数据集进行的刀切法测试验证了算法的有效性.对σ启动予的预测,平均正确率达到了90.7%;对几种其它σ因子启动子的预测,平均正确率也超过了80%.算法不但有广泛的适用性,还有良好的可扩展性,能够方便的容纳新特征,使识别性能不断提高.  相似文献   

2.
目的 基于位点特异性打分矩阵(position-specific scoring matrices,PSSM)的预测模型已经取得了良好的效果,基于PSSM的各种优化方法也在不断发展,但准确率相对较低,为了进一步提高预测准确率,本文基于卷积神经网络(convolutional neural networks,CNN)算法做了进一步研究。方法 采用PSSM将启动子序列处理成数值矩阵,通过CNN算法进行分类。大肠杆菌K-12(Escherichia coli K-12,E.coli K-12,下文简称大肠杆菌)的Sigma38、Sigma54和Sigma70 3种启动子序列被作为正集,编码(Coding)区和非编码(Non-coding)区的序列为负集。结果 在预测大肠杆菌启动子的二分类中,准确率达到99%,启动子预测的成功率接近100%;在对Sigma38、Sigma54、Sigma70 3种启动子的三分类中,预测准确率为98%,并且针对每一种序列的预测准确率均可以达到98%以上。最后,本文以Sigma38、Sigma54、Sigma70 3种启动子分别和Coding区或者Non-coding区序列做四分类,预测得到的准确性为0.98,对3种Sigma启动子均衡样本的十交叉检验预测精度均可以达到0.95以上,海明距离为0.016,Kappa系数为0.97。结论 相较于支持向量机(support vector machine,SVM)等其他分类算法,CNN分类算法更具优势,并且基于CNN的分类优势,编码方式亦可以得到简化。  相似文献   

3.
大肠杆菌启动子特征参数的统计分析   总被引:1,自引:0,他引:1  
林昊 《生物信息学》2009,7(1):37-39,43
首先统计了683条大肠杆菌sigrna70启动子序列的每个位点单碱基频率,并计算了每个位点单碱基体现保守性的M1(1)值和相应涨落限,从而获得多个大于涨落限的保守位点。其次,对大肠杆菌的转录起始位点到翻译起始位点的距离进行了统计,发现这个距离的范围是0-1000bp。大肠杆菌启动子还分布于一些特定的基因间和编码区,分别是的DIV基因间,55%的TAN基因间和6%的编码区。这些启动子的特征是启动子辨识的重要参数。  相似文献   

4.
内源性转录终止子的计算预测是基因转录调控研究的重要内容,但当前方法的预测特异性偏低.在深入分析大肠杆菌内源性终止子中RNA发夹结构和多聚胸腺嘧啶区域等特征信号的基础上,为内源性终止子建立了一个由5个特征变量组成的包含序列组分、局部构象和能量分布信息的特征集,并根据此特征集实现了一种基于支持向量机的内源性终止子计算预测方法.针对大肠杆菌内源性终止子数据集和编码区阴性对照集的六重交叉验证测试证实了预测方法的有效性,对已知数据的预测平均正确率达到了99.4%.在对大肠杆菌全基因组限定范围内的搜索中,该预测方法可以成功地识别出绝大多数已知内源性终止子,与其他几种常用方法相比,预测结果总数大幅度减少,预测的特异性有了明显提高.  相似文献   

5.
张颖  贾芸  吕军 《生物物理学报》2007,23(6):475-481
应用多样性增量结合二次判别分析(Increment of Diversity with Quadratic Discriminant analysis,IDQD)方法,对大肠杆菌σ^70启动子进行识别。使用受试者操作特性(receiver operating characteristic,ROC)曲线和精度召回率曲线(Precision Recall Curves,PRC)进行性能评估。10-fold交叉检验给出,在正负集之比为1:1时,ROC曲线下面积和PRC曲线下面积均为95%。结果表明,IDQD算法有能力应用于原核启动子的识别。识别精度高于现有算法。  相似文献   

6.
SUMO融合系统已成为目前大肠杆菌重组蛋白生产的重要手段,但在载体构建效率和蛋白可溶性等方面仍有待改进。本研究在PCR克隆酿酒酵母SUMO基因Smt3(Sm) 时意外发现Sm具有组成型原核启动子活性;而且经软莓BPROM程序预测发现大多数物种SUMO基因编码区都具有依赖s70的原核启动子。进一步通过整合Sm启动子和Sm 3¢末端StuⅠ位点特性以及引入His标签和超酸增溶标签,构建了基于Sm’-LacZα融合基因的一系列通用克隆表达载体,并通过蓝白斑筛选和SDS-PAGE分析进行了多个靶蛋白基因的克隆和表  相似文献   

7.
应用多样性增量结合二次判别分析 (Increment of Diversity with Quadratic Discriminant analysis,IDQD)方法,对大肠杆菌σ70启动子进行识别.使用受试者操作特性 (receiver operating characteristic,ROC)曲线和精度召回率曲线 (Precision Recall Curves,PRC) 进行性能评估.10-fold交叉检验给出,在正负集之比为1:1时,ROC曲线下面积和PRC曲线下面积均为95%.结果表明,IDQD算法有能力应用于原核启动子的识别.识别精度高于现有算法.  相似文献   

8.
利用聚合酶链反应(PCR)技术从小偃6号中获得400bp左右的扩增产物,将其与pGEM-T Easy载体连接后转入大肠杆菌,经过筛选获得HMW-8-P和HMW-38-P两种类型克隆。序列分析表明:HMW-38-P包括了HMW-GS14基因上游启动子及信号肽对应编码区,而另一段(HMW-8-P)为一未知HMW-GS基因启动子区及信号肽对应的编码区。将两序列和GenBank中已知的35种HWM-GS基因启动子区序列进行多序列比对,最后获得HMW-GS启动子的系统发生树。通过系统发生树可以清晰地看出位于不同染色体上的不同亚基类型的HMW-GS基因的进化关系,并可确定HMW-8-P为Glu-D-1类型HMW-GS的启动子区,小偃6号中Glu-D-1类型的亚基为2亚基,所以HMW-6-P为2亚基启动子区序列。  相似文献   

9.
转录起始位点的计算定位是基因转录调控研究的重要内容,但现有方法的识别性能较低。文章作者在已有原核启动子识别算法的基础上,提出了一种基于滑动窗口的原核转录起始位点计算定位方法,通过在合理限定的定位范围内对序列进行滑动扫描,来预测转录起始位点的位置。首先根据窗口序列的交迭组分特征和启动子其它特征分别建立二次判别分类器,用其计算对应位置的似然得分,再利用转录起始位点与翻译起始位点的间隔经验分布信息对似然得分进行修正,最后依照似然得分的分布情况由阈值定位算法确定预测位置。对大肠杆菌真实序列数据的测试结果表明,该定位算法可实现对真实转录起始位点位置的有效预测,与已有算法相比,当敏感性指标同为0.85左右时,特异性指标可从0.20提高至0.65,从而使得定位准确率提高了约20个百分点。  相似文献   

10.
统计了大肠杆菌sigma70启动子在不同基因间的分布。计算了683条大肠杆菌sigma70启动子的每个位点六联体的保守性M6(l)值及涨落限,以大于涨落限7.2的21个保守位点的六联体频数作为参数,利用离散增量理论对大肠杆菌全序列进行启动子搜索。结果显示683条启动子序列被全部正确预测且得到126条预测序列,利用启动子在不同基因间的分布和TSS到TIS的距离分布进行二次筛选,推测其中的84条序列是实验未测定的启动子序列。  相似文献   

11.
12.
13.
14.
An algorithm from the pattern recognition theory 'generalized portrait' was used to find a distinguishing vector (scoring matrix) for E. coli promoters. We have attempted to solve three closely linked problems: (i) the selection of significant features of the signal; (ii) subsequent multiple alignment and (iii) calculation of the vector coordinates. Promoters with known strength have been successfully ranked in the correct order using this vector. We demonstrate the use of this method in predicting the location of promoters. A revised consensus promoter sequence is also presented.  相似文献   

15.
Based on the conservation analysis of the 683 latest experimentally verified sigma(70)-promoter sequences of Escherichia coli K-12, it is found that the conservative hexamers segments in different sites play a key role of promoter regions, a novel position-correlation scoring matrix (PCSM) algorithm for predicting sigma(70) promoter is presented. The predictive capacity of the algorithm is tested by 10-cross validation test. The results show that the overall prediction accuracies (sensitivity) and specificity are 91% and 81%, respectively. By selecting the 683 experimentally verified sigma(70) promoters as training set and searching for the complete sequence in E. coli K-12 with 4639221bp. Results show that the 100% of the 683 experimentally verified sigma(70) promoters have been identified and some possible promoters are predicted.  相似文献   

16.
17.
18.
A comparative analysis of electrostatic patterns for 359 sigma70-specific promoters and 359 nonpromoter regions on electrostatic map of Escherichia coli genome was carried out. It was found that DNA is not a uniformly charged molecule. There are some local inhomogeneities in its electrostatic profile which correlate with promoter sequences. Electrostatic patterns of promoter DNAs can be specified due to the presence of some distinctive motifs which differ for different promoter groups and may be involved as signal elements in differential recognition of various promoters by the enzyme. Some specific electrostatic elements which are responsible for modulating promoter activities due to ADP-ribosylation of RNA polymerase alpha-subunit were found in far upstream regions of T4 phage early promoters and E. coli ribosomal promoters.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号