首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
新近的基因识别软件比先前的软件有着显著的提高,但是在外显子水平上的敏感性和特异性仍然不十分令人满意.这是因为已有软件对于剪接位点,翻译起始等生物信号位点的识别还不够有效.如果能够分别提高这些生物信号位点的识别效果,就能够提高整体的基因识别效率.隐半马氏模型能够很好地刻画3'剪接位点(acceptor)的结构.据此开发的一套对acceptor进行识别的算法在Burset/Guigo的数据集上经过检验,获得了比已有算法更好的识别率.该模型的成功还使得我们对剪接点上游的分支位点和嘧啶富含区的概貌有了一定的认识,加深了人们对于acceptor的结构和剪接过程的理解.  相似文献   

2.
隐半马氏模型在3′剪接位点识别中的应用(英)   总被引:1,自引:0,他引:1  
新近的基因识别软件比先前的软件有着显著的提高,但是在外显子水平上的敏感性和特异性仍然不十分令人满意.这是因为已有软件对于剪接位点,翻译起始等生物信号位点的识别还不够有效.如果能够分别提高这些生物信号位点的识别效果,就能够提高整体的基因识别效率.隐半马氏模型能够很好地刻画3′剪接位点(acceptor)的结构.据此开发的一套对acceptor进行识别的算法在Burset/Guigo的数据集上经过检验,获得了比已有算法更好的识别率.该模型的成功还使得我们对剪接点上游的分支位点和嘧啶富含区的概貌有了一定的认识,加深了人们对于acceptor的结构和剪接过程的理解.  相似文献   

3.
完整基因结构的预测是当前生命科学研究的一个重要基础课题,其中一个关键环节是剪接位点和各种可变剪接事件的精确识别.基于转录组测序(RNA-seq)数据,识别剪接位点和可变剪接事件是近几年随着新一代测序技术发展起来的新技术策略和方法.本工作基于黑腹果蝇睾丸RNA-seq数据,使用TopHat软件成功识别出39718个果蝇剪接位点,其中有10584个新剪接位点.同时,基于剪接位点的不同组合,针对各类型可变剪接特征开发出计算识别算法,成功识别了8477个可变剪接事件(其中新识别的可变剪接事件3922个),包括可变供体位点、可变受体位点、内含子保留和外显子缺失4种类型.RT-PCR实验验证了2个果蝇基因上新识别的可变剪接事件,发现了全新的剪接异构体.进一步表明,RNA-seq数据可有效应用于识别剪接位点和可变剪接事件,为深入揭示剪接机制及可变剪接生物学功能提供新思路和新手段.  相似文献   

4.
DNA序列功能位点的识别是目前生物信息学领域的一个研究热点,剪接位点的识别就是其中之一.为了充分利用剪接位点的特征模式,从而更好地识别剪接位点,建立了一个基于改进Winnow算法的剪接位点识别系统.与其他方法相比较,改进的Winnow算法具有更好的鲁棒性,适用于高维特征空间,能够融合多种模式信息,即使在包含很多不相关特征的情况下,也能有很好的性能.同时在训练的时候,对特征集进行了剪枝,把一些对识别几乎没有贡献的特征去除,这样做对结果的影响可以忽略,而且提高了算法的效率.通过实验验证,改进的Winnow算法可以很好地识别剪接位点,其多个性能指标达到或超过目前国际上流行的剪接位点识别软件.  相似文献   

5.
基于支持向量机的人类5’非翻译区剪接位点识别   总被引:5,自引:0,他引:5  
基因非编码区域剪接位点的识别是基因识别中一个非常具有挑战性的问题,尤其是5’非翻译区中剪接位点的识别。与一般剪接位点不同,5’非翻译区剪接位点的两侧不存在由编码到非编码的状态转移,所以通常的剪接位点识别算法在非翻译区的性能不太理想。文章采用了基于支持向量机的方法对5’非翻译区中的剪接位点进行识别。为了提高识别精度,采用了基于矩阵相似性度量的核函数参数选取方法,它能够简单快速地确定合适的核函数参数,进而提高核函数的识别性能。通过实验验证,经过参数选择后的支持向量机能够较好地识别5'非翻译区剪接位点。  相似文献   

6.
可变剪接源于多外显子基因生成多个转录本的调控过程。随着高通量测序,尤其是RNA-seq的研究进展,剪接序列和剪接位点可以通过挖掘海量的测序数据进行预测。可变剪接现象拓宽了人们对基因结构和蛋白质亚型的知识。然而现有的短序列比对软件受到随机性比对的影响,产生很多假阳性剪接位点,干扰下游数据分析。本研究发现,可变剪接位点周边序列的结构特征可被深度学习模型提取,并利用深度卷积神经网络识别剪接位点。本研究的模型具有识别率高、计算速度快,模型泛化能力强、鲁棒性高等优势。  相似文献   

7.
目的:计算识别果蝇中新的非经典剪接位点,以探索未知的剪接机制。方法:基于黑腹果蝇表达序列标签(EST)与其基因组序列比对数据重构基因结构,从中发现非经典的剪接位点,并采用Weblogo软件分析非经典剪接位点上下游序列,以期发现剪接相关的特异性元件。结果:共得到265个非经典的剪接位点,这些剪接位点落在195个蛋白编码基因上。结论:应用生物信息学方法在果蝇中发现了上百个非经典剪接位点,为研究非经典剪接机制奠定了基础。  相似文献   

8.
基于支持向量机(SVM)的剪接位点识别   总被引:14,自引:1,他引:13  
剪接位点的识别作为基因识别中的一个重要环节, 一直受到研究人员的关注。考虑到剪接位点附近存在的序列保守性,已有一些基于统计特性的方法被用于剪接位点的识别中,但效果仍有待进一步改进。支持向量机(Support Vector Machines) 作为一种新的基于统计学习理论的学习机,近几年有了很大的发展,已被应用在模式识别的许多问题中。文中将其用于剪接位点的识别中,并针对满足GT- AG 规则的序列样本中虚假剪接位点的样本数远大于真实位点这一特性, 提出了一种基于SVM 的平衡取小法以获得更好的识别效果。实验结果表明,应用支持向量机进行剪接位点的识别能更好地提取位点附近保守序列的统计特征,对测试集具有更好的推广能力,并且使用上更加简单。这一结果为剪接位点的识别提供了一种新的方法,同时也为生物大分子研究中结构和位点的识别问题的解决提供了新的线索。  相似文献   

9.
低维输入空间的支持向量机识别人类剪接位点   总被引:1,自引:0,他引:1  
真核生物剪接位点的识别作为基因阵构成的向量来表示序列,用支持向量机在六维向量空间中寻找最优超平面,从而将真实的剪接位点和虚假的剪接位点进行分类.计算结果表明,利用这样的算法预测人类的剪接位点,有较好的预测效果.与其他的一些算法相比,表现出参数少,精度高等优点.  相似文献   

10.
针对传统基因剪接位点识别方法具有所用到的序列长,且参数多的问题,论文提出了一种基于KL距离的变长马尔可夫模型(Kullback Leibler divergence-variable length Markovmodel,KL-VLMM)。该模型在变长马尔可夫模型的基础上进行改进,由KL距离代替原来的概率比值来判断序列扩展的方向,有效地提高了特征序列的识别能力,且模型阶数由二阶降为一阶,降低了算法的空间复杂度。利用人类剪接位点数据库N269,对该模型和其他传统方法的识别性能进行了比较。实验结果表明,采用KL-VLMM方法预测人类基因剪接位点的预测效果更好。  相似文献   

11.
基因表达过程主要包括转录、剪接和翻译,多种调控元件参与其中,是个高度调控的过程。建模识别分析这些调控元件,对理解基因表达具有重要意义。本研究提出了一个基于移动序列模式的短序列建模模型,并对转录启动子和剪接调控元件进行了建模分析。启动子是基因转录的核心调控元件,剪接调控元件参与调控剪接位点的识别。分类实验结果表明,该模型可有效识别转录启动子序列和剪接调控元件序列。并进一步利用该模型,建模分析已为生物实验验证的、会导致剪接影响的基因组变异,实验结果表明,该模型可有效预测基因组变异的剪接影响,进一步验证了该模型的有效性。  相似文献   

12.
真核基因受体位点识别是剪接位点识别的一部分,也是基因识别中的重要环节,一直受到研究人员的关注。已有的研究结果显示受体位点的识别与分支位点有关,然而关于分支位点和受体位点识别的关系问题,目前还无人将其作为专门的问题予以深入研究。从受体位点识别出发,选取不同的受体位点序列长度,以神经网络为识别工具,对分支位点在受体位点识别中的作用做了深入研究和分析。实验结果表明,受体位点序列的特征信息集中在分支位点一例,因此分支位点在受体位点识别中具有重要作用。研究结果为受体位点识别问题中序列特征提取提供了依据。  相似文献   

13.
多样性指标用于基因中剪切位点的识别   总被引:4,自引:0,他引:4  
根据基因剪切位点处的碱基保守性特征,和附近位点的碱基组成和关联特征,应用多样性指标和二次判别分析,对几类模式生物的基因结构进行统一的分析和预测,能够较好地识别外显子和内含子及其边界.计算结果表明,对于4类物种,线虫(C.elegans),拟南芥(A.thaliana), 果蝇(D.melanogaster)和人类(human),核苷酸水平的识别精度为92.5%~97.1%,外显子水平的识别敏感性为83.7%~94.5%,特异性为87.8%~97.1%.预测能力优于GeneSplicer等剪切位点检测软件.  相似文献   

14.
大多数真核基因能够发生可变剪接,其调控对于生理和病理状态下细胞功能的实现至关重要,而异常可变剪接则可导致多种疾病。虽然已知可变剪接能够在转录后水平调节基因表达,然而目前仍不清楚特定的可变剪接模式是如何被调控的。越来越多的研究发现细胞信号和外界环境刺激能够调控靶基因的剪接模式,并且已发现一些与可变剪接调控有关的信号转导通路,而后者能够通过修饰剪接因子进而改变剪接因子的亚细胞定位或者活性,从而实现对靶基因可变剪接模式的调控。由细胞信号转导通路所构成的网络能够灵活多样地调控基因剪接,一条信号通路可调控多个基因剪接,而多条信号通路也可调控同一基因剪接,对于理解信号转导过程的分子机制具有重要意义。  相似文献   

15.
旨在探索多肽9R-P201处理肝癌HepG2细胞后基因融合、单核苷酸多态性(Single nucleotide polymorphism,SNP)突变、可变剪接等事件,并分析差异表达基因所参与的生物学进程与信号通路,以期解析多肽9R-P201在转录组水平对肝癌细胞的调控。通过转录组测序检测9R-P201处理肝癌HepG2细胞前后基因差异表达情况,tophat-fusion软件检测基因融合,SAMTOOLS软件检测SNP位点,r MATS软件鉴定可变剪接,使用基因本体(Gene Ontology,GO)和京都基因与基因组百科全书(Kyoto encyclopedia of genes and genomes,KEGG)富集分析方法对差异表达基因进行功能富集分析。结果共检测到可变剪接事件276个、SNP位点5 557个、基因融合事件45个;同时共得到显著差异表达基因403个,其中上调269个而下调134个,基因的功能富集分析结果显示差异表达基因显著富集细胞生长、迁移等肿瘤相关生物进程,并参与多条与癌症相关的信号通路。研究表明在9R-P201诱导HepG2细胞后,导致表达差异基因显著与肿瘤生物学进程和通路相关,并发生了大量可变剪接、SNP突变、基因融合等事件,这暗示着该多肽有望作为后续肝癌介入治疗潜在药物分子。  相似文献   

16.
使用估计的反应自由能预测组成性和可变剪接位点   总被引:2,自引:0,他引:2  
基因结构预测中的一个重要步骤是精确地识别剪接位点。基于剪接反应的基本物理原则,最大信息原理被应用到剪接反应的理论分析中,进而导出了反应自由能估计表达式。作为一个简化模型,这个表达式能被用来估计一个5′剪接区或者3′剪接区所参与的剪接反应中的自由能变化。它不但较全面地概括了各个碱基之间的关联,而且还考虑了基因组背景概率的影响。这个反应自由能表达式被用来预测了人类基因中的组成性和可变剪接位点,预测结果是令人满意的,其预测能力比得上当前的一些流行方法。这说明最大信息原理可以作为研究某些核酸-蛋白质相互作用系统(如剪接反应)的理论出发点,导出的反应自由能表达式较好地符合了剪接反应过程。  相似文献   

17.
基于机器学习的高精度剪接位点识别是真核生物基因组注释的关键.本文采用卡方测验确定序列窗口长度,构建卡方统计差表提取位置特征,并结合碱基二联体频次表征序列;针对剪接位点正负样本高度不均衡这一情形,构建10个正负样本均衡的支持向量机分类器,进行加权投票决策,有效解决了不平衡模式分类问题. HS~3D数据集上的独立测试结果显示,供体、受体位点预测准确率分别达到93.39%、90.46%,明显高于参比方法.基于卡方统计差表的位置特征能有效表征DNA序列,在分子序列信号位点识别中具有应用前景.  相似文献   

18.
在真核生物的基因中,mRNA选择性剪接现象十分普遍。mRNA选择性剪接导致一个基因多转录本的产生,被认为是高等生物增加蛋白质多样性的主要机制,且已发现与许多人类疾病密切相关。发现这些转录本的选择性剪接位点、新的外显子和外显子组合,乃至获得这些剪接变异体的完整克隆,对于基因功能的深入研究十分必要。简要介绍了几种在mRNA水平探索选择性剪接的方法。  相似文献   

19.
《菌物学报》2017,(5):618-624
可变剪接是引起蛋白多样性的主要机制之一,而转录组reads的重新定位是获取可变剪接位点的有效方法,适合在基因组较小的真菌中应用。ZOOM软件是一款可在window系统下运行的reads可视化定位软件,被广泛用于下一代基因组测序(NGS)的reads定位及单碱基多态性位点(SNP)的发掘。本文发现该软件分析可变剪接的新用途,并以禾谷镰刀菌Fusarium graminearum的4个基因为例详细描述该方法在真菌可变剪接位点识别中的应用,这些结果均获得RT-PCR的验证。  相似文献   

20.
本文提出了一种基于卷积神经网络和循环神经网络的深度学习模型,通过分析基因组序列数据,识别人基因组中环形RNA剪接位点.首先,根据预处理后的核苷酸序列,设计了2种网络深度、8种卷积核大小和3种长短期记忆(long short term memory,LSTM)参数,共8组16个模型;其次,进一步针对池化层进行均值池化和最大池化的测试,并加入GC含量提高模型的预测能力;最后,对已经实验验证过的人类精浆中环形RNA进行了预测.结果表明,卷积核尺寸为32×4、深度为1、LSTM参数为32的模型识别率最高,在训练集上为0.9824,在测试数据集上准确率为0.95,并且在实验验证数据上的正确识别率为83%.该模型在人的环形RNA剪接位点识别方面具有较好的性能.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号