首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 62 毫秒
1.
细菌基因组上存在着大量的重叠基因,这不但缩减基因组尺寸,增加对遗传信息的有效利用,而且参与转录及转录后水平的调控。目前重叠基因的形成原因尚不清楚,缺少预测重叠基因是否存在的特征信息,不利于对 重叠基因的注释。本研究通过机器学习中的卷积神经网络算法对基因相关区域进行扫描,发现基因编码区前54 bp的区域可以作为判定重叠基因的标记信息,并采用支持向量机算法确证以上预测结果的准确性。通过对卷积神经网络模型的训练与优化,成功构建卷积神经网络模型,并用于大肠杆菌基因组中重叠基因的注释,对重叠基因的研究有重要意义。已训练好的模型和使用方法已经发布于GitHub,具体内容参看以下网址:https://github.com/breadpot/Convolutional_Neural_Network_Bacteria_overlapping_genes_prediction。  相似文献   

2.
随着高通量测序技术的飞速发展,植物基因组学研究目前已经积累了海量多组学数据。因此如何开发和改进相关处理软件工具,从而有效利用这些海量数据发掘有用的生物学信息,成为当下亟需解决的重要科学问题。其中机器学习方法凭借其显著的预测、分类、数据挖掘和集成能力,在此领域受到广泛关注。本文系统综述了不同类型机器学习方法的基本原理和流程,以及这些方法在植物基因组功能预测中的研究进展,重点总结了机器学习模型在植物分子相互作用预测、重要功能位点预测、功能注释、作物育种等方面的应用成果,并展望了该领域未来的发展方向和应用前景。本文有助于植物研究者快速了解和应用机器学习方法,从而推进植物遗传相关机制的研究和作物性状改良。  相似文献   

3.
刘丹  曾钦朦  刘斌  李煜  陈世品 《植物研究》2020,40(4):613-622
采用第二代Illumina HiSeq测序技术对闽楠的木质部、韧皮部、叶片进行转录组测序,分别获得Clean Reads片段41 383 707条、43 343 922条、44 191 586条,经转录本拼接后得到序列总长度达120 535 288 bp的383 331条Conting片段,进一步组装得到平均长度为542 bp的151 729条Unigenes。将闽楠转录组Unigenes进行基因功能注释,与NR数据库比对发现,其与葡萄的相似序列最多(34%),与黄瓜、野草莓、大豆的同源性较低(各占3%);进行GO功能注释,可将其划分为生物过程、细胞成分、分子功能3大类共计52个分支,与eggNOG数据库比对可分为25类,通过KEGG功能注释可知转录组中涉及的基因共参与了176条代谢通路,其中核糖体和碳代谢获得的注释较多。另外通过MISA软件分析,共获得35 972个SSR位点。其中,单核苷酸、二核苷酸和三核苷酸为优势重复类型,SSR位点数分别为21 762(60.50%),8 931(24.83%),4 924(13.69%)。闽楠转录组分析及基因功能注释为深入开展闽楠遗传育种及分子生物学相关研究奠定基础。  相似文献   

4.
为挖掘木贼镰孢(Fusarium equiseti (Corda) Sacc.)的产毒基因及明确其进化关系,通过BLAST软件与GO、KEGG、COG、E职NOG、CAZy等14个数据库结合的方法对其全基因组进行功能注释并挖掘产毒基因,进行系统进化分析及运用色谱技术研究产毒基因的分泌规律;以麦根腐平脐蠕孢、燕麦镰孢、尖...  相似文献   

5.
蛋白质是有机生命体内不可或缺的化合物,在生命活动中发挥着多种重要作用,了解蛋白质的功能有助于医学和药物研发等领域的研究。此外,酶在绿色合成中的应用一直备受人们关注,但是由于酶的种类和功能多种多样,获取特定功能酶的成本高昂,限制了其进一步的应用。目前,蛋白质的具体功能主要通过实验表征确定,该方法实验工作繁琐且耗时耗力,同时,随着生物信息学和测序技术的高速发展,已测序得到的蛋白质序列数量远大于功能获得注释的序列数量,高效预测蛋白质功能变得至关重要。随着计算机技术的蓬勃发展,由数据驱动的机器学习方法已成为应对这些挑战的有效解决方案。本文对蛋白质功能及其注释方法以及机器学习的发展历程和操作流程进行了概述,聚焦于机器学习在酶功能预测领域的应用,对未来人工智能辅助蛋白质功能高效研究的发展方向提出了展望。  相似文献   

6.
随着第二代DNA测序技术的发展,研究人员积累了大量的肠道菌群数据,研究表明肠道菌群与宿主健康状况存在密切联系,因此如何对复杂、高维的肠道菌群数据进行建模分析,是当前生物信息学研究中的重要挑战。人工智能的兴起为处理肠道菌群数据,揭示肠道菌群与宿主表型之间的复杂关系提供了可能。综述了现阶段肠道菌群与宿主表型之间的相关研究,重点介绍了常用的5种机器学习算法(线性回归、支持向量机、K-近邻、随机森林、人工神经网络)的理论原理及在相关研究中的应用,对预测宿主表型的机器学习算法选择提出了建议,并对该领域的未来发展进行了展望,以期为利用机器学习对肠道菌群宿主表型预测提供参考依据。  相似文献   

7.
张桂珊  杨勇  张灵敏  戴宪华 《遗传》2018,40(9):704-723
基于CRISPR/Cas9系统介导的第三代基因组定点编辑技术,已被广泛应用于基因编辑和基因表达调控等研究领域。如何提高该技术对基因组编辑的效率与特异性、最大限度降低脱靶风险一直是该领域的难点。近年来,机器学习为解决CRISPR/Cas9系统所面临的问题提供了新思路,基于机器学习的CRISPR/Cas9系统已逐渐成为研究热点。本文阐述了CRISPR/Cas9的作用机理,总结了现阶段该技术面临的基因组编辑效率低、存在潜在的脱靶效应、前间区序列邻近基序(PAM)限制识别序列等问题,最后对机器学习应用于优化设计高效向导RNA (sgRNA)序列、预测sgRNA的活性、脱靶效应评估、基因敲除、高通量功能基因筛选等领域的研究现状与发展前景进行了展望,以期为基因组编辑领域的研究提供参考。  相似文献   

8.
慈竹是我国四川当地的优势丛生竹种之一,其纤维长度和质量较优异,是造纸、纺织等工业的良好原料。本文利用Illumina Hi SeqTM 2000平台,对10、50、100和150 cm高的慈竹笋进行转录组分析,共得到69.28 M条读长(Reads),经从头拼接、组装和聚类后得到111 137条非重复序列基因Unigene,其中共有63 094条注释到COG、GO、KEGG、Swiss-Prot和Nr数据库中。这些Unigene不仅具有一般的功能,如转录和信号转导等,还涉及到蔗糖转运与代谢、次级代谢产物及细胞壁的生物合成等方面。不同高度慈竹笋的纤维素合成酶基因存在差异表达,发现了可能调控慈竹生长发育以及纤维素和木质素生物合成的相关基因,为慈竹品种改良提供一定的理论基础。  相似文献   

9.
李高磊  黄玮  孙浩  李余动 《微生物学报》2021,61(9):2581-2593
随着大数据时代的到来,如何将生物组学海量数据转化为易理解及可视化的知识是当前生物信息学面临的重要挑战之一.为了处理复杂、高维的微生物组数据,目前机器学习算法已被应用于人体微生物组研究,以揭示疾病背后的复杂机制.本文首先简述了微生物组数据处理方法及常用的机器学习算法,如支持向量机(SVM)、随机森林(RF)和人工神经网络...  相似文献   

10.
彭哲也  唐紫珺  谢民主 《遗传》2018,40(3):218-226
复杂疾病是基因与基因、基因与环境交互作用的结果,高维基因交互作用的探测给计算带来了极大的挑战。在过去20年间,机器学习方法被用于探测基因-基因交互作用,并取得了一定的效果。本文综述了机器学习方法在基因交互作用探测中的研究进展,系统地介绍了神经网络(neural networks, NN)、随机森林(random forest, RF)、支持向量机(support vector machines, SVM)和多因子降维法(multifactor dimensionality reduction, MDR)等机器学习方法在全基因组关联研究(genome wide association study, GWAS)中探测基因交互作用的原理和局限性,并对未来的研究进行了展望。  相似文献   

11.
Abstract

We develop ways to predict the side chain orientations of residues within a protein structure by using several different statistical machine learning methods. Here side chain orientation of a given residue i is measured by an angle Ωi between the vector pointing from the center of the protein structure to the Cα i atom and the vector pointing from the Cα i atom to the center of its side chain atoms. To predict the Ωi angles, we construct statistical models by using several different methods such as general linear regression, a regression tree and bagging, a neural network, and a support vector machine. The root mean square errors for the different models range only from 36.67 to 37.60 degrees and the correlation coefficients are all between 30% and 34%. The performances of different models in the test set are, thus, quite similar, and show the relative predictive power of these models to be significant in comparison with random side chain orientations.  相似文献   

12.
In higher eukaryotic cells, chromosomes are folded inside the nucleus. Recent advances in whole-genome mapping technologies have revealed the multiscale features of 3D genome organization that are intertwined with fundamental genome functions. However, DNA sequence determinants that modulate the formation of 3D genome organization remain poorly characterized. In the past few years, predicting 3D genome organization based on DNA sequence features has become an active area of research. Here, we review the recent progress in computational approaches to unraveling important sequence elements for 3D genome organization. In particular, we discuss the rapid development of machine learning-based methods that facilitate the connections between DNA sequence features and 3D genome architectures at different scales. While much progress has been made in developing predictive models for revealing important sequence features for 3D genome organization, new research is urgently needed to incorporate multi-omic data and enhance model interpretability, further advancing our understanding of gene regulation mechanisms through the lens of 3D genome organization.  相似文献   

13.
朱新宇 《生物技术》2003,13(6):59-61
对未知功能的基因进行注释的通常的方法是依据序列同源性分析。近年来,出现了多种不基于序列同源性的基因注释的计算方法,这些方法不依赖于核酸或蛋白质序列的相似性,所能预测的基因的功能属性也有所扩展,如,能够预测基因间相互作用关系。这些方法有效地减少实验材料、时间消耗。该文综述了几种这样的计算方法,包括原理、方法评估及存在的问题。  相似文献   

14.
Gene co-expression network analysis has been widely used in gene function annotation, especially for long noncoding RNAs (lncRNAs). However, there is a lack of effective cross-platform analysis tools. For biologists to easily build a gene co-expression network and to predict gene function, we developed GCEN, a cross-platform command-line toolkit developed with C++. It is an efficient and easy-to-use solution that will allow everyone to perform gene co-expression network analysis without the requirement of sophisticated programming skills, especially in cases of RNA-Seq research and lncRNAs function annotation. Because of its modular design, GCEN can be easily integrated into other pipelines.  相似文献   

15.
16.
Predicting protein-coding genes still remains a significant challenge. Although a variety of computational programs that use commonly machine learning methods have emerged, the accuracy of predictions remains a low level when implementing in large genomic sequences. Moreover, computational gene finding in newly se- quenced genomes is especially a difficult task due to the absence of a training set of abundant validated genes. Here we present a new gene-finding program, SCGPred, to improve the accuracy of prediction by combining multiple sources of evidence. SCGPred can perform both supervised method in previously well-studied genomes and unsupervised one in novel genomes. By testing with datasets composed of large DNA sequences from human and a novel genome of Ustilago maydi, SCGPred gains a significant improvement in comparison to the popular ab initio gene predictors. We also demonstrate that SCGPred can significantly improve prediction in novel genomes by combining several foreign gene finders with similarity alignments, which is superior to other unsupervised methods. Therefore, SCGPred can serve as an alternative gene-finding tool for newly sequenced eukaryotic genomes. The program is freely available at http://bio.scu.edu.cn/SCGPred/.  相似文献   

17.
随着测序技术的迅速发展,人们对宏基因组的研究逐渐深入。通过宏基因组学对微生物群落的测序和分析,以理解微生物组成与环境之间的相互作用。微生物宏基因组的分析摆脱了传统研究中微生物分离培养的技术限制,并获得了微生物群落的相对丰度和群落的功能等信息。用于微生物数据分析的工具和软件较多,对于研究者选择合适的分析方法具有一定困难。概述了微生物宏基因组分析方法的流程,总结了分析中常用的工具及软件,为研究者快速筛选分析方法,揭示数据背后的生物学意义提供参考。  相似文献   

18.
微生物基因功能的研究对于揭示微生物生命活动的规律及其在食品发酵、医药卫生、工农业生产等领域的应用机制具有重要意义。经过数十年的发展,微生物基因功能的研究方法已经从传统的同源重组技术发展到基于核酸内切酶的高效打靶技术,将微生物基因功能的研究推向了新的高度。文章就微生物基因功能的研究策略及常用方法做一综述,主要包括生物信息学方法预测、基因表达谱分析、基因敲除技术、基因敲入技术、基因沉默技术和基因编辑技术等。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号