首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
原核生物蛋白质基因组学研究进展   总被引:1,自引:0,他引:1  
随着基因组测序技术的不断发展,大量微生物基因组序列可以在短时间内得以准确鉴定。为了进一步探究基因组的结构与功能,基于序列特征与同源特征的基因组注释算法广泛应用于新测序物种。然而受基因组测序质量以及算法本身准确性偏低等问题的影响,现有的基因组注释存在着相当比例的假基因以及注释错误,尤其是蛋白质N端的注释错误。为了弥补基因组注释的不足,以基因芯片或RNA-seq为核心的转录组测序技术和以串联质谱为核心的蛋白质组测序技术可以高通量地对基因的转录和翻译产物进行精确测定,进而实现预测基因结构的实验验证。然而,原核生物细胞中存在的大量非编码RNA给转录组测序技术引入了污染数据,限制了其对基因组注释的应用。相对而言,以串联质谱技术为核心的蛋白质组学测序可以在短时间内鉴定到生物体内大量的蛋白质,实现注释基因的验证甚至校准。已成为基因组注释和重注释的重要依据,并因而衍生了"蛋白质基因组学"的新研究方向。文中首先介绍传统的基于序列预测和同源比对的基因组注释算法,指出其中存在的不足。在此基础上,结合转录组学与蛋白质组学的技术特点,分析蛋白质组学对于原核生物基因组注释的优势,总结现阶段大规模蛋白质基因组学研究的进展情况。最后从信息学角度指出当前蛋白质组数据进行基因组重注释存在的问题与相应的解决方案,进而探讨未来蛋白质基因组学的发展方向。  相似文献   

2.
林麟  杜如冰  吴群  徐岩 《微生物学通报》2022,49(8):3279-3292
【背景】耐酸乳杆菌(Lactobacillus acetotolerans)是白酒发酵过程中的优势乳酸菌,对白酒发酵具有重要作用。L. acetotolerans G10是分离自芝麻香型白酒发酵酒醅的一株能够利用多种碳源的菌株。【目的】基于全基因组测序,解析菌株G10多碳源利用机制。【方法】通过三代测序平台Oxford Nanopore完成菌株G10全基因组测序,分别利用Circlator和Prodigal对测序数据进行组装和基因预测;通过细菌基因组分析工具(bacterial pan genome analysis tool,BPGA)进行泛基因组分析。【结果】G10能够利用22种糖类及糖类衍生物,其全基因组大小为1 627 828 bp,含有1 878个编码基因;基于Koyto Encyclopedia of Genes and Genomes (KEGG)数据库注释获得292个碳源代谢相关基因,基于Carbohydrate-Active Enzymes (CAZy)数据库注释获得44个CAZy家族的编码基因。与其他发酵食品来源的耐酸乳杆菌相比,G10基因组最小,但其总基因数量以及...  相似文献   

3.
【目的】优化柞蚕Antheraea pernyi基因组注释,更好地扩展其在比较基因组学及品种改良研究中的应用。【方法】对柞蚕进行全长转录组测序分析;经全长转录本与参考基因组比对,鉴定新基因及新转录本,并对这些新基因和新转录本进行功能注释及长链非编码RNAs (lncRNAs)预测。利用大量的蛋白质编码转录本和lncRNAs对柞蚕基因组中基因结构进行修订。最后创建矫正后的柞蚕基因组基因注释。【结果】新发现1 997个蛋白编码基因和3 399个lncRNA基因,分别由2 402个和3 574个全长转录本数据支持。发现柞蚕基因组含25 021个基因,其中19 825个基因是蛋白编码基因,包括7个保幼激素酸甲基转移酶基因。【结论】本研究促进了对柞蚕基因组基因注释信息的认识,为柞蚕及相关物种功能基因组及比较基因组学研究提供了很有用的数据资源。  相似文献   

4.
出芽短梗霉因其发酵产物种类的多样性而具有广阔的工业应用前景。本研究利用下一代测序技术,对一株高产普鲁兰多糖的出芽短梗霉菌株(Aureobasidium pullulans CCTCC M 2012259)全基因组进行测序、组装和生物信息学分析。研究表明,该菌株的基因组全长约为26.37 Mb,共包含36条scaffolds和76 contigs,Gen Bank登录号:PRJNA350822。利用Gene Mark-ES软件对该基因组进行基因预测,共得到10 069个编码蛋白的基因。使用Blastp将其与Uniprot KB数据库中所有已知真菌蛋白进行比对,发现有6 218个预测蛋白与Uniprot KB数据库中的4 925个已知蛋白高度相似。利用DAVID工具对这些蛋白进行GO基因功能注释、KEGG通路注释和蛋白酶分析,分别注释得到4 444条GO功能条目、1 566条KEGG通路条目和1 740条蛋白酶信息。测定与分析为今后针对出芽短梗霉的功能基因挖掘以及分子遗传改造等工作的开展奠定了坚实的理论基础。  相似文献   

5.
水稻全基因组编码抗病基因同源序列分析   总被引:1,自引:1,他引:0  
利用模糊搜索的方法,在TIGR水稻日本晴基因组数据库(TIGR Rice Genome Annotation-Release5)中识别出565个编码抗病蛋白质的同源序列;利用识别出565个编码抗病蛋白质序列分别与籼稻基因组数据库进行BLASTP联配,共确定320个对应的等位基因。通过在线生物信息学软件,识别了这565个抗病基因的保守结构域、保守模体和DNA序列内转座子元件,其中有14个抗病基因同源序列注释错误。同时绘出了这些基因的基因组分布,并基于这些基因的同源树分析和基因组物理分布,认为基因的原位和远程复制事件产生了抗病基因的现存分布和多样性,其中转座子在复制过程中扮演了重要角色。这些对抗病机制研究和抗病基因进化研究以及抗病基因的转育具有重要意义。  相似文献   

6.
【目的】荔枝蒂蛀虫Conopomorpha sinensis Bradley是专一性危害我国华南地区荔枝和龙眼的重要害虫,隐蔽性强,防治困难,基因组信息缺乏。本研究的目的是获得荔枝蒂蛀虫的基因数据,寻求有效控制害虫的分子靶标。【方法】采用新一代高通量测序技术Illumina Hi SeqTM4000对荔枝蒂蛀虫进行转录组测序和生物信息学分析。【结果】经序列拼接获得68 996条unigenes。进一步利用七大公共数据库进行同源比对,注释了22 348 unigenes。注释到Nr数据库的unigenes数量最多,达27.01%,其中Nr注释的荔枝蒂蛀虫unigenes中与小菜蛾Plutella xylostella unigenes同源性最高,达34.1%。将unigenes与GO数据库比对发现,15 585条unigenes根据其功能大致可分为3类47亚类。KEGG pathways分析表明,7 272条unigenes定位为267个代谢通路。基因注释进一步筛选鉴定获得100个荔枝蒂蛀虫嗅觉相关基因;与鳞翅目相关气味结合蛋白基因联合分析发现,与荔枝蒂蛀虫气味结合蛋白基因直系同源的有18组,部分基因形成独立一簇。【结论】本研究首次获得了荔枝蒂蛀虫的转录组数据,研究结果为生物控制荔枝蒂蛀虫提供了重要的基础数据和候选分子靶标。荔枝蒂蛀虫独有的气味结合蛋白基因可能与其生境中特有的化学物质相关。  相似文献   

7.
鞘氨醇杆菌属(Sphingobium)是一类具有很强的烷烃、杂环芳香烃降解能力的革兰氏阴性细菌。在NCBI公共数据库报道的95株已测序的鞘氨醇杆菌属基因组中,鲜有和纤维素降解相关。Sphingobium sp.LF-16是在以甘蔗渣为碳源的筛选培养基中筛选得到一株具有纤维素降解能力的菌株。通过对LF-16的基因组测序,得到了一条大小为4.57 Mb,GC含量为64.57%的环状染色体序列,经过基因预测发现该基因组序列共有4340个编码基因,61个转运RNA。使用常用数据库对预测的基因集进行功能注释,获得了4067个编码基因的功能描述信息。通过dbCAN数据库对其编码基因进行分析发现,LF-16共有242个基因的编码产物属于碳水化合物活性酶,其中属于糖苷水解酶家族的有143个,AA家族的辅助蛋白有20个。经分泌组预测,共有488个基因能够分泌到胞外,其中有87个是碳水化合物活性酶。通过与鞘氨醇杆菌属的其他8个菌株的基因组序列进行比较基因组学分析发现LF-16与Sphingobium yanoikuyae SHJ的亲缘关系最近,比除S.yanoikuyae SHJ之外的其他菌株的碳水化合物活性酶的编码基因数量要多20%~30%。  相似文献   

8.
该研究以新鲜阴地蕨全株为材料,用Illumina HiSeq 2500平台进行全转录组测序,干净序列经组装后得单一基因(Unigene),将Unigene在非冗余蛋白/核酸数据库(nonredundant protein database,NR)、核酸序列数据库(nucleotide sequence database,NT)、基因本体论数据库(gene ontology,GO)、蛋白质真核同源数据库(clusters of eukaryotic orthologous groups,COG)、京都基因与基因组百科全书(Kyoto encyclopedia of genes and genomes,KEGG)、蛋白质序列数据库SwissProt和Interpro进行生物信息学分析。结果表明:共获得干净序列6.67 Gb,组装后得到58 646个Unigene,平均长度为1 023 bp,Unigene在上述数据库的总体注释率为69.25%。其中,在GO数据库中,20 762个基因被注释到生物功能、细胞组分和分子功能3个本体的52个功能组,COG注释了20 633个基因并将其划分为25个...  相似文献   

9.
微生物基因组注释系统MGAP   总被引:6,自引:0,他引:6  
利用生物信息学方法和工具开发了微生物基因组注释系统(Microbial genome annotation package, MGAP),并用于蓝细菌PCC7002的基因组注释。该系统由基因组注释系统和基于Web的用户接口程序两部分组成。基因组注释系统整合多个基因识别、功能预测和序列分析软件;以及蛋白质序列数据库、蛋白质资源信息系统和直系同源蛋白质家族数据库等。用户接口程序包括基因组环状图展示、基因和开放读码框在染色体上的分布图,以及注释信息检索工具。该系统基于PC微机和Linux操作系统,用MySQL作数据库管理系统、用Apache作Web服务器程序,用Perl脚本语言编写应用程序接口,上述软件均可免费获得。  相似文献   

10.
本文构建了相当于大熊猫10倍基因组覆盖度的BAC文库, 并随机挑选了其中9个BAC进行测序和组装, 9个BAC的选择满足更多基因更少重复序列的原则. 这9个BAC的组装将为评估基于新一代Illumina GA测序技术的大熊猫全基因组测序及组装的准确性提供有效资源. 运用同源比对和从头预测的方法, 对9个BAC, 共约878 kb的序列进行了基因和重复序列的注释以及进化分析. 一共预测到12个蛋白编码基因, 其中, 7个基因匹配到同源基因的功能注释. 这7个基因平均大小约41 kb, 编码区平均大小约1.2 kb, 每个基因平均约含6个外显子. 同时预测到7个tRNA基因. 大约27%的序列被注释为重复序列. 同时, 基于邻接法, 构建了包含人、小鼠、狗、猫以及大熊猫5个物种的物种进化树, 结果显示狗的基因与其他4个物种相比距大熊猫最近. 本实验结果提供了大熊猫9个BAC的详细序列及注释信息, 为对大熊猫的研究提供了数据资源.  相似文献   

11.
【目的】通过解析拟茎点霉属XP-8的基因组序列信息,揭示该菌株潜在的代谢途径,并分析松脂醇及其糖苷化合物等次级代谢产物生物合成相关的关键基因。【方法】使用Illumina Hi Seq 2500高通量测序平台对拟茎点霉XP-8菌株进行全基因组测序,并通过不同软件对测序数据进行序列拼接,基因预测与功能注释。【结果】组装后的拟茎点霉XP-8基因组大小为55.2 Mb,GC含量53.5%,含有17094个蛋白编码基因和310个非编码基因。获得了松脂醇及其糖苷化合物等次级代谢产物生物合成相关的基因。系统发育分析揭示出拟茎点霉XP-8与5种子囊菌共有12635个同源基因和5626个基因家族。【结论】拟茎点霉XP-8具有用于合成松脂醇及其糖苷化合物等多种次级代谢物的基因组基础,为下一步的代谢工程改造提供依据。  相似文献   

12.
Arthrobacter aurescens TC1和Pseudomonas sp. ADP是目前莠去津降解菌的模式菌株,筛选出Microbacterium sp.HBT4,旨在挖掘这3株不同种属细菌基因组间生物学信息的异同,并预测重要基因。通过Illumina Hiseq 4000测序平台采用DNA小文库制备和测序技术,进行了泛基因组测序,使用相关软件进行基因组组分分析、基因功能注释、基因间变异检测和比较基因组学分析,将分离得到的微杆菌HBT4与模式菌株进行核苷酸组成、共线性及菌株间变异差异分析。得到该菌株基因组大小约为3.53Mb,预测到菌株HBT4编码基因3 397个、重复序列含量为1.33%、非编码RNA 63个,通用数据库基因功能注释共3 324个,专用数据库基因功能注释共1 149个,通过菌株间差异变异分析发现SNP、Small InDel和水平转移基因,未发现结构变异基因,获得该菌株特有基因中GO注释到的基因在细胞组分、分子功能和生物学进程中的数量和比例,从KEGG代谢通路富集图中发现特有基因编码的二氢硫基赖氨酸残基琥珀酰转移酶位于三羧酸循环中α-酮戊二酸和琥珀酰辅酶A的代谢通路之间。获得3个菌株核心基因组与非必需基因组比例分布、系统进化树和共线性关系,发现三者之间共有基因家族986个、菌株HBT4特有基因家族1 171个。得到的菌株HBT4与两株模式菌株相比,其基因家族之间既有相同之处,又有较大差异。  相似文献   

13.
【背景】马勃是著名的传统可食用药用真菌,具有多种药理作用,包括抗菌、抗炎、止咳、抗肿瘤和抑制细胞增殖等。目前关于马勃的研究多集中在活性物质的分离提取及其药理药效上,而对马勃基因组遗传信息知之甚少。【目的】获得马勃真菌的基因组遗传信息,挖掘潜在具有工业应用价值的功能基因。【方法】联合使用Illumina二代测序技术和PacBio三代测序技术进行基因组测序,并综合使用多种数据库进行基因组结构分析和基因注释,包括GO注释。基于基因组信息,使用rDNAITS序列进行马勃真菌物种鉴定,并使用dbCAN和antiSMASH进行碳水化合物活性酶和次级代谢物基因簇的鉴定。【结果】测序获得大小为46.04 Mb基因组,有11 903个蛋白编码基因,包括6 634个GO注释基因。基于基因组中的rDNA ITS序列信息将该菌鉴定为大秃马勃(Calvatia gigantea),分析了麦角甾醇和萜类合成相关基因25个,鉴定出317个碳水化合物酶和18个次级代谢物生物合成基因簇,并发掘出1个潜在的、可分泌的抗丹宁α-淀粉酶。【结论】获得一株马勃真菌基因组,并发掘出潜在的食品工业应用价值的抗丹宁α-淀粉酶和多个新的次级代谢物合成基因簇。这将为马勃真菌遗传进化、功能基因组学研究,以及其在食品工业应用和次级代谢物的药用价值开发提供重要的遗传信息基础。  相似文献   

14.
贾慧琼  阮陟 《微生物学报》2022,62(3):949-967
细菌分子分型已成为监测细菌感染性疾病的暴发流行与明确病原菌传播途径的重要工具.随着全基因组测序技术的日益兴起,公共数据库中已产生大量的细菌基因组数据,迫切需要研究人员充分认识和理解该技术,并掌握多种生物信息学工具挖掘并解读测序数据.本文系统概述了全基因组测序技术与生物信息学工具在病原菌分型与溯源中的应用,并对全基因组测...  相似文献   

15.
已测序的微生物基因组中包含的注释开放阅读框(open reading frames,ORFs)可以分为两大类:第一类对应于功能已知的蛋白质编码基因;第二类则为功能未知的假设ORFs,其中通常有一部分实际上不编码蛋白质。采用基于Z曲线的方法从属于第一类的功能已知基因出发训练参数,进而确定第二类ORFs中非编码的部分。通过支持向量机的学习及分类,结果显示十重交叉检验平均正确率为98.45%,说明Z曲线联合支持向量机是一种高度准确的基因识别方法。最终,确定216个假设ORFs实际上不编码蛋白质。通过采用Blastp进行序列比对,保留的假设ORFs中有341个在高可靠性的条件下获得了功能信息。根据蛋白质直系同源簇方法进行功能分类,分别有30、53、59和159个新注释的假设ORFs属于信息储存和加工类、细胞加工和信号传递类、新陈代谢类和特征不明显类。另外还有70个不属于其中的任何一类。注释结果比RefSeq及GenBank提供的原注释更加准确,更加完整。  相似文献   

16.
白芷为常用的药食同源物种,既是临床常用中药,又是香料,用途十分广泛。为获取白芷全基因组序列信息,该研究首次以杭白芷叶片DNA为材料,采用Nanopore测序技术构建杭白芷全基因组数据库,并利用生物信息学方法对获得的核苷酸序列进行组装、功能注释以及进化分析研究。结果表明:(1)原始测序数据过滤后获得662 Gb三代数据,Read N50约为32 932 bp,经过组装得到杭白芷基因组大小为5.6 Gb, Contig N50约为806 638 bp。(2)组装后的序列通过与KOG、GO、KEGG等功能数据库比对,得到了功能注释的基因占66.47%,KOG功能注释结果表明杭白芷的蛋白功能主要集中在一般功能预测、翻译后修饰、蛋白质转换、伴侣以及信号转导机制;GO功能分类表明杭白芷的基因集中在生物学过程及细胞组分;KEGG通路注释表明参与代谢途径的基因占主要地位。(3)杭白芷中鉴定到45个BGLU家族基因。该研究首次利用第三代测序技术对杭白芷全基因组进行解析,为杭白芷的系统生物学研究和BGLU在杭白芷生长发育中的后续功能研究提供了重要的理论参考。  相似文献   

17.
【目的】利用已获得的纳米孔长读段测序数据完善现有的蜜蜂球囊菌Ascosphaera apis参考基因组注释信息,并对未注释的新基因和新转录本进行鉴定和功能注释。【方法】基于已获得的纳米孔长读段测序数据,采用gffcompare软件将蜜蜂球囊菌全长转录本与参考基因组注释的转录本进行比较,进而对参考基因组注释基因的非翻译区(untranslated region, UTR)进行延长。利用TransDecoder软件对蜜蜂球囊菌基因的开放阅读框(open reading frame, ORF)及相应的氨基酸序列进行预测。通过MISA软件发掘长度在500 bp以上的全长转录本的SSR位点。通过Blast工具将鉴定到的新基因和新转录本比对Nr, KOG, eggNOG, Swiss-Prot, Pfam, GO和KEGG数据库进行功能注释。【结果】共对蜜蜂球囊菌的9 481个基因进行了UTR延长,其中5′UTR和3′UTR延长的基因分别有4 744和4 737个。共预测出10 492个完整ORF,其中编码长度分布在0~100和100~200个氨基酸的ORF最多,分别占ORF总数的38.96%和3...  相似文献   

18.
【背景】长孢葡萄穗霉菌(Stachybotrys longispora) FG216是一株稀有海洋真菌,其次生代谢产物FGFC1具有纤溶活性。进行S. longispora FG216的基因组序列分析,将充实和促进海洋微生物功能基因和次生代谢产物合成生物学的基础研究和应用研究。【目的】解析S. longispora FG216的基因组序列,分析基因组生物功能和同源相似性关系,分析次生代谢产物纤溶活性化合物FGFC1的相关基因。【方法】基于Illumina HiSeq高通量测序平台对S. longispora FG216菌株进行De Novo测序,使用SSPACE、Augustus等软件进行组装、编码基因预测、基因功能注释、物种共线性分析以及预测FGFC1次生代谢产物合成基因簇。【结果】S. longispora FG216的基因组测序总长度为45622830bp,共得到605个Scaffold,GC含量为51.31%,注释预测得到13329个编码基因和169个非编码RNA。基因组测序数据提交至国家微生物科学数据中心(编号为NMDC60016264),其中13 053、8 422、8 460、7 714和2 847个基因分别能够在NR、KEGG、KOG、GO和CAZy数据库匹配到注释信息。比较基因组学分析发现,Stachybotrys具有保守性,核心基因占基因家族总数目的71.44%,S. longispora FG216与S. chlorohalonata IBT 40285的相似性最高;同时,预测得到101个次生代谢产物合成基因簇,其中18个基因簇与已知的化合物相匹配。通过antiSMASH预测,Cluster57是编码合成FGFC1母核结构异吲哚啉酮的基因簇,与S.chlorohalonataIBT40285中的基因簇相似度为40%。【结论】海洋稀有真菌S.longisporaFG216的基因组信息已上传至国家微生物科学数据中心公开使用,为Stachybotrys种属的研究提供了重要的参考意义,同时发现了S. longispora FG216次生代谢产物纤溶活性化合物FGFC1母核部分编码基因是Cluster 57。  相似文献   

19.
【目的】Streptomyces sp. PRh5是从东乡野生稻(Oryza rufipogon Griff.)中分离获得的一株对细菌和真菌都具有较强抗菌活性的内生放线菌。为深入研究PRh5菌株抗菌机制及挖掘次级代谢产物基因资源,有必要解析PRh5菌株的基因组序列信息。【方法】采用高通量测序技术对PRh5菌株进行全基因组测序,然后使用相关软件对测序数据进行基因组组装、基因预测与功能注释、直系同源簇(COG)聚类分析、共线性分析及次级代谢产物合成基因簇预测等。【结果】基因组组装获得290 contigs,整个基因组大小约11.1 Mb,GC含量为71.1%,序列已提交至GenBank数据库,登录号为JABQ00000000。同时,预测得到50个次级代谢产物合成基因簇。【结论】将为Streptomyces sp. PRh5的功能基因组学研究及相关次级代谢产物的生物合成途径与异源表达研究提供基础。  相似文献   

20.
【目的】解析出芽短梗霉CCTCC M2012223的基因组序列信息,分析其代谢产物聚苹果酸、黑色素、普鲁兰多糖合成相关基因,为深入研究遗传多样性和代谢工程改造提供序列背景信息。【方法】使用Illumina Hi Seq高通量测序平台对出芽短梗霉CCTCC M2012223菌株进行全基因组测序,并对测序数据进行序列拼接,基因预测与功能注释,COG/GO聚类分析,比较基因组学分析等。下载其他5株出芽短梗霉基因组序列,比较分析6株菌的种内同源基因、全基因组进化以及代谢产物合成相关基因。【结果】出芽短梗霉CCTCC M2012223基因组序列全长30756831 bp,GC含量47.49%,编码9452个基因。比较基因组分析表明出芽短梗霉CCTCC M2012223的基因组组装长度最长,6株菌的同源基因数达到7092个,普鲁兰多糖和聚苹果酸合成相关基因的蛋白序列有很高的保守性。出芽短梗霉CCTCC M2012223和Aureobasidium pullulans var.melanogenum亲缘关系最近,而这2株菌的黑色素合成相关基因的蛋白序列有一些插入和突变。【结论】本研究解析了出芽短梗霉CCTCC M2012223的基因组序列信息,获得黑色素、普鲁兰多糖和聚苹果酸合成相关基因,为后续的代谢机制解析和改造提供相关依据。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号