首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 186 毫秒
1.
【目的】优化柞蚕Antheraea pernyi基因组注释,更好地扩展其在比较基因组学及品种改良研究中的应用。【方法】对柞蚕进行全长转录组测序分析;经全长转录本与参考基因组比对,鉴定新基因及新转录本,并对这些新基因和新转录本进行功能注释及长链非编码RNAs (lncRNAs)预测。利用大量的蛋白质编码转录本和lncRNAs对柞蚕基因组中基因结构进行修订。最后创建矫正后的柞蚕基因组基因注释。【结果】新发现1 997个蛋白编码基因和3 399个lncRNA基因,分别由2 402个和3 574个全长转录本数据支持。发现柞蚕基因组含25 021个基因,其中19 825个基因是蛋白编码基因,包括7个保幼激素酸甲基转移酶基因。【结论】本研究促进了对柞蚕基因组基因注释信息的认识,为柞蚕及相关物种功能基因组及比较基因组学研究提供了很有用的数据资源。  相似文献   

2.
以RefSeq数据库和已测序基因组序列为模板,通过大规模计算得到代表转录各层次信息的"标准转录数据库",并利用通用网关接口技术,建立了人类和模式生物标准转录数据集Web服务系统。用户提交RefSeq记录号或自由注释词,可检索获得序列的全部信息,实现对基因结构解析的在线计算。目前系统覆盖了人、拟南芥、水稻、大鼠、小鼠、斑马鱼等6个物种,拥有数据记录18万余条。为深入研究人类及其他物种转录组提供了重要工具,并为进一步分析真核基因的可变剪接方式提供了坚实的数据基础。  相似文献   

3.
RNA-Seq作为近年来新发展起来的高通量转录组测序技术,为大规模转录组学研究提供了一种全新的且更为有效的方法.目前该技术已广泛应用于转录组学中多方面的研究,尤其近年来,该技术在进一步完善基因结构信息及挖掘新转录本及新基因方面的功能也逐渐受到关注.本研究以牦牛卵巢组织作为研究对象,应用RNA-Seq技术对其进行高通量转录组测序分析,经测序后得到了一个包含26826516条过滤后测序读数,4828772880 bp的卵巢测序文库,比对分析显示,有16992条牦牛基因发生表达,其中3734条基因存在不同类型的可变剪接.功能分析表明,这些表达基因涉及多种GO分类及KEGG通路.进一步分析转录组数据发现,共有7340个基因的5′或3′端在原有基因组的位置基础上发生了延伸,同时还发现了6321个新转录本,定位回基因组预测显示,外显子数量为1~84个,其中2267个新转录本预测具有编码蛋白的能力.比对分析显示,共有1200~4993条新转录本分别与Nt数据库、Nr数据库及SwissProt数据库中的基因比对上,其中与牛相似性基因最多(41.4%),其次为野牦牛(33.0%)、绵羊(6.3%)、人类(2.8%)及小鼠(1.6%)等其他物种.进一步对新转录本进行GO分类注释,结果显示,与繁殖发育相关的GO分类占有较大比例,其中繁殖类别(reproduction)所涉及的新转录本最多.本研究结果为描绘牦牛卵巢正常转录组图谱及进一步探析牦牛繁殖性能提供了基础,同时证实RNA-Seq高通量转录组技术在完善基因结构及挖掘新转录本及新基因方面的具有强大的优势,为进一步完善牦牛基因组结构信息及挖掘潜在的新基因提供了丰富数据.  相似文献   

4.
微生物基因组注释系统MGAP   总被引:6,自引:0,他引:6  
利用生物信息学方法和工具开发了微生物基因组注释系统(Microbial genome annotation package, MGAP),并用于蓝细菌PCC7002的基因组注释。该系统由基因组注释系统和基于Web的用户接口程序两部分组成。基因组注释系统整合多个基因识别、功能预测和序列分析软件;以及蛋白质序列数据库、蛋白质资源信息系统和直系同源蛋白质家族数据库等。用户接口程序包括基因组环状图展示、基因和开放读码框在染色体上的分布图,以及注释信息检索工具。该系统基于PC微机和Linux操作系统,用MySQL作数据库管理系统、用Apache作Web服务器程序,用Perl脚本语言编写应用程序接口,上述软件均可免费获得。  相似文献   

5.
《遗传》2020,(7)
随着测序技术的不断发展,产生了海量的基因组测序数据,极大地丰富了公共遗传数据资源。同时为了应对大量基因组数据的产生,基因组比较和注释算法、工具不断更新,使得联合多种注释工具得到更准确的蛋白编码基因的注释信息成为可能。目前公共数据库的原核生物基因组测序和装配有些是10多年前的,存在大量预测的功能未知的编码基因。为了提升美国国家生物信息中心(National Center for Biotechnology Information,NCBI)数据库中基因组的注释质量,本研究联合使用多种原核基因识别算法/软件和基因表达数据重注释1587个细菌和古细菌基因组。首先,利用Z曲线的33个变量从177个基因组原注释中识别获得3092个被过度注释为蛋白编码基因的序列;其次,通过同源比对为939个基因组中的4447个功能未知的蛋白编码基因注释上具体功能;最后,通过联合采用ZCURVE 3.0和Glimmer 3.02以及Prodigal这3种高精度的、广泛使用且基于算法不同而互补的基因识别软件来寻找漏注释基因。最终,从9个基因组中找到了2003个被漏注释的蛋白编码基因,这些基因属于多个蛋白质直系同源簇(clusters of orthologous groups of proteins, COG)。本研究使用新的工具并结合多组学数据重新注释早期测序的细菌和古细菌基因组,不仅为新测序菌株提供注释方法参考,而且这些重注释后得到的细菌基因序列也会对后续基础研究有所帮助。  相似文献   

6.
东方蜜蜂微孢子虫Nosema ceranae是一种寄生于蜜蜂中肠上皮细胞的单细胞真菌,对蜜蜂的健康危害严重,给世界各国的养蜂业造成较大损失。本研究基于前期获得的N.ceranae孢子的转录组数据对其已注释基因进行结构优化,并对未注释基因进行预测和分析。通过将测序得到的clean reads比对参考基因组和转录本重构,共对10个N.ceranae的已注释基因的5'端或3'端进行了延长。利用Cuffcompare软件将重构转录本与参考基因组进行比对,共鉴定出27个新基因,随机挑选9个新基因进行RT-PCR验证,均能扩增出符合预期的目的片段,表明预测出的新基因真实存在。有6个新基因能够注释到GO数据库和6个基因注释到KEGG数据库。进一步分析结果显示上述新基因注释到细胞等10个GO条目上,它们可能在N.ceranae的生命活动中具有重要功能。研究结果为N.ceranae的基因结构和功能注释信息的完善提供了有益补充,也为新基因的功能研究打下了基础。  相似文献   

7.
哺乳动物的基因组中能转录出成千上万的长链非编码RNA(lnc RNA),这些新发现的RNA分子已经被证实参与了各种各样复杂的生物过程.目前大多数哺乳动物的lnc RNA的参考注释并不完全,这限制了对lnc RNA的进化以及接下来的功能研究.本研究组利用9个物种6种组织的转录组测序数据,成功地构建出一个完备的哺乳动物lnc RNA的参考注释集合(约4142~42558条lnc RNA).基于这些lnc RNA,做了一系列的进化研究,发现30%~99%的lnc RNA在基因组上是保守的,这些保守的lnc RNA中仅有20%~27%也能在转录层面保守,这与编码基因的保守性形成鲜明对比:保守的编码基因约有48%~80%能在转录层面保守.随后,基于lnc RNA的表达量数据成功地构建出其在9个物种中的系统发生树,通过对系统发生树的对比分析发现,lnc RNA的进化速率明显比编码基因快,且在不同的组织间有很大差别.将此项研究中得到的lnc RNA的集合以及其保守和进化的数据收集到Phylo NONCODE数据库中(http://www.bioinfo.org/phylo Noncode),这将成为研究非编码RNA进化及功能的非常有用的资源.  相似文献   

8.
不同鱼类适应环境温度的能力不同,这是经过长期适应和进化的结果,是遗传信息特异性表达的具化表现,也是鱼类自身生理生化性能差异的反映。当前,对低温下鱼类的生理反应已经有深入研究,同时,对鱼类适应低温环境和耐受低温胁迫的分子生物学机制的研究方兴未艾,引起研究人员的广泛兴趣。高通量测序技术成本的降低和生物信息学技术的应用,允许研究者利用组学方法研究低温胁迫下鱼类的代谢途径和分子信号通路,在生物整体水平上分析鱼类响应低温胁迫的分子机制,挖掘低温耐受功能基因。研究发现,极地鱼类在长期适应环境的过程中,基因组不断进化,通过功能基因的获得、缺失和大规模扩增,适应长期低温环境;在转录调控水平上,低温胁迫下鱼类转录表达谱既表现出多细胞动物的保守性,同时又具有明显的物种特异性和组织特异性。抗冻(糖)蛋白、分子伴侣、代谢酶类和膜通道蛋白等都参与鱼类响应低温胁迫的过程。但是,不同种类蛋白质的编码基因结构与表达、功能与应用研究不尽相同。从进化、遗传表达和表观遗传学角度分别综述鱼类低温耐受的分子机制,总结鱼类低温耐受相关功能基因,预测鱼类低温耐受机制和应用研究热点,旨在为本领域研究人员提供思路。  相似文献   

9.
为了获得α-LA作用肺癌细胞后的转录组数据库和差异表达基因,我们将A549细胞处理组和对照组作为测试样品,采用Illumina Hi Seq TM2000测序技术进行转录组测序,并进行系统的生物信息学分析。对照组和处理组两两比较共获得6 748个差异表达基因。GO(gene ontology)分类分析表明,差异表达基因属于细胞组分、分子功能和生物学过程的46个类别。KEGG Pathway显著性富集分析提示差异表达基因共涉及15条途径,包括肿瘤相关通路、内质网蛋白加工、细胞周期、核糖体、剪接体等相关途径。对α-LA作用肺癌细胞的转录组进行拼接、组装和功能注释,得到大量转录本信息,为探究α-LA作用肺癌细胞后基因差异表达及相关分子机制提供了宝贵的基因组数据库资源。  相似文献   

10.
目的虹鳟热应激下肝RNA-seq数据中新转录本的分析及已注释基因结构优化。方法以虹鳟肝为材料提取总RNA,构建cDNA文库,并利用Illumina双端测序Hiseq 2500平台进行测序。运用Cufflinks软件对测序数据进行组装,将其与虹鳟参考基因组进行序列比对。结果发掘新转录本6555个,其中30个新转录本在热应激前后差异表达(P<0.05)。与GO数据库比对对新转录本进行功能注释,获得3097个新转录本的注释。与KEGG数据库比对,共有3617个新转录本注释到284条代谢通路中。对19 424个已注释基因的结构进行优化,延伸了14 719个基因的5′端和14 796个基因的3′端。结论通过对发掘的6555个新转录本分析,并对19 424个已注释基因结构优化,为虹鳟基因组注释信息的完善提供了有力的借鉴,并为进一步了解虹鳟热应激的机制提供更有力的理论基础。  相似文献   

11.
Orchids are one of the most ecological and evolutionarily significant plants, and the Orchidaceae is one of the most abundant families of the angiosperms. Genetic databases will be useful not only for gene discovery but also for future genomic annotation. For this purpose, OrchidBase was established from 37,979,342 sequence reads collected from 11 in-house Phalaenopsis orchid cDNA libraries. Among them, 41,310 expressed sequence tags (ESTs) were obtained by using Sanger sequencing, whereas 37,908,032 reads were obtained by using next-generation sequencing (NGS) including both Roche 454 and Solexa Illumina sequencers. These reads were assembled into 8,501 contigs and 76,116 singletons, resulting in 84,617 non-redundant transcribed sequences with an average length of 459 bp. The analysis pipeline of the database is an automated system written in Perl and C#, and consists of the following components: automatic pre-processing of EST reads, assembly of raw sequences, annotation of the assembled sequences and storage of the analyzed information in SQL databases. A web application was implemented with HTML and a Microsoft .NET Framework C# program for browsing and querying the database, creating dynamic web pages on the client side, analyzing gene ontology (GO) and mapping annotated enzymes to KEGG pathways. The online resources for putative annotation can be searched either by text or by using BLAST, and the results can be explored on the website and downloaded. Consequently, the establishment of OrchidBase will provide researchers with a high-quality genetic resource for data mining and facilitate efficient experimental studies on orchid biology and biotechnology. The OrchidBase database is freely available at http://lab.fhes.tn.edu.tw/est.  相似文献   

12.
13.
The accurate prediction of higher eukaryotic gene structures and regulatory elements directly from genomic sequences is an important early step in the understanding of newly assembled contigs and finished genomes. As more new genomes are sequenced, comparative approaches are becoming increasingly practical and valuable for predicting genes and regulatory elements. We demonstrate the effectiveness of a comparative method called pattern filtering; it utilizes synteny between two or more genomic segments for the annotation of genomic sequences. Pattern filtering optimally detects the signatures of conserved functional elements despite the stochastic noise inherent in evolutionary processes, allowing more accurate annotation of gene models. We anticipate that pattern filtering will facilitate sequence annotation and the discovery of new functional elements by the genetics and genomics communities.  相似文献   

14.
15.
16.
17.
18.
19.
The DOE-JGI Microbial Annotation Pipeline (DOE-JGI MAP) supports gene prediction and/or functional annotation of microbial genomes towards comparative analysis with the Integrated Microbial Genome (IMG) system. DOE-JGI MAP annotation is applied on nucleotide sequence datasets included in the IMG-ER (Expert Review) version of IMG via the IMG ER submission site. Users can submit the sequence datasets consisting of one or more contigs in a multi-fasta file. DOE-JGI MAP annotation includes prediction of protein coding and RNA genes, as well as repeats and assignment of product names to these genes.  相似文献   

20.
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号