首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
目的基于野生小家鼠来源1号染色体替换系群体(population of specific chromosome 1 substitution strains,PCSSs)中18个品系的全基因组重测序结果,鉴定1号染色体上的缺失突变并对其进行功能注释。方法采用Illumina二代测序平台获取18个品系的全基因组序列信息,通过Speed Seq软件鉴定缺失突变,进一步利用Snp Eff软件完成功能注释。结果在18个品系的1号染色体上共检测到13 803个缺失突变。缺失长度从51 bp到70 kb不等,其中长度500 bp的缺失突变约占总数的50%。多数缺失突变位于内含子区(50.361%)和基因间隔区(28.745%)。发现31个蛋白编码基因含有功能性缺失,其中有3个基因和人类疾病相关,7个基因参与了11条KEGG通路。结论 PCSSs的1号染色体上含有丰富的缺失突变,是在研究复杂性状的重要遗传标记。  相似文献   

2.
【目的】优化柞蚕Antheraea pernyi基因组注释,更好地扩展其在比较基因组学及品种改良研究中的应用。【方法】对柞蚕进行全长转录组测序分析;经全长转录本与参考基因组比对,鉴定新基因及新转录本,并对这些新基因和新转录本进行功能注释及长链非编码RNAs (lncRNAs)预测。利用大量的蛋白质编码转录本和lncRNAs对柞蚕基因组中基因结构进行修订。最后创建矫正后的柞蚕基因组基因注释。【结果】新发现1 997个蛋白编码基因和3 399个lncRNA基因,分别由2 402个和3 574个全长转录本数据支持。发现柞蚕基因组含25 021个基因,其中19 825个基因是蛋白编码基因,包括7个保幼激素酸甲基转移酶基因。【结论】本研究促进了对柞蚕基因组基因注释信息的认识,为柞蚕及相关物种功能基因组及比较基因组学研究提供了很有用的数据资源。  相似文献   

3.
原核生物蛋白质基因组学研究进展   总被引:1,自引:0,他引:1  
随着基因组测序技术的不断发展,大量微生物基因组序列可以在短时间内得以准确鉴定。为了进一步探究基因组的结构与功能,基于序列特征与同源特征的基因组注释算法广泛应用于新测序物种。然而受基因组测序质量以及算法本身准确性偏低等问题的影响,现有的基因组注释存在着相当比例的假基因以及注释错误,尤其是蛋白质N端的注释错误。为了弥补基因组注释的不足,以基因芯片或RNA-seq为核心的转录组测序技术和以串联质谱为核心的蛋白质组测序技术可以高通量地对基因的转录和翻译产物进行精确测定,进而实现预测基因结构的实验验证。然而,原核生物细胞中存在的大量非编码RNA给转录组测序技术引入了污染数据,限制了其对基因组注释的应用。相对而言,以串联质谱技术为核心的蛋白质组学测序可以在短时间内鉴定到生物体内大量的蛋白质,实现注释基因的验证甚至校准。已成为基因组注释和重注释的重要依据,并因而衍生了"蛋白质基因组学"的新研究方向。文中首先介绍传统的基于序列预测和同源比对的基因组注释算法,指出其中存在的不足。在此基础上,结合转录组学与蛋白质组学的技术特点,分析蛋白质组学对于原核生物基因组注释的优势,总结现阶段大规模蛋白质基因组学研究的进展情况。最后从信息学角度指出当前蛋白质组数据进行基因组重注释存在的问题与相应的解决方案,进而探讨未来蛋白质基因组学的发展方向。  相似文献   

4.
基因组变异与生物学功能,乃至人体健康紧密相关。不同种类的基因组变异会对人类健康产生不同的影响,可能出现致病、良性或未知的临床症状。深入研究临床上表现为致病性或良性的基因组变异,能够有效加深我们对基因组变异与疾病发生发展的认识,对评估基因组变异所带来的影响具有一定的意义。本研究选择Clinvar数据库中与疾病相关的SNP,探究临床表现为致病与良性的SNP位点分别在基因组上的分布模式以及对蛋白序列的影响。本研究发现,致病SNP与良性SNP在外显子与内含子上的分布以及蛋白结构域内外的分布上具有非常显著差异,致病SNP在外显子和蛋白结构域内的分布密度更高。从蛋白编码区的SNP突变类型来看,致病SNP位点中的同义突变与非同义突变所占比例分别是0.64%和99.36%,而良性SNP位点中两类突变的比例相差较小,检验结果显示致病SNP位点中非同义突变更多。此外,本研究通过分析致病SNP与良性SNP中的同义突变与非同义突变在蛋白质结构域内外的分布情况,发现两类SNP变异中同义突变的分布没有显著差异,但非同义突变的分布具有显著差异,其中致病SNP变异分布在蛋白质结构域内外的比例是53.22%和46.78%,良性SNP变异分布比例为31.96%和68.04%。随后,我们对非同义突变所在基因进行了功能注释和富集分析,发现两类变异所在基因的功能范围几乎一致。  相似文献   

5.
细菌基因组上存在着大量的重叠基因,这不但缩减基因组尺寸,增加对遗传信息的有效利用,而且参与转录及转录后水平的调控。目前重叠基因的形成原因尚不清楚,缺少预测重叠基因是否存在的特征信息,不利于对 重叠基因的注释。本研究通过机器学习中的卷积神经网络算法对基因相关区域进行扫描,发现基因编码区前54 bp的区域可以作为判定重叠基因的标记信息,并采用支持向量机算法确证以上预测结果的准确性。通过对卷积神经网络模型的训练与优化,成功构建卷积神经网络模型,并用于大肠杆菌基因组中重叠基因的注释,对重叠基因的研究有重要意义。已训练好的模型和使用方法已经发布于GitHub,具体内容参看以下网址:https://github.com/breadpot/Convolutional_Neural_Network_Bacteria_overlapping_genes_prediction。  相似文献   

6.
《遗传》2020,(7)
随着测序技术的不断发展,产生了海量的基因组测序数据,极大地丰富了公共遗传数据资源。同时为了应对大量基因组数据的产生,基因组比较和注释算法、工具不断更新,使得联合多种注释工具得到更准确的蛋白编码基因的注释信息成为可能。目前公共数据库的原核生物基因组测序和装配有些是10多年前的,存在大量预测的功能未知的编码基因。为了提升美国国家生物信息中心(National Center for Biotechnology Information,NCBI)数据库中基因组的注释质量,本研究联合使用多种原核基因识别算法/软件和基因表达数据重注释1587个细菌和古细菌基因组。首先,利用Z曲线的33个变量从177个基因组原注释中识别获得3092个被过度注释为蛋白编码基因的序列;其次,通过同源比对为939个基因组中的4447个功能未知的蛋白编码基因注释上具体功能;最后,通过联合采用ZCURVE 3.0和Glimmer 3.02以及Prodigal这3种高精度的、广泛使用且基于算法不同而互补的基因识别软件来寻找漏注释基因。最终,从9个基因组中找到了2003个被漏注释的蛋白编码基因,这些基因属于多个蛋白质直系同源簇(clusters of orthologous groups of proteins, COG)。本研究使用新的工具并结合多组学数据重新注释早期测序的细菌和古细菌基因组,不仅为新测序菌株提供注释方法参考,而且这些重注释后得到的细菌基因序列也会对后续基础研究有所帮助。  相似文献   

7.
位于基因编码区的DNA突变与基因的功能密切相关。在已知人类基因编码区的突变位点时,如何在基因组上设计引物验证该突变是一个重要的问题。本文利用Python语言开发了引物设计程序MutPrimerDesign。MutPrimerDesign通过解析人类基因组序列数据库以及基因注释信息,转换基因编码区坐标为基因组坐标,并调用Primer3的python程序包接口,可批量自动化完成基因突变位点的引物及探针序列设计。MutPrimerDesign使用简便,可识别多种数据库的基因名称,并能够修改引物常规参数,实现引物的快速调整。  相似文献   

8.
本研究利用已获得的意大利蜜蜂Apis mellifera ligustica工蜂中肠的转录组数据对意蜂的单核苷酸多态性(Single nucleotide polymorphism, SNP)和插入缺失(Insertion-Deletion, InDel)突变位点进行挖掘和分析,共鉴定到232 678个SNP位点,其中发生转换和颠换的SNP位点数分别为196 087和36 591个;最丰富的突变类型是G/A,最少的突变类型为T/G;分布在内含子的SNP位点最多,其次为外显子和基因间区;密码子突变类型为同义突变的SNP位点数最多,其次是非同义突变、终止子增加和终止子减少;此外,SNP位点所在基因可注释到 50个 GO条目和351条KEGG通路。共鉴定到38 715个InDel位点,最丰富的突变类型为移码插入,其次是移码缺失;分布InDel位点数较多的基因组区域为内含子和基因间区;另外,InDel位点所在基因可注释到50个功能条目和340条通路。研究结果丰富了西方蜜蜂Apis mellifera的SNP和InDel位点信息,并为开发和利用意蜂的新型分子标记提供基础。  相似文献   

9.
《菌物学报》2017,(11):1524-1542
本研究采用生物信息学方法统计分析了云芝基因组中SSR位点的数量、分布及频率等信息,对云芝基因组中含SSR的基因进行了功能注释,与其他5种伞菌纲真菌(双孢蘑菇、黑管孔菌、红缘拟层孔菌、金针菇和鲜红密孔菌)基因组进行了比较。结果发现云芝基因组中共有1 224个SSR位点,相对丰度为27个/Mb,三核苷酸重复类型分布最频繁。其中编码基因序列中包含299个SSR,仅次于基因间区,但是在非编译区、基因间区和内含子中SSR分布更加频繁。通过与nr数据库比对,485个含SSR的基因获得注释,其中115个基因通过GO注释到分子功能、生物进程及细胞组分3类中,108个基因通过KEGG注释到新陈代谢、遗传信息处理、细胞过程和环境信息处理4类中。设计58对引物主要用于物种鉴定,另外23对引物主要用于活性物质代谢研究和辅助育种。与其他伞菌纲真菌相比,云芝所含SSR的数量及相对丰度较低,并证明SSR数量与基因组大小无关,而某些特定的重复类型与GC含量有关。本研究为云芝的种群遗传学及进化研究奠定了理论基础。  相似文献   

10.
【目的】本研究拟利用已获得的中华蜜蜂Apis cerana cerana幼虫肠道的转录组数据对单核苷酸多态性(Single nucleotide polymorphism,SNP)和插入缺失(Insertion-Deletion,InDel)突变位点进行挖掘和分析,旨在丰富中华蜜蜂的SNP和InDel信息,并为新型分子标记的开发提供基础。【方法】根据有效读段与东方蜜蜂Apis cerana参考基因组的比对情况,采用GATK软件识别单碱基错配和碱基的插入缺失情况,再利用ANNOVAR软件对SNP位点和InDel位点进行分析。通过相关生物信息学软件将SNP和InDel位点所在基因分别比对GO和KEGG数据库,以获得相应的功能和通路注释。【结果】共鉴定到中华蜜蜂的58 919个SNP位点,包括24 548个纯合位点和34 371个杂合位点;发生转换和颠换的SNP位点分别有49102和9817个;数量最多和最少的突变类型分别是C/T和T/G;分布在外显子区的SNP位点数量最多,达到22 649个;此外,发生同义突变的SNP位点数量最多,其次是非同义突变;SNP位点所在基因可注释到46个GO条目和121条KEGG通路。共鉴定到6 551个InDel位点,包括3 270个插入突变和3 281个缺失突变;分布在内含子区InDel位点最多,共计2 793个;发生移码插入的InDel位点最多;进一步分析结果显示InDel位点所在基因可注释到27个GO条目和28条KEGG通路。【结论】本研究鉴定到中华蜜蜂的大量SNP位点和InDel位点,解析了SNP和InDel位点的突变类型、基因组功能元件分布和密码子突变类型,并揭示SNP和InDel位点对中华蜜蜂的重要生物学过程具有潜在影响。  相似文献   

11.
超级杂交稻父本93-11的基因组序列测定的完成,为进行作物遗传改良和不同作物之间的比较基因组学研究提供了又一重要序列资源.但是,该基因组序列中还存在很多缺口",为使93-11的基因组序列更加精确,同时提供一些缺口"填补策略和方法,本研究采用PCR扩增、回收克隆测序的方法对该基因组中一段长约160kb、含有6个缺口"的基因组序列进行了完善,并运用相关分子生物学和生物信息学软件进行了详细分析,结果表明:该6个缺口"中,存在1个缺口"估计错误,2个序列拼接错误;缺口"主要位于非编码区,位于编码区的只有1个,其改变了对本处基因的注释,使此基因由原来的9个外显子增加为11个;填补缺口"后,基因密度增加.  相似文献   

12.
XIST是维持雌性哺乳动物X染色体稳定失活的重要长链非编码基因。X染色体失活异常导致X连锁基因的过量表达从而参与了癌症等疾病的发生。干预XIST的表达在XIST的生物学功能和相关疾病发生的研究中是必不可少的。该研究利用CRISPR/Cas9系统和TALEN技术在293T细胞中对已知的XIST核心启动子进行编辑,建立了通过酶切、测序等鉴定突变效率的方法,并且结合极限稀释法、片段分析和TA克隆测序得到基因型确定的XIST低表达的单克隆细胞系。结果显示,CRISPR/Cas9和TALEN对XIST核心启动子的突变可以有效地抑制XIST的表达。该研究表明,针对XIST核心启动子的基因组编辑可以干预XIST的表达,这为长链非编码RNA基因的敲低提供了新的思路。  相似文献   

13.
骨质疏松症是一种典型的多基因复杂疾病,遗传力高达85%,其发病率已跃居常见疾病的第5位。尽管已经鉴定出大量骨质疏松易感SNP,但大多数SNP位点位于基因组非编码区,且功能机制未知。本研究旨在通过生物信息学分析和功能实验探究骨质疏松非编码功能性易感SNP rs4325274的分子调控机制。首先,通过表观注释发现该SNP所在区域处在增强子上,eQTL和Hi-C分析结果发现SNP调控的潜在靶基因是SOX6;然后,利用多种数据库进行Motif预测,并结合GEO数据库中的ChIP-seq数据分析进行了验证,结果发现转录因子HNF1A更倾向于结合SNP rs4325274-G碱基;进一步通过双荧光素酶报告基因实验验证了该SNP对SOX6基因表达的增强作用;最后,利用shRNA敲低转录因子HNF1A实验,检测靶基因SOX6的表达变化。以上研究结果初步解析了非编码区功能性SNPrs4325274作为增强子远程调控SOX6基因表达的分子机制,为复杂疾病非编码易感SNP的遗传调控研究提供新思路。  相似文献   

14.
<正>人类基因组中仅有1%到2%的是负责蛋白质编码的基因,其余非编码区域早先被认为是毫无用处的"垃圾DNA"。但是,美、英等国研究人员最近在这个"垃圾"区域中找到近百个乳腺癌与前列腺癌的潜在"导火索",显示了研究"垃圾DNA"对了解癌症的重要性。美国耶鲁大学、英国韦尔科姆基金会桑格研究所等机构的研究人员10月3日在《科学》杂志上报告说,随着个人基因组测序的成本直线下降,进行测序的人数迅速增加,解读他们基因组中的突变、尤其是非编码区的突变,已成为当前医学界面临的挑战。  相似文献   

15.
编码序列和非编码序列的3-tuple分布特征   总被引:2,自引:0,他引:2  
傅强  钱敏平  陈良标  朱玉贤 《遗传学报》2005,32(10):1018-1026
非编码序列,特别是内含子的起源,是一个重要的悬而未决的问题。首先通过计算模式生物的编码序列和非编码序列的不同阅读框中3-tupie的频率分布,发现编码区中不同阅读框具有十分不同的3-tuple分布,而在非编码区中,不同阅读框的3-tuple分布几乎相等,并且这一性质不具有物种依赖性。为了描述分布差异的程度,引进夏量一对称相对熵,并通过比较原核生物和真核生物,发现无论是编码区还是非编码区,原核生物都具有比真核生物更高的SRE值。进一步研究表明,某一生物的SRE值与该生物全基因组中编码区所占的百分比存在一定的相关性(相关系数为0.86)。计算机模拟进化实验发现,2%的突变就足以使典型的嗯核生物编码区高SRE值变为真核生物内含子区特有的低SRE值。比对数据库中已经注释的内含子和编码区序列,证明确实有一部分与编码区具有很高同源性的内含子序列。实验表明,至少部分真核生物的内含子可能起源于编码序列,同时也说明SRE可能被用于研究物种基因组序列的进化。  相似文献   

16.
超级杂交稻父本‘93-11'的基因组序列测定的完成,为进行作物遗传改良和不同作物之间的比较基因组学研究提供了又一重要序列资源.但是,该基因组序列中还存在很多“缺口”,为使‘93-11'的基因组序列更加精确,同时提供一些“缺口”填补策略和方法,本研究采用PCR扩增、回收克隆测序的方法对该基因组中一段长约160 kb、含有6个“缺口”的基因组序列进行了完善,并运用相关分子生物学和生物信息学软件进行了详细分析,结果表明:该6个“缺口”中,存在1个“缺口”估计错误,2个序列拼接错误;“缺口”主要位于非编码区,位于编码区的只有1个,其改变了对本处基因的注释,使此基因由原来的9个外显子增加为11个;填补“缺口”后,基因密度增加.  相似文献   

17.
表观遗传学与人类疾病的研究进展   总被引:22,自引:0,他引:22  
张永彪  褚嘉祐 《遗传》2005,27(3):466-472
在过去的几年里,人们对表观遗传疾病的机理有了新的认识,这些疾病与染色质重塑、基因组印记、X染色体失活以及非编码RNA调控这4个表观遗传过程相关。这4个过程通过调节染色质结构,在染色体或基因簇水平上对基因表达进行调控;异常调控导致复杂的突变且表现为出生前后生长发育和神经功能的异常。对这些疾病的探讨为表观遗传机制的研究提供了很好的模型,进而有助于生物医学的研究。文章就表观遗传学和表观遗传疾病机制的研究进展做一综述。  相似文献   

18.
[目的]鉴定B6-Chr1LY和B6-Chr1SJ小鼠品系1号染色体上的遗传变异。[方法]采用Illumina测序平台获得B6-Chr1LY和B6-Chr1SJ品系的全基因组序列并比对到参考基因组。利用Samtools/Bcftools以及speedseq软件鉴定单核苷酸多态性(single nucleotide polymorphism,SNP)、插入缺失(indel)和结构变异,并对其进行功能注释。[结果]两个品系共鉴定380万个SNPs、55万个indels、10 123个大片段缺失、152个重复和87个倒位。二者共享1 642 629 SNPs和190 248个indels;近16.1%SNPs和20.7%indels未在小鼠基因组计划和db SNP142数据集中报道。大片段缺失长度在51~70 kb之间,2 kb的占总数的76%。功能注释发现上百个蛋白编码基因含有非同义突变、移码突变、编码序列缺失等功能性变异。[结论]B6-Chr1LY和B6-Chr1SJ小鼠1号染色体上含有丰富的遗传变异信息,可为后续利用这两个品系的遗传学研究奠定基础。  相似文献   

19.
饶书权  杜廷福  许琪 《遗传》2014,36(11):1077-1086
据估计,约85%的人类遗传变异集中在蛋白编码区,因此对全部的蛋白编码区(外显子组)进行重测序,可以快速、有效地鉴定人类疾病遗传变异。以往鉴定孟德尔遗传病的致病基因多采用连锁分析结合候选定位克隆的方法,不仅耗时长,而且成功率低。2009年,科学家第一次应用外显子组测序在4名弗里曼谢尔登综合征(常染色体显性遗传病)中发现了位于MYH3中的点突变,显示出外显子组测序在孟德尔遗传病致病基因鉴定中的强大功效。就复杂疾病而言,传统的关联研究,包括全基因组关联研究(GWAS),虽然鉴定了大量的常见变异,但对低频变异和罕见变异的检测能力十分有限;深度测序的发展为解决上述问题提供了良好的契机。本文就外显子组测序在人类疾病中的应用作一简要综述。  相似文献   

20.
肿瘤的发生常与其相关基因的突变有关,这些突变会引起编码基因的蛋白质的结构或数量的改变,从而导致其相关基因功能的丧失。突变在基因上发生的位置及类型的不同也会对基因的表达造成不同的影响。本文介绍了存在于肿瘤相关基因编码区及非编码区的突变与肿瘤发生发展的相互关系。本文还就肿瘤相关基因的突变类型阐述肿瘤的靶向治疗,提供了癌症治疗及预防的新思路。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号