首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
目的探究将基于短串频度的CVTree方法用于反映菌群结构的16S rRNA基因的454高通量测序数据分析的可行性,为快速分析高通量菌群结构数据提供新的方法。方法对一个四世同堂的中国家庭7名成员肠道菌群和不同基因型及饮食类型的小鼠肠道菌群用454高通量方法获得16S rRNA基因的V3区的测序数据,用CVTree的方法进行菌群结构的比较分析。结果通过选取合适的短串长度,CVTree的方法能准确检测到各样本间的聚类关系,其结果与之前文献报道的基于Unifrac算法的结果相一致。结论CVTree能快速、有效地处理16S rRNA基因的454高通量测序数据,实现对不同菌群结构相似性的比较分析。  相似文献   

2.
目的:通过分析GEO数据库结直肠癌相关芯片集,寻找差异基因,并在TCGA数据库和GEO数据库进行验证,为结直肠癌的早期诊断寻找标志物。方法:分析GEO数据库结直肠癌相关芯片集GSE21510、GSE25071、GSE32323。分别分析差异基因,采用文恩图软件查找共同差异基因。进一步在TCGA数据库查找差异基因在结直肠癌中的表达及生存曲线。最后通过GEO数据库GSE24514验证差异基因的表达。结果:GSE21510,包含104例样本,共筛选出251个差异基因,其中上调基因146个,下调基因105个。GSE25071,包含50例样本,共筛选出669个差异基因,其中上调基因312个,下调基因357个。GSE32323,包含10例样本,共筛选出353个差异基因,其中上调基因115个,下调基因238个。在样本中上调基因为促癌基因,下调基因为抑癌基因。经文恩图分析,3个基因集交集共有15个基因,其中上调基因3个,下调基因12个。在TCGA数据库中查找差异基因的表达量和生存曲线,生存曲线选择结肠癌数据集,选取279个样本进行分析。根据差异基因的表达和生存曲线,最终确定促癌基因INHBA和抑癌基因CLCA4、CA4为结直肠癌的标志物。最后在GSE24514芯片集验证差异基因的表达。结论:通过GEO和TCGA数据库筛选及验证,发现在结直肠癌组织中INHBA基因明显上调,CLCA4、CA4基因明显下调。最终确定促癌基因INHBA和抑癌基因CLCA4、CA4可作为结直肠癌早期诊断的标志物。  相似文献   

3.
微生物组数据分析方法与应用   总被引:1,自引:0,他引:1  
高通量测序技术的发展衍生出一系列微生物组(microbiome)研究技术,如扩增子、宏基因组、宏转录组等,快速推动了微生物组领域的发展。微生物组数据分析涉及的基础知识、软件和数据库较多,对于同领域研究者开展学习和选择合适的分析方法具有一定困难。本文系统概述了微生物组数据分析的基本思想和基础知识,详细总结比较了扩增子和宏基因组分析中的常用软件和数据库,并对高通量数据下游分析中常用的几种方法,包括统计和可视化、网络分析、进化分析、机器学习和关联分析等,从可用性、软件选择以及应用等几个方面进行了概述。本文拟通过对当前微生物组主流分析方法的整理和总结,为同领域研究者更方便、灵活的开展数据分析,快速选择研究分析工具,高效挖掘数据背后的生物学意义提供参考,进一步推动微生物组研究在生物学领域的发展。  相似文献   

4.
细菌耐药已成为威胁全球人类公共健康的重要因素之一,快速、准确明确细菌耐药的特性、机制及传播特征对疾病治疗及控制耐药菌的传播具有重要意义。高通量测序技术可以同时平行检测多个基因序列的状态,已广泛应用于细菌耐药检测。目前高通量测序技术在细菌耐药领域的应用主要有:全基因组测序技术、目标区域测序技术和宏基因组测序技术。所采用的测序平台主要为Illumina、Ion Torrent、BGI等二代测序和Pacific Biosciences、Oxford Nonopore 等三代测序平台。通过细菌耐药基因预测细菌耐药表型的准确性在很大程度上依赖于成熟的专业耐药基因数据库,各种通用型、特异型及隐马尔可夫模型耐药基因数据库的建立和完善,为高通量测序技术在细菌耐药领域的应用提供了坚实的基础。本文简要介绍了高通量测序技术、数据分析方法及相应测序平台在细菌耐药领域中的应用进展,并同时介绍了细菌耐药数据库的现状。  相似文献   

5.
新发突发传染病暴发给全球公共卫生防控带来严峻挑战。快速识别致病病原体是应对新发突发传染病的首要问题,传统病原检测方法难以应对已知变异较大病原或未知病原,基于高通量测序的宏基因组学研究给病原识别鉴定带来了新的方法和思路。核酸提取、高通量测序和数据分析等关键技术方法不断发展,使宏基因组学成为新突发传染病防控的重要研究方向。宏基因组学可对传染病防控中的多种类型样本进行直接测序,获得高通量的测序数据,并结合病原核酸数据库,通过序列比对、变异进化分析等生物信息学方法,通过监测可疑样本对疫情暴发进行预测预警;识别传染病患者感染致病病原,为临床诊治提供指导;构建病原系统发育关系,追溯疫情潜在感染来源,最终实现新突发传染病病原的快速识别、分型、耐药及溯源分析。宏基因组学作为一项新兴技术,在传染病防控领域具有巨大潜力和发展空间。通过对宏基因组学在传染病病原监测、检测及溯源等方面的应用进展进行综述,以期为传染病防控提供新的视角。  相似文献   

6.
新发突发传染病暴发给全球公共卫生防控带来严峻挑战。快速识别致病病原体是应对新发突发传染病的首要问题,传统病原检测方法难以应对已知变异较大病原或未知病原,基于高通量测序的宏基因组学研究给病原识别鉴定带来了新的方法和思路。核酸提取、高通量测序和数据分析等关键技术方法不断发展,使宏基因组学成为新突发传染病防控的重要研究方向。宏基因组学可对传染病防控中的多种类型样本进行直接测序,获得高通量的测序数据,并结合病原核酸数据库,通过序列比对、变异进化分析等生物信息学方法,通过监测可疑样本对疫情暴发进行预测预警;识别传染病患者感染致病病原,为临床诊治提供指导;构建病原系统发育关系,追溯疫情潜在感染来源,最终实现新突发传染病病原的快速识别、分型、耐药及溯源分析。宏基因组学作为一项新兴技术,在传染病防控领域具有巨大潜力和发展空间。通过对宏基因组学在传染病病原监测、检测及溯源等方面的应用进展进行综述,以期为传染病防控提供新的视角。  相似文献   

7.
基于高通量测序技术的微生物检测数据分析方法   总被引:1,自引:0,他引:1  
高通量测序技术的发展正在逐渐改变诸多生物学领域的研究方法.为应对突发疫情以及新发未知微生物威胁的需求,微生物鉴定技术逐渐从传统的物理化学方法及核酸杂交等分子水平方法进一步走向利用无需培养的测序数据进行快速分析检测.随之而来的是对高通量数据分析在精度及速度的要求.基于高通量测序数据的微生物检测数据分析方法在近些年得到了快速的发展.本文分析了目前基于高通量测序数据的微生物检测数据分析方法,对其数据分析的处理流程和计算方法进行了研究,比较了各个微生物检测数据分析方法的特点及适用场景.最后结合本实验室工作总结微生物检测数据分析方法在实际应用中可能遇到的问题,希望对该应用领域的研究有一定的参考意义.  相似文献   

8.
《生物磁学》2012,(4):I0004-I0004
高通量RNA测序(RNA—seq)有望描绘出转录组的整体图像,实现样本内所有基因及其亚型的完整注释和定量。随着测序价格的不断下降。以及个人化测序仪的上市,更多的实验室有机会尝试这种新技术。然而,测序之后的数据分析才是真正的挑战。  相似文献   

9.
为探究egl-9家族缺氧诱导因子1(EGLN1)在肾透明细胞癌(ccRCC)中的表达情况及临床意义,基于TCGA数据库中ccRCC患者的基因表达数据分析EGLN1在ccRCC组织和正常肾组织中的差异表达情况,应用UALCAN平台分析ccRCC中EGLN1在不同角度下的表达差异。基于TCGA数据库中ccRCC的临床数据,对EGLN1高低表达组进行生存分析,对EGLN1表达量与总生存期的相关性进行Cox分析,同时对临床数据中EGLN1基因表达情况进行基因富集分析。通过STRING数据库检索了编码蛋白间可能的潜在相互作用,并构建了蛋白质互作网络将其表示出来。获取EGLN1相关蛋白,并通过GEPIA平台进行相关分析。分析TCGA数据库中样本表达数据可知,EGLN1在cc RCC中的表达高于正常肾组织。应用UALCAN平台分析发现,EGLN1的高表达与患者的年龄有一定的相关性。生存分析显示EGLN1高表达时,cc RCC患者预后较好。单因素及多因素Cox分析提示EGLN1的表达量是cc RCC患者生存期的独立风险因素。基因富集分析提示EGLN1基因的表达与肾细胞癌(RCC)、癌症途径、泛素介导蛋白水解途径、细胞凋亡通路等密切相关。结果显示,EGLN1可能成为评估cc RCC预后的分子标志。  相似文献   

10.
本文利用先进的生物信息学方法,首次从全基因组水平综合基因表达、甲基化水平和拷贝数变异三类数据,寻找与肺鳞状细胞癌(LUSC)发生和发展密切相关的特征基因,为进一步解释其内在机理、开发新的靶向药物和治疗手段提供更加深入的理论依据.为克服全基因组数据超高维高噪声小样本特性对机器学习算法性能的影响,防止信息饱和现象的干扰,本文创新性地组合应用4种特征基因筛选方法,分别从特异性、相关性、生物学功能和对肿瘤分类模型的贡献等多个方面,通过迭代降维技术递归筛选真正的特征基因.研究中,我们以TCGA(The Cancer Genome Atlas project)数据库中的LUSCⅠ~Ⅲ期病人样本为例,对其基因表达数据(GE)、基因甲基化数据(ME)以及拷贝数变异数据(CNV)进行分析.结果筛选出67个GE特征基因,对3类样本分类的平均准确率达到86.29%,70个ME特征基因,相应的分类准确率为90.92%,31个CNV特征基因,相应的分类准确率为69.16%.KEGG(Kyoto Encyclopedia of Genes and Genomes)和IPA(Ingenuity Pathway Analysis)对上述3类特征基因集在代谢通路水平和基因调控网络水平上的分析,证明了其在调控水平上的密切关系.同时也表明,识别的特征基因与LUSC肿瘤进展之间有着重要的直接关系,这对了解肿瘤机理以及新靶向治疗的发展非常重要.  相似文献   

11.
高通量微阵列杂交技术和测序技术的快速发展,产生了大量的基因数据,生物信息迅速膨胀成为数据的海洋。为适应这种高通量基因表达数据的不断增长和人们共享数据的需要,各种数据库应用而生,其中,NCBI(national center for biotechnology information)的基因表达综合数据库(gene expression omnibus,GEO)是世界上最大的储存高通量分子丰度数据的公共数据库,用户可以提交、储存和检索多种形式的数据并免费使用。迄今为止,GEO已收录了300000个样本的数据,涉及16亿个基因表达丰度数据,涵盖500多种生物体,广泛覆盖各种生物学内容。GEO数据库操作简单,数据全面,免费共享的优势为后期数据挖掘和信息推广提供了良好的平台。文章概述了GEO数据库的结构、数据的提交、检索和其在分子生物学领域中的应用前景。登陆GEO数据库的网址为:http://www.ncbi.nlm.nih.gov/geo。  相似文献   

12.
RNA-Seq作为近年来新发展起来的高通量转录组测序技术,为大规模转录组学研究提供了一种全新的且更为有效的方法.目前该技术已广泛应用于转录组学中多方面的研究,尤其近年来,该技术在进一步完善基因结构信息及挖掘新转录本及新基因方面的功能也逐渐受到关注.本研究以牦牛卵巢组织作为研究对象,应用RNA-Seq技术对其进行高通量转录组测序分析,经测序后得到了一个包含26826516条过滤后测序读数,4828772880 bp的卵巢测序文库,比对分析显示,有16992条牦牛基因发生表达,其中3734条基因存在不同类型的可变剪接.功能分析表明,这些表达基因涉及多种GO分类及KEGG通路.进一步分析转录组数据发现,共有7340个基因的5′或3′端在原有基因组的位置基础上发生了延伸,同时还发现了6321个新转录本,定位回基因组预测显示,外显子数量为1~84个,其中2267个新转录本预测具有编码蛋白的能力.比对分析显示,共有1200~4993条新转录本分别与Nt数据库、Nr数据库及SwissProt数据库中的基因比对上,其中与牛相似性基因最多(41.4%),其次为野牦牛(33.0%)、绵羊(6.3%)、人类(2.8%)及小鼠(1.6%)等其他物种.进一步对新转录本进行GO分类注释,结果显示,与繁殖发育相关的GO分类占有较大比例,其中繁殖类别(reproduction)所涉及的新转录本最多.本研究结果为描绘牦牛卵巢正常转录组图谱及进一步探析牦牛繁殖性能提供了基础,同时证实RNA-Seq高通量转录组技术在完善基因结构及挖掘新转录本及新基因方面的具有强大的优势,为进一步完善牦牛基因组结构信息及挖掘潜在的新基因提供了丰富数据.  相似文献   

13.
摘要 目的:POLE和POLD1突变导致DNA聚合酶校对功能丧失可能会影响基因组稳定性并导致突变增加和肿瘤形成。本文结合在线数据库和真实世界样本进一步分析肺腺癌(LUAD)患者POLE和/或 POLD1 突变的临床意义。方法:纳入2021年1月~2021年8月徐州医科大学附属医院肺癌术后组织标本115例,利用二代测序技术(NGS)检测基因突变;从癌症基因组图谱(TCGA)数据库收集肺腺癌数据集,通过Cbioportal在线数据库获得肿瘤突变分布图,通过Cibersort法计算获得样本的免疫相关细胞浸润情况。结果:真实世界样本中POLE/ POLD1突变的比例为7.83%(9/115)。TCGA数据显示POLE/POLD1突变的LUAD患者总生存期(OS)减少(P=0.0359)。然而,携带该突变的患者并发其他基因改变的频率明显增加,尤其是与TP53突变存在正相关;同时,POLE/POLD1突变与LUAD组织浸润性免疫杀伤细胞呈正相关,与免疫抑制细胞呈负相关,提示这部分患者对免疫检查点抑制剂(ICI)敏感。结论:LUAD患者POLE/POLD1突变预示较高的肿瘤突变负荷和免疫微环境改变,可作为ICI疗效预测的潜在生物标志物,值得临床关注。  相似文献   

14.
目的:利用基因芯片数据,探讨宫颈癌在分子水平上的发病机制,挖掘肿瘤相关基因EST片段,探索恶性肿瘤标志物,为肿瘤防治找到新的有效手段。方法:从基因芯片数据库GEO(gene expression omnibus)中获得GSM99077基因芯片数据,利用该数据筛选出宫颈癌相关基因的EST片段;然后通过NCBI中的在线BLAST软件找到与之相匹配的同源序列,对这些同源序列进行生物学功能分析,找到与肿瘤的相关性。结果:共发现宫颈癌组织与正常宫颈组织差异表达EST共127条,其中上调的106条,下调的11条,这些差异表达EST的同源序列的转录产物参与转录、翻译、细胞增殖分裂及细胞信号传导等过程。结论:基因芯片能有效、高通量地获取生物内在信息,通过对基因芯片数据再挖掘,可发现宫颈癌的发生涉及多个基因共同作用。  相似文献   

15.
目的分析ONECUT2基因在胃癌中的表达及其与幽门螺杆菌(Helicobacter pylori,H.pylori)感染的相关性。方法 (1)利用Oncomine数据库、TCGA数据库分析ONECUT2基因在胃癌中的表达,R软件包进行基因的共聚类微阵列数据分析。(2)利用Kaplan-Meier Plotter数据库和GEPIA数据库分析ONECUT2差异表达与胃癌患者预后的关系。(3)利用生物信息学功能注释数据平台DAVID对胃癌中与ONECUT2基因表达正相关的前200个基因进行功能富集分析。(4)利用GEO数据库中的数据分析H.pylori感染与ONECUT2表达的相关性。结果 (1)Oncomine数据库中的数据在胃癌、膀胱癌等8种肿瘤中共有14项研究显示ONECUT2基因在肿瘤组织中的高表达;其中胃癌相关的有两项(t=6.064,P0.000 1;t=4.335,P0.000 1);TCGA数据库的数据也证实胃癌中ONECUT2高表达(t=6.680,P0.001)。(2)胃癌中ONECUT2与EHF、FUT6、TNFRSF11A、RSAEF、EPCAM等20个基因有较高的共表达。(3)GO分析发现胃癌中ONECUT2富集在分子结构活性等相关的基因功能上;而KEGG富集分析发现ONECUT2富集于紧密连接功能等6个通路。(4)Kaplan-Meier Plotter数据库中207676-at芯片结果显示ONECUT2高表达组患者远期生存率下降(P0.001);GEPIA数据库中的分析结果同样显示ONECUT2高表达组患者其总体生存率(P0.05)和无病生存率(P0.01)下降。GEO数据库中GSE74577(P=0.005)、GSE70394(P=0.034)和GSE25146(P=0.036)三个数据集均显示H.pylori感染AGS和GES-1细胞系后ONECUT2表达上调。结论 ONECUT2在胃癌中高表达,且与胃癌一类致癌原H.pylori感染相关。ONECUT2高表达组患者远期生存率下降,表明其与胃癌发生发展密切相关,可能成为胃癌治疗的新靶点。  相似文献   

16.
谷胱甘肽S-转移酶-pi 1(glutathione S-transferase pi 1,GSTP1)基因是多种癌症的抑制基因。目前已有多项研究探讨GSTP1基因启动子区甲基化检测在前列腺癌(prostate cancer,PCa)临床诊断中的意义,但尚无系统性评估。本研究通过检索Pub Med、Web of Science数据库,收集相关英文文献进行Meta分析,对GSTP1基因启动子区甲基化检测在PCa临床诊断中的意义做出系统性评估。最终有27篇文献,共计3 183例样本纳入本研究,包含2 067例PCa样本及1 116例对照样本。Meta分析结果,PCa患者GSTP1基因启动子区相比正常对照组呈现显著高甲基化,差异有统计学意义(OR=17.98,95%CI:12.16~26.58,p0.000 1)。不同亚组(人种,样本类型及检测方法等)组间无显著性差异。上述研究的合并敏感度及特异度分别为0.70和0.96。此外,我们从TCGA(the cancer genome atlas,TCGA)数据库中选取425例前列腺腺癌(prostate adenocarcinoma,PRAD)组织与54例癌旁组织的高通量全基因组甲基化芯片数据进行验证分析后显示,GSTP1基因启动子区9个CpG位点中的7个位点,癌症组织相比癌旁组织呈现显著高甲基化水平。其敏感度均在0.85以上,特异度及AUC区间均在0.90以上,FDR1×10~(-20)。综上,Meta分析和TCGA均显示PCa患者GSTP1基因启动子区相比正常对照组呈现显著高甲基化,且诊断特异度与敏感度均较高,是非常有前景的PCa诊断标志物,对PCa的临床诊断具有借鉴意义。  相似文献   

17.
Oncomine 是目前世界上最大的癌基因芯片数据库和综合数据挖掘平台之一,该数据库整合了GEO、TCGA和已发表文献来源的RNA和DNA-seq数据。数据库目前含有715个基因表达数据集(datasheet)、86 733个人体肿瘤组织和正常组织样本的信息,且有新的数据不断更新。Oncomine 数据库囊括的肿瘤类型有19种,包括:膀胱癌、脑/中枢神经系统肿瘤、乳腺癌、宫颈癌、结直肠癌、食管癌、胃癌、头/颈肿瘤、肾癌、白血病、肝癌、肺癌、淋巴瘤、黑色素瘤、骨髓瘤、卵巢癌、胰腺癌、前列腺癌、肉瘤。本文就如何利用Oncomine数据库,进行肿瘤组织中癌基因表达差异性分析以及基因共表达分析、癌基因在肿瘤组织中的表达及拷贝数分析、多组研究数据集的荟萃分析(meta analysis)、以及癌基因表达与患者生存率关系等进行分析。通过该数据库可以对肿瘤癌基因进行研究前的筛查,有利于发现新的肿瘤生物标记物或治疗靶点,为临床科学研究奠定一定的理论基础。  相似文献   

18.
榆瘿蚜取食侵染榆树叶片形成了榆树虫瘿,本研究采用新一代的高通量Illumina Hi SeqTM 2000技术测序平台对榆瘿蚜取食刺激的榆树叶片进行转录组测序和功能注释,利用生物学方法对基因表达和功能进行研究。测序获得23.19 Gb碱基序列信息,通过对测序数据进行序列过滤、拼接和去冗余,共获得102 017个Unigenes,通过NR与BLAST等数据库比对,其中有37 899个(37.15%) Unigense被注释。利用KOG、GO、KEGG等数据库对榆树虫瘿叶片的Unigense进行比对,按功其能将匹配的Unigenes基因划分25大类;GO注释将信息归纳为基因的3大主类,57个亚类;以KEGG数据库为参考,将Unigene定位到110个不同的代谢通路,包括氧化应激防御、植物激素信号转导、碳水化合物以及次生物代谢等代谢相关的Unigenes通路。本研究通过二代高通量转录组测序技术研究榆瘿蚜侵染下榆树虫瘿的相关基因,为今后研究榆瘿蚜侵染榆树叶片形成虫瘿的分子机理提供了基础资料。  相似文献   

19.
转录组测序(RNA-seq)技术提供的全基因组数据信息已广泛应用于研究多个样本之间的基因表达模式和调控机制.通过构建种间或种内基因共表达网络(GCNs)挖掘的表达相关基因在功能上通常是相似的.对于马铃薯(Solanum tuberosum)而言,目前有大量的公共转录组测序数据,但是缺乏针对这些高通量数据构建的GCN网络,因此也无法探索在不同基因型、不同组织以及不同环境条件下基因的表达模式及规律.本研究选取16个公共转录组测序数据库构建了 GCN网络,这些数据库涵盖了来自全球各地的11个马铃薯栽培种.基于两两间基因表达相关性,我们在GCN网络中发现了一些具有特定生物学意义的基因模块.该网络共由14个基因模块组成并富集到植物光合形态建成、薯块休眠解除等多个生理过程,其中一个模块的134个基因在原始栽培种(ssp.Andigena)中特异性高表达,且通过功能富集发现这些基因与马铃薯病害和逆境的抗性相关.该结果揭示了在马铃薯人工驯化期间基因进化压力出现遗传漂移.本研究中基于GCN网络分析揭示了马铃薯种间和种内基因共表达模块的聚类以及不同模块基因间在进化上的分化,为马铃薯基因功能研究提供了新的视角.  相似文献   

20.
随着芯片和高通量测序技术的广泛应用,在肿瘤研究领域积累了越来越多的基因组学数据,这些数据库为生物学的研究提供了便利,为临床治疗奠定了基础。文中以EGFR在恶性胶质瘤中的研究为例来演示ONCOMINE数据库、c Bio Portal数据库和UCSC Xena数据库的使用过程及相关分析比较上述三个数据库的研究侧重点,为初学者介绍上述3个数据库以便更加快速的掌握并应用于科研工作中。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号