排序方式: 共有62条查询结果,搜索用时 15 毫秒
1.
目的:针对下一代测序数据量大、序列长度短的特点,研究数据分析和质量评估方法。方法:选择已发布的Illumina-Solexa平台测序数据为研究对象,通过MAQ软件将测序数据与人类全基因组序列进行比对,并以外显子区域为例,在位点水平对测序数据质量进行评估。结果:结合已有软件系统和本文自创线性算法,建立了一套包括比对、拼接在内的测序数据质量评估系统。比对分析后,发现原始测序序列共覆盖了127,113,378个位点,涉及24条染色体上的64868个外显子。其中,每个位点都被测到的外显子为0.50%,位点平均测序深度大于等于1的外显子为3.98%。结论:成功构建了基于Illumina-Solexa测序平台的数据分析和质量评估方法,其可适用于其它第二代测序平台。研究者可在质量评估的基础上完善测序试验设计,并进行SNP和突变筛选及后续功能性研究。 相似文献
2.
3.
磷酸化是蛋白质翻译后的主要修饰,可分为激酶特异性和非激酶特异性两种类型.以非激酶特异性磷酸化位点Dou数据集为基础,本文发展了一种基于位置的卡方差表特征χ2-pos,融合伪氨基酸序列进化信息PsePSSM表征序列,构建正负样本均衡的支持向量机分类器,S, T, Y独立测试Matthew相关系数、ROC曲线下面积分及准确率分别达到了(0.59、0.87、79.74%),(0.55、0.85、77.68%)和(0.50、0.81、75.22%),明显优于文献报道结果. χ2-pos、PsePSSM两种特征的融合在蛋白质磷酸化位点预测中有广泛应用前景. 相似文献
4.
【目的】利用计算机模拟技术,对冈比亚按蚊Anopheles gambiae犬尿氨酸甲酰胺酶(kynurenine formamidase,KFase)的潜在抑制剂进行虚拟筛选,以获得可以削弱冈比亚按蚊作为中间宿主传播疟疾等蚊媒疾病的候选杀蚊剂。【方法】下载冈比亚按蚊KFase的氨基酸序列,通过BLAST方法查询不同物种中的同源蛋白质,并利用MEGA6最大似然法(maximum likelihood method)构建进化树,选择适于作为模板的同源蛋白黑腹果蝇Drosophila melanogaster KFase晶体结构(PDB ID:4E14),对冈比亚按蚊KFase进行三维建模。利用随机森林算法对小分子化合物数据库进行筛选,并对筛选结果进行处理,模拟自然条件下有机小分子与冈比亚按蚊KFase的结合以及分子对接,从而筛选出冈比亚按蚊KFase的潜在抑制剂。【结果】获得3个小分子化合物与冈比亚按蚊KFase结合的亲和能较低,分别是:N-(2,4-diketo-1H-pyrimidin-6-yl)-2-fluoro-benzamide;3-(4-fluorophenyl)-2,4-dioxo-1,2,3,4-tetrahydropyrimidine-5-carboxylic acid;N-(2-oxo-2,3-dihydro-1Himidazo[4,5-b]pyridin-5-yl)-succinamic acid。它们与冈比亚按蚊KFase结合的亲和能分别为:-9.0,-8.7和-8.9 kcal/mol。【结论】N-(2,4-diketo-1H-pyrimidin-6-yl)-2-fluoro-benzamide,N-(2-oxo-2,3-dihydro-1H-imidazo[4,5-b]pyridin-5-yl)-succinamic acid和3-(4-fluorophenyl)-2,4-dioxo-1,2,3,4-tetrahydropyrimidine-5-carboxylic acid是冈比亚按蚊犬尿氨酸甲酰胺酶的潜在竞争性抑制剂,这些化合物是否可作为杀蚊剂的候选化合物有待实验验证。 相似文献
5.
目的:针对下一代测序数据,尤其是单端测序数据,研究快速、准确查找Indel的方法。方法:先与全基因组参考序列进行快速比对,筛选出包含Indel的序列;再对这些序列进行双向的二次比对,确定Indel长度;最后借助长度信息在锁定范围内查找Indel的确切位置和相关信息。结果:本文成功构建FIND(Fast INDel detection system)系统,用于从单端测序数据中查找Indel信息。以模拟测序数据作为测试数据,在12X测试数据情况下,FIND的灵敏度和特异性分别为87.71%和99.66%,而且该性能还随着测序倍数的增加而提升。结论:充分利用比对过程获取的信息,在确定Indle长度的同时也确定出其大致位置,最终在局部范围内实现对单端测序数据中Indle的快速而准确的查找。 相似文献
6.
基因芯片技术为疾病异质性研究提供了有力的工具。当前基于传统聚类分析的方法一般利用芯片上大量基因作为特征来发现疾病的亚型, 因此它们没有考虑到特征中包含的大量无关基因会掩盖有意义的疾病样本的分割。为了避免这个缺点, 提出了基于耦合双向聚类的异质性分析方法(Heterogeneous Analysis Based on Coupled Two-Way Clustering, HCTWC)来搜索有意义的基因簇以便发现样本的内在分割。该方法被应用于弥漫性大B细胞淋巴瘤(diffuse large B-cell lymphoma DLBCL)芯片数据集, 通过识别的基因簇作为特征对DLBCL样本聚类发现生存期分别为55%和25%的两类DLBCL亚型(P<0.05), 因此, HCTWC方法在解决疾病异质性是有效的。 相似文献
7.
黄土丘陵区旱地小麦籽粒干物质积累的准确模拟可为调控小麦生产提供重要的技术支持。本研究利用甘肃省定西市安定区1971—2017年的气象资料和甘肃省定西市安定区凤翔镇安家沟村2016—2017年的大田试验数据,基于APSIM模型对旱地小麦籽粒干物质积累与分配进行模拟,并在模型验证的基础上,定量分析了播期和耕作方式对小麦籽粒干物质积累的影响。结果表明: 3个播期(早播、正常播、晚播)和4种耕作方式(传统耕作、传统耕作+覆盖、免耕、免耕+覆盖)下,籽粒干物质模拟值与实测值间的均方根误差(RMSE)为57.5~143.1 kg·hm-2,归一化均方根误差(NRMSE)为1.4%~9.9%,模型模拟精度较高。不同播期下,耕作方式对籽粒干物质积累的促进效果排序均表现为: 免耕+覆盖>传统耕作+覆盖>免耕>传统耕作,免耕+覆盖最有利于小麦籽粒干物质积累,而免耕与传统耕作差异不显著。不同耕作方式下,小麦干物质积累过程均表现为早播好于正常播和晚播,晚播对干物质积累的影响较大,积累过程最不理想。 相似文献
8.
为探讨尕海湿地退化过程中植被生物量变化规律,以尕海泥炭沼泽和沼泽化草甸为例,采用定位样地调查方法,研究了不同退化程度湿地植被生物量的时空分布格局。结果表明,1)随着湿地退化演替,两类湿地植被地上生物量逐渐减小,泥炭沼泽未退化(PⅠ)、退化阶段(PⅡ)地上生物量依次为334.19,290.72 g/m~2,沼泽化草甸未退化(SⅠ)、轻度退化(SⅡ)、中度退化(SⅢ)地上生物量依次为378.40,308.07,261.21 g/m~2;地上生物量季节动态规律均为单峰型,8月中下旬达到峰值;同一湿地类型各退化阶段地上生物量绝对增长率(AGR)和相对增长率(RGR)在同一年份变化趋势基本相同,但不同年份间存在差异,而同一湿地类型不同阶段AGR和RGR的大小存在差异。2)地下生物量也随退化程度加剧显著减小(P0.05),PⅠ,PⅡ地上生物量依次为23081.46,12607.72 g/m~2,SⅠ,SⅡ,SⅢ地下生物量依次为4583.16,3008.63,1290.73 g/m~2;地下生物量季节变化均表现出愈接近生长季始末值愈大;地下生物量由土壤表层向深层显著下降(P0.05),总体呈\"T\"形分布,0—10cm土层,泥炭沼泽、沼泽化草甸地下生物量都最大,分别占各自总地下生物量50%和70%以上。3)尕海2类高寒湿地5—9月平均根冠比均表现未退化高于退化,根冠比季节动态为越接近生长季始末值越大,生长旺盛季值越小。 相似文献
9.
RNA的二级结构预测是生物信息学中一个已经有30多年历史的经典问题,基于最小自由能模型(MFE)的优化算法是使用最为广泛的方法.但RNA结构中假结的存在使MFE问题理论上成为一个NP-hard问题,即使采用动态规划等优化算法也会面临时间复杂度高的困难,同时研究还发现,由于受RNA折叠动力学机制以及环境因素的影响,真实的RNA二级结构往往并不处于自由能最小状态.根据RNA折叠的特点,提出了一种启发式搜索算法来预测带假结的RNA二级结构.该算法以RNA的茎为基本单元,采用启发式搜索策略在茎的组合空间中搜索自由能最小并且出现频率最高的RNA二级结构,该算法不仅能显著降低搜索RNA二级结构的时间复杂度,还有助于弥补单纯依赖能量预测RNA二级结构的不足.在多种类型的RNA标准数据集上进行了检验,结果表明,该算法在预测的精度上优于目前国际上几个著名的RNA二级结构预测算法并且具有较高的运行效率. 相似文献