首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
微生物生态研究中基于BIOLOG方法的数据分析   总被引:21,自引:0,他引:21  
BIOLOG微平板法作为一种方便快速的微生物检验技术,已广泛应用于环境微生物检测,微生物生态研究等方面,发挥着越来越重要的作用。该方法可以获得关于微生物群落碳源利用能力的大量数据,反映出关于微生物活性的丰富信息。然而大量的数据也对解释和分析提出了挑战,分析了应用于BIOLOG产生数据的统计分析方法,对常用的AWCD值计算,多样性指数计算,主成分分析(PCA),聚类分析,相关、回归等方法深入探讨,阐述各自的功能、不足以及在应用中容易出现的问题。另外也对一些不常见的方法,如非参数多元分析(Non-Parametric version of MANOVA/Permutation version of MANOVA)、动力学参数分析、多元回归树、典范对应分析等也进行了讨论。通过对不同方法应用目标和原理的分析论述了各自优缺点,对微生物研究中基于BIOLOG方法数据分析的选择应用提供参考。  相似文献   

2.
目的 族群地域、体貌特征等表型是基因型与环境共同作用的结果。大量基因组学研究表明,汉族人群具有混合特征,内部存在明显的南北遗传差异。本研究旨在探索研究表观基因组在中国南北方汉族人群之间是否存在差异,并筛选差异遗传位点。方法 使用GLINT软件对483份汉族样本的全基因组甲基化芯片数据进行EWAS分析,使用Lasso回归方法筛选位点。使用多元逻辑回归算法构建南北方汉族人群预测模型,通过十折交叉验证的方法评估。结果 筛选出一组南北方汉族之间差异显著的CpG位点,准确性为99.03%,Kappa系数为0.979 6。结论 本研究表明南北方汉族人群之间存在表观遗传差异,本研究为进一步开展不同地域汉族人群之间的表观遗传差异研究奠定了基础。  相似文献   

3.
随机森林模型在分类与回归分析中的应用   总被引:25,自引:0,他引:25  
李欣海 《昆虫知识》2013,50(4):1190-1197
随机森林(random forest)模型是由Breiman和Cutler在2001年提出的一种基于分类树的算法。它通过对大量分类树的汇总提高了模型的预测精度,是取代神经网络等传统机器学习方法的新的模型。随机森林的运算速度很快,在处理大数据时表现优异。随机森林不需要顾虑一般回归分析面临的多元共线性的问题,不用做变量选择。现有的随机森林软件包给出了所有变量的重要性。另外,随机森林便于计算变量的非线性作用,而且可以体现变量间的交互作用(interaction)。它对离群值也不敏感。本文通过3个案例,分别介绍了随机森林在昆虫种类的判别分析、有无数据的分析(取代逻辑斯蒂回归)和回归分析上的应用。案例的数据格式和R语言代码可为研究随机森林在分类与回归分析中的应用提供参考。  相似文献   

4.
R型多变量线性研究之中回归方法是定量古生物学研究中经常使用的方法之一,常用于样本分类、寻求生物特征之间的关联和变化趋势等。R型回归方法关注研究对象的特征(在原始数据中以变量形式存在),直接对其进行分析,进而展示特征之间的关联或者样本间的整体差异。本文详细讨论了多元变量线性回归分析中的R型分析和Q型分析的区别和联系,并主要介绍了常用的R型多变量线性回归方法,包括主成分分析(Principal component analysis)、典型变量分析(Canonical variate analysis)和R型因子分析(R-factor analysis)的分析思路。以瓜迪亚纳河入海口大陆架地区底栖有孔虫分布特征研究为例,对比展示了上述三种方法分析的直接结果与间接推论,详解了这些多变量线性回归分析方法在化石生物数据定量分析中的具体应用。  相似文献   

5.
随着基因组规模的高通量实验鉴定技术和计算预测方法的发展,出现了大量蛋白质相互作用数据,但大规模蛋白质相互作用数据中的较高比例的假阳性影响了相互作用数据的质量。生物信息学方法能够从已有的数据和知识出发,通过计算方法系统评估大规模蛋白质相互作用的可信度。本文从过程模型设计、数据集构建、特征选择与综合属性抽取、一些算法使用、实例概述等方面介绍了生物信息学方法评估蛋白质相互作用可信度的研究特点与进展。  相似文献   

6.
基因表达谱微阵列数据库是一类可提供存储、查询、下载分析的在线网络数据库,在肿瘤相关领域的研究中提供了大量的数据来源。由于微阵列分析对于无生物/医学信息学专业背景的研究人员仍然有较多困难,致使该数据库的使用尚未普及。本文从数据查询、下载分析和使用方法等方面对常用基因表达谱微阵列数据库进行概述,并对现阶段基因表达微阵列数据库的应用策略进行总结,旨在帮助该领域研究的初学工作者了解数据库的基本知识并推动其在科研工作中的应用。  相似文献   

7.
基于多元统计分析中对样本完整性的要求,为了在分析中不抛弃大量不完整的化石标本或者不大大减少变量,创建了一种恢复标本残缺数据的方法。本方法基于线性回归理论,假设同类标本个体之间的区别仅仅是大小的区别,形状的区别可以忽略不计,因此,在同类标本中,可以用一件标本的已知测量数据预测另一件标本的残缺测量数据。在多件标本的情况下,对某件标本的某个残缺数据的预测结果是用其他标本分别进行预测所得值的加权平均,加权系数的选取与每件标本的保存完好程度相关。用现生马属头骨及肢骨标本做的数据试验证明,该方法具有良好的稳定性,对标本的种类、数量及残缺值的多少均不敏感,对于尺寸较大的标本或数值较大的数据的预测效果要比对尺寸较小的标本或数值较小的数据的预测效果要好。与传统的线性回归方法的不同之处在于,本方法利用的是样本(即标本)间的线性相关性,传统方法利用的是变量(即测量项)间的线性相关性。在通常情况下,样本间的线性相关程度要优于变量间的线性相关程度。本方法简单实用,在对化石标本进行统计分析,特别是多元统计分析中具有良好的应用前景。  相似文献   

8.
基因芯片数据分析   总被引:9,自引:0,他引:9  
杨畅  方福德 《生命科学》2004,16(1):41-48
基因芯片是近年发展起来的自动化的、高通量的研究生物学问题的一门新技术。它综合了多学科的成就,在大规模研究基因功能的领域中已经有了卓有成效的应用。对大量产生的数据如何有效地分析,成为芯片研究中的一个热点。总体上,数据分析方法可分为非指导的方法和指导的方法。在分析前需要对数据进行标准化和精简,对分析结果需要检验和进行生物学分析。作者对目前常用的一些统计学方法作一介绍,并讨论其适用范围及优缺点。  相似文献   

9.
赵学彤  杨亚东  渠鸿竹  方向东 《遗传》2018,40(9):693-703
随着组学技术的不断发展,对于不同层次和类型的生物数据的获取方法日益成熟。在疾病诊治过程中会产生大量数据,通过机器学习等人工智能方法解析复杂、多维、多尺度的疾病大数据,构建临床决策支持工具,辅助医生寻找快速且有效的疾病诊疗方案是非常必要的。在此过程中,机器学习等人工智能方法的选择显得尤为重要。基于此,本文首先从类型和算法角度对临床决策支持领域中常用的机器学习等方法进行简要综述,分别介绍了支持向量机、逻辑回归、聚类算法、Bagging、随机森林和深度学习,对机器学习等方法在临床决策支持中的应用做了相应总结和分类,并对它们的优势和不足分别进行讨论和阐述,为临床决策支持中机器学习等人工智能方法的选择提供有效参考。  相似文献   

10.
使用SPSS线性回归实现通径分析的方法   总被引:77,自引:0,他引:77  
由于通径分析可以将因变量与自变量的相互影响(相关系数)分解为直接影响(通径系数)和间接影响(间接通径系数),因此在遗传学等领域受到广泛的重视。目前在软件实现方法上,一方面缺乏必要的正态性检验,另一方面通径系数及间接相关系数计算步骤过于繁琐,限制通径分析的教学和使用。在应用中,我们注意到通过SPSS的线性回归"Linear"程序可以一次性获得计算通径系数的全部数据,从而简化通径分析的步骤。  相似文献   

11.
局地大气水线(LMWL)是氢氧稳定同位素示踪地区水文过程的重要基础之一,建立能代表当地降水稳定同位素总体特征的LMWL对于准确揭示相关水文过程十分关键。基于中国西北内陆季风区典型区域长武塬9年的降水稳定同位素观测数据,比较不同时间尺度与回归方法对LMWL的影响。结果表明:对于不同回归方法,除年尺度降水稳定同位素建立的LMWL基本保持不变外,次、月降水数据建立的LWML均会随回归方法的不同发生明显改变;在最小二乘(OLSR)、主轴(MA)和简约主轴(RMA)3种不同回归方法下,基于次、月、年降水数据建立的LMWL也明显不同;只有使用考虑降水量加权的OLSR、MA和RMA方法,次、月、年降水尺度数据建立的LMWL才较为接近。表明在降水量和稳定同位素特征随时间存在明显异质性的地区建立LMWL时,需格外注意降水稳定同位素数据尺度和回归方法的选择。对于降水稳定同位素观测困难、数据有限的地区,建议使用降水量加权的简约主轴回归或主轴回归方法建立具有代表性的LMWL。  相似文献   

12.
目的:Microsoft Excel的内置控制语言是VBA(visual basic for application)。它可以极大地增强Excel的数据处理能力。本文通过一个简单的例子说明如何利用VBA自动分析大量共聚焦线扫描图像数据并图示分析结果。方法与结果:文中首先描述了取自共聚焦线扫描图像的实验数据的结构及处理要求。然后具体说明宏程序(用VBA编写)的录制、修改和使用的详细方法。宏程序代码很接近自然语言,较好理解,而且在大多数情况下可通过“录制宏”功能自动生成,把编程的工作减至最少。结论:与手工使用Excel一步步进行数据处理相比,使用Excel中的VBA处理数据可少花时间、少犯错误、减少大量单调重复的劳动..这些可极大地提高数据处理效率,使研究者可把更多的时间用于数据处理方案的设计和完善上。特别在处理量大而复杂的实验数据时更需要如此。这样,数据中蕴含的有用信息才能更好地被有效而准确地提取出来并加以显示。  相似文献   

13.
野生动植物资源是非常珍贵的自然资源,在国民经济发展中占有十分重要的地位,具有生态、物质资源、遗传基因、文化等重要功能。切实加强我国野生动植物的保护工作是我国林业部门的一项重要工作,本文通过自己的大量调查研究走访和数据统计整理的方法支撑下,并结合本地实际状况,介绍了我国在野生动植物保护方面所取得的成就,分析了在保护过程中出现的一些亟待解决的问题,并提出了一些切实可行的保护策略,旨在使我国林业生态得到了极大改善,维护生态系统的平和发展安全。  相似文献   

14.
赵守栋  江源  焦亮  王明昌  张凌楠  李文卿 《生态学报》2015,35(22):7494-7502
在树轮年代学领域,ARSTAN是去趋势处理和建立年表方面应用最为广泛的程序,而新兴的R语言dplR扩展包实现了ARSTAN的主要功能,且具有源代码公开、扩展性强等优点,是传统程序的良好补充。使用贺兰山青海云杉(Picea Crassifolia)树轮宽度数据,分析了ARSTAN和dplR进行树轮年代学分析所得结果的差异。结果显示,两种程序计算平均敏感度和一阶自相关系数的平均误差为0.005—0.008,但具有确定的转换关系;两种程序如果使用同种方法去趋势,拟合曲线的参数相近,建立标准年表的平均误差为0.002;拟合自回归模型时差异较大,其中时域上表现为差值年表起始30a内差异显著,在频域上表现为dplR的差值年表保留的低频信息较少;年表统计量计算和公共区间分析中,不同程序计算样本总体代表性和信噪比的差异较大。分析表明,两程序在拟合生长趋势和自回归模型时存在算法上的较大差异,同时年表统计量和公共区间各指标的算法也不尽一致,但存在较为确定的转换关系。对开展不同来源数据的整合分析提出了建议,应明确不同研究中树轮数据的处理过程,在条件允许时使用同一程序或算法重新处理数据,确保结果的可比性。  相似文献   

15.
昆虫种群数据分析及在SPSS软件上的实现   总被引:1,自引:1,他引:0  
董兆克  戈峰 《昆虫知识》2013,50(4):1163-1169
选择合适的统计分析方法对昆虫种群分析至关重要。本文以昆虫种群数据常用的分析方法为基础,介绍了单因素方差分析、多因素方差分析、重复测量方差分析和回归分析等多种分析方法的基本原理,强调了各种分析方法的应用前提,避免误用方法导致结果判读产生偏差,并结合SPSS软件的使用,实现相应的分析,旨在为昆虫种群数据分析提供方法论的参考。  相似文献   

16.
黄伟  尹京苑 《生物信息学》2009,7(4):243-247
根据肿瘤分类检测模型的特点,提出了一种新的算法,该算法结合使用了基因选择和数据抽取的有效方法,并在此基础上使用支持向量机对基因表达数据进行分类或者检测。其中乳腺癌的分类交叉验证结果由88.46%提高到100.0%,急性白血病的也由71.05%提高至100.0%。实验结果说明了这一方法的有效性,为在大量的基因表达数据中提高检测癌症的准确性提出了一种比较通用的方法。  相似文献   

17.
杨晶  王兆月  田心 《生物信息学》2007,5(1):23-24,40
随着生命科学的迅猛发展,生物信息量的急剧增加,大量基因芯片的实验数据是公开发布在Internet网上的,尤其是学术机构在发表论文时所使用的实验数据都可以免费提供给研究人员下载使用。如何能有效地、正确地利用这些数据资源,特别是在利用数据验证算法、训练模型等问题的研究中,查询和使用基因芯片数据库网上资源便显得非常重要。对与乳腺癌基因芯片有关的数据库的数据查询及使用进行研究和探讨。  相似文献   

18.
基因芯片筛选差异表达基因方法比较   总被引:1,自引:0,他引:1  
单文娟  童春发  施季森 《遗传》2008,30(12):1640-1646
摘要: 使用计算机模拟数据和真实的芯片数据, 对8种筛选差异表达基因的方法进行了比较分析, 旨在比较不同方法对基因芯片数据的筛选效果。模拟数据分析表明, 所使用的8种方法对均匀分布的差异表达基因有很好的识别、检出作用。算法方面, SAM和Wilcoxon秩和检验方法较好; 数据分布方面, 正态分布的识别效果较好, 卡方分布和指数分布的识别效果较差。杨树cDNA芯片分析表明, SAM、Samroc和回归模型方法相近, 而Wilcoxon秩和检验方法与它们有较大差异。  相似文献   

19.
DNA微阵列分析为识别疾病类型及鉴别特征基因等生物研究提供了重要的研究手段,但目前大量使用的基于单基因的分析方法受样本数量和噪音的影响较大,无法呈现基因间的相互关系,而基因信号通路分析则是解决这一问题的一种有效方法。结合决策森林法对胃癌数据进行了基因通道分析,对所选择基因在基因信号通路中的作用以及通路中基因之间的相互作用进行了研究,为胃癌的研究提供了新的思路。  相似文献   

20.
显微光度测量中积累的数据量大,而所配备的软件缺乏处理这些数据的功能。即使软件较全,也只给出单个细胞的一些信息,没有给出群体分布的信息,往往需要在测量后花很多时间另作处理,因此数据处理程序的设计非常必要。数据处理程序分较通用和专用的两种,例如作群体的平均值、标准差、t测验,组方图、双参数散点图显示,曲线的平滑处理,回归分析等,是较通用的,而另一些例如吸收测量中双波法和双区法程序、荧光缝扫描程序、原位电泳测量程序等,是比较专用的。本文主要介绍和讨论一些通用的数据处理程序。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号