首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 78 毫秒
1.
基于Fiedler向量的基因表达谱数据分类方法   总被引:1,自引:0,他引:1  
尝试将一种基于图的Fiedler向量的聚类算法引入到基因表达谱数据的肿瘤分类中来。该方法将分属不同类的所有样本通过高斯权构造Laplace完全图,经SVD分解后获得Fiedler向量,利用各样本所对应的Fiedler向量分量的符号差异来进行基因表达谱数据的分类。通过模拟数据仿真实验和对白血病两个亚型(ALL与AML)及结肠癌真实数据实验,证明了这一方法的有效性。  相似文献   

2.
王蕊平  王年  苏亮亮  陈乐 《生物信息学》2011,9(2):164-166,170
海量数据的存在是现代信息社会的一大特点,如何在成千上万的基因中有效地选出样本的分类特征对癌症的诊治具有重要意义。采用局部非负矩阵分解方法对癌症基因表达谱数据进行特征提取。首先对基因表达谱数据进行筛选,然后构造局部非负矩阵并对其进行分解得到维数低、能充分表征样本的特征向量,最后用支持向量机对特征向量进行分类。结果表明该方法的可行性和有效性。  相似文献   

3.
基于基因表达谱的肿瘤特异基因表达模式研究   总被引:1,自引:1,他引:0  
基于肿瘤基因表达谱, 利用生物信息学的方法, 从肿瘤与正常组织的样本分类入手就肿瘤特异表达基因的发现及其表达模式问题进行了分析和研究, 进而探讨了肿瘤在基因表达上的特点. 首先, 在分析肿瘤基因表达谱特点的基础上, 提出了基于Relief算法的样本分类特征基因选取策略; 然后, 以支持向量机为分类工具进行样本类型的识别, 以分类错误率为标准选取样本分类特征基因, 并对其中反映肿瘤与正常样本组织构成特点的组织特异表达基因进行排除以突出肿瘤样本真实的类别特征; 最后结合统计学方法, 从信息学的角度论证了分类特征基因在肿瘤组织中特异表达的确实性和普遍性, 并对这些基因在肿瘤组织中呈现出的特异的表达模式进行了分析.  相似文献   

4.
基因芯片技术与基因表达谱研究   总被引:4,自引:0,他引:4  
基因芯片技术是近年来出现的分子生物学与微电子技术相结合的最新DNA分析检测技术,该技术将成为信息科学与生命科学之间的联系纽带,为后基因组时代基因功能的分析提供一种最重要的技术手段,目前基因芯片技术已在基因表达谱等研究中得到广泛应用。  相似文献   

5.
人肾上腺基因表达谱的建立及其功能的新认识   总被引:5,自引:0,他引:5  
为深入理解人类肾上腺(AD)的功能,构建了正常人肾上腺cDNA文库,并利用大规模表达序列标签(ESTs)测序和生物信息学技术,研究显示参与基因/蛋白表达的基因类型表达最多,其次为能量代谢类.肾上腺中表达丰度最高的3个基因均为参与类固醇合成的酶类和蛋白.一些重要的基因首次显示在肾上腺表达,包括神经激素和神经肽,如促肾上腺皮质激素释放激素(CRH),黑色素浓激素(MCH),urocortin,可卡因和安非他明调节肽(CART)和垂体腺苷酸环化酶激活肽(PACAP);许多重要介质的受体,如细胞因子、神经肽及神经递质受体;参与胆固醇代谢的基因,如LDL受体、HDL结合蛋白和胆固醇合成酶.研究结果表明在肾上腺表达丰度最高的基因与该器官的功能特异性有关,除类固醇激素外,许多神经肽、细胞因子在肾上腺产生,肾上腺与体内其他重要的系统间存在广泛的应答,而且在人肾上腺局部可能存在一个CRH-ACTH-皮质醇调节网络.  相似文献   

6.
针对局部线性嵌入算法(LocalLinearEmbedding,LLE)利用试凑法寻找近邻数耗时的缺陷性,提出一种增强的核局部线性嵌入算法(EnhancedKernelLocalLinearEmbedding,EKLLE)自动为样本分配邻域;该算法以高斯核函数为核心改进标准LLE距离度量准则,结合样本的类别信息,无需人工干预自动为样本设置不同的近邻数,克服了试凑法获得最优结果时需要大量时间;最后在各样本近邻数不相同的情况下对数据进行维数简约及待测样本分类。EKLLE算法有效地将高维基因表达谱数据映射到低维本质空间中,解决了传统LLE算法不能很好地处理合噪声或者稀疏数据的缺点。通过对比其他肿瘤样本分类实验,验证本文方法的实时性和精确性。  相似文献   

7.
由于基因表达数据高属性维、低样本维的特点,Fisher分类器对该种数据分类性能不是很高。本文提出了Fisher的改进算法Fisher-List。该算法独特之处在于为每个类别确定一个决策阀值,每个阀值既包含总体样本信息,又含有某些对分类至关重要的个体样本信息。本文用实验证明新算法在基因表达数据分类方面比Fisher、LogitBoost、AdaBoost、k-近邻法、决策树和支持向量机具有更高的性能。  相似文献   

8.
基于基因表达谱的疾病亚型特征基因挖掘方法   总被引:1,自引:0,他引:1  
在本研究中,提出了一种基于基因表达谱的疾病亚型特征基因挖掘方法,该方法基于过滤后基因表达谱,融合无监督聚类识别疾病亚型技术和提出的衡量特征基因对疾病亚型鉴别能力的模式质量测度,以嵌入的方式实现特征基因挖掘。最后将提出的方法应用于40例结肠癌组织与22例正常结肠组织中2000个基因的表达谱实验数据,结果显示:提出的方法是一种可行的疾病亚型特征基因挖掘方法,方法的优势在于可并行实现疾病亚型划分和特征基因识别。  相似文献   

9.
随着研究水平的深入 ,对基因在发育过程中、生理反应中和疾病发展中表达上的时空差别 ,基因蛋白质产物的亚细胞定位和细胞分子间的相互作用等研究领域的开拓 ,所涉及到的基因的广泛性用传统方法研究已很难达到要求 ,因此一些新的研究方法应运而生 ,基因表达谱的研究即为其中之一。基因表达谱 ( geneexpressionprofile)是指细胞中所有基因表达的格局 ,具体说来就是指细胞中产生所有mRNA的总和。对于所有的mRNA来说 ,通常采用的研究方法是将其逆转录成cDNA ,通过构建cDNA文库 ,再进行分析研究。原先采用…  相似文献   

10.
基于基因表达谱的肿瘤分型和特征基因选取   总被引:20,自引:0,他引:20  
在分析基因表达谱数据特性的基础上,提出了一个将之用于肿瘤分子分型和选型和选取相应亚型特征基因的策略。该策略包括三个步骤:首先采用一个无监督的基因过滤算法以降低用于分型计算的数据的噪声,其次提出了一个概率模型对样本中的分类结构进行建模,最后基于聚类的结果采用相对熵的方法获得对分类贡献大的基因作为特征基因,应用该策略对两个公开发表的数据集进行了再挖掘,结果表明不但获得了其他方法可以得到的信息,而且还提供了更精细、更具有显著生物学意义的信息,具有明显的优越性。  相似文献   

11.
12.
Bootstrap is a time-honoured distribution-free approach for attaching standard error to any statistic of interest, but has not received much attention for data with missing values especially when using imputation techniques to replace missing values. We propose a proportional bootstrap method that allows effective use of imputation techniques for all bootstrap samples. Five detcnninistic imputation techniques are examined and particular emphasis is placed on the estimation of standard error for correlation coefficient. Some real data examples are presented. Other possible applications of the proposed bootstrap method are discussed.  相似文献   

13.
基因表达谱聚类/分类技术研究及展望   总被引:3,自引:0,他引:3       下载免费PDF全文
随着人类及多种模式生物全基因组测序基本完成,人类基因组计划的研究进入后基因组时代.后基因组时代研究的焦点已经从测序转向功能研究。聚类/分类技术作为分析基因表达谱和识别基因功能的重要工具之一,近年来获得很大的发展。对目前基因表达谱聚类/分类技术及它们的发展,进行了综述性的研究,分析了它们的优缺点,结合我们的研究,提出了解决问题的思路和方法,为基因表达谱的进一步研究提供了新的途径。  相似文献   

14.
The bootstrap error estimation method is investigated in comparison with the known π-method and with a combined error estimation suggested by us using simulated and normally distributed “populations” in 15 and 30 characters, respectively. For small sample sizes (below the double to threefold number of characters per class) the estimates resulting from the bootstrap method are on the average too small and can no longer be accepted. Significantly better results (with an essentially lower calculation expenditure) are obtained for the π-method and the combined estimation. The variability is essentially the same for all the three methods. This applies both in the case of rather badly separated and in the case of very well separated populations. A bootstrap estimation modified by us also gives unsatisfactory results.  相似文献   

15.
16.
17.
基因调控网络重建是功能基因组研究的基础,有助于理解基因间的调控机理,探索复杂的生命系统及其本质.针对传统贝叶斯方法计算复杂度高、仅能构建小规模基因调控网络,而信息论方法假阳性边较多、且不能推测基因因果定向问题.本文基于有序条件互信息和有限父结点,提出一种快速构建基因调控网络的OCMIPN算法.OCMIPN方法首先采用有序条件互信息构建基因调控相关网络;然后根据基因调控网络拓扑先验知识,限制每个基因结点的父结点数量,利用贝叶斯方法推断出基因调控网络结构,有效降低算法的时间计算复杂度.人工合成网络及真实生物分子网络上仿真实验结果表明:OCMIPN方法不仅能构建出高精度的基因调控网络,且时间计算复杂度较低,其性能优于LASSO、ARACNE、Scan BMA和LBN等现有流行算法.  相似文献   

18.
Forests play a vital role in terrestrial carbon cycling; therefore, monitoring forest biomass at local to global scales has become a challenging issue in the context of climate change. In this study, we investigated the backscattering properties of Advanced Land Observing Satellite (ALOS) Phased Array L-band Synthetic Aperture Radar (PALSAR) data in cashew and rubber plantation areas of Cambodia. The PALSAR backscattering coefficient (σ0) had different responses in the two plantation types because of differences in biophysical parameters. The PALSAR σ0 showed a higher correlation with field-based measurements and lower saturation in cashew plants compared with rubber plants. Multiple linear regression (MLR) models based on field-based biomass of cashew (C-MLR) and rubber (R-MLR) plants with PALSAR σ0 were created. These MLR models were used to estimate natural forest biomass in Cambodia. The cashew plant-based MLR model (C-MLR) produced better results than the rubber plant-based MLR model (R-MLR). The C-MLR-estimated natural forest biomass was validated using forest inventory data for natural forests in Cambodia. The validation results showed a strong correlation (R2 = 0.64) between C-MLR-estimated natural forest biomass and field-based biomass, with RMSE  = 23.2 Mg/ha in deciduous forests. In high-biomass regions, such as dense evergreen forests, this model had a weaker correlation because of the high biomass and the multiple-story tree structure of evergreen forests, which caused saturation of the PALSAR signal.  相似文献   

19.
The inference of gene regulatory network from expression data is an important area of research that provides insight to the inner workings of a biological system. The relevance-network-based approaches provide a simple and easily-scalable solution to the understanding of interaction between genes. Up until now, most works based on relevance network focus on the discovery of direct regulation using correlation coefficient or mutual information. However, some of the more complicated interactions such as interactive regulation and coregulation are not easily detected. In this work, we propose a relevance network model for gene regulatory network inference which employs both mutual information and conditional mutual information to determine the interactions between genes. For this purpose, we propose a conditional mutual information estimator based on adaptive partitioning which allows us to condition on both discrete and continuous random variables. We provide experimental results that demonstrate that the proposed regulatory network inference algorithm can provide better performance when the target network contains coregulated and interactively regulated genes.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号