首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 62 毫秒
1.
喻辉  郭政  李霞 《生物信息学》2003,1(1):15-19
我们研制了基于Gene Ontology与基因表达谱挖掘与实验条件相关的特征基因功能类的算法OntoFexed,它的特点是分别采用信息增益方法和Rand Index评价单个基因功能类与一组基因功能类鉴别差异表达基因与不差异表达基因的能力。算法的优点是充分利用了GO的结构信息来搜索特征功能类,并能给出各个抽象层次上的特征功能类。我们将OntoFexed应用于腺癌数据集和NCI60数据集,发现OntoFexed确能发掘与实验条件相关的功能类,且算法对主要的参数有较高的稳健性。  相似文献   

2.
采用基因表达谱可以研究基因功能模块与疾病异质性之间的关系.根据两套白血病基因表达谱数据,将富集高变异基因的Gene Ontology基因功能模块作为特征功能模块,将疾病样本聚为两类.通过对比原始多类标签,采用聚类评估指标来分析两类化聚类结果的效果,并探讨特征功能模块与疾病异质性之间的关系.实验结果显示:在两套不同的白血病基因表达谱数据中得到的特征功能模块类似,它们对白血病亚型有较强的分型能力.  相似文献   

3.
基因表达谱聚类/分类技术研究及展望   总被引:3,自引:0,他引:3       下载免费PDF全文
随着人类及多种模式生物全基因组测序基本完成,人类基因组计划的研究进入后基因组时代.后基因组时代研究的焦点已经从测序转向功能研究。聚类/分类技术作为分析基因表达谱和识别基因功能的重要工具之一,近年来获得很大的发展。对目前基因表达谱聚类/分类技术及它们的发展,进行了综述性的研究,分析了它们的优缺点,结合我们的研究,提出了解决问题的思路和方法,为基因表达谱的进一步研究提供了新的途径。  相似文献   

4.
基于基因表达谱的肿瘤分型和特征基因选取   总被引:20,自引:0,他引:20  
在分析基因表达谱数据特性的基础上,提出了一个将之用于肿瘤分子分型和选型和选取相应亚型特征基因的策略。该策略包括三个步骤:首先采用一个无监督的基因过滤算法以降低用于分型计算的数据的噪声,其次提出了一个概率模型对样本中的分类结构进行建模,最后基于聚类的结果采用相对熵的方法获得对分类贡献大的基因作为特征基因,应用该策略对两个公开发表的数据集进行了再挖掘,结果表明不但获得了其他方法可以得到的信息,而且还提供了更精细、更具有显著生物学意义的信息,具有明显的优越性。  相似文献   

5.
GO功能类与基因差异表达的关联规则挖掘算法   总被引:1,自引:0,他引:1  
针对基因功能分类体系Gene Ontology的层次结构特点,修改关联规则挖掘算法Apriori,开发“挖掘与基因差异表达关联的GO功能组合”软件(RuleGO).RuleGO以基因表达谱上的差异表达基因集合和不差异表达基因集合为输入,输出组合特征功能类与基因差异表达现象的关联规则,有助于解释基因差异表达现象的本质原因,如疾病发病机制、药物作用机理等.将RuleGO 和OntoExpress应用在结肠癌和腺癌表达谱数据集上,结果显示,RuleGO比OntoExpress能发现更多的与差异表达现象关联的特征功能类,更能看到在OntoExpress上不能发现的组合特征功能类.另外,结果显示,将规则的置信度和支持度要求设置较高时,一般只有组合功能类才能满足要求,这提示在基因表达谱分析中不宜采用单个角度的单个功能分类单元,考虑功能分类单元的组合可能更有意义.  相似文献   

6.
简要介绍了系统发育谱法的原理,着重阐述了K—mean聚类算法在对基因系统发育谱分析中的改进,并与传统的K—mean聚类算法进行比较。实验结果表明,改进的K—mean聚类算法在运用系统发育谱法进行基因功能注释上是快而有效的,可以快速收敛到近似最优解。  相似文献   

7.
贝叶斯聚类在基因表达谱知识挖掘中的应用   总被引:1,自引:0,他引:1  
在大规模基因表达谱的数据分析中引入了一种全新的基于贝叶斯模型的聚类算法,从生物学背景出发,研究了该算法应用在大规模基因表达谱中的理论基础和算法优越性,并应用该算法对两个公共的基因表达数据集进行了知识再挖掘。结果表明,与其他聚类算法相比,该算法在知识发现方面具有显著的优越性。挖掘出的生物学知识对该领域研究人员的实验设计也有一定的启发性。  相似文献   

8.
基于基因表达谱的疾病亚型特征基因挖掘方法   总被引:1,自引:0,他引:1  
在本研究中,提出了一种基于基因表达谱的疾病亚型特征基因挖掘方法,该方法基于过滤后基因表达谱,融合无监督聚类识别疾病亚型技术和提出的衡量特征基因对疾病亚型鉴别能力的模式质量测度,以嵌入的方式实现特征基因挖掘。最后将提出的方法应用于40例结肠癌组织与22例正常结肠组织中2000个基因的表达谱实验数据,结果显示:提出的方法是一种可行的疾病亚型特征基因挖掘方法,方法的优势在于可并行实现疾病亚型划分和特征基因识别。  相似文献   

9.
提出了一种蛋白质相互作用的相似性度量,将其与基因表达数据的相似性度量相结合,定义了一种融合的距离度量,并且将这种融合的距离度量用于改进现有的K—means聚类方法。经过实际数据的检验,改进后的K—means方法比常用的其它几种聚类方法具有更好的效果,说明结合蛋白质相互作用数据可以使得基因表达聚类的结果更有生物意义。  相似文献   

10.
粗糙集模糊聚类分析法在昆虫分类研究中的应用   总被引:3,自引:1,他引:3  
本文根据昆虫图像,对半翅目、鳞翅目、鞘翅目的28种昆虫提取的形状参数、叶状性、球状性等7项数学形态特征进行了粗糙集模糊聚类分析。在粗糙集处理的基础上,分别进行7指标和3指标(相对约简)两种不同的模糊聚类分析法相比较。结果显示,在作为目级阶元分类指标时,各项特征的重要性依次为:(似圆度、偏心率)>(亮斑数、球状性、圆形性)>(叶状性、形状参数);粗糙集分类正确率优于模糊聚类分析法;粗糙集处理后的3指标分类正确率优于未处理的7指标分类正确率。结论认为,粗糙集理论在昆虫依据数学形态特征进行分类方面与统计分析方法相比更有优势,粗糙集滤过指标后再进行模糊聚类法分析在昆虫分类研究上具有重要意义。  相似文献   

11.

Background

Among the primary goals of microarray analysis is the identification of genes that could distinguish between different phenotypes (feature selection). Previous studies indicate that incorporating prior information of the genes'' function could help identify physiologically relevant features. However, current methods that incorporate prior functional information do not provide a relative estimate of the effect of different genes on the biological processes of interest.

Results

Here, we present a method that integrates gene ontology (GO) information and expression data using Bayesian regression mixture models to perform unsupervised clustering of the samples and identify physiologically relevant discriminating features. As a model application, the method was applied to identify the genes that play a role in the cytotoxic responses of human hepatoblastoma cell line (HepG2) to saturated fatty acid (SFA) and tumor necrosis factor (TNF)-α, as compared to the non-toxic response to the unsaturated FFAs (UFA) and TNF-α. Incorporation of prior knowledge led to a better discrimination of the toxic phenotypes from the others. The model identified roles of lysosomal ATPases and adenylate cyclase (AC9) in the toxicity of palmitate. To validate the role of AC in palmitate-treated cells, we measured the intracellular levels of cyclic AMP (cAMP). The cAMP levels were found to be significantly reduced by palmitate treatment and not by the other FFAs, in accordance with the model selection of AC9.

Conclusions

A framework is presented that incorporates prior ontology information, which helped to (a) perform unsupervised clustering of the phenotypes, and (b) identify the genes relevant to each cluster of phenotypes. We demonstrate the proposed framework by applying it to identify physiologically-relevant feature genes that conferred differential toxicity to saturated vs. unsaturated FFAs. The framework can be applied to other problems to efficiently integrate ontology information and expression data in order to identify feature genes.  相似文献   

12.
挖掘高通量实验数据蕴含的生物学意义是蛋白质组学研究面临的一大挑战 . 基于等级化结构化的词汇表 GO (Gene Ontology) 和相关数据库中的蛋白质功能注释,发展了一种对蛋白质组学研究中得到的表达谱 (Expression profile) 进行功能分析的策略 . 在对蛋白质表达谱进行功能注释的基础上给出蛋白质表达谱中蛋白质功能的分布,同时给出感兴趣功能类别的统计信息 . 这有助于对表达谱蛋白质功能的整体理解和深入的生物信息学分析 . 该策略已经成功应用胎肝蛋白表达谱研究中,用户可以通过访问网址 http://www.hupo.org.cn/GOfact/ 使用或者下载我们的程序 .  相似文献   

13.
利用基因芯片可以得到不同基因在不同生命过程中的表达,因此在医学诊断与病变分析中受到重视,并开始大量应用.经测定发现,不同基因在病变过程的不同阶段中的表达是不相同的,由此可以得到在病变过程的不同基因的表达特征.在本文中,我们给出了乳腺癌在转移过程中的基因表达特征的聚类分析法分析,并改进了k-means聚类算法,使之具有自动搜索聚类数的功能,并且有助于改善k-means算法的聚类结果陷入局部最小值的状况.通过对平均聚类误差指标的比较,kr—means要优于k-means算法.本文所得到的结果可供乳腺癌诊断与病变分析参考,同时可以应用于小型基因检测芯片的制备,也可以用于构建基因网络调控图.  相似文献   

14.
启动子识别是研究基因转录调控的重要环节,但目前方法的识别正确率偏低。在深入分析原核启动子特征的基础上,提出了一种基于特征筛选的原核启动子判别分析方法,首先在启动子序列的组成特征、信号特征和结构特征中选取备选特征,为每个特征建立适当的描述模型,并对主要的保守模式采用复合模式模型;再通过模型计算对备选特征进行逐步筛选,优化特征集,将序列表示为组合特征向量;最终利用二次判别分析实现识别。对大肠杆菌和枯草杆菌实际启动子数据进行的刀切法测试验证了方法的有效性和通用性。对于大肠杆菌非编码区(70启动子,识别的平均正确率达到了85.8%,优于其它几种典型识别方法;对于大肠杆菌编码区内部)70启动子和其它几种原核启动子,平均正确率也都超过了80%。方法框架还具有良好的可扩展性,能够方便地容纳新特征,使识别性能不断提高。  相似文献   

15.
《IRBM》2020,41(4):229-239
Feature selection algorithms are the cornerstone of machine learning. By increasing the properties of the samples and samples, the feature selection algorithm selects the significant features. The general name of the methods that perform this function is the feature selection algorithm. The general purpose of feature selection algorithms is to select the most relevant properties of data classes and to increase the classification performance. Thus, we can select features based on their classification performance. In this study, we have developed a feature selection algorithm based on decision support vectors classification performance. The method can work according to two different selection criteria. We tested the classification performances of the features selected with P-Score with three different classifiers. Besides, we assessed P-Score performance with 13 feature selection algorithms in the literature. According to the results of the study, the P-Score feature selection algorithm has been determined as a method which can be used in the field of machine learning.  相似文献   

16.

Background

The goal of this work is to develop a non-invasive method in order to help detecting Alzheimer's disease in its early stages, by implementing voice analysis techniques based on machine learning algorithms.

Methods

We extract temporal and acoustical voice features (e.g. Jitter and Harmonics-to-Noise Ratio) from read speech of patients in Early Stage of Alzheimer's Disease (ES-AD), with Mild Cognitive Impairment (MCI), and from a Healthy Control (HC) group. Three classification methods are used to evaluate the efficiency of these features, namely kNN, SVM and decision Tree. To assess the effectiveness of this set of features, we compare them with two sets of feature parameters that are widely used in speech and speaker recognition applications. A two-stage feature selection process is conducted to optimize classification performance. For these experiments, the data samples of HC, ES-AD and MCI groups were collected at AP-HP Broca Hospital, in Paris.

Results

First, a wrapper feature selection method for each feature set is evaluated and the relevant features for each classifier are selected. By combining, for each classifier, the features selected from each initial set, we improve the classification accuracy by a relative gain of more than 30% for all classifiers. Then the same feature selection procedure is performed anew on the combination of selected feature sets, resulting in an additional significant improvement of classification accuracy.

Conclusion

The proposed method improved the classification accuracy for ES-AD, MCI and HC groups and promises the effectiveness of speech analysis and machine learning techniques to help detect pathological diseases.  相似文献   

17.
基于遗传算法的基因表达数据的K-均值聚类分析   总被引:1,自引:0,他引:1  
聚类算法在基因表达数据的分析处理过程中得到日益广泛的应用。本文通过把K-均值聚类算法引入到遗传算法中,结合基因微阵列的特点,来讨论一种基于遗传算法的K-均值聚类模型,目的是利用遗传算法的全局性来提高聚类算法找到全局最优的可能性,实验结果证明,该算法可以很好地解决某些基因表达数据的聚类分析问题。  相似文献   

18.
神经胶质瘤(glioma)是一种严重的颅内肿瘤疾病,具有高复发率、高死亡率和低治愈率等特点。利用基因微阵列数据识别与神经胶质瘤相关的特征基因,对该疾病的临床诊断和生物医学研究将起到有益的参考和借鉴作用。作者针对神经胶质瘤数据,提出了一种集成类随机森林特征基因选择方法。首先应用有监督奇异值分解对数据进行降维并粗选出基因;其次应用类随机森林特征选择方法选出特征基因。实验结果显示,该方法对分类器的适应性强;对比其他方法,分类率优势明显;更重要的是,在选出的前50个特征基因中有39个基因与神经胶质瘤或肿瘤细胞生物过程存在着密切联系,证实该方法不仅保持了较高的分类率,而且保证了选择的特征基因具有很强的生物学关联意义,具有较高的可行性和实用性。  相似文献   

19.
目的:动脉粥样硬化是一种高致死率的慢性炎症疾病,其发生和发展的机制尚不明确。本文基于人类信号网络和基因表达谱数据对动脉粥样硬化相关模块进行挖掘,以探究其在疾病发生发展中的作用机制。方法:结合人类信号网络和基因表达谱数据,设计显著差异模块筛选策略,通过功能分析,挖掘动脉粥样硬化相关模块,对动脉粥样硬化的致病机制进行研究。结果:基于网络模块的平均表达值改变量,采用两种随机方法,进行显著差异模块筛选,最终获得8个动脉粥样硬化相关的显著差异模块。结论:应用本文提出的整合筛选策略,能识别与动脉粥样硬化相关的模块,获得潜在的致病基因,并从外周血的基因表达改变来探究动脉粥样硬化致病机制,这对动脉粥样硬化的诊断、治疗以及发生发展机制的研究具有重要意义。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号