基于CART算法的肺癌微阵列数据的分类 |
| |
作者姓名: | 陈磊 刘毅慧 |
| |
作者单位: | 山东轻工业学院信息科学与技术学院智能信息处理研究所,济南,250353 |
| |
基金项目: | 山东省自然科学基金项目 |
| |
摘 要: | 基因芯片技术是基因组学中的重要研究工具。而基因芯片数据( 微阵列数据) 往往是高维的,使得降维成为微阵列数据分析中的一个必要步骤。本文对美国哈佛医学院 G. J. Gordon 等人提供的肺癌微阵列数据进行分析。通过 t- test,Wilcoxon 秩和检测分别提取微阵列数据特征属性,后根据 CART( Classification and Regression Tree) 算法,以 Gini 差异性指标作为误差函数,用提取的特征属性广延的构造分类树; 再进行剪枝找到最优规模的树,目的是提高树的泛化性能使得能很好适应新的预测数据。实验证明: 该方法对肺癌微阵列数据分类识别率达到 96% 以上,且很稳定; 并可以得到人们容易理解的分类规则和分类关键基因。
|
关 键 词: | 微阵列数据 分类 决策树 CART 算法 |
本文献已被 CNKI 维普 万方数据 等数据库收录! |
|