首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到10条相似文献,搜索用时 15 毫秒
1.
蛋白质质谱技术是蛋白质组学的重要研究工具,它被出色地应用于癌症早期诊断等领域,但是蛋白质质谱数据带来的维灾难问题使得降维成为质谱分析的必需的步骤。本文首先将美国国家癌症研究所提供的高分辨率SELDI—TOF卵巢质谱数据进行预处理;然后将质谱数据的特征选择问题转化成基于模拟退火算法的组合优化模型,用基于线性判别式分析的分类错误率和样本后验概率构造待优化目标函数,用基于均匀分布和控制参数的方法构造新解产生器,在退火过程中添加记忆功能;然后用10-fold交叉验证法选择训练和测试样本,用线性判别式分析分类器评价降维后的质谱数据。实验证明,用模拟退火算法选择6个以上特征时,能够将高分辨率SELDI—TOF卵巢质谱数据全部正确分类,说明模拟退火算法可以很好地应用于蛋白质质谱数据的特征选择。  相似文献   

2.
随着质谱技术的进步以及生物信息学与统计学算法的发展,以疾病研究为主要目的之一的人类蛋白质组计划正快速推进。蛋白质生物标志物在疾病早期诊断和临床治疗等方面有着非常重要的意义,其发现策略和方法的研究已成为一个重要的热点领域。特征选择与机器学习对于解决蛋白质组数据"高维度"及"稀疏性"问题有较好的效果,因而逐渐被广泛地应用于发现蛋白质生物标志物的研究中。文中主要阐述蛋白质生物标志物的发现策略以及其中特征选择与机器学习方法的原理、应用实例和适用范围,并讨论深度学习方法在本领域的应用前景及局限性,以期为相关研究提供参考。  相似文献   

3.
随着基因组规模的高通量实验鉴定技术和计算预测方法的发展,出现了大量蛋白质相互作用数据,但大规模蛋白质相互作用数据中的较高比例的假阳性影响了相互作用数据的质量。生物信息学方法能够从已有的数据和知识出发,通过计算方法系统评估大规模蛋白质相互作用的可信度。本文从过程模型设计、数据集构建、特征选择与综合属性抽取、一些算法使用、实例概述等方面介绍了生物信息学方法评估蛋白质相互作用可信度的研究特点与进展。  相似文献   

4.
文中提出了一种简单有效的蛋白质亚细胞区间定位预测方法,为进一步了解蛋白质的功能和性质提供理论基础。运用稀疏编码,结合氨基酸组成信息提取蛋白质序列特征,基于不同字典大小对得到的特征进行多层次池化整合,并送入支持向量机进行分类。经Jackknife检验,在数据集ZD98、CH317和Gram1253上的预测成功率分别达到95.9%、93.4%和94.7%。实验证明基于多层次稀疏编码的分类预测算法能显著提高蛋白质亚细胞区间定位的预测精度。  相似文献   

5.
串联质谱图谱从头测序算法研究进展   总被引:1,自引:0,他引:1  
近年来,基于质谱技术的高通量蛋白质组学研究发展迅速,利用串联质谱图谱鉴定蛋白质是其数据处理中一个基础而又重要的环节.由于不需要利用蛋白质序列数据库,从头测序方法能够分析新物种或者基因组未测序物种的串联质谱数据,具有数据库搜索方法不可替代的优势.简要介绍高通量串联质谱图谱从头测序问题及其研究现状.归纳出几种典型的计算策略并分析了各种策略的优缺点.总结常用的从头测序算法和软件,介绍算法评估的各种指标和常用评估数据集,概括各种算法的特点,展望未来研究可能的发展方向.  相似文献   

6.
蛋白质结构类预测是生物信息和蛋白质科学中重要的研究领域.基于Chou提出的伪氨基酸离散模型框架,从蛋白质序列出发,设计一种新的伪氨基酸组成方法表示蛋白质序列样本.抽取氨基酸组合(10-D)在序列中出现的频率和疏水氨基酸模式(6-D)表示蛋白质序列的附加特征,用和传统的氨基酸组成(20-D)一起构成的36维的伪氨基酸组成向量来表示蛋白质序列的特征.使用遗传算法来优化附加特征的权重系数.伪氨基酸组成向量作为输入数据,模糊支持向量机作为预测工具.使用三个常用的标准数据集来验证算法的性能.Jack-knife检验结果说明本方法具有较高的准确率,有望成为潜在的预测蛋白质功能的工具.  相似文献   

7.
【目的】旨在采用iTRAQ标记结合二维液相色谱串联质谱技术对草菇不同生长发育阶段的差异蛋白质组进行研究。【方法】首先将提取的草菇不同生长阶段蛋白样品进行SDS-PAGE分析,其次将经二维液相色谱串联质谱技术获取的串联质谱数据通过MASCOT软件搜库,之后对鉴定蛋白质数据进行了主成分分析(Principal componentanalysis,PCA)、层次聚类(Hierarchy clustering)分析、K-均值(K-means)聚类和GeneOntology(GO)注释分析。【结果】试验结果显示,共计获得2 335个不同肽段,鉴定到1 039个蛋白质,其中1 030个蛋白质具有定量信息。在子实体阶段中显著上调蛋白质64个,下调蛋白质150个。生物信息学分析表明,iTRAQ标记技术结合二维液相色谱串联质谱可对不同生长发育时期的草菇蛋白样品进行有效地分离和鉴定。【结论】这一研究结果为深入研究草菇乃至其他大型担子菌子实体形成和发育的分子机制提供借鉴。  相似文献   

8.
本文针对传统蛋白质相互作用预测模型预测精度不够高的问题,提出一种改进的深度玻尔兹曼机(DBM)模型以更精确地预测蛋白质的相互作用。首先,将多尺度特征组提取和自协方差编码方法结合编码序列特征,并利用DBM自动筛选有效特征。同时,为了避免采用sigmoid或tanh激活函数在深度网络中出现过饱和的问题,本文采用Re LU改进的深度玻尔兹曼机(RBM),使网络具备稀疏性,从而避免模型过拟合,加快收敛速度。在酵母菌PPIs数据集上,本文算法达到了92.27%的准确率,优于传统的方法。  相似文献   

9.
基于质谱数据的蛋白质定量分析一直是目前高通量蛋白质组学的重要研究手段.但是基于现有质谱技术的限制,大规模蛋白质定量过程中往往会产生大量的缺失值,这在一定程度上影响了下游分析的准确性.尽管很多缺失值填补方法被不断提出,但是蛋白质组学领域对于不同情况下缺失值填补方法效力的综合评估仍然缺乏.本研究基于真实数据的分布特征,构建模拟数据集,在样本量、效应值以及缺失比例这三个维度上,综合评估了kNN、SVD、MLE、BPCA、LLS、Min、QRILC、Mean这8种缺失值填补方法的效力.结果显示,填补效力与样本量和效应值呈正相关,也与缺失比例呈负相关.同时,还发现在不同数据集中填补方法的效力有所差异,研究者需要根据数据集特征和自身需求选择适合的填补方法.本研究总结了不同数据集特征下的最优填补方法,供研究者进行参考和使用.  相似文献   

10.
相似性比对预测蛋白质亚细胞区间   总被引:1,自引:0,他引:1  
王雄飞  张梁  薛卫  赵南  徐焕良 《微生物学通报》2016,43(10):2298-2305
【目的】对蛋白质所属的亚细胞区间进行预测,为进一步研究蛋白质的生物学功能提供基础。【方法】以蛋白质序列的氨基酸组成、二肽、伪氨基酸组成作为序列特征,用BLAST比对改进K最近邻分类算法(K-nearest neighbor,KNN)实现蛋白序列所属亚细胞区间预测。【结果】在Jackknife检验下,数据集CH317三种特征的成功率分别为91.5%、91.5%和89.3%,数据集ZD98成功率分别为93.9%、92.9%和89.8%。【结论】BLAST比对改进KNN算法是预测蛋白质亚细胞区间的一种有效方法。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号