一、题名
数据挖掘在分子系统发生与定量构效关系建模中的应用(王春娟2008)
二、文章结构
摘要
Abstract
第一章绪论
第二章基于全基因组分子系统发生分析
第三章基于全蛋白质组分子系统发生分析
第四章支持向量机在定量构效关系研究中的应用
致谢
作者简历
三、关键词及摘要解读
关键词
:数据挖掘;系统发生分析;定量构效关系;支持向量机回归;k-最近邻
摘要
1、随着存储技术和Internet的迅猛发展,各行业数据量急剧增多,迫切需求更强有力的工其来“挖掘”有用信息,数据挖掘技术应运而生,日前已在各个领域获得广泛地应用。本文从数据挖掘无监督学习(聚类-以分子系统发生分析为例)和有监督学习(预测-以化合物定量构效关系建模为例)两个方面进行了研究。
2、提取物种信息特征是分子系统发生分析的关键。本文提出新的信息特征提取方法一多尺度步长关联法,建立了一种新的、不需要序列联配的分子系统发生分析方法,分别基于全基因组序列对冠状病毒、基于线粒体全蛋白质组序列对全变态昆虫进行了系统发生分析。
基于全基因组的冠状病毒分子系统发生分析结果显示,冠状病毒共分为四大组,SARS冠状病毒形成个独立的大分支,明显的与其它三组区分开来,且来自蝙蝠的冠状病毒与其它SARS冠状病毒稍有不同,说明蝙蝠有可能为SARS冠状病毒的自然宿主。
基于线粒体全蛋白质组序列对全变态昆虫进行分子系统发生分析时,引入了氨基酸的19个物理化学参数,结果与传统方法分类较为吻合,儿乎相同科和目的物种都聚在了一起。说明基于物理化学参数的多尺度步长关联在构建全变态昆虫的分子系统发生树时可获得较好的聚类效果。本文发展的多尺度步长关联法有望应用在基于全基因组水平和全蛋白质组水平上的各类分析。
3、第二部分发展了一种新的定量构效关系的预测方法。论文提出了一种基于支持向量机回归和k-最近邻的组合预测方法(SVR-KNN),并将其应用于抗生素的定量构效关系研究。留一法预测结果表明,非线性筛选描述符和子模型能明显提高预测精度,汰选子模型后的组合预测精度优于单一子模型,SVR-KNN的MSE、MAPE分别为0.019、1.81%;独立样本预测结果显示,SVR-KNN在所有参比模型中具有最优的预测精度及稳定性,其MSE、MAPE分别为0.010、1.33%。说明本文提出的SVR-KNN预测模型具有较强的预测能力和优异的泛化推广能力,在化合物的QSAR研究中有广泛应用前景。
网友评论