半参数预测模型在定量的分子结构与其活性之间关系中的应用殷弘(香港浸会大学数学系摘要我们将要介绍的这个半参数预测模型(也叫kriging模型是由一个参数模型和一个非参数随机过程联合构成的。它比单个的参数化模型更具有灵活性,同时又克服了非参数化模型处理高维数据存在的局限性。通过对一组实际数据的应用,我们发现它比单个的参数化模型具有更强的预测能力,值得在定量的分子结构与其活性之间的关系的研究中加以推广。关键字半参数,回归,预测1:引言我们研究定量的分子结构与其活性之间的关系(QSAR,其目的是想在分子的活性与分子结构之间建立一个比较理想的统计回归模型:((ff==(1.1这样我们就可以通过此模型来预测未知某类化合物的物理化学的,生物学的以及毒物学的某种属性,模型中称为回归变量。而分子描述值是对分子结构的一种定量的描述,我们可以将其看成模型中的自变量。自从提出第一个分子描述值以来,现在有成千上百个分子描述值,这给模型建立带来了很多困难。比如说,如何选择变量?选好变量后建立什幺样的模型等等?QSAR研究中经常用到的参数化模型有普通的线性回归,主成份回归,偏最小二乘回归和邻回归。这些方法只是充分挖掘了自变量与回归变量之间的线性关系,对剩下的信息没有能力给出解释了。而本文将要介绍的半参数模型是由一个参数化模型和一个非参数化的随机过程组成的。其中非参数化的随机过程提高了整个模型的质量,现在我们将此方法介绍给大家。2:Kriging模型Kriging一词的意思是最优的空间预测,它是根据一个南非采矿工程师Krige的名字命名的,是他将随机过程模型首次运用在空间预测上的。详细内容读者可以参阅Cressie(1993,Journel和Huijbregts(1978,Rivoirard(1994。假设我们采集到个训练样本和,。Kriging方法用如下的模型来建立自变量与回归变量之间的关系(不含误差,含有误差的模型在后面介绍:m]',,,[21msssSL=]',,[21myyyYL=iniys,ℜ∈ℜ∈(((szsusy+=(2.1其中一个参数模型,它表现了回归变量的大部分信息,被称作平均结构。是一个均值为零的随机过程。常用的kriging模型假设u是一个参数线性模型:(su(sy(sz(s∑===pjjjsfsfsu1(((ββ。(2.2ℜ→=njpfsfsfsfsf:],(,(,([(21L]',,,[21pββββL=,ℜ就是任一一组基函数。是需要估计的参数项量。除了假定随机过程的均值为零以外,还要定义它的协方差:{pjsf1(}(sz∏=−==njjijjijissRssRszszE1(2(,((((θθσ,(2.32σ(jd被称为过程方差,是调节样本点的相关函数。我们列举最常用的相关函数:θR0,>−=jjissθName((jjdRθEXPGUASSLINSPLINE||exp(jjdθ−exp(2jdjθ−|}|1,0max{jjdθ−|}|,1min{;23132jjjjjdθξξξ=+−将设计矩阵进行标准化后,。我们可以通过以下图形对相关函数的选择进行说明。S22≤≤−jdFigure1.1Correlationfunctionsfor,20≤≤jdDashed,fullanddash-dottedline:θ5,1,2.0=j由以上图形可以看出,相关函数可以分为两类:一类是Spline和Gauss,它们在原点处表现出曲线行为;另一类是Lin和Exp,它们在原点处表现的是线性行为。我们可以将这些特点和你要考虑的实际数据的背景结合起来。如果实际数据满足的函数是连续可微的,Spline和Gauss这样的相关函数就优选,反之,如果函数在零点附近表现出线性行为,Lin和Exp的效果就比Spline和Gauss要好(Isaaks和Srivastava,1989.我们可以将最简单的kriging模型和单个的参数化线性模型作比较,除了线性参数β外,kriging模型还引进了参数,这样无疑使得它更具有灵活性(Sacks,etal.,1989。,(2jθσ3.Kriging模型参数的估计当取定好一组基,我们就得到一个的扩展设计矩阵,,和一个的相关矩阵。通常我们用已知训练样本的响应值的线性组合来估计任一个给定样本的响应值。很容易求出在线性无偏的条件下使得达到最小的的估计为:](,,(,([(21sfsfsfsfpL=pjmisfijLL,1,,1,(==mcYcxy=,'(ˆcpm×Fji,x−Fij=mL,]2mm×ssRRji1,,(==θ((ˆ[((xyxyEx=ϕℜ∈''('(~,~(ˆ1-111frRFFRFFrRc−=−=−−−λλ(3.1其中定义。可以表达成:]'(,,,([,1xsRxsRrmθθL=Ycxy'(ˆ=*1'ˆ('~((ˆγβλrxfYRFrxy+=−=−(3.2其中被称为模型(2.1的广义最小二乘估计,。所以对每一个新的样本,我们只要求出向量和,就可以估...