两混合正态分布的参数估计方法杨珂玲,韩慧芳(华中师范大学数学与统计学院,湖北武汉430079)摘要:对两混合正态分布的参数估计问题进行了研究,在传统的极大似然估计的基础上运用EM算法来求解参数估计.首先给出了EM算法的基本原理,然后针对两混合正态分布推出了参数估计的迭代公式,最后用例子验证了参数估计的可靠性.关键词:两混合正态分布;极大似然估计;EM算法;参数估计文章编号:100328078(2006)0320016204中图分类号:O212.5文献标识码:AAmethodonestimationoftheparametersinthemixtureoftwonormaldistributYANGKe-ling,HANHui-fang(Dept.ofMathematicsandStatistics,CentralChinaNormalUniversity,WuhanAbstract:Thispaperstudiesthequestionofestimationofparametersinthemixtureoftwonormaldistributions.BasedonthetraditionalMLEstimationbyusingEMmethodtodeterminetheparameters,wefirstpresentthetheoryofEMmethodandtheninferaformulafortheparameter.Atlast,wegiveanexampletoprovethecredibility.Keywords:mixtureoftwonormaldistributions;MLEstimation;EMmethod;paramet两混合正态分布的参数估计问题在数据处理、模式识别、信号区分等多个领域有广泛的运用,两混合正态分布的参数估计方法主要有极大似然估计法、矩估计法、Bayes和序贯估计等.本文在传统的极大似然估计的基础上,采用EM算法引入适当的“潜在数据”来简化计算过程.1两混合正态分布的极大似然估计假定样本的概率模型5为f(x|()=Α1f1(x|Η1)+Α2f2(x|Η2)(1)(=(Α1,Η1,Η2),Α1+Α2=1且f1,f2为正态分布的密度函数,Η1,Η2为分布参数.则我们称f(x|()为两混合正态分布密度函数.已知有n个观测值x1,x2,,xn,假设它们是从f(x|()的总体中独立抽取的,记X=(x1,x2,,xn),则nf(X|()=∏f(xi|()ΧL((|X)(2)i=1函数L((|X)为似然函数,极大似然估计就是求出使L((|X)达到极大时的(值.为了便于求出使L收稿日期:2006204224.作者简介:杨珂玲,女,河南汝南人,华中师范大学数学与统计学院在读研究生;韩慧芳,女,河南项城人,华中师范大学数学与统计学院在读研究生.第3期杨珂玲,等:两混合正态分布的参数估计方法·17·^((|X)达到极大的(值,通常对(2)式两边取对数,两边分别对Ηi求偏导,令偏导数等于零.求解方程组可^以得到极大似然估计值(.但是,极大似然估计存在的问题是计算的复杂程度依赖于似然函数的形式.然而,对于(1)式的混合正态分布而言,分布参数(的极大似然估计的计算是很复杂的,因此必然借助于其他方法.下面我们将介绍的EM算法就是实际应用中的一种有效方法.算法算法是进行极大似然估计的一种有效方法.它主要应用于缺失数据条件下的参数估计,正是由2EMEM于EM算法的应用特点,我们可以在观测数据的基础上加上一些“潜在数据”,从而简化计算过程并完成一系列简单的极大化或模拟.假设Y是服从某一分布的非完全观测数据,Z为缺失数据,则完全数据X=(Y,Z),由乘法公式2则X的概率分布密度f(x|Η)与Y的概率分布密度f(y|Η)及Z的概率分布密度f(z|Η)的关系,f(x|Η)=f(y,z|Η)=f(z|y,Η)f(y|Η)由(3)式给出的X,Y,Z的概率分布密度函数之间的关系,我们可以得到一个新的似然函数(3)(4)称此函数为完全数据X的似然函数,由于隐变量Z未知,因此似然函数L(Η|X)是随机的,并且由Z所决定.则用不完全数据Y估计参数Η的极大似然估计准则如下.EM算法的第一步(E2step):给定观测数据Y和当前参数的估计初值,计算完全数据对数似然函数Q(Η,Η(i))=Elogf(Y,Z|Η)|Y,Η(i)](5)其中Η(i)为已知的当前参数的估计值.在(5)式中,Y和Η(i)为常数,Η为待优化的参数,Z为一随机变量,并假设它服从某一分布f(.),Z~f(z|Y,Η(i)),因此式(5)可写为∫logf(Y,Z|Η)f(z|Y,Η()dzQ(Η,Η(i))=Elogf(Y,Z|Η)|Y,Η(i)=(6)Z∈D其中f(z|Y,Η(i))是未知数据Z的边缘分布密度函数,并且依赖于观测数据Y和当前参数Η(i),D的取值空间.由乘法公式得为Z(7)由于f(y|Η(i))与Η无关,所以在实际问题中f(z,Y|Η(i))来代替f(z|Y,Η(i))不影响式(6)中似然函数的最优化.EM算法的第二步(M2step):最大化期望Q(Η,Η(i))即找到一个Η(i+1)使之满足Q(Η,Η(i+1))=maxQ(Η,Η(8)(如此进行依次迭代Η(i)→Η(i+1...