国家自然科学奖推荐书式样国家自然科学奖推荐书(年度)一、项目基本情况学科评审组:序号:编号:项目名称中文名统计因果推断英文名StatisticalCausalInference主要完成人耿直推荐单位(盖章)或推荐专家中国数学学会学科分类名称1多元分析代码11017552统计计算代码11017643代码所属科学技术领域数理统计,多元统计,生物统计任务来源国家自然科学基金委具体计划、基金的名称和编号:项目完成人耿直1997年获教育部跨世纪优秀人才项目;1999-2002获国家杰出青年基金项目(19825103);1999-2003,主持国家基金委重点项目:应用统计(19831010),此后参与应用统计重点项目三次:2005-2008(10431010)、2010-2013(10931002)、2014-2017(11331011)。承担了国家基金委面上项目(10771007):<图模型的结构学习及因果推断>和(11171365)<因果推断的统计方法>,负责973项目子项目(2003CB715902)<蛋白质网络拓扑结构及动力学研究>。探讨因果推断的统计方法:1)研究Simpson悖论、因果推断和不完全数据;2)提出替代指标悖论,又称中间变量悖论、工具变量悖论,研究不可忽略缺失数据机制和分析方法;3)研究网络图模型,探讨因果机制和因果网络的结构学习。已呈交的科技报告编号:项目起止时间起始:2000年1月1日完成:2015年12月1日国家科学技术奖励工作办公室制二、项目简介(限1200字)本项目研究因果作用的评价方法和因果网络的参数学习和结构学习方法,探讨因果推断在生物医学中的统计问题。近年来,有关因果推断的研究成为了统计学最关注的热点研究方向之一。我们在因果推断方向作出了一系列成果.关于著名的Yule-Simpson悖论,国内学者提出了一系列避免虚假相关性的条件和统计推断方法(JRSSB1992,1993,1995,2002,2006等)。针对生物医学中现有的替代指标准则,国内学者提出了替代指标悖论(又称中间变量悖论、工具变量悖论)(JRSSB,2007,2010等)。针对临床试验不依从情况,我们论证了因果作用的可识别性和统计推断方法,该成果为2009年Biometrics的唯一讨论文章。在因果网络方面,我们提出了不完全数据学习因果网络的方法(ArtifficialIntelligengce,2006),将大规模网络的学习问题分解为小网络学习问题的递归分解学习方法,提出因果网络的主动学习方法,利用最少的干预次数确定因果方向的最佳干预试验方法(3篇论文发表在JMachLearnResearch2008)。另外,我们参加了2008年WorldCongressonComput.Intelligence组织了因果挑战,并获得了BestOverallContributionAward。我们在因果推断和因果机制方向的研究成果受到国际同行的关注,曾应邀在ICIAM2011做1小时大会报告、日本统计计算大会做1小时特别讲座、CSPS-IMS2005的55分钟特别讲座,IMS-APRM2012做了45分钟特邀报告等。本项目探索因果推断,主要研究内容为:1.替代指标(Surrogate)准则和替代指标悖论因果推断中的替代指标的准则是因果推断和医学研究的重要问题。Chen,Geng&Jia(2007)提出了“替代指标悖论”,指出Prentice的条件独立性准则、Rubin等的主分层准则和Lauritzen的强替代指标准则都不能避免替代指标悖论。替代指标悖论也称为“中间变量悖论”和“工具变量悖论”,描述了统计推断中更广泛的问题。该悖论向因果推断提出了一个挑战性问题。我们(JRSSB2007,2010)针对该悖论提出了一致替代指标和严格一致替代指标的概念,给出了避免替代指标悖论发生的条件。2.因果网络的结构学习和参数学习Geng,Wang&Zhao(JMVA2005)提出了判断网络中V-结构的分解方法。Xie,Geng&Zhao(AI2006)提出根据观测数据建立多因素之间因果网络的分解方法,将一个大网络的学习分解为若干小网络的学习。Xie&Geng(JMLR2008)提出了因果网络结构学习的递归算法,Ma,Xie&Geng(2008)提出了有向边和无向边混合的链图结构学习的算法,He&Geng(2008)提出了因果网络的主动学习方法。Geng,Wan&Tao(2000)提出了不完全数据情况下图模型参数估计的部分填补EM算法,证明了填补数据的数量越小,该算法的收敛速度越快。Geng等(2003)和Geng&Li(2003)提出了部分填补Bayesian方法,论证了收敛速度优越性。3.可压缩性和混杂因素Ma,Xie&Geng(JRSSB2006)和Xie,Ma&Geng(SS2008)探讨了一般分布...