新闻公告

“统计大讲堂”第173讲回顾：完整数据分布不可识别下识别和估计不可忽略缺失结果的均值

2021-11-01

10月28日上午，“统计大讲堂”系列讲座第173讲举行。本次讲座采取在线会议的方式，邀请南粤风采26选5开奖统计学院讲师李伟作题为“完整数据分布不可识别下识别和估计不可忽略缺失结果的均值”的报告，讲座由南粤风采26选5开奖统计学院副教授、南粤风采26选5开奖研究员林存洁主持。

林存洁首先介绍了主讲人的相关信息。李伟是南粤风采26选5开奖统计学院生物统计与流行病学系讲师，北京大学数学科学学院博士，主要研究领域为因果推断、缺失数据、高维统计等。目前已在包括Biometrika, Journal of Econometrics, Biometrics等国际著名统计期刊上发表多篇学术论文。主持一项国家自然科学青年基金项目，参与完成多项国家自然科学基金面上项目。

李伟首先介绍了报告的相关工作，该工作由他与北京大学苗旺教授和宾夕法尼亚大学Eric Tchetgen Tchetgen教授合作完成。李伟指出，在当今社会背景下，响应变量缺失的数据在社会科学、生物医学研究当中经常出现，比如在涉及敏感性问题的研究中，有人不愿意配合调查；在跟踪调查的研究中，有人由于种种原因中途退出。缺失机制分为三类，完全随机缺失、随机缺失、非随机缺失。这就引出我们感兴趣的问题：当数据出现不可忽略的缺失时，如何去识别和估计结局变量的总体均值。

然而，非随机缺失的数据分析过程中，存在许多挑战。李伟向同学们介绍，除了基于全参数模型、半参数模型等方法，还可以基于辅助变量去解决问题。常用的辅助变量有两类，工具变量和影子变量。工具变量只能间接地通过影响缺失过程去影响结局变量。影子变量相对来说使用更加广泛，它不能直接影响表示缺失的示性变量，只能间接地通过影响结局变量去影响示性变量。无论是哪一种，本质上都是在构造条件独立性。李伟表示，他的相关研究就在影子变量的框架下进行，目标是在更弱的条件下直接得到感兴趣的参数，绕过估计倾向评分或者结果变量回归得到响应变量均值的估计。

李伟首先假定影子变量能够完全观测。为了加强理解，他就“基于教师的评估分数去评价儿童的精神健康”一例进行了解释。随后他讨论了Fredholm积分方程的一个特例，通过非参数求解连接影子变量和结果均值的表示方程，提出估计量，避免了倾向得分和结果变量回归的建模，建立了所提估计量的渐近性质，证明了其局部有效性，并在一定的正则性条件下得到了影子变量模型的半参数效率界。他表示，该理论运用范围十分广泛，可以用来解决非随机缺失的结果变量回归的问题、协变量缺失的问题，以及因果推断中不可观测的混杂问题。

讲座末尾，李伟进行了总结。当结果变量有一个或者多个代理变量的时候，影子变量的存在是合理的。关于此方法存在着许多可能的扩展方向，比如用更现代的机器学习的方法去求解表示方程，巧妙运用神经网络等。

最后，在提问交流环节，在线师生积极参与讨论，李伟耐心解答了同学们的疑问，并和同学们一起就影子变量做了更加深入的探讨。

此后“统计大讲堂”系列将陆续推出更多精彩讲座，敬请关注。

“统计大讲堂”第170讲回顾：一种自上而下的理解深度学习的方式

学术 | 我中心研究员张景肖及学生钟柔就非高斯函数型数据的主成分分析在《J MULTIVARIATE ANAL》发表论文

教育部人文社会科学重点研究基地

新闻公告

新闻公告

“统计大讲堂”第173讲回顾：完整数据分布不可识别下识别和估计不可忽略缺失结果的均值

2021-11-01

上一篇

下一篇