河洛网首页 新闻 关注 房产 汽车 教育 健康 婚庆 家居 旅游

| 人工智能

娱乐 体育 财经 科技 人工智能

因果推理、范式上榜:权威专家盘点过去50年来最重要的统计学思想

来源:河洛网    发布时间:2021-02-01     发布人:洛阳新闻网

日常生活中统计学无处不在,所有人、所有事似乎都可以用统计数据来解释。 随着人类进入大数据时代,统计学在各个方面发挥着更不可缺少的作用。 统计学思想是统计实际工作、统计学理论的应用研究中必须遵循的基本理念和指导思想。 他们对统计学的发展起到了指导作用。

因果推理、范式上榜:权威专家盘点过去50年来最重要的统计学思想

最近,科伦坡毕业大学和阿尔托大学的两名知名统计学研究者总结了过去50年来最重要的统计学思想。 这包括反事实因果推理、bootstrapping和基于仿真的推理、过参数化模型和归一化、多层次模型、通用计算算法、自适应决策分析、鲁棒性推理、搜索性数据分析。 不仅详细说明了这些统计学思想的具体概念和发展过程,还概述了它们之间的共同特征、它们与现代计算和大数据的关系,以及它们将来将如何发展和扩展。 研究人员表示,本文旨在激发对统计学和数据科学研究中更大主题的思考和讨论。

论文链接: https:/ arxiv.org/pdf/2012.00174.pdf

这篇论文在社区成为热门话题,图灵奖获得者、贝叶斯网络之父Judea Pearl等学者纷纷推广和发表了自己的意见。 他说:“这篇论文将因果推理纳入统计学思想之一,与芝加哥大学统计系教授Stephen Stigler所着的《统计学七柱》的观点完全不同。 “”

另外,应该注意的是,本文给出的8个统计学思想是根据经验和阅读文献分类的,不是按照时间顺序和重要性顺序排序的。 无论是理论文献还是各个应用领域的实践,这些统计学思想在1970年都有先例。 但是,在过去的50年中,这些都有了发展,衍生出了新的内容。 以下就论文列举的8个统计学思想进行阐述。

过去50年来最重要的统计学思想反事实因果推理

这项研究起源于统计学、计量经济学、心理测试学、流行病学和计算机科学中出现的一系列不同观点,这些观点围绕因果推理的挑战展开。 其主要思想是可以进行因果识别,人们可以通过设计和分析严格阐述这些假设,并通过各种方法加以解决。 关于如何将因果模型应用于实际数据的讨论还在继续,但在过去的50年中,该领域的研究更加准确了因果推断所需的假设,这反过来促进了对这些问题的统计方法的研究。

因果推理方法在不同领域有不同的发展。 在计量经济学领域,重点从线性模型解释因果推理( Imbens and Angrist,1994 )的流行病学,重点从观测数据进行因果推理( Greenland and Robins,1986 )。 心理学家认识到相互作用和不同疗效之间的重要性( Cronbach,1975 )。 统计学已有匹配和其他方法,调整和测定治疗组和对照组之间的差异( Rosenbaum and Rubin,1983 )。 在计算机科学领域,进行了很多关于因果推理的多维模型的研究( Pearl,2009 )。

这些研究有共同的主线,从反事实和潜在结果的角度来建模因果问题是一大进步,超出了早期的评价标准,后者没有明确区分描述性推理和因果推理。 主要研究包括对Neyman (1923 )、Welch (1937 )、Rubin (1974 )、Haavelmo (1973 )、Heckman和Pinto (2015 )的背景介绍。

基于Bootstrapping和仿真的推理

在过去的50年里,统计学的趋势之一是用计算代替数学分析。 bootstrap示例: bootstrap定义了一些估计器,并将其应用于随机重新采样的数据集( Efron、1979、Efron and Tibshirani、1993 )。 主要思想是将估计值视为数据近似的充分统计量,将bootstrap分布视为数据抽样分布的近似。 在概念层面,呼吁以预测和重新取样为基本原则,获得偏差校正和收缩等统计操作( Geisser,1975 )。 。

计算资源的增加,基于其他相关重采样和模拟的方法也很流行。 在置换测试中,通过随机变换目标值,打破预测值与目标值的依赖关系,生成重采样数据集。 参数引导、先验和后验预测检查( Box、1980、Rubin、1984 )、基于模拟的校准( Talts et al .、2020 )直接从数据中重新进行采样

过参数化模型与规范化

20世纪70年代以来,统计学的一大变化是关于用大量参数拟合模型的思想,模型的参数可能比数据点多,并使用一些正则化方法得到稳定的估计和良好的预测。 在许多参数中拟合模型的主要思想是在避免过度拟合的同时获得非参数化或高级参数化方法的灵活性。 归一化可以作为参数和预测曲线上的惩罚函数来实现( Good and Gaskins,1971 )。 。

参数丰富的模型的初始示例包括Markov随机场( Besag,1974 )、样条曲线( splines ) ( Wahba和Wold,1975,Wahba,1978 )、高斯过程( O'Hagan,1978 ) Rumelhart、Hinton、威廉、1987; Buntine和Weigend,1991年; MacKay,1992; Neal,1996 )、小波收缩( wavelet shrinkage ) ( Donoho和Johnstone,1994 )、lasso/horseshoe等其他最小二乘法的变体( Dempster,sster )、sanstone 除了Carvalho、Polson、Scott、2010年)之外,还有支持向量机( Cortes和Vapnik,1995年)和相关理论( Vapnik,1998年)。

这些模型都具有随着样本量和参数而扩展的特征,这些参数并不一定可以直接解释,它们只是大预测系统的一部分。 贝叶斯方法中,在函数空之间考虑先验后,可以间接导出模型参数的对应先验。

这些模型的使用受到限制,直到有足够的计算资源。 但是,图像识别( Wu等人,2004 )和深度神经网络( Bengio,LeCun和Hinton,2015年; Schmidhuber,2015年)领域,参数化模型持续发展。 Hastie、Tibshirani、Wainwright(2015 )是将大部分这样的工作归化为稀疏结构的估计,但也包含适合数据支持范围的紧密模型,因此认为归纳为正规化是合适的。 这些工作大部分在统计之外进行,包括非负矩阵分解( Paatero和Tapper,1994 )、非线性降维( Lee和Verleysen,2007 )、对抗网络( goodfelow等,2014 )、自动编码器

随着统计方法的发展和在更大数据集上的应用,研究者们研究了堆叠( Wol Pert,1992 )、贝叶斯模型均值( Hoeting等,1999 )、布尔( Freund,Schapire )等。

多层次模型

多层模型或层次模型的参数随组而变化,从而使模型能够适应集群采样。 纵向研究、时序截面数据、元分析(元分析)和其他结构化设置。 在回归上下文中,可以将多层次模型视为特定的参数化协方差结构,也可以视为参数数量与数据成比例增加的概率分布。

多层模型包括未知的潜在特征和变化参数的概率分布,因此可以认为是贝叶斯模型。 与之相反,贝叶斯模型具有多个层次结构,具有给定参数的数据和给定超级参数的参数分布。

通用计算算法

通过现代计算,在建模方面的改善成为可能。 这不仅包括更大的内存、更快的CPU、高效的矩阵计算、易用的语言和其他计算创新,还包括改进统计算法以实现高效计算。

过去50年的创新统计算法是基于统计问题的结构发展起来的。 在统计学的历史上,数据分析、概率建模和计算的进步一直相互结合,新模型为创新的计算算法和新的计算技术打开了通向更复杂的模型和新的推理观点的大门。 因为通用的自动推理算法允许解耦模型的开发,所以改变模型不需要改变算法的实现。

自适应决策分析

从20世纪49年代到60年代,决策理论通常分为效用最大化( Wald,1949,Savage,1954 )、错误率控制( Tukey,1953,Scheff´ ); e,1959 )和经验贝叶斯分析( Robbins,1959,1959 )是统计的基础。 近几十年来,贝叶斯决策理论( Berger,1985 )和错误发现率分析( Benjamini and Hochberg,1995 )都取得了后续工作的进展。 决策理论还受到了外部关于启发式算法和人类决策偏见的心理学研究( Kahneman、Slovic、and Tversky、1982、Gigerenzer and Todd、1999 )的影响。

决策也可以认为是统计应用领域,统计决策分析的重要发展包括贝叶斯优化( Mockus,1974,2012,Shariari et al .,2015 )和强化学习( Sutton and Barto,2018 ), 与b测试实验设计的复兴和工程应用的在线学习相关的计算科学的最新进展是,可以使用高斯过程和神经网络等高级参数化模型作为自适应决策分析功能的先验,包括人工智能控制机器人的制作、文本 可以在模拟环境中进行大规模的强化学习,如参加围棋( Silver et al .,2017 )等游戏等。

稳健推理

稳健概念是现代统计的核心,是即使假设不正确也可以使用模型的思想。 开发即使在实际情况不符合假设的情况下也能顺利使用的模型是统计理论的重要部分。 Tukey (1960 )总结了该领域的早期研究,Stigler (2010 )的研究总结了历史评论。 继Huber (1972 )等人的理论工作之后,研究者又开发了有效的方法。 这些方法在实践中,特别是在经济学中很重要,对统计模型的不完备也有着敏锐的认识。

通常,统计研究中鲁棒性的主要影响不是开发特定的方法,而是评价Bernardo和Smith (1994 )被称为M-open世界(数据生成过程不属于拟合概率模型的类别)时的统计程序的思想 Greenland (2005 )认为,研究者应该明确说明传统统计模型中不包括的误差来源。 鲁棒性问题涉及许多现代统计数据特有的密集参数化模型,更普遍地影响了模型评价( Navarro,2018 )。

探索性数据分析

继Tukey (1962 )之后,探索性数据分析的支持者重点说明渐近理论的局限性和开放搜索与通信( Cleveland,1985 )的优点,提出了超越统计理论的更常见的数据科学观点( Chambers,1993,Donoho,Donoho, 这符合统计建模的观点。 也就是说,我们关注的不是固定假设,而是发现。 这不仅是图形方法的发展,也使统计领域从定理证明走向更加开放和健康的角度。 因为正在从科学领域的数据中学习。 以医学统计学领域为例,Bland和Altman 1986年发表的高引文论文提出了一种数据比较的图形化方法,以代替相关性和回归分析。

另外,研究者还试图形式化定义探索性数据分析:探索性模型分析( Unwin、Volinsky、and Winkler、2003、Wickham、2006 )用于捕捉数据分析过程的实验属性。

这些统计学思想之间的相关研究者认为,这八种统计学思想之所以重要,是因为它们解决了现有的问题,创造了新的统计思维和数据分析方式。 换言之,每个思想都是一部《法典》,其方法超越狭义的统计学范畴,如“研究兴趣”和“哲学思想”。

这些统计学思想相互之间有什么关联和相互作用呢?

Stigler (2016 )说,明显不同的统计学领域背后存在着几个相同的主题。 这种互联的观点也可以应用于最近的研究发展。

例如,规范化的参数化模型可以利用机器学习元算法进行优化,相反地,可以得到对污染的鲁棒性推论。 这些关联可以用其他方法表示,稳健性回归模型对应混合分布,混合分布被认为是多层次模型,可以通过贝叶斯推理进行拟合。 深度学习模型不仅与多层逻辑回归有关,也与样条曲线和支持向量机中使用的再现核心希尔伯特( Hilbert )空之间有关。

另外,特定的统计模型与本文列举的8个统计学思想有何关联? 研究者在这里提到的是风险回归、广义线性模型、空间自回归、结构方程模型、潜在分类、高斯过程、深度学习等有影响力的研究。 如上所述,在过去的50年中,统计推理和计算领域出现了许多重要的发展,这些发展受到本文所述的新模型和推理思想的启发和推动。 可以看到模型、方法、应用程序和计算是相互结合和密切相关的。

最后,他说,研究者可以将统计学方法的研究与自然科学、工程中的统计应用趋势联系起来。 他们认为在生物学、心理学、经济学和其他科学领域有可能发生可再现的危机和可再现的革命,这些领域的巨大变化需要根据统计资料得出结论。

作者简介Andrew Gelman,哥伦比亚大学统计学和政治学教授,著名的统计学家。 他于1990年获得哈佛大学统计学博士学位。 他曾三次获得美国统计协会颁发的优秀统计应用奖( outstandingstatisticalapplicationaward ),2020年当选为美国AAS院士。 他还拥有《贝叶斯数据分析》( Bayesian Data Analysis )等书。 谷歌学术中的论文总引用量超过12万。

Aki Vehtari,阿尔托大学计算概率建模副教授。 主要研究兴趣包括贝叶斯概率理论与方法、贝叶斯工作流、概率规划、推理与模型诊断、模型评价与选择、高斯过程、层次模型等。 着有《退化和其他地方》和《贝叶斯数据分析》等书籍。 谷歌学术中论文的总引用量约为4万。

【编辑推荐】

一系列关键的技术趋势将在2020年重塑慈善事业 慈善事业一直进展缓慢。著名 ldquo中枢组织 rdquo提供资金,然后这些节点为其他邻近组织提供资金。整个网络的参与组织正在共同努力,集中资源,提供专业意见,并共同建立一个更有效和支持慈

人工智能芯片黑色技术库存 随着大数据和深度学习的应用越来越多,对底层硬件和芯片提出了新的要求。以传统处理器为重点。处理能力。不同的大数据和深度学习应用程序经常强调 ldquo神经模拟。。 应当注意,神经模拟中

华为发布火山开源项目,让人工智能计算像火山一样强大 火山(Volcano)是一个基于Kubernetes的批处理系统,它源自华为的云人工智能容器。 华为发布火山开源项目,让人工智能计算像火山一样强大 火山便于访问人工智能、大数据、遗传学、渲染等许多行业

《福布斯》2020年人工智能十大预测:人工智能越来越“边缘化”! 毫无疑问,人工智能已经成为2010年的技术主题,随着新十年的到来,这一趋势似乎并没有消失。在过去的十年里,人们会回忆起什么才是真正可以被视为 rdquo 在我们的日常生活中,我们现在经常

FalseFalse

免责声明:非本网注明“禁止转载”的信息,皆为程序自动获取互联网,目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责;如此页面有侵犯到您的权益,请给站长发送邮件,并提供相关证明,站长将在收到邮件24小时内删除。

热门标签

洛阳新闻网 | 新闻 | 关注 | 房产 | 汽车 | 教育 | 健康 | 婚庆 | 家居 | 旅游