经验bayes估计 处理效应异质性分析——机器学习方法带来的机遇与挑战

 网络   2022-11-03 05:10   27

处置效应异质性分解

——呆板练习方式带来的机遇与寻衅

《社会学争论》2021年第1期

胡喧闹、吴晓刚、陈云松 | 文

图片起因:cnblogs.com

处置效应异质性是定量社会迷信存眷的中心。本文以因果随机森林与贝叶斯叠加返回树为例,指出以算法为导向的新兴分解目的也许克服模子大局以及变量挑选的限制,并思虑变量间各类交互联系。因果随机森林与贝叶斯叠加返回树不同表示了“匹配”以及“摹拟”的分解逻辑,以帮忙争论者勾勒出异质性处置效应的体味散布并研究该异质性的确定因素。然而,参数设定分裂以及算法分裂都会毁伤处置效应异质性分解了局的稳重性。

1、课题的提出

社会迷信体味争论每每缭绕变量之间的联系进展。随着因果推论方式正在社会迷信范畴内的逐渐遍及,定量社会迷信争论逐渐从夸大相干联系转向夸大因果联系(胡喧闹,2012;Morgan Winship,2015)。除了通例的平衡因果效应之外,越来越多的学者结束存眷处置效应的异质性(谢宇,2008)。这种对付异质性的侦察有其社会学根底。一方面,大度的社会学中层外貌都是缭绕一定人群的细分进展的,凸显了个别间的异质性。这也就没有难领会,正在验证以及推进这些外貌的时分,社会学争论者须要存眷处置效应的分裂。另一方面,从尝试的角度归来,大度的以战术分解为导向的争论存眷一定人群之间有分裂的处置效应(比如:Heckman Vytlacil,2001;Heckman García,2017)。这与医学争论中日渐兴盛的针对于一定类别患者的“精确疗养”生存异曲同工的分解逻辑。昭彰,这类尝试导向的分解要求争论者器重处置效应正在分歧人群之间消失出的异质性。

传统的返回模子经过交互项来分解处置效应异质性(Aiken et al.,1991)。之前方法论的繁华则日渐依托于宗旨值(propensity score)的估算,将处置效应异质性课题转为侦察处置效应若何随着个别宗旨值的改变而改变(Xie Wu,2005;Xie et al.,2012;Carneiroet al.,2010;吴晓刚,2008)。这些分解方式虽然揭示了处置效应异质性预计的多种政策,但各有其没有足之处。随着呆板练习方式与社会迷信因果判断分解的日渐贯串,一个前沿的方式论繁华方向是利用基于算法的本领目的来侦察处置效应异质性。

正在此背景下,本文指望恐怕经过系统的梳理,揭示社会迷信争论正在侦察处置效应异质性时从传统的线性模子到早先的呆板练习算法的方式论繁华脉络,稀奇存眷分歧方式之间的优误差。正在此根底上,本文拔取了因果随机森林(causal random forests)以及贝叶斯叠加返回树(Bayesian additive regression trees)两个以非参数“树范型”算法为根底的分解本领,全部先容其算法原理和若何克服传统处置效应异质性分解的诸多限制。与此同时,本文也沉思了以算法为根底的新兴分解本领大概带来的潜伏课题,如因参数设定分裂以及算法分裂而毁伤处置效应异质性分解了局的稳重性。这种分解异质性处置效当令呈现的稳重性缺失也也许被称为“异质性的异质性”课题。最终,咱们以分解中国精英大学教训回报的异质性模子为例,来揭示这些方式论的劣势以及没有足。

二、处置效应异质性的传统分解:方式概不雅

(一)传统返回模子的交互项分解

对付处置效应异质性的研究,传统的分解目的是正在某个返回模子中推广交互项(Aiken et al.,1991)。假设用Y示意因变量,T示意处置变量,C示意某个大概带来处置效应异质性的变量,则交互项模子如模子(1)所示,个中咱们体贴的系数是β3。

交互项模子虽然利用精深,不过相干的方式论争论对于其是否恐怕确切消失处置效应异质性不断有所置疑(Hainmueller et al.,2019)。疑问主要来自两个方面:其一,恐怕带来处置效应异质性的因素C大概有良多,不过正在给定数据的状况下,咱们弗成能无限制地正在模子中推广大度的交互项。所以,对付交互项的树立便拥有特定的客观性以至草草性。其二,交互项的全部大局(变量C的二次方、三次方项,大概三个以至更多变量交互的状况)每每也是争论者客观设定的,而这种设定并没有一定契合数据天生历程的根底性格。交互联系的繁复性常常没有会正在通例的双变量交互项分解中触及。

(二)以宗旨值为导向的处置效应异质性

当宗旨值方式逐渐引入定量社会迷信争论以来,对付处置效应异质性的侦察便逐渐以宗旨值为导向进展(Xie Wu,2005;Xie et al.,2012)。所谓宗旨值,是指个别采用处置变量某个取值水平作用的概率。假定一切的混合变量(confounding variables)变成矩阵C,那么,宗旨值的预计值便是

个中γ为矩阵C的系数向量。基于宗旨值的此种定义,所谓以宗旨值为导向的处置效应异质性分解,便是看处置效应若何随着宗旨值取值的改变而产生改变。

以宗旨值为导向的处置效应异质性分解有其特殊的优点。比如,这条途径没有再看某个一定变量C的影响,而是将一切的C降维为一个宗旨值Z,进而看宗旨值若何异质化处置效应。从这个意思上讲,这一方式克服了上述返回模子交互项的第一个限度。其余,因为处置效应以及宗旨值变成了一个二维编制,对付它们之间联系的侦察也也许攻破原有的线性设定,进而选择一些半参数以至非参数的光滑方式,以应付大概的非线性联系(Keele,2008)。这样,返回模子交互项分解的第二个限度便被克服了。

全部而言,谢宇以及其单干者提出了三种以宗旨值为导向的处置效应异质性的分解目的(Xie et al.,2012;Zhou Xie,2020)。一种被称为细分—多层次法(stratification-multilevel method),意指将估算出的宗旨值分成分歧的取值区间,然后正在每个区间内预计处置效应,最终看多个区间的处置效应消失出何种异质性的变异。第二种方式被称为匹配—光滑法(matching-smoothing method),即先经过宗旨值匹配,算计每个匹配对于(pair)的处置效应,之后,对付这一系列的基于匹配对于的处置效应施行曲线拟合,侦察处置效应若何随着宗旨值取值的改变而改变。第三种方式被称为光滑—差值法(smoothing-differencing method)。与第二种方式比拟,这一方式的特征正在于,先不同对于测验组以及掌握组的个别取值Y随着宗旨值的改变而改变的模式施行曲线拟合,之后再看两条曲线之间的差值,进而失去处置效应异质性的预计。谢宇等人所提出的这一系列以宗旨值为导向的处置效应异质性分解方式以及经济学家詹姆士·海克曼提出的规模处置效应(marginal treatment effect)有异曲同工之妙(Carneiro et al.,2010)。对于规模处置效应方式,可参阅胡喧闹(2015)、周翔以及谢宇(Zhou Xie,2019)的争论,这边没有再赘述。

以宗旨值为导向的处置效应异质性分解虽然攻破了返回模子交互项的一些限度,但也有自身的课题。开始,宗旨值的预计生存着模子没有决定性以及系数没有决定性课题(胡喧闹,2017)。其次,将各类混合因素归纳为一个宗旨值Z的做法虽然经过降维简化了分解,不过咱们也没法全部侦察毕竟是哪个混合变量C起到了对于处置效应施行异质化的影响。最终,不管谢宇依然海克曼的方式,都重正在形容处置效应随着宗旨值的取值改变而若何改变,但未能分解是甚么因素形成了此种处置效应异质性。

三、以算法为根底的呆板练习新器械:因果随机森林与贝叶斯叠加返回树

根据统计学家利欧·布雷曼(Leo Breiman)的典范划分(Breiman,2001),不管是线性返回模子的交互项,依然以宗旨值为导向的处置效应异质性分解,都属于以数据随机天生(stochastic generation)为分解根底的模子。这一分解范式须要对于统计模子有认识的设定。与之相映,分解的存眷点则弃捐于模子供给的一定统计量之上(如一定的系数)。与之比拟,以算法为根底的分解器械则对于数据天生历程存而没有论,转而经过正在数据上利用一定算法,让数据“措辞”,以消失某种有关性。假设说早期的算法模子由于算力以及数据量的限制尚没有为社会迷信争论者所熟知,那么当咱们有渊博的算计资源来针对于数据利用较为繁复的算法时,咱们则没有得没有重视算法模子正在社会迷信范畴内大概串演的主要角色。这方面,因果判断本领与呆板练习算法的贯串正是当下社会迷信方式论繁华的前沿方向。正在已有的一些研究的根底上(比如狭义叠加模子[generalized additive modeling]、全体线性模子[partial linear regression]等),出现了一系列新的合用于因果判断的算法模子。本文针对于因果处置效应的异质性,拔取了两个以“树范型”算法为根底的分解器械:因果随机森林(Athey et al.,2019;Wager Athey,2018)以及贝叶斯累加返回树(Chipman et al.,2010;Hill et al.,2020)。因为这两个方式都是以树范型为根底进展的,这边开始对于树范型施行概览性的先容。

(一)树范型与随机森林概览

树范型是一系列以数据细分为根底的算法模子的统称(Breiman et al.,1984)。假设分解的因变量Y为分类数据,常常称之为决议树,而假设分解的Y为陆续型变量,则称之为返回树。为了表述麻烦,这边统称为树范型。

一个树范型如图1(a)所示,对付数据中的一切样本,按照某种变量的取值规范,施行不停的细分,进而构建一个树形模子(这边用h指代某一树范型)。比如,咱们开始以变量C1为根底,以取值0.5为界,假设大于0.5,则将数据分配分到右边一个树枝,反之则分到右侧。正在右侧这一分支下,按照C2来施行进一步细分,C2大于0.5则到左枝,不然到右枝。毕竟正在分叉处拔取哪个变量和选择该变量甚么数值为界施行细分,都有相映的算计规范(如信息增益比、Gini系数,等等)以及算律例则,这边没有再赘述。每个树枝的末尾视为一个节点。假设没法进一步细分(比如,节点内的人的Y取值一经较为近似,大概没有渊博多的人施行进一步的细分),则每个节点内部一切人Y取值的均值视为契合该节点性格的一切人的Y的预计值。比如,对付C1 0.5的人,预计值为μh1,对付C1 0.5以及C2 0.5的人而言,预计值为μh2,最终对付C1 0.5以及C2 0.5的人,预计值为μh3。这种对付数据的树状划分等价于图1(a)的右图。

树范型的课题正在于这棵树大概会很长,进而带来数据的适度拟合课题。为领会决这一课题,一个常用的本领是随机森林算法,这一算法的逻辑如图1(b)所示。随机森林触及两个随机。一个随机是从分解工具总体中选择自立法(bootstrap)抽样失去多个子样本(假定共M个子样本),之后正在每个子样本中拟合树范型。另一个随机是正在每个树范型的分叉点,选择的分叉变量是从一切的备选变量中随机拔取孕育的。比如,正在图1(b)中,第一个树范型用到的变量是C1以及C2,第二个树范型用的是C6以及C7,第m个树范型用的变量是C1以及C5。正在失去M个树范型之后,对付某个个别,基于其一系列的背景性格,咱们也许失去M个对付其Y值的预计值。假定某个个别的取值为C1=0.6,C2=0.2,C5=0.3,C6=0.8,C7=0.2,则正在第一棵树下,其Y的预计值为μ11,第二棵树下的预计值是μ21,第m棵树下的预计值是μm3。假设Y是一个陆续型变量,咱们就也许算计这m个预计值的平衡值,进而失去对付Y的大伙预计

假设Y是一个分类变量,那么咱们也许选择投票的办法(比如服务普遍准则)确定Y的大伙预计值。

(二)因果随机森林

因果随机森林也许看作是随机森林算法正在因果判断课题上的直策应用(Athey et al.,2019;Wager Athey,2018)。这一方式的根底想法是最大化处置效应正在分歧树范型节点之间的变异。全部而言,因果随机森林以及传统随机森林方式比拟,正在节点分叉、模子拟合以及处置效应预计三个方面都有自身的特征。

节点分叉。咱们用P示意母节点,其分叉为上下两个子节点C1以及C2。那么,正在传统的树范型中,咱们判别是否连续分叉的按照也许是分叉后每个子节点内部对于Y的预计缺点。比如,假定两个子节点C1以及C2对于Y的预计值不同为μ^c1以及μ^c2,其样本量不同为nC1以及nC2,处于两个子节点中分解工具Y的观察值不同示意为YC1以及YC2,则两个子节点的预计缺点不同为

那么,假设C1以及C2中个别人数比率不同为

那么节点分叉后的总缺点为:

从方差分解的角度来看,下面的分叉规范理论上是要求组内方差最小化。与之比拟,因果随机森林则正在每个节点内预计因果动机τ^c1以及τ^c2(如每个节点内部测验组的Y的均值减去掌握组的Y的均值。固然,这边须要保险每个节点内部有测验组以及掌握组的个别,详见上面的参数树立)。此时正在确定节点是否连续分叉时,所选择的规范就没有再基于节点内部方差最小,而是节点间变异最大,即指望以节点之间因果动机的互相分裂最大化。顺着这一思路,因果随机森林的节点分叉规范变为了最小化上面的缺点表达式:

个中,E(τ^Cj)示意分歧节点处置效应的渴望值。对付这一缺点表达式,经济学家苏珊·阿西(Susan Athey)等人证实

errcausal(C1,C2)=常数项-+随机扰动项。

因而,咱们最小化errcausal(C1,C2)等价于最大化

即节点之间预计的处置效应互相分裂尽大概大。昭彰,这理论上便是处置效应的异质性。

模子拟合。以及传统随机森林比拟,因果随机森林正在模子拟合方面也许挑选所谓的狡猾(honesty)算法。正在传统随机森林算法中,数据分为锻炼组(training)以及测试组(testing),个中锻炼组用来建立一系列的树范型以及估算节点中Y的预计值û,而测试组则是用新的数据来对于模子施行利用(如算计新来人员的û)。不过正在因果随机森林中,狡猾算法要求构建立模子以及预计τ^脱节施行。也便是说,锻炼组数据进而分为两全体,一全体用于构建立模子(保持称为锻炼组),一全体用于算计节点内部的处置效应τ^(也许被称为预计组)。这样做的优点正在于削减τ^的预计缺点。正在理论操作中,争论人员也许自行挑选是否选择狡猾算法。这是由于即使狡猾算法有其劣势,不过正在利用的历程中,锻炼组数据要宰割利用,所以会收缩树范型的锻炼数据集。

处置效应预计。基于一系列的树范型(大概森林),最终一步是对于处置效应施行预计。假设有新的观察工具(即没实用于树范型拟合以及û预计的新的数据),基于其背景性格C,咱们也许用因果随机森林来预计某一处置变量对付这一观察工具的Y的处置效应。全部而言,对付这个新的分解工具i,咱们也许根据因果随机森林中一系列的树范型算计锻炼组中的一切数据点以及i同分到一个节点的频数。频数越高的人(如个别j)以及个别i的背景越凑近,当然咱们就理应正在算计针对于i的处置效应的时分给j更大的权重。假设没有新的测试数据,也许选择包外(out-of-bag)预计来算计权重。

(三)贝叶斯叠加返回树

与因果随机森林比拟,贝叶斯叠加返回树虽然也是基于树范型算法的分解本领,但正在对于树范型的利用上有其特殊之处(拜见Chipman et al.,2010;对于该方式的系统梳理,拜见Hill et al.,2020)。为了领会贝叶斯叠加返回树,咱们开始来看甚么是叠加返回树。顾名思义,叠加返回树将Y的预计值写成多个树范型的叠加。如上文所示,一个树范型触及输入信息X(处置变量以及各类混合变量变成的矩阵,即X是由T以及C变成的矩阵,X=[T,C]),建构的树Tree,和节点输出μ。为了表述的麻烦,咱们也许用函数g来将三者贯串起来,写为g(X,Treeh,Mh),个中下标h示意第h个树范型。基于这些信息,咱们也许把Y的预计值Y^写成以下叠加返回树的大局:

个中,一公有M个树范型,每个树范型用Treeh示意,而Mh=(μh1,μh2,…,μhI)’指代每个树范型的节点处对付Y的预计值。基于这种设定,咱们也许把观察值Y写成叠加模子的大局。假定ε是服务均值为0、方差为σ2的随机扰动项,咱们有:

至此,咱们建构了一个叠加模子。而贝叶斯叠加返回树供给了针对于它的预计方式。这个方式的优点正在于经过调控各类参数先验散布的性格来掌握潜伏的过拟合。理论上,叠加树范型很是轻易呈现过拟合。比如,先拟合树范型Tree1,之后算计Y减去Tree1失去残差e1,然后再对于e1拟合Tree2,然后算计扣除Tree2后的残差e2,并针对于e2拟合Tree3,次序类推。可见,只有树范型的数目渊博多,组织渊博繁复,一定会对于数据过拟合。而引入贝叶斯的先验概率则无效地掌握了这种过拟合状况。

全部而言,正在上述模子中一公有三个参数:Treeh,Mh以及σ2。贝叶斯叠加返回树经过不同对于它们设定先验概率保险每个g(x,Treeh,Mh)都是一个弱练习器。正是由于如许,这些先验概率也被称为正则(regularization)先验。全部而言,贝叶斯叠加返回树设定σ2服务反伽马散布,这一散布的均值设为Y的观察数据的规范差σ^。不过这个参数须要施行特定的数学幻化以保险P(σ σ^)=0.95。每个树范型Treeh的先验散布树立为α(1+d)-β,个中α取值正在0到1之间,β 0,d示意的是一个树范型的树深度(depth),即从极点到最上面一个节点颠末几许分叉。常常咱们取α=0.95,β=2,因为-β是一个负值,这一先验散布使得组织很是繁复的树范型呈现的概率很小。即树范型越繁复,呈现概率越小。对付Mh,贝叶斯叠加返回树设定节点的一系列对于Y的预计值服务正态散布。假定某个树范型下有t个节点,则设定μht服务均值为0、方差为ω2的正态散布。对付这一正态散布,设定ω=0.5/k√M。个中k也许取值为2,M为树范型的数目。可见,树范型越多,ω2越小,μht的散布越分散于均值0。也便是说,良多μht的取值会被逼迫凑近于0,进而掌握了单个树范型的作用力,克制过拟合。最终,以及普通的树范型一律,树范型分叉处选用的变量以及其取值边界的挑选均设定为平均散布。

正在告竣上述先验散布的设定后,贝叶斯叠加返回树的预计就投入到传统的马尔科夫链-蒙特卡洛算计历程,以摹拟后验散布。全部的本领细节这边没有再赘述,全部拜见戈尔曼等人的著作(Gelman et al.,2013)。基于后验散布,咱们也许经过改革自变量T的取值,摹拟T正在分歧取值下Y的改变,以此预计根源理效应。比如,对付个别A,假定其X取值为[1,C]。那么,个别A正在T=1时的Y的观察值Yobs即为其正在测验组时的Y值,咱们也许运用贝叶斯叠加返回树来摹拟当个别A的T取值为0的时分Y的预计值。比如,咱们也许把个别A的T值逼迫赋值为0,并将其算作一个新的观察样本放入贝叶斯叠加返回树(X树立为[0,C]),失去的预计值Y^即为当个别A正在掌握组时的Y的预计。那么,对付个别A而言,其处置效应为Yobs-Y^。

(四)树范型的可注释性:变量的主要性目标

对付定量社会迷信体味争论而言,学者们很是器重模子的“可注释性”。正在因果判断争论中,处置变量以及因变量的定义很是清爽。所以,模子的可注释性每每落脚点正在若何领会掌握变量(大概称为混合变量)正在估算因果联系历程中的影响(Molnar,2020)。对付树范型而言,因为正在每个树分叉节点处须要对于各个混合变量一一“扫描”,那么多个树节点下,有的混合变量就会被利用良多次,而有的混合变量被利用的次数更少。这种利用次数的分裂本体上代表了某一个混合变量对付某一因变量的“注释”才略。注释才略越高,被用来施行节点宰割的次数就会越多。那么咱们就也许看多个树范型下,哪些混合变量更受“重用”,进而领会分歧的混合变量越过多个树范型的大伙“主要性”水准。正在呆板练习文献中,这种混合因素的主要性也被称为性格主要性(feature importance)。

这边须要指出的是,混合变量的性格主要性,正在因果随机森林以及贝叶斯叠加返回树这两个模子之间有分歧的寄义:贝叶斯叠加返回树施行的是传统的树范型拟合,混合变量的影响正在于正在每一个节点处选拔因变量Y正在子节点内的“纯度”,而因果随机森林则要求每个节点处拔取的混合变量也许进步子节点互相之间因果效应预计上的分裂。换句话说,贝叶斯叠加返回树中主要的混合变量是那些恐怕最大化识别因变量取值的变量,因果随机森林中主要的混合变量是那些恐怕识别处置效应的变量。这种性格主要性定义上的分裂须要稀奇留神。

四、新器械、新机遇、新寻衅

与传统返回交互项以及以宗旨值为根底的处置效应异质性分解分歧,不管是因果随机森林依然贝叶斯叠加返回树,都是基于更为繁复的树范型算法对于数据施行处置的。这两种方式为咱们供给了预计处置效应异质性的新器械。基于其方式特征,它们为定量社会迷信争论者供给了新的机遇,也带来新的寻衅。

(一)新机遇:个别处置效应的趋近及其利用

与传统的方式比拟,因果随机森林以及贝叶斯叠加返回树的一个劣势正在于,也许为咱们供给对于个别处置效应的趋近(approximation)预计。众所周知,因果推论历程中的一个根底课题是咱们没法同时观察到一个个别的观察值与反真相(counterfactual)值(Holland,1986)。也正是因为这一点,通例的因果判断本领每每预计的是一定群体的“平衡”处置效应,而没有是个别处置效应。

虽然反真相状态难以直接观察,但咱们也许将其当作是一个缺失值并弥补之(Ding Li,2018)。换句话说,咱们只须要经过某种目的把反真相状态这一缺失值增添出来,然后与观察到的真相状态相减就恐怕获知个别处置效应的一个预计。顺着缺失值弥补的思路,现有文献供给了两种政策。一种政策是“匹配”,即尽大概追寻那些与被争论个别凑近、不过T取值分歧的分解工具来施行匹配(Stuart,2010)。另一种政策是“摹拟”(Abadie Imbens,2011)。其思路是尽大概地拟合一个齐备的针对于因变量Y的模子。经过这个模子,咱们也许分解,毕竟是哪些因素恐怕作用Y和若何作用。个别A只有服务这个模子,那么只须要改革个别A的T取值,就恐怕近似地估算出个别A的反真相状态。换句话说,T取值分歧时Y的取值分裂也许用来趋近个别处置效应。

经过下面的方式论先容没有难发明,因果随机森林采用了“匹配”的政策。经过天生分歧的树范型,锻炼组中的每个个别都取得了一个权重,代表了正在各个树范型中与咱们体贴的个别呈现正在统一个树节点内的概率。因为划分到统一个节点的个别正在大度的混合变量C上取值不异,所以这一权重本体上反应了锻炼组中的个别与咱们体贴的个别的凑近水准,大概说匹配度。权重越大,与咱们体贴的工具越形似,就越恐怕作用个别处置效应的预计。与之比拟,贝叶斯叠加返回树则采用了“摹拟”的政策。经过贝叶斯方式,咱们基于先验散布的参数值树立也许猎取一系列参数的后验散布,即叠加返回树的根底散布状态。那么,咱们假设想预计个别A的个别处置效应,只须要将个别A的信息代入,让叠加返回树估算个别A的T正在取值分歧时的Y的渴望值并相减之,由此就失去了个别A的个别处置效应预计。其分解历程的按照正在于生存一个锻炼得很好的叠加树范型,以供咱们“摹拟”出反真相的取值。

那么,运用因果随机森林以及贝叶斯叠加返回树来趋近个别处置效应,对付处置效应异质性的分解有何价值呢?开始,因果随机森林以及贝叶斯叠加返回树都是基于算法建构树范型的。所以,这两个方式尽大概地避免了对付模子大局的工钱设定以及困扰。这就正在特定水准上攻破了返回模子交互项和以宗旨值为导向的处置效应异质性侦察正在模子大局上的限制。其次,树范型的建构历程(如树立分叉点)不停地对于混合变量取值的配合施行侦察(T之外),所以,因果随机森林以及贝叶斯叠加返回树的一个特征正在于多少乎也许穷尽处置变量T以及各类其他混合变量之间的交互联系。这种对付交互联系的穷尽是传统处置效应异质性分解方式没法告竣的。最终,个别处置效应的预计值也许成为进一步分解的工具。如上文所述,传统的返回模子交互项以及以宗旨值为导向的分解重正在揭示而非注释异质性。与之比拟,因果随机森林以及贝叶斯叠加返回树帮忙争论者预计某个处置变量正在“每集体”身上的处置效应巨细。那么,咱们当然也许进一步看,毕竟是甚么因素作用了这种个别间的分裂,进而“注释”了处置效应异质性。

经验bayes估计 处理效应异质性分析——机器学习方法带来的机遇与挑战

(二)新寻衅:异质性的异质性

虽然因果随机森林以及贝叶斯叠加返回树经过趋近个别处置效应为咱们侦察处置效应异质性供给了新的思路,但这两种方式也给体味争论者带来了新的寻衅。这个寻衅咱们称为“异质性的异质性”(heterogeneity of heterogeneity):前一个“异质性”是指对于处置效应异质性的预计,后一个“异质性”指的是这种预计会由于算法呈现体味了局互相没有统一的状况。

全部而言,形成异质性的异质性征象的缘由有二。一方面,与传统的统计分解比拟,基于算法的分解目的须要对于更多的算法参数施行设定。虽然根底上大普遍的算法模子都供给了默认值,不过此种默认值并非基于全部课题设定,所以没法保险普适性。正在这种状况下,分歧的争论者大概会有分歧的参数设定偏好。其了局就是,即使分解异样的课题,也有大概由于算法参数设定分歧而呈现分解了局的分裂性。另一方面,分解了局还有大概由于算法自己的分歧而呈现分裂。正在以呆板练习为根底的各类分解本领中,相较于传统模子,算法被推到一个很是主要的职位。正在非学术争论的商业利用中,以至有算法霸权一说(奥尼尔,2018)。即使今朝正在社会迷信范畴内谈算法霸权犹如为时过早,不过算法无疑是确定体味了局的一个主要因素,而分歧算法的分裂则有大概成为形成体味了局异质性的主要缘由。

五、体味示例

(一)争论课题与数据

本文的体味示例分解了中国精英大学教训回报的异质性,即与普通大学比拟,投入精英大学练习的支出回报正在分歧个别之间是否和若何消失出异质性性格(Hu Vargas,2015)。数据来自于“都城大学天生长追踪考察”(Beijing College Students Panel Survey,BCSPS)。这一数据供给了大度学生投入大学以前的背景信息,这些信息变成了争论中的潜伏混合变量,进而有助于克制潜伏的挑选性缺点。其余,因为是追踪数据,咱们正在后续考察中猎取了大学生结业后的初职支出信息。鄙人面的分解中,精英大学拔取的是北大、清华以及中国群众大学三所大学,这三所大学变成了BCSPS考察三个独立的抽样框,所以保险了渊博的样本量。都城大学天生长追踪考察的相干信息也许参阅吴晓刚(2016)。

(二)变量挑选

上面分解的处置变量为是否结业于清华、北大大概人大(1=是,0=否),因变量则是初职月支出水平。除了这两个变量之外,咱们还思虑了其他潜伏的混合变量,席卷性别(1=少女,0=男),平易近族(1=汉,0=小量平易近族),春秋,是否高中复读(1=是,0=否),今朝住址年级(1=大学一年级,3=大学三年级),家庭年支出(log变换),伯仲姐妹数目,父亲教训水平(1=未受过正式教训,2=小学,3=初中,4=高中,5=职高/技校,6=中专,7=大专,8=本科,9=争论生及以上),母亲教训水平(1=未受过正式教训,2=小学,3=初中,4=高中,5=职高/技校,6=中专,7=大专,8=本科,9=争论生及以上),父亲是否党员(1=是,0=否),母亲是否党员(1=是,0=否),父亲是否全员工作(1=是,0=否),母亲是否全员工作(1=是,0=否),高中中学等第(1=世界中心中学,2=省中心中学,3=地市中心中学,4=县中心中学,5=非中心中学)和退学前的住址地带(1=东部省分,2=中部省分,3=西部省分)。

(三)传统分解方式的了局

如上文所述,咱们争论与普通大学比拟,精英大学对付支出的作用异质性。咱们开始看精英大学的支出回报异质性是否以及投入精英大学的概率(宗旨值)相干(Brand Xie,2010)。正在表1中,模子I运用一系列的背景变量拟合了logistic返回模子。基于此模子,咱们进一步预计每个分解工具的宗旨值。模子II建立了最小二乘返回(OLS)模子,并思虑处置变量以及宗旨值的交互联系。了局说明,精英大学的支出回报与宗旨值的交互并没有昭著。所以,仅就返回模子交互项来看,没有生存处置效应随着宗旨值改变而改变的状况。

图2揭示了谢宇等人的三个处置效应异质性分解方式和海克曼的规模处置效应模子的了局。细分—多层次法阐明生存分明的正向挑选效应,即越轻易投入精英大学的人,其教训回报越高(斜进取的趋势)。不过,假设看匹配—光滑法悠闲滑—差值法的分解了局,则没有分明的异质性处置效应。最终,规模处置效应的了局也支柱了正向挑选效应的结论(横轴是妨碍变量,其与宗旨值寄义相反)。

综上所述,返回模子的交互项、匹配—光滑法悠闲滑—差值法的分解了局都没有供给证明来支柱处置效应的异质性,不过细分—多层次法以及规模处置效应分解都再现出特定的处置效应异质性。这种分裂自己表示了分歧的分解方式对付分解结论的作用。那么,假设基于个别处置效应的趋近,咱们恐怕得出甚么结论呢?上面咱们就不同选择因果随机森林以及贝叶斯叠加返回树施行分解。

(四)个别处置效应的趋近及其利用

运用因果随机森林以及贝叶斯叠加返回树也许预计出个别处置效应。咱们这边选择核密度散布勾勒其根底散布状态。咱们的带宽为115,核函数用的是常见的叶帕涅奇尼科夫(Epanechnikov)核函数。以某一观察值为焦点,这个核函数规矩了权重正在上下两边呈抛物线状下降,并服务公式0.75×(1-x)2。对付咱们分解的样本,两种方式失去的处置效应的核密度散布如图3所示。

图3消失三个性格。其一,两个散布根底上重叠,且形态近似,这阐明经过因果随机森林与贝叶斯叠加返回树预计出的个别层次上的因果动机拥有较为高的统一性。其二,两个散布的最高点互相分歧。落实到X轴上,也许看到贝叶斯叠加返回树的“众值点”(散布峰部对于应的X轴取值)大于因果随机森林的“众值点”。所以,二者的预计正在最有大概呈现的因果效应值上有所分歧。第三,两个散布再现出较为分明的数据割裂度。这阐明,异样是侦察精英大学的支出回报,处置效应正在人以及人之间生存很强的异质性。

那么,为了失去这些预计,哪些混合因素较为主要呢?为了回覆这一课题,咱们揭示了混合变量的性格主要性目标,如图4所示。

正在两种方式中,家庭支出均是一个枢纽的混合变量。不过对付因果随机森林而言,次主要的混合因素是怙恃的教训水平,不过正在贝叶斯叠加返回树中,次主要的混合因素是母亲是否全职以及是否为汉族。如上文所述,混合变量的主要性正在两种方式之间生存定义上的差异,所以这种体味了局上的分裂也许领会。须要指出的是,咱们也算计了两种方式下混合变量主要性排序的斯皮尔曼排序相干系数(ρ),了局发明,正在两种方式下分歧混合变量的排序拥有较高的相干性(ρ=0.36;P=0.137)。这阐明,即使正在分歧方式下混合变量主要性目标的定义有所分歧,但大伙而言,各个混合变量的主要性秩序拥有较高的统一性。

基于个别层次的处置效应预计,咱们也许直接用散点图来查看处置效应若何随着宗旨值的改变而改变。相干的了局拜见图5。不管选择哪种分解方式,其预计出的个别处置效应都以及宗旨值之间生存正向的关连(P 0.001)。即,精英大学的回报随着投入精英大学概率的增大而增大,即生存某种正向挑选效应。

上面,咱们也许进一步研究哪些全部的混合变量恐怕作用处置效应异质性。OLS模子的分解了局拜见表2。个中,伯仲姐妹数目、父亲教训水和蔼家庭支出的选拔也许昭著选拔个别处置效应。这正在特定水准上阐明,诞生优秀家庭背景的个别投入精英大学,其从大学教训履历中取得的回报比拟于诞生普通家庭背景的个别更高。不过来自世界中心中学的精英大学学生的回报反而偏低,这大概与样本挑选效应相关(比如,世界中心中学的学生有异常一全体高中结业后挑选放洋而非留正在海内读书,大概他们正在海内精英大学结业后更宗旨于连续深造而没有是当场处事。此时,当场投入处事力墟市的精英大学结业生大概并没有是那些最恐怕从处事力墟市猎取高支出的群体)。除了这些变量,母亲教训水和蔼全员工作虽然正在两个模子中都是昭著的,不过预计的效应相反。

下面的分解了局再现了两种分解方式互相之间的分裂。比如,对付个别层次的因果处置效应预计,基于贝叶斯叠加返回树的分解了局说明,诸如学塾等第、年级、省分、父亲是否党员和处事状态这些混合变量都有昭著的相干性。不过基于因果随机森林的分解了局没有揭示出一致的体味模式。这种分裂或是分歧的算法逻辑而至,对于这一点,下文对付“异质性的异质性”的分解将施行议论。除此之外,其它一个大概性正在于数据量的限制。基于算法的分解本领每每须要“海量数据”的撑持,以便有渊博的信息施行模子的锻炼。所以,本文2821的数据量对付锻炼因果随机森林以及贝叶斯叠加返回树而言大概没有够。假设是这样的话,那么锻炼出的模子有大概没有够准确,进而带来了因果随机森林与贝叶斯叠加返回树之间的分裂。咱们这边借助自立法(bootstrap)的思路来检修一下数据量巨细的潜伏作用。全部而言,咱们选择放回抽样的办法,以原始的都城大学天生长追踪考察数据为根底,天生了一个10万样本量的新数据。分解发明,即使咱们把样本夸大到10万,分歧的方式所预计出的个别层次处置效应与混合变量的联系仍然消失分明的方式间分裂。基于这一发明,咱们也许发端以为,下面消失的体味了局分裂理应主要归因于分歧方式之间的分裂,而没有是样本量课题。

(五)异质性的异质性

正在揭示了以呆板练习算法为根底的方式劣势之后,本全体将注重揭示“异质性的异质性”对于争论者提出的新寻衅。咱们开始侦察内部的异质性,经过保养算法根底参数,看体味分解了局的变异度(下面的分解基于参数的默认取值)。针对于因果随机森林,咱们前后拟合根底模子(各类参数设为默认值)、变量挑选模子(基于随机森林的变量主要性目标,仅保全主要性大于一切变量主要性均值的变量)、狡猾算法模子(选择狡猾算法假设选择狡猾算法,那么咱们正在锻炼数据中再将个中50%用于树的分叉树立,50%用于弥补数据。即正在一切样本中,25%(即50%×50%)用于分叉,25%用于数据弥补。)以及分歧样本比率模子。样本比率是指正在总样本中用于锻炼树范型的锻炼组样本所占的比率,这边前后树立为30%、20%以及10%。这样,对付因果随机森林,咱们一公有六个基于分歧算法参数的模子,其个别处置效应的预计散布及其彼此联系如图6所示。

经过图6也许发明,即使分歧的模子参数设定下的个别处置效应散布有些许分裂,但大伙而言,分歧的参数所预计出的了局之间有着较为高的相干性(相干系数如右上角的数字再现,取值区间为0.79-0.98,且均统计昭著)。所以,因果随机森林消失较为低的内部异质性。

如上述议论,贝叶斯叠加返回树的主要的参数是树范型的数目。个中默认的是200。除了这一根底模子外,咱们前后拟合了5个、10个、50个、100个以及500个返回树的贝叶斯叠加返回树范型。其对付个别处置效应的预计及其彼此联系如图7所示。

昭彰,贝叶斯叠加返回树的内部异质性水准很高,即使相干系数都统计昭著,分歧的参数设定预计出的个别处置效应上相干性并没有是很强。

外部异质性也许经过对于比因果随机森林与贝叶斯叠加返回树的分解了局来施行侦察。咱们这边看个别处置效应预计值的相干性。假设外部异质性低,则两种算法估算出的个别处置效应应该互相凑近,进而拥有较高的相干性,不然,咱们有缘由以为生存较为高的外部异质性。分解了局拜见图8。图中被方框圈进去的是两种算法下个别处置效应预计的相干系数矩阵。昭彰,其相干性没有是很高。这说明分歧的算法之间消失的分解了局拥有较强的外部异质性。

综上所述,因果随机森林拥有较为低的内部异质性,而贝叶斯叠加返回树则拥有较为高的内部异质性。两种算法的了局相对于比,阐明基于算法的分解目的拥有较为高的外部异质性。

六、结语

社会迷信体味争论预计的处置效应由于个别间的分裂而生存异质性。传统上对付处置效应异质性的分解依附返回模子交互项。不过这一方式生存变量挑选以及模子大局等限制,这些限制促进争论者转而侦察处置效应若何随着宗旨值取值改革而消失出变异性。这种以宗旨值为导向的处置效应异质性分解克服了传统返回模子交互项的限制,不过引入宗旨值的预计方程会带来模子以及预计的没有决定性。其余,以宗旨值为导向进展的处置效应异质性分解由于宗旨值对于混合变量的“归纳”而没法直接分解哪个变量带来了异质化的动机。最终,这一方式重正在揭示异质性,而较少思虑是甚么因素形成了此种异质性。正在此背景下,以算法为根底的各类呆板练习方式应运而生。以因果随机森林与贝叶斯叠加返回树为例,这些新兴分解目的由于无模子预设,进而克服了参数设定上的限制。其余,两种方式充分思虑了处置变量同其他各类混合变量的交互联系。因果随机森林与贝叶斯叠加返回树亦不同表示了“匹配”以及“摹拟”的分解逻辑,以预计以及趋近个别处置效应,进而恐怕帮忙争论者分解处置效应异质性的确定因素,同时消失根源理效应异质性的体味散布。然而,新的分解目的也为体味争论者带来了新的课题,如由于参数设定分歧而带来的内部异质性和由于算法分歧而带来的外部异质性。

随着算力的选拔以及相干统计分解软件的遍及,以算法为根底的呆板练习方式以及定量社会迷信争论的贯串已然成为大概。这一方式论繁华对付社会学自己的作用值得沉思与议论。与传统的社会学量化分解目的(如返回模子等)比拟,呆板练习本领以算法为当中,不管是模子建构逻辑(以领会数据天生历程为想法或以预计为想法),依然全部操作(利用封装好的法式依然争论者工钱设定多种参数),呆板练习本领都有其特殊之处。所以,呆板练习本领也许视作通例量化分解目的之外,体味社会学者的新的器械。这种新器械既也许独立利用,也也许用于繁华传统的分解方式(比如攻破模子大局的建模等),所以值得社会学体味争论者给以稀奇器重。固然,对付社会学学科自己而言,这也意味着传统量化方式教育实质的更新与改革。其余,思虑到呆板练习方式正在社会学之外各个范畴内的精深应用(比如商业分解、都会筹备分解等),将呆板练习引入社会学也没有失为一种推进跨学科单干调换的目的。

本争论缭绕呆板练习与因果推论的贯串施行了一系列的议论,但以算法为导向的分解目的仅仅是算计社会迷信时期下的一个繁华方向。除了正在分解器械上引入算法模子之外,算计社会迷信兴盛的一个主要记号是对于大度非组织性数据的分解和对付繁复模子某一模式出现的侦察。这些新的繁华方向若何独特形塑量化社会迷信的学科特征以及他日,值得加以深切地琢磨。

作家单元:复旦大学社会学系(胡喧闹)

上海纽约大学利用社会经济争论焦点(吴晓刚)

南京大学社会学院(陈云松)

负担编写:刘保中

本文地址:http://yz.ziyouea.com/p/54141.html
版权声明:本站文章来自网络,如有违规侵权请联系我们下架。