- 中国儿童发展评论(第1辑)
- 方晋主编
- 16847字
- 2025-03-13 18:36:56
理论探索
典型入户辅导项目对儿童技能的影响
本文使用来自一个被广泛评估的儿童早期家访项目(慧育中国:山村入户早教计划)的大规模随机对照研究的数据,开发了一个新的框架来估计该儿童早期项目对儿童技能的因果影响,同时本文应用了这个新框架来分析产生这些影响的机制。我们基于不同的测度方法来比较项目的干预效果:(1)未加权平均分数,(2)考虑难度调整的得分。我们拓展了项目反应理论(IRT)和Rasch模型的框架,使用我们的方法可以估计出儿童个体的多维度技能。通过比较干预组和控制组的儿童技能的影响,本研究发现“慧育中国”项目能显著提高干预组儿童的多种技能发展。
1.简介
越来越多的研究表明,儿童早期入户辅导项目对于培养弱势儿童的技能非常有效。小规模入户辅导项目也被证明是有效的。[3]与许多其他儿童早期项目相比,早期入户辅导的成本相对较低,而且它们在育婴辅导员培训和基础设施支持方面的要求也最低。
本文研究了牙买加入户辅导项目“向上学习”(Reach Up and Learn)在中国的规模实施情况。牙买加“向上学习”项目始于30多年前,其运作非常成功,吸引世界各地纷纷效仿。入户辅导人员的受教育水平与接受辅导的照料人相当,这一特点促进了“向上学习”项目推广的可行性。该项目的低成本和灵活性,使它成为对发展中国家有吸引力的项目。[4]
本文研究了中国西部贫困地区大规模开展“慧育中国:山村入户早教计划”(该项目以牙买加项目为蓝本,以下简称慧育中国)的情况(1 500多位参与儿童,而牙买加项目的参与儿童仅为100多人)。我们研究的项目是由牙买加项目的设计者参与设计的,与牙买加项目一样,通过随机对照试验进行评估。
虽然这两个项目课程的主要内容是相同的,但参与者是不同的。牙买加项目主要是针对身体发育迟缓的儿童。中国项目针对的是所选中国贫困农村地区的所有儿童,不包括身体状况最不佳的儿童。这两个项目都通过随机对照试验进行评估。我们到目前为止的证据表明,慧育中国项目取得了与牙买加项目相同的试验效果,能够成功地大规模实施。
慧育中国项目改善了家庭环境和儿童的多种技能。我们的研究可以获得对每一个孩子的潜在技能的估计,而目前文献中的方法只能估计潜在技能的分布(参见Cunha and Heckman,2008;Cunha et al.,2010;以及之前相似的研究)。我们的研究表明,本项目对语言和认知技能、精细运动技能和社会情感技能有极大的影响,但是项目的效果对不同的孩子是不同的。我们发现项目对母亲外出打工的孩子产生的正向干预效果最强。慧育中国项目比最初的牙买加项目拥有更丰富的数据,部分原因是同一组学者设计了这两个项目,并将从牙买加项目那里吸取的经验教训纳入了慧育中国的项目设计中。
我们并没有局限于采用常规的做法,(即使用测试题目中正确答案的总分数)来衡量孩子的表现。在我们的分析中,我们考虑了测试项目的难度,这个调整使得对干预效果的估计更合理。同时,我们突破了既有文献中的常规做法,即假设只有单一技能会对某些技能测量指标产生影响(在文献中被称为“专用”情况,例如Cunha et al.,2010)。在本研究中,我们允许孩子的多项潜在技能可以同时对儿童量表的测试项目有影响,而不是大多数应用中假设的只有单一技能对测试项目有影响。与赫克曼等人(2013)的方法类似,我们将干预效果的估计分解为儿童潜在技能的提高、已有技能运用能力的提高两个部分。[5]我们发现干预效果主要来自儿童潜在技能的提高。
本文结构安排如下:第2节对本研究做出介绍。慧育中国项目是基于牙买加项目的大规模试验。第3节展示了一系列慧育中国试验干预效果估计,并陈述了对于不同儿童项目干预效果的异质性,以及项目干预对家庭环境的有益影响。此外,我们拓展了IRT模型:我们的方法可以同时分析多种技能,而且直接估计出每个人的多项技能。根据我们的方法,可以确定慧育中国项目对孩子正确回答测试项目所需技能的影响。第4节研究了预计干预效果的来源。第5节比较了慧育中国项目的干预效果与牙买加项目的干预效果。牙买加项目目前追踪到30岁,慧育中国的长期效果有望复刻格特勒等人(Gertler et al.,2014)关于牙买加项目对教育和劳动力市场产生的长期干预效果。第6节将本研究与不同背景下复刻牙买加项目的各项研究一起讨论。第7节将我们的发现进行了总结。
本研究采用了我们在其他研究中通过对项目分析获得的数据(Heck-man and Zhou,2022a,2022b,2022c)。上述研究使用了仅针对干预组儿童的每周技能成长的数据,以了解技能形成的动态过程,上述几篇论文使用的数据无法分析项目干预的效果。因而,本文对项目干预效果的分析不同于上述几篇论文,同时与之前其他基于牙买加项目的分析也有很大的不同。
2.慧育中国
正在实施的慧育中国项目启动于2015年,时逢国务院对“从试点到政策”循证式分析方法的日益重视与呼吁。此项大规模随机对照试验借鉴了牙买加项目的成功经验,旨在评估低成本入户辅导服务模式对弱势家庭的影响。[6]本研究项目通过进一步扩大儿童与看护者及社区的接触面,来提高儿童的健康水平和认知能力。
甘肃省华池县作为中国最贫困的地区之一,被选为本研究项目的实施地。华池县辖15个乡镇,111个行政村。为便于分析,我们将两个紧邻的村庄合并[7],因此本研究共分析了110个样本村庄,85%在山区,涉及人口13.2万,其中农村户口11.46万。[8]

图1 慧育中国(华池县)项目时间线
从图1可看出,我们的研究项目启动于2015年1月,入户辅导开始于2015年9月。我们收集了华池县所有村庄的基线数据,其中包括家庭经济、家庭人口信息和家庭环境测量指标(即婴幼儿家庭环境观察测评量表得分)。采用基线数据,我们设计了随机对照试验(见2.2节)。我们收集了中期(干预后约9个月)和末期(干预后约21个月)的数据。在中期和末期,我们收集了对照组和干预组的信息,包括家庭评分测量和家庭水平的相关经济和人口统计测量。[9]
2.1 干预措施
本研究项目选择了教育水平与接受干预孩子的母亲相当的人员进行培训,由他们提供入户辅导。这种做法在中国农村很容易复刻,因为育婴辅导员的潜在供给很大。本研究项目鼓励看护者选择适合儿童发展的方式,与儿童展开互动。[10]
在这里,慧育中国项目由一名县总督导负责项目的整体协调,同时得到了24名乡镇督导员和91名育婴辅导员的协助。[11]县总督导在全县范围内组织培训,对乡镇督导员进行监督。县总督导和乡镇督导员随机上门抽查,以便观察和了解育婴辅导员的工作情况。督导员的受教育程度比育婴辅导员多三年,而育婴辅导员的平均受教育水平与接受干预孩子的母亲的受教育水平差不多。
督导员为育婴辅导员提供支持,并负责管理工作。他们会敦促育婴辅导员为每周的入户辅导做好准备、回顾过去并规划未来的入户辅导活动,同时每周还要与育婴辅导员召开会议、进行复盘,完善入户辅导项目和提升辅导体验。乡镇督导员每月与育婴辅导员一起入户一次,观察和记录看护者、儿童和育婴辅导员及其互动结果。
育婴辅导员每周都会入户家访,按照牙买加项目的课程方案,提供一小时的育儿支持或看护指导。[12]该干预并不直接针对儿童,而是针对陪伴孩子时间最多的照顾者(主要是母亲)。每次入户时,育婴辅导员都会记录有关家长参与的信息(如入户辅导时谁在照看儿童;如果儿童无法参加辅导,育婴辅导员是否教导父母开展相关任务;辅导后谁陪儿童一起玩耍,陪伴的频率是多少),以及儿童的表现情况(如上周布置的任务和本周新任务的完成情况)。附录B.3记录了慧育中国的课程方案、每周入户辅导的内容以及每周使用的评估工具。该课程以早期语言和认知技能发展为核心,有200多项早期任务与语言和认知技能相关,另外有大约70项的任务针对精细运动技能发展、20项的任务针对大运动技能发展。丹佛Ⅱ测验在中期和末期进行[13],干预组和对照组都开展了该测验。
2.2 随机对照试验的设计
随机对照试验是以村为单位设计的。白玥皓(Bai,2022)认为,这种设计最有利于确保平均干预效应估计值的均方误差最小化。这种设计还保证了回归变量的外质性,并确定了生成的基础模型的参数。
实施过程分三步。我们首先核查了华池县所有符合条件的村庄。接下来,我们通过家庭调查并利用村一级行政数据,使用马氏距离[14](居民和村庄特征)来评估村庄的相似性。[15]对于110个村庄的样本,我们在匹配成对的村庄之间形成了个指标。
第二步,将110个村庄生成55对,并尽量减少所有匹配对的马氏距离之和。根据村庄的马氏距离得分进行排序,并用非二分匹配(Nonbi-partite Matching,以下简称NBP)方法对最接近的村庄进行配对。[16]NBP匹配方法构造成对,使55对的马氏距离之和最小化。白玥皓(2022)的研究表明,使用马氏矩阵在产生平均干预效应方面比其他指标具有更好的性能。
第三步,随机选择每对村庄中的一个进入干预组,另一个配对村庄进入对照组。[17]附录A.2给出了华池县成对村庄的位置。这种设计与村庄的特征非常匹配。[18]村级干预效应包括村内溢出效应。这些村庄作为干预组或对照组仅被选用一次。
3.估计干预效应
慧育中国干预项目旨在促进多种技能的发展。表1展示了该项目的技能类别及其定义。丹佛Ⅱ测验提供了详细的儿童发展评估方案。[19][20]
表1 慧育中国项目的技能类别及其定义

本节报告了对每个技能类别内各细分项未加权得分总和的平均干预效应的常规估计。项目得分是对任务知识的二元指标。我们使用稳健的统计方法来调整缺失的数据,并允许村庄内部的干扰是相关的(Camer-on et al.,2008)。
使用正确回答的得分的比例,通过标准化的抽样标准差(即效应量)作为结果是许多评价文献和以前尝试复刻牙买加的评价的标准做法。这种实践的前提是假设每个任务的测试难度级别都相同。在实践中,在丹佛Ⅱ测验中,测试任务难度级别存在很大差异。在第3.3 节中,我们使用一个测量模型来解决这个问题[21],该模型考虑了测试问题难度的变化。同时,我们可以估计出每个儿童的相关技能矩阵。
3.1 县一级平均干预效应
我们定义了报告的干预效应。为便于说明,我们使用了一些符号。村庄用{1,…,V}表示。村庄按照匹配规则m(v)进行配对:v→v′,其中村庄v′是根据实验前的相关变量矩阵均值计算出的与村庄v最接近的村庄。邻近度通过马氏距离来校准:

其中∑是按全部村庄计算的协方差矩阵Z。我们采用掷硬币的方式来决定被配对两个村庄(v,v′)中的哪个村庄接受干预,所有村庄仅选用一次。
生活在村庄v中的所有人i都被分配相同的干预状态。如果v被选择进行干预,则记作Dv=1。Dv(i)是i在v中指定的干预状态,dv(i)∈{0,1}。每个村庄都有Iv个符合资格的居民。
我们首先报告了对标准化评分的平均干预效应,此类评分是根据以下实证模型估算而来的:

其中Ymiv是村庄v中儿童i的结果m的标准化得分,dv(i)是一个虚拟变量,表示儿童i所在村庄v的干预状态,Zi是干预前协变量。1{i∈p}是儿童i是否居住在村庄配对p中的指标。Ymiv=Dv(i)Ymiv(1)+(1-Dv(i))Ymiv(0),其中Ymiv(d)表示固定干预状态d的结果向量。随机试验设计意味着:

儿童i的异质随机扰动项εmiv可任意与同一村庄v中的其他任何儿童i′≠i的εmi′v关联在一起。假设异质随机扰动项在各个村庄间是相互独立的:在∀i∈v和∀k∈v′,v≠v′时。附录E显示的残差图验证了各村庄残差独立性的假设。N×N协方差矩阵E(εε′)=Ω与村庄数V呈块对角线关系:Ωvv′=0;所有v≠v′。[22]
通过Xiv定义等式(1)中右侧变量的完整阵列。当使用普通最小二乘法(以下简称OLS)残差估算
时,标准集群稳健方差估计量(CRVE),即
,会出现偏差。这种偏差取决于Ωv的形式。卡梅伦等人(Cameron et al.,2008)讨论了这个问题,并指出原始聚类自助法(Wild Cluster Boot-strap)在进行集群稳健性推断方面表现良好。有关我们使用的原始聚类自助法详细信息请参阅附录F。[23]
在我们的样本里,接受干预的村庄中98%以上符合条件的儿童都受到了入户辅导。尽管如此,对照组和干预组仍有约15%的儿童错过了年度儿童发育评估。为对总体平均干预效应做出一致估算,我们使用了逆概率加权法(IPW)(Tsiatis,2006)。[24][25]在表2中,我们报告了使用IPW的估计值,在附录H中,我们显示了未经调整的结果。在估计我们的潜在因素模型时,我们也对观察结果进行了加权。干预效应适用于村一级,包括任何人口溢出效应。
表2显示了使用标准化结果测量的每个技能类别的总体标准干预效应(效应量)。[26][27]第(1)(2)和(3)列是基于所有可用数据的估计,第(4)(5)和(6)列仅使用2015年9月项目开始时2岁及以下儿童的样本。接受干预的幼儿至少有一年的干预暴露时间。[28]无论我们是否使用匹配而不是IPW加权的OLS,我们的估计都是稳健的,参见附录I。
表2的第一行显示,平均而言,干预组儿童更有可能获得较高的语言和认知技能。[29]在第(1)列中,我们看到在中期处(干预约9个月后),干预组儿童的语言和认知技能比对照组儿童高出约0.7个标准差。在干预末期,对语言和认知技能的干预效应超过了1个标准差。干预显著提高了受干预儿童的语言和认知技能。第(2)列将样本限制为参与时小于等于2岁的儿童。这样,干预组和对照组的样本年龄更加均衡。在附录图J.1中,我们发现干预组和对照组的月龄分布具有可比性。
表2 以丹佛标准化评分为结果变量的干预效应


在干预末期显著提高了中期社会情感技能和精细运动技能,但对大运动技能没有显著改善。这一发现与课程的设计相一致,项目课程主要关注语言和认知技能的发展。[30]参见附录B。
表2的剩余列显示了按性别划分的干预效应。一个有趣的发现是,干预对男孩语言和认知技能的改善效果远超过女孩,这与文献中反复出现的结果一致(Elango et al.,2016)。在中期处,女孩的干预效应量约为0.4个标准差,男孩的干预效应量约为0.9个标准差。在干预末期,女孩和男孩的效应大小分别约为1和0.9。与我们直观想法不同的是,社会情感技能在项目结束时评估效应不是正向的,但是在使用了我们提出的新的估计方法(考虑每个测试项目的难度)之后,我们发现慧育中国项目也可以有效地提高儿童社会情感技能。
附录H提供了表2的一个版本,它报告了替代统计程序的结果:(1)是否使用IPW,(2)是否调整了预处理变量。定性结果与表2中的结果相似,没有任何替代程序会改变我们对表2的描述。我们使用匹配而不是IPW的OLS时,我们的估计是稳健的。参见附录I。
3.2 对家庭环境的影响
本研究旨在改善接受干预的儿童的家庭生活。根据当地项目督导员的评估,收集了干预组和对照组的家庭环境的数据。表3报告了干预对家庭环境评分的影响,研究显示,干预显著提高了综合家庭得分。[31]
表3 干预对家庭环境得分的影响

注:1.括号中的90%置信区间是使用在村庄一级原始聚类自助法构建的。
2.标签为“全部”的列包括所有观察结果,而“参与时≤2岁的儿童”的列将样本限制在参加项目时2岁及以下的儿童。
3.∗p<0.1,∗∗p<0.05,∗∗∗p<0.01。
3.3 考虑测试任务难度因素,调整对儿童潜在技能的估算干预效应
先前分析表明,干预可提高未加权测试项目总分。这种传统的加总分数,只有在不同测试项目的难度相同时才有效,否则这种加总分数就是有问题的。从评估的设计结果来看这是不正确的。
为解决这个问题,我们利用数据的多测试项目的特点,估算了个人层面潜在技能的非线性因子模型。[32]我们遵循心理测量学的标准方法,引入并估算每个测试项目的难度参数。[33]区别于传统的方法只能估计出潜在技能的分布,我们的方法可以估计出个人层面的潜在技能。我们使用这些估计值来确定干预对产生项目评分的技能的影响。根据赫克曼等人(2013)的研究,我们还估算了干预在多大程度上能改变技能和项目评分之间的映射关系(即受干预儿童能否更好地利用现有技能)。
3.3.1 测试题目与对应技能
我们研究的结果是儿童在个人任务上的表现,这通过他们在丹佛Ⅱ测验题目上的表现来衡量。每个特定技能K都有NJk个任务,这些任务都是针对某一技能(如运动、认知、阅读等)。假设这些任务上的表现由潜在技能θ产生。与心理学和经济学的大多数工作不同,我们没有使用“专用因子”模型,该模型假设特定的θ可以影响所有的测试题目。我们使用NJ来表示所有技能项总数(即)。我们假设所有村庄都采用了一种将技能映射到测验得分的通用技术,因此我们放弃了特定于v的表示法。设Yjki(d)为二元值结果变量,表示人员i,i∈{1,…,I},对技能类型k中任务j的掌握情况。对于干预状态d∈{0,1}的人来说,其表现是由任务项j的潜在结果生成。设θdi是具有干预状态d的人的潜在技能K维向量,Xi是基线协变量的一个向量。假定各技能组成部分是独立的(
)。下述式子描述了多维度技能与所有丹佛Ⅱ测验题目表现的关系:

其中αjk,d是因子载荷的K维向量;δjk是任务项jk的任务难度参数;系数βjk,d和αjk,d可取决于干预状态、多维度技能以及测试题目内容。在估算中,我们设βjk,d=βj′k,d,∀jk和j′k;即系数在技能内的各个项目之间是通用的。
等式(3)通过考虑多维度技能扩展了心理测量学的标准IRT模型。[34]
等式(3)通过分析潜在多维度技能的向量θ来扩展经典的IRT,而不是只考虑单一技能标量。在IRT中的区分参数[35],由项目特异性和干预特异性系数βjk,d和αjk,d来扮演。
该模型通过影响任务表现来体现实验干预对技能的改变。干预还可提高执行任务时任何特定技能的效率,即干预可以改变αjk,d。对于任一来源的干预D=d的结果jk来说,(θdi)′αjk,d是一组有效的测度技能组合。
在适当标准化下,我们可以识别个人层面的潜在技能因子θdi,而不仅仅是传统心理测量模型中潜在技能因子的分布情况(van der Linden,2016)。我们假设εjki是标准正态分布,独立于其他右侧变量。该数据在项目上具有类似于面板的结构,它可使用带有潜在技能的概率模型进行拟合。我们估算了可观察协变量的参数、潜在因子以及潜在技能因子对结果的影响。从王垡(Wang,2020)的分析可以看出,当观测数(样本参与者NI)和项目数(NJ)变大,NI→∞和NJ→∞时,模型参数(包括个人能力)的估计量具有一致性且渐近无偏,但会收敛于一个常数。[36]这些条件适用于我们的样本:我们的样本中每个人都有大量的测试项目(每种技能≥70个测试项目)和大约1 500个儿童。
如果想把θd从αjk,d中分离出来,就要对因子模型进行标准化处理。由于(θdi)′αjk,d=[(θdi)′A][A-1αjk,d],因子和因子载荷本质上具有任意性,除非以某种方式设定占比。如果满足于衡量有效技能(θdi)′αjk,d的变化,我们就能避免这种标准化。我们报告了这种估计值。这回答了干预是通过哪种渠道如何影响技能的问题。然而,根据赫克曼等人(2013)的研究,将干预的影响从各个来源中分离出来也是很有意义的。
我们使用了最初由安德森和鲁宾(Anderson and Rubin,1956)提出的一种广泛使用的归一化方法,并分别识别了这两个向量θdi和αjk,d。[37]威廉斯(Williams,2020)提出了其他标准化的方案,以及对应方案的影响。这种标准化使我们能够检验干预对禀赋的影响,以及干预对安德森和鲁宾使用技能的效率的影响。我们分别报告了对θdi和αjk,d的估计数,也作为有效的技能组合(θdi)′αjk,d。
遵循Rasch模型和更广义的IRT模型的文献(van der Linden,2016)的传统,我们假设δjk是测量系统所固有的干预不变任务难度参数,并且与干预状态无关。这确保了干预组和对照组之间测量结果的可比性。如果不同的干预组和控制组的难度级别不同,那么就不可能在不同的项目之间进行有意义的比较。
我们的模型中有四种不同潜在技能因子,分别对应于丹佛Ⅱ测验k∈{1,…,4} 中的社会情感、语言和认知、精细运动和大运动技能。为解释这些因子,我们假设NJ任务(K≤NJ)中的第一个K任务表现仅取决于一个因子。这就是库尼亚等人(Cunha et al.,2010)所说的“专用因子”模型,仅适用于每次测量的前四个项目。因此,我们不要求每一行都只依赖于一个因子。与“专用因子”模型中要求每个测试题目都只受单一技能影响的要求不同,我们的模型中只要求一部分测试题目只受单一技能影响。我们对因子载荷矩阵的第一行进行了限制,其余因子载荷矩阵不受限制。简单起见,去掉d上标,以减少符号上的杂乱,并将重点放在干预组或对照组上。我们将潜在技能的载荷度量写成α′NJ×K:

我们检验并拒绝了“专用因子”模型,该模型假设对于jk≥8,αjk,l,d=0。表4展示了该测验。“专用因子”模型的假设在我们样本中并不成立。[38]
表4 当jk≥8,αjk,l,d=0的假设检验

在附录L中,我们使用各种似乎可信的标准化工具对相关估算进行了敏感性分析。我们发现文中报告的αjk,d估算在各种标准化下是稳定的。[39]我们利用王垡(2020)和陈明丽等人(Chen et al.,2021)提出的估算程序,估算了具有多个潜在技能因子的面板多元概率比(Probit)回归模型。[40]
3.3.2 估计值
在附录N中,表N.1给出了βk,d的估计值。尽管干预组中的男性点估计值的负值明显更大,但干预组和对照组之间没有在统计学上表现出显著差异。图2比较了我们模型中所预测组合语言和认知任务项与实际任务项的分布情况。[41]我们还将数据与其他类型的任务很好地拟合在了一起。[42]当我们使用一组更丰富的协变量时,我们发现定性上相似的结果。参见附录表P.1。

图2 丹佛测验通过项目分布
图3显示了为每个任务项估算的难度级别参数δjk。当项目难度增加时,估计值会变成更大的负值。这些估算大体上符合测验的设计结果,即增加后面项目的难度。估算的难度级别参数δjk提供了有关测验设计是否合理的信息。比如,大运动任务项的测验设计就不是特别好:难度级别数值在-1.8左右持平,然后在第五项时迅速跳至-6。这意味着参加测验的儿童可以答对简单的问题,但无法回答所有较难的问题。与大运动任务项相比,语言和认知任务项的设计显得更好,所有项目难度级别都在平稳上升。然而,社会情感任务项的估计值并不符合预期的评估设计结果。

图3 丹佛任务项难度级别分布
我们方法的一个优点是可以估算个人层面的潜在技能因子。首先,表5列出了对四种潜在技能因子均值的干预效应。除大运动技能外,干预组所有其他潜在技能因子的均值均显著高于对照组。在比较不同潜在技能的干预效应时,我们发现精细运动和语言技能获得了相同改善,但大运动技能没有受到影响。[43]
表5 对潜在技能因子均值的干预效应

注:1.括号内95%置信区间是在村一级使用原始聚类自助法进行的估算。
2.∗p<0.05,∗∗p<0.01,∗∗∗p<0.001。
在确定技能因子和因子载荷时,对合适的归一化方法存在争议。图4显示了有效技能——基于丹佛任务难度的语言和认知技能的估计技能因子载荷与潜在技能因子θ′α的乘积。[44]估算这一项不需要进行任何归一化方法。平均而言,无论任务难度如何,干预组在所有任务中的载荷都更大,但简单任务的载荷变化不太明显。附录Q中的图Q.4—Q.6比较了干预组和对照组在其他技能方面的θ′α的分布情况,出现了相同的模式。无论是否进行归一化,干预组的有效技能都有所提高。
当我们使用Anderson-Rubin归一化方法时,我们一般会拒绝干预组和对照组平均因子载荷相同的假设。[45]表6报告了不同技能在不同任务上的平均载荷的均等检验。除大运动技能外,我们拒绝接受这一假设。潜在语言和认知技能的载荷较大,但社会情感技能的载荷较小。这表明,平均而言,该项目降低了这些技能的有效性。

图4 语言和认知任务的有效技能([(θdi)′αjk,d])的分布
注:简单任务是指按难度估计排序的所有语言和认知任务中最低的33%的任务,中等任务是指按难度估计排序的所有语言和认知任务中介于33%到66%之间的任务,困难任务是指按难度估计排序的所有语言和认知任务中最高的66%以上的任务。
我们还检验了向量αjk,l,d=1和αjk,l,d=0的相等性。附录Q中,表Q.1和表Q.2报告了此类检验。虽然我们无法拒绝社会情感载荷相等的联合检验,但我们可以拒绝其他类型的技能载荷的相等。
表6 丹佛测验任务(αjk,d)潜在技能的估计技能载荷

注:1.这些分别是各项目中的αjk,0和αjk,1均值和标准差。
2.原假设:干预组和对照组技能前系数值相等。p值是该原假设发生的概率。
3.3.3 与无任务难度参数的模型相比较
为显示将任务难度参数引入模型的影响,我们根据等式(3)估算了模型的限制版本,将所有任务难度参数设置为零。首先,我们比较了全模型和受限模型之间的似然比率,发现全模型的似然比率更高。似然比率检验统计量为χ2(71)=8 419.26,基于两个模型的p值小于0.001推翻了拟合优度相同的原假设。图5显示了当难度级别被抑制时,对样本测试得分的拟合程度的恶化。我们比较了在附录O中对其他技能的受限制的和不受限制的适合度。

图5 没有项目难度级别的模型中丹佛测验通过项目的分布
其次,我们在表7中比较了对潜在技能因子均值的干预效应(E(θ1)-E(θ0))。请注意,无任务难度参数模型的估计值与有难度参数模型的估计值有很大差异。无难度参数模型对社会情感技能有着显著的负面影响,而对大运动技能有着显著的正面影响,这与全模型和OLS模型干预效应评估不一致。因此,在模型中考虑测试题目难度对实验效果的分析很重要。
表7 根据有无难度参数比较两种模型的干预效应θ

注:1.括号内95%置信区间是在村一级使用原始聚类自助法进行的估算。
2.∗p<0.05,∗∗p<0.01,∗∗∗p<0.001。
3.3.4 潜在技能分布
我们接下来展示了干预改善除大运动技能之外的所有技能。我们发现在基线中没有干预分布改善的地方最大。我们比较了对照组和干预组的语言和认知技能分布(分布函数见附录R)。图6(a)显示,干预组的语言和认知技能密度向右移动,并且上侧尾部比对照组更宽。干预组的潜在语言和认知技能分布更加右移,且干预组分布的底部和中部与顶部相比差异更大。
图6(b)和6(c)分别显示了社会情感和精细运动技能的密度。在社会情感技能方面,受干预者的技能更多地向右偏移。对于精细运动技能,在不同的技能水平上有更统一的变化。
对于大运动技能,几乎没有证据揭示干预效应。对照组和干预组之间的因子分布非常相似。图6(d)显示,干预组和对照组的大运动技能密度非常接近。
总之,本研究极大提高了语言和认知技能、社会情感技能和精细运动技能。在语言和认知技能方面,各对照组的进步并不一致。在精细运动技能方面,各对照组的进步则基本一致。仅从平均干预效应来看,我们发现干预结束时不仅在语言和认知技能方面有显著改善,精细运动技能和社会情感技能也获得明显提升。通过检测对照组分布的变化,我们能更深入了解哪个人的哪项技能获得了提升。

图6 干预和未干预的技能分配
各项技能在项目中期的时候进步的模式是相似的,但是在项目末期,语言与认知技能的进步更明显,见附录R。附录S对估计的分布提供了广泛的随机优势检验,它们产生了相同的定性优势。
4.分解平均因果效应
我们使用自己对潜在技能的估算来了解项目平均因果效应(ATE)的来源。我们比较了项目平均因果干预效应与模型干预效应。项目产生的平均因果效应可能来自从技能到任务表现的映射的变化,也可能来自技能的变化。我们分析了这些来源的定量重要性之后,我们评估了我们的技能估计在预测项目干预效应方面的表现。
技能j的潜在结果是:

由于我们估计出个体的潜在技能θdi,我们可以使用它们作为我们对等式(3)的估计来模拟对丹佛测验分数的平均干预效应,以衡量我们的估计质量。因此所获得的平均干预效应的点估计值非常一致(见表8)。
表8 平均干预效应点估计值比较

注:1.括号内95%置信区间是在村一级使用原始聚类自助法进行的估算。
2.该表中报告的ATE估计值以干预前协变量为条件,与表2中的第(5)列一致。
3.我们利用Wald检验来检查这两种方法得出的ATE估计值是否相同。χ2检验的p值表明,我们不能拒绝这两种方法产生相同ATE估计值的假设。
4.1 干预效应的来源
项目干预效应不仅可能来自潜在技能θdi的增强,也可能来自从技能到任务表现αjk,d和βjk,d的映射关系的变化。我们将慧育中国项目的干预效应分解为两个组成部分:(1)使用技能的效率,(2)干预对技能的提高。我们研究了这种变化是否能从数量上解释估计干预效应的重要部分。为此,我们将项目层面的干预效应分解为两个组成部分:技能到任务映射变化的效果和干预对技能的影响。
对于每一项jk,实验结果Yjki为:

其中我们假设εjki~N(0,1)。入户辅导干预效应来自三个渠道:可观察系数βjk,d,潜在技能因子(θdi)的变化以及技能因子载荷αjk,d的变化。将F1(θ1,X)和F0(θ0,X)分别定义为干预组和对照组中(θ1,X)和(θ0,X)的分布。对项目jk的总体干预效应可分解如下:

请注意,当对照组和干预组中的因子具有相似的可观察协变量分布时,等式(6)对X具有共同的支持,这在我们的样本中基本得到了满足。[46]表9给出了干预效应的分解情况。干预效应的主要驱动力是潜在技能的提高。我们在之前表明干预组和对照组之间的β值没有明显差异。β值对干预效应的贡献微不足道。我们按照等式(6)中建议的顺序分解干预效应。尽管表6中记录了α在统计上的显著变化,但实验引起α变化的贡献尚未得到精确估算。我们由此得出结论:干预的主要作用是对潜在技能产生影响。附录U显示,对不同的家庭条件变量组进行不同顺序的分解,会产生类似的定性和定量结果。
表9 干预效应的来源(首先分解可观察协变量)

4.2 对潜在技能的干预效应取决于看护者状况
在本部分中,我们根据儿童看护者状况比较了干预效应。我们样本中30%~40%是留守儿童,他们存在三种情况:仅父亲外出务工、仅母亲外出务工、父母均外出务工。表10提供了对潜在技能因子θi的干预效应,可看出,在末期,干预对弱势儿童(即母亲或父母因外出务工不在身边)的干预效应最强。当母亲不在身边时,大都是受教育程度较低的祖母充当看护者。[47]这一结果与伯纳尔和基恩(Bernal and Keane,2011)的研究结果相似,即除了祖母提供家庭日托外,外出家庭日托对儿童发展的认知能力更差。
表10 对潜在技能θi的干预效应


5.慧育中国干预效应与牙买加“向上学习”项目的比较
从表11可看出,就早期可比较结果测量工具而言,慧育中国与牙买加“向上学习”项目的发展方向一致,而后者已被证明可使人终身受益(Gertler et al.,2014;Grantham-McGregor and Smith,2016)。我们不能推翻这两种干预效应除运动技能外相同的假设。慧育中国项目若能继续推进,应该也能像牙买加项目一样获得成功分析(Zhou et al.,2023)。
表11 慧育中国和牙买加“向上学习”的干预效应

注:1.慧育中国项目中,括号内95%置信区间是在村一级使用原始聚类自助法进行的估算。
2.牙买加“向上学习”项目中,括号内为95%置信区间。
3.∗p<0.05,∗∗p<0.01,∗∗∗p<0.001。
4.最后一行的p值是对不同项目的干预效应相等的原假设进行显著性检验。
6.本文对“向上学习”文献的贡献
关于在各种欠发达国家应用牙买加“向上学习”项目的文献数量很多,且在不断增加。杰维斯等人(Jervis et al.,2023)对这一文献进行了荟萃分析(Meta Analysis)。荟萃分析研究有很大的局限性。然而,杰维斯等人的分析比大多数此类研究更有说服力:在不同的研究中,所使用的测量方法具有可比性。附录V报告了荟萃分析研究的未调整效应量。我们报告的未经调整的标准化干预效应完全在他们报告的范围内,除了我们发现本研究对家庭环境的影响很小,而其他研究报告了更强的影响。
目前还没有像我们这样的研究来估计对潜在技能分布的影响。我们证明了由于允许潜在技能影响测量的测试结果所产生的拟合方面的巨大改进。目前,没有一项研究可以解释项目的困难,我们已经证明这是重要的。这样做逆转了杰维斯等人(2023)报告的未调整结果类型的一些发现。他们的调查中没有一篇论文研究这类项目运作的机制。我们的研究表明,它在很大程度上是通过提高技能运作的,而不是加强对现有技能的使用。
杰维斯等人(2023)报告的结果总体上是积极的,结合本文中的证据,这强烈支持慧育中国对其参与者的有益影响,至少在短期内是如此。本文指出了比在以往的研究中使用更好的方法来分析和解释现有的数据。
7.总结
本文开发并应用了IRT模型的扩展,以分析一个大规模的儿童早期家访干预计划(即慧育中国)对儿童技能发展的影响。本研究借鉴了最初在牙买加开展、广受效仿且成功实施的“向上学习”项目对儿童技能产生的影响。因为中国在制定政策时是基于实际数据情况的,因此该项目的严密证据将对国家政策讨论产生重大影响。
我们的分析提供了一个测量潜在技能的原型,使用不同的结果测量,调整不同项目(任务)的固有难度。我们的调整产生了更为合理的估计。我们估计了儿童潜在技能的向量以及它们如何受到程序的影响。我们开发了一套框架来理解会对儿童技能发展产生干预效应的机制。我们检验并拒绝了在技能形成经济学中广泛使用的“专用因子”模型[例如Agostinelli and Matthew(2023)]。测量项目评分取决于多种技能。
我们的干预措施提高了儿童的家庭生活质量。它显著提高了儿童的语言和认知、精细运动和社会情感技能,对母亲不在身边的留守儿童的影响最大。项目的影响在基本技能水平上并不一致,而且对最弱势的儿童的影响最大。潜在技能的提高是估计干预效应的主要组成部分。
参考文献
1.Agostinelli, F.and W.Matthew (Forthcoming).Estimating the Technology of Children's Skill Formation[J].Journal of Political Economy.
2.Anderson, T.W.and H.Rubin (1956).Statistical Inference in Factor Analysis[M]//In J.Neyman (Ed.), Proceedings of the Third Berkeley Symposium on Mathematical Statistics and Prob-ability, Volume 5, pp.111-150.Berkeley, CA: University of California Press.
3.Bai, Y.(2022).Optimality of Matched-pair Designs in Randomized Controlled Trials[J]. Conditionally Accepted by the American Economic Review, 112 (12): 3911-3940.
4.Bai, Y., J.P.Romano, and A.M.Shaikh (2022).Inference in Experiments with Matched Pairs[J].Journal of the American Statistical Association, 117: 1726-1737.
5.Bernal, R.and M.P.Keane (2011).Child Care Choices and Children's Cognitive Achieve-ment: The Case of Single Mothers[J].Journal of Labor Economics, 29 (3): 459-512.
6.Cameron, A.C., J.B.Gelbach, and D.L.Miller (2008).Bootstrap-based Improvements for Inference with Clustered Errors[J].The Review of Economics and Statistics, 90 (3): 414-427.
7.Cameron, S.V.and J.J.Heckman (1998).Life Cycle Schooling and Dynamic Selection Bias: Models and Evidence for Five Cohorts of American Males[J].Journal of Political Economy, 106 (2): 262-333.
8.Cameron, S.V.and J.J.Heckman (2001).The Dynamics of Educational Attainment for Black, Hispanic, and White Males[J].Journal of Political Economy, 109 (3): 455-499.
9.Canay, I.A., A.Santos, and A.M.Shaikh (2021).The Wild Bootstrap with a“Small”Number of“Large”Clusters[J].Review of Economics and Statistics, 103 (2): 1-45.
10.Carneiro, P., K.Hansen, and J.J.Heckman (2003).Estimating Distributions of Treat-ment Effects with an Application to the Returns to Schooling and Measurement of the Effects of Uncer-tainty on College Choice[J].International Economic Review, 44 (2): 361-422.
11.Chen, M., I.Fernández-Val, and M.Weidner (2021).Nonlinear Factor Models for Net-workand Panel Data[J].Journal of Econometrics, 220 (2): 296-324.
12.Cunha, F.and J.J.Heckman (2008).Formulating, Identifying and Estimating the Technology of Cognitive and Noncognitive Skill Formation[J].Journal of Human Resources, 43 (4): 738-782.
13.Cunha, F., J.J.Heckman, and S.M.Schennach (2010).Estimating the Technology of Cognitive and Noncognitive Skill Formation[J].Econometrica, 78 (3): 883-931.
14.Elango, S., J.L.García, J.J.Heckman, and A.Hojman (2016).Early Childhood Educa-tion[M]// In R.A.Moffitt (Ed.), Economics of Means-Tested Transfer Programs in the United States, Volume 2, Chapter 4, pp.235-297.Chicago: University of Chicago Press.
15.Gertler, P., J.J.Heckman, R.Pinto (2022).Effect of the Jamaica Early Childhood Stimu-lation Intervention on Labor Market Outcomes at Age 31[R].NBER Working Paper, 29292.
16.Gertler, P., J.J.Heckman, R.Pinto (2014).Labor Market Returns to an Early Childhood Stimulation Intervention in Jamaica[J].Science, 344 (6187): 998-1001.
17.Grantham-McGregor, S.and J.A.Smith (2016).Extending the Jamaican Early Child-hood Development Intervention[J].Journal of Applied Research on Children: Informing Policy for Chil-dren at Risk, 7 (2).
18.Heckman, J.and J.Zhou (2022a).Interactions as Investments: The Microdynamics and Measurement of Early Childhood Learning[J].Under Revision, Journal of Political Economy.
19.Heckman, J.and J.Zhou (2022b).Measuring Knowledge[ R].NBER Working Paper, 29990.
20.Heckman, J.and J.Zhou (2022c).Nonparametric Tests of Dynamic Complementari-ty.Unpublished Manuscript, University of Chicago.
21.Heckman, J.J.(1981).Statistical Models for Discrete Panel Data[M]//In C.Manski and D.McFadden (Eds.), Structural Analysis of Discrete Data with Econometric Applications, pp.114-178.Cambridge, MA: MIT Press.
22.Heckman, J.J., R.Pinto, and P.A.Savelyev (2013).Understanding the Mechanisms through Which an Influential Early Childhood Program Boosted Adult Outcomes[J].American Eco-nomic Review, 103 (6): 2052-2086.
23.HomVEE (2020).Early Childhood Home Visiting Models: Reviewing Evidence of Effective-ness, 2011-2020[R].OPRE Report, 2020-126.
24.Howard, K.S.and J.Brooks-Gunn (2009).The Role of Home-visiting Programs in Preven-ting Child Abuse and Neglect[J].The Future of Children 19 (2), 119-146.
25.Jervis, P., J.Coore-Hall, H.O.Pitchik, C.D.Arnold, S.Grantham-McGregor, M.Rubio-Codina, H.Baker-Henningham, L.C.Fernald, J.Hamadani, J.A.Smith, and Others (2023).The ReachUp Parenting Program, Child Development, and Maternal Depression: A Meta-analysis[J]. Pediatrics 151 (Supplement 2).
26.Lu, B., R.Greevy, X.Xu, and C.Beck (2011).Optimal Nonbipartite Matching and Its Statistical Applications[J].The American Statistician, 65 (1): 21-30.
27.Maasoumi, E.and L.Wang (2019).The Gender Gap between Earnings Distributions[J]. Journal of Political Economy, 127 (5): 2438-2504.
28.Muthen, B.(1984).A General Structural Equation Model with Dichotomous, Ordered Cat-egoricaland Continuous Latent Variable Indicators[J].Psychometrika, 49: 115-132.
29.Rabe-Hesketh, S.and A.Skrondal (2016).Generalized Linear Latent and Mixed Modeling[M]//InW.J.van der Linden and R.Hambleton (Eds.), Handbook of Item Response Theory: Models, Statistical Tools, and Applications, Volume 1, Chapter 30, pp.531-554.Boca Raton, FL: Chapman and Hall/ CRC.
30.Ryu, S.H.and Y.J.Sim (2019).The Validity and Reliability of DDST II and Bayley III in Children with Language Development Delay[J].Neurology Asia, 24 (4): 355-361.
31.Tsiatis, A.(2006).Semiparametric Theory and Missing Data[M].New York: Springer.
32.van der Linden and W.J.(2016).Handbook of Item Response Theory: Volume 1: Models[M].Boca Raton: CRCPress.
33.von Davier, M.(2016).Rasch model IRT[M]//In W.J.van der Linden (Eds.), Handbook of Item Response Theory, Volume 1, pp.31- 48.Boca Raton, FL: Chapman and Hall/CRC.
34.Wang, F.(2020).Maximum Likelihood Estimation and Inference for High Dimensional Generalized Factor Models with Application to Factor-augmented Regressions[J].Journal of Econo-metrics, 229 (1): 180-200.
35.Welch, F.(1970).Education in Production[J].Journal of Political Economy, 78 (1): 35-59.
36.Williams, B.(2020).Identification of the Linear Factor Model[J].Econometric Re-views, 39 (1): 92-109.
37.Zhou, J., J.J.Heckman, B.Liu, M.Lu, S.M.Chang, and S.Grantham-McGregor (2023).Comparing China REACH and the Jamaica Home Visiting Program[J].Pediatrics 151 (Supplement 2).
[1]周瑾,香港城市大学经济及金融系教授。詹姆斯·赫克曼(James J.Heckman),2000年诺贝尔经济学奖得主,芝加哥大学经济系教授、人类发展经济学研究中心主任。刘蓓,博士,中国发展研究基金会儿童发展研究院高级项目主任。卢迈,中国发展研究基金会原副理事长。
[2]这篇论文首次在2020年1月美国圣迭戈举办的ASSA年会发布,会议由Scott Rozelle组织,他和Orazio Attanasio一起参加了会议。我们感谢编辑Kevin Lang和三位匿名评审提供的有益评论。芝加哥大学人类发展经济学研究中心(CEHD)感谢新经济思维研究所、美国国立卫生研究院Eunice Kennedy Shriver国立儿童健康与人类发育研究所的资助,资助编号为R37HD065072、NICHD R01HD103666,以及一位匿名捐赠人士的资助。周瑾感谢来自香港城市大学的支持,尤其是对慧育中国项目田野工作的支持。本研究已在AEA注册,注册号为AEARCTR-0007119。本文所表达的观点仅是作者本人的观点,并不一定代表资助者的观点或美国国立卫生研究院的官方观点。中国发展研究基金会感谢瑞银慈善基金会和敦和基金会的支持。作者感谢Susan Chang、Sally Gran-tham-McGregor、Sylvi Kuperman、Carey Cheng、Rebecca Myerson、张春妮和王怡可在项目设计、实施和数据清理支持方面所做的努力。蔡尔芳和王福瑶提供了高质量的研究协助。中国发展研究基金会感谢杨一鸣、卜凡、刘鹏、史丽佳、梁博姣、郄艺提供宝贵的实地调查工作支持。我们非常感谢研究参与者及其家庭持续参与本研究。http://cehd.uchicago.edu/china-reach_home-visiting_appendix网站提供了本文的补充资料及附录。
[3]参见HomVEE(2020)和Howard and Brooks-Gunn(2009)。
[4]参见Grantham-McGregor and Smith(2016)和Jervis et al.(2023)以了解在不同环境下实施牙买加项目的全面计划表。
[5]这种区分可以追溯到Welch(1970)。
[6]参见 Grantham-McGregor and Smith(2016),Gertler et al.(2014),Gertler et al.(2022)和Jervis et al.(2023)。
[7]城壕镇和五蛟镇。
[8]户口是中国的一种户籍制度,分为农村户口和城镇户口。
[9]有关项目实施的详细信息,请见附录A。
[10]附录B记录了所使用的家访课程方案。
[11]平均每位育婴辅导员负责8户家庭的入户家访。
[12]这些方案以牙买加项目所使用的方案为基础,根据中国文化进行了调整(例如,将原来的歌曲改为中国歌曲,并增加了中国人熟悉的背景图案)。针对18个月以下儿童的方案侧重于运动和语言技能训练。对于18个月以上的儿童,方案增加了更多认知技能内容(如分类、配对和拼图)。
[13]丹佛Ⅱ测验是专为临床医生、教师或监测婴儿和学龄前儿童发育的幼儿教育专业人员设计的。该测试主要基于检查者的实际观察,而非家长的报告。它是一份包含125项任务的列表,其中包括四类技能测量:个人-社会(照顾个人需求和与人相处)、精细运动-适应能力(手眼协调、操作小物件和解决问题)、语言(听力、理解和使用语言)和大运动(坐、走、跳和整体大肌肉运动)。
[14]马氏距离(Mahalanobis Distance)是由印度统计学家马哈拉诺比斯提出的,表示点与一个分布之间的距离。它是一种有效的计算两个未知样本集的相似度的方法。
[15]用于村庄配对的干预前村级协变量包括:(1)家庭环境测量量表(HOME IT)中的“与孩子的亲密程度”得分(见附录C.1),(2)HOME IT测量中的语言技能得分,(3)HOME IT测量中的学习材料得分,(4)该村营养补充项目的参与率,(5)全县营养项目在该村的执行率,(6)儿童样本中留守儿童的比例,(7)该村的人均净收入,(8)该村的平均受教育年限,(9)有意参加看护干预项目的照顾者的百分比,以及(10)有意把孩子带到城市地区的家庭比例。
[16]Lu et al.(2011)证明NBP匹配法是最优匹配,而不是贪婪匹配。
[17]总共有55对配对,即干预组和对照组都有55个村庄。
[18]附录C介绍基线对比。
[19]附录D提供了丹佛Ⅱ测验表的中英文版本。
[20]贝利Ⅲ测验将综合分数转换为基于年龄的比例分数,这在临床实践中更为常用。不过,使用丹佛Ⅱ测验也可以达到同样的目的。贝利Ⅲ测验的对象是1至42个月大的婴幼儿,包括检查者的观察(认知、运动和语言能力)和家长的问卷(社会情感和适应行为能力)。Ryu and Sim(2019)的报告称,丹佛测验在检测语言发育迟缓方面比贝利测验更准确。
[21]关于这一模型的阐述,参见van der Linden(2016)。
[22]Xv指X在第v个聚类,以及E(εv)=0,E(εvε′v)=Ωv。X包括干预状态、干预前协变量与配对相关变量。
[23]因为我们有55个聚类,所以最近关于原始聚类自助法的担忧并不适用。参见Canay et al.(2021)。
[24]Maasoumi and Wang(2019)使用IPW以剔除低概率观测值,提供稳健性推断。在我们的论文中,只有三个观测值的倾向得分(非遗漏)低于0.1。因此,我们不需要对数据进行剔除,就可以避免不一致问题。
[25]附录G介绍了数据缺失问题以及我们如何构建缺失数据的概率。为避免冗余,我们在本文的所有估算中都纠正数据缺失的影响。
[26]只有140名儿童在基线时参加了丹佛测验。我们对获得基线信息的儿童进行了相同的模型估算,结果发现对照组和干预组的丹佛测验得分没有显著差异。有关该均衡测试的详细信息,请参见附录C。
[27]在中国,丹佛测验没有人口水平的参照。我们将对照组作为参照组:我们按月龄估算丹佛测验成绩,然后使用平均值和方差对干预组和对照组的每个月龄组的测试得分进行标准化。
[28]对样本进行限制有两个原因。(1)正如我们所声称的,我们希望干预组的儿童能接受大量的干预暴露。许多年龄较大的儿童参与的时间较短。(2)我们发现对照组中年龄较大的儿童多于干预组,这是因为实地小组在2015年9月后没有更新干预组的名单。
[29]我们将这些类别合并,以获得与其他类别相当的项目得分。
[30]当我们使用原始分数而不是标准化分数时,结果具有可比性。这些结果见附录E。
[31]家庭参与类别是基于婴幼儿家庭清单中的定义,参与包括以下项目:(1)家长保持孩子在可视范围内,经常看着孩子;(2)家长在做家务时与孩子交谈;(3)家长有意识地鼓励孩子向前发展;(4)家长通过个人关注,邀请孩子玩有意义的更加成熟的玩具;(5)家长安排孩子的游戏时间;以及(6)家长提供能挑战孩子发展新技能的玩具。
[32]在数据中,我们为每个人准备了超过70个项目,用于衡量丹佛测验的任务完成情况。
[33]有关Rasch模型中项目难度参数的讨论,请参见von Davier(2016)。
[34]van der Linden(2016)讨论了单个技能项目反应模型,还讨论了该模型的技能向量版本。向量版本参见Rabe-Hesketh and Skrondal(2016)。Carneiro et al.(2003)阐明了我们使用的模型,并用 MCMC 对其进行了估计。另见 Cameron and Heckman(1998,2001),Heckman(1981)和Muthen(1984)。
[35]在标量θ的经典IRT理论中,项目k的正确答案概率为其中F(·)是单位方差均值为零的潜在变量的CDF,bk是难度参数,σk是鉴别参数。我们的方法对鉴别参数的概念进行了概括,使其能够对每个独立系数的βjk,d和αjk,d的每个分量起不同的作用。
[36]在估算过程中,项目数量是可以根据实际的测试设计而变化的。
[37]Anderson and Rubin(1956)的归一化方法的详细内容见附录K。
[38]辨别的证明见Carneiro et al.(2003)或附录K。
[39]在附录L中,我们比较了不同归一化条件下技能载荷的分布情况。我们发现,当我们选择难度在中位数范围内的项目时,结果是稳健的。
[40]有关该方法的详情见附录M。采用这种方法估算个体特定因子和总体因子载荷的渐近理论依据来自Wang(2020)。
[41]由于丹佛测验中的认知测验项目较少,因此我们将语言和认知任务合并为一类。
[42]参见附录O。
[43]我们的Anderson-Rubin归一化方法假设潜在技能是独立的。使用其他归一化方法,我们可以确定潜在技能的联合分布,参见Carneiro et al.(2003)或Williams(2020)。
[44]图Q.1和Q.2显示了其他类型任务的潜在技能载荷。由于我们一共有72个任务,难度参数排在前24位的任务被定义为简单任务,后24位的任务被定义为困难任务,中间24位的任务被定义为中等任务。所有排名均基于任务难度参数的估计值。
[45]表Q.1和Q.2提供了逐项测试。社会情感项目因子载荷没有精确估算。
[46]为了使对照组和干预组的数据样本具有可比性,我们将样本限定为12个月以上、46个月以下的儿童。在附录T中,我们展示了干预组和对照组的年龄分布。
[47]参见附录B.3。