慈善学人|影响力评估中的测量和因果验证:从KickStart案例说起
导读:本文共3987字符,通常情况下阅读需要13分钟。同时您也可以点击右侧朗读,来听本文内容。按键盘←(左) →(右) 方向键可以翻页。
摘要:编者按:近年来,社会组织获得了越来越多的社会关注,可见性也不断增加。随着大量资源进入,公益慈善事业实现了飞速发展,与此同时也带给公益慈善行业诸多的挑战。建立一套简单而又行之有效的评估办法是激励之源,目前我们国家在这方面还刚刚处于起步阶段,影响力评估的相关知识和方法都来自于发达国家,然而目前影响力评估都包括了哪些方法?主要评估哪些维度?这些方法的局限性和优势如何?厘清这些问题对于我们持续观测、监督和... ...
目录
(为您整理了一些要点),点击可以直达。编者按:近年来,社会组织获得了越来越多的社会关注,可见性也不断增加。随着大量资源进入,公益慈善事业实现了飞速发展,与此同时也带给公益慈善行业诸多的挑战。建立一套简单而又行之有效的评估办法是激励之源,目前我们国家在这方面还刚刚处于起步阶段,影响力评估的相关知识和方法都来自于发达国家,然而目前影响力评估都包括了哪些方法?主要评估哪些维度?这些方法的局限性和优势如何?厘清这些问题对于我们持续观测、监督和提升公益慈善项目的效果至关重要。本期慈善学人栏目带你走进影响力评估专题。
——本期主持人,李健
中央民族大学基金会研究中心
作者
金敏超
美国纽约大学社会工作学院、上海纽约大学讲师
正文
影响力评估是最近在国内评估领域很热门的一个词汇。和其他一些评估的方式不同,影响力评估关注的是公益项目既定的效果性目标有否达到。例如,儿童阅读项目是否激发了儿童的阅读兴趣,支教项目是否提升了当地的教育水平,环保项目是否改善了环境等等。
要达到这样的目的,准确“测量”效果、验证项目和效果之间的因果关系,是影响力评估的关键,但是这两点并不容易做到。先说效果测量。商业的投入以货币来计量,而其产出也会最终转换为货币;相较后,就能得出商业的效果。公益的投入也许可以用货币来计,但是产出却一般很难转换为货币。
其次,验证因果关系的难度不亚于效果测量。因果关系的建立有三要素:发生顺序得先“因”后“果”、“因”和“果”之间需有关联、“混淆因子”(confounding factors)得排除。第一个要素是否存在,直观可以判断;第二个可以用相应的数据分析方法来验证,例如统计;但是排除“混淆因子”则非常有难度。“混淆因子”是指和被预设的“因”和“果”都有关系的因子,很多情况下它其实才是背后的“真因”。
例如,支教项目“带来”了当地教育质量的提高(先因后果,又有关联性),一个可能的混淆因子是“政府或者某机构对于当地教育的重视”,支教项目是因为这样的重视得到引入,但是重视紧接着也带来了其他的教育投入;在这种情况下,支教项目和教育质量提升间的因果关系就很难严格成立。下面,介绍一个我了解的影响力评估的案例,希望可以从一个感性的角度,来探讨如何解决这两个问题。
我的研究兴趣主要是围绕贫困。在读博士期间,我有幸通过我的导师之一,了解了对于KickStart International(以下简称KickStart)项目的评估。KickStart是一个立足于减贫的国际性NPO,总部在美国,另在肯尼亚、赞比亚和加纳设有分支机构,工作的地区主要也是在非洲,除上述有分支机构的国家外,还包括布基纳法索、津巴布韦、马里等国家1。当时评估的项目是Kickstart的旗舰项目之一MoneyMaker Hip Pump。
这是一种由Kickstart开发的人力小水泵,分发给小农户,用来帮住其解决灌溉农田的困难,以期改善农户的福利(welfare)水平2。在项目运行了一段时间之后,KickStart委托了国际食物政策研究所(International Food Policy Research Institute)对该项目进行评估,而我的导师则是国际食物政策研究所的专家之一。
如上所述,这次评估的难点就是:1)“福利”如何测量;2)如何证明这样的福利(如果有的话)是来源于小水泵的获得。
福利是社会科学中一个重要的概念,也经常被列为很多公益项目的目标之一。该评估中对福利的测量,是从以下四个方面开展的:资产、儿童虐待、土地投入和收入。
其中,资产包括了拥有的生产性资产、交通工具、耐用消费品、牲畜、储蓄和土地;儿童虐待着眼在生理、情绪、性和家暴等方面的虐待;土地投入包括了化肥、种子、灌溉;收入则涵盖了工业、商业和农业的收入2。
以上测量是否具有信度和效度见仁见智,在这里不做深入。我更想讨论的是,一个概念如何在项目的场景下,被定义和可操作化。正如段落开头所述,福利是公益中的一个重要概念,但“不幸”的是,它也是一个“复杂”的概念,福利本身可以包含很多维度,例如经济、健康、教育、心理、环境、文化等等,而且每个维度上的福利,测量起来也都没有那么直观。
更“不幸”的是,在公益项目中,类似于“福利”这样的概念绝非少数。那么如何测量?详细的讨论会涉及到社会科学研究方法中有关测量的理论,估计需要撰文(甚至是书)另述。
这里我只就评估的场景,简单说些自己的想法,希望可以抛砖引玉。我认为,在评估中,明确机构和项目的目标特别重要,可以帮助聚焦,剔除不相关的维度。例如,KickStart是一个以减贫为目标的机构,它的项目的福利肯定也与此相关,所以在测量中关注到了资产、土地和收入这些维度。
而明确机构和项目的目标则需要尊重和倾听来自项目执行方和目标人群的意见,例如对于儿童虐待方面的关注,很可能是基于目标人群所处的环境。
验证因果关系的“黄金”方法是随机实验(Randomized Control Trial或True-experimental Design),但是这样的方法不一定适用于每个评估。例如在水泵项目的评估中,评估方的介入已经是在项目开始以后,所以没有绝对意义上的基线数据(Baseline Data)2,也失去随机分配的最佳机会;而用掷色子(随机)的方式来决定谁能得到水泵,本身也有违反公益伦理的风险。
那么在这种情况下,水泵项目的评估设计用了准实验的方法(Quasi-experimental Design)。评估项目于2009年对有水泵的农户做了第一次数据收集(以下称“09组”),09组即为“干预组”2。
2011年对他们做了追踪,同时收集2011年加入水泵项目农户的数据(以下称“11组”);那么此时,11组相对于09组,即为“非干预组”2。2014-15年,评估项目又对09组和11组做了追踪,同时又收集了14-15年加入项目农户的数据(以下称“1415组”),那么09组变成了的“5年干预组”,11组变成了“3年干预组”,1415组则相对变成了“非干预组”2。
通过以上几组间的比较,就可以比较严谨的排除混淆因子,再辅以统计学方法测试相关性,就可以验证项目和效果之间的因果关系了。
虽然没有采用黄金的随机实验方案,但是这样的设计和项目执行的配合度较好,是更可行的方法。这也是我想要强调的另外一点,评估的设计需要兼顾科学严谨和项目执行。两者的协调才能保证评估被有效的执行,并发挥其应有的作用。
除测量和设计之外,好的影响力评估还需要有可以代表全体的样本和真实的数据收集。这两点在理论上的难度相对其他两者小,但是也有很多操作中的细节需要注意和把握。限于篇幅,我就不在这里做更多的讨论了。对于评估,我也正在进一步学习和尝试。希望通过拙文,得到各位老师和公益伙伴的指点!
【参考文献】
1.About us,Kickstart International官方网站:
2.A panel analysis of the impact ofKickStartirrigation pumps in Kenya.
下载地址:
慈善学人|影响力评估中的测量和因果验证:从KickStart案例说起的详细内容,希望对您有所帮助,信息来源于网络。