预测和诊断:更多的专业知识迷思《纸牌屋:建立在神话上的心理学和心理治疗》[机翻搬

  斯坦诺维奇的《这才是心理学》(又名《对伪心理学说不》)引用过本书的内容作为参考文献。

  通过DeepL翻译社会科学中没有争议表明如此大量的定性不同的研究如此一致地朝着与本研究相同的方向发展。当你推动 90 项调查 [截至 1991 年接近 140 项],预测从足球比赛结果到肝病诊断的一切,当你几乎无法提出六项研究显示甚至有微弱的倾向时临床医生,是时候得出一个实际的结论了。1——保罗·E·米尔

  言语治疗的成功在很大程度上取决于治疗师的个人素质以及他们与客户的关系。行为心理治疗的成功在很大程度上取决于治疗师对行为改变基本原则的理解,这些原则并不难掌握。所有治疗的成功很大程度上可能受到这样一个事实的影响,即来访者正在采取行动并且在面对破坏性的情绪痛苦时不再感到无助。心理治疗普遍有效以及治疗师的培训、证书和经验与其成功无关的明确发现引起了这些推测。

  尽管如此,训练有素且经验丰富的专业心理学家或类似的专业人士可能会更好地理解人——尤其是痛苦的人——是什么样的人,为什么特定的人会有这样的行为和感受,以及如何诊断个人问题,但是由此产生的分类系统可能是一个大杂烩。如果是这样,那么心理健康领域的专业化、收费、地位和公众接受度都可能是合理的。

  专业心理学家尤其表现得好像他们理解一样。其中百分之三十五出庭。2许多人享有住院特权,包括非自愿住院。他们深入参与精神卫生机构和办公室里的人诊断,他们经常出现在媒体上,解释为什么有人(从最新的连环杀手到萨达姆侯赛因)这样做或那样做,或向听众提供有关以下方面的建议做什么和感觉如何,最重要的是,何时寻求心理治疗。此外,他们因此类服务而获得丰厚的报酬。

  声称专业培训产生理解,不仅是对一般人的理解,而且是对个体的所有独特性的理解。统计概括可以在教科书中找到,但无法理解单个个体的所有复杂性。

  要评估这一说法,我们必须首先决定理解另一个人意味着什么。当然,这不仅仅意味着创造一个“好故事”,讲述为什么特定的人会做他们所做的事情和他们的感受,或者为什么这个或那个会发生或可能发生。好故事可能在心理上具有说服力,但不一定有效。超越好故事的理解标准需要对世界及其运作有一些了解。我们如何获得这些知识?这个复杂的哲学问题可以转化为一个稍微简单的问题:我们怎么知道我们知道?

  建立我们知识的有效性的问题可能看起来同样复杂,但回答这个问题确实可以让我们建立知识标准。如果我们真的知道某事,就必须满足这些标准。本章将关注的标准是预测能力;也就是说,如果我们可以预测在给定情况下它会成立,我们就知道事情是这样的。可预测性不是知识的同义词,因为可以预测的极其复杂的临时系统不会像理论上合理的更简单但预测不太好的系统那样涉及那么多的知识。3可预测性也不是我们用来评估我们是否拥有知识的唯一标准。像“方程式中的美”这样的美学概念可能是一个标准。(参见狄拉克对薛定谔波动方程的讨论。4)但理解能力的一个关键测试是预测能力或缺乏能力。预测不一定是完美的,但它存在于所有科学分支中。即使是与未来无关的科学,如古生物学,也会预测在检查某些证据时会发现什么,如新的化石证据。理解已经收集到的证据是科学中极其重要的活动,但仅此是不够的。

  在上一章中,我讨论了随机对照实验在评估治疗或疗法中的关键作用。声称治疗有效的人必须证明,与通过构建随机构成的对照组获得的假设反事实相比,它具有效果。这种“给我看”的标准可能对西方文明中科学论证的发展极其重要,从文艺复兴时期开始拒绝认为关于宇宙或人类的断言最好通过参考圣经或亚里士多德来证明。当我们需要预测时,“Show me”基本上被翻译成“show me what will happen next”。

  “给我看”的需求也可能非常微妙。例如,在 1840 年代后期,Ignaz Phillipp Semmelweis 博士指出,在医生服务的病房分娩的母亲死于“产褥热”的比率几乎是同一医院病房母亲的四倍由助产士服务。5个死亡往往发生在同一排床上的女性身上。塞梅尔维斯想知道原因是否是同一位医生看诊。医生们没有洗手,即使在太平间解剖完尸体后也没有洗手,因为这种做法被认为是没有男子气概的。或许这种影响是心理上的,因为在一位牧师为一位垂死的病人举行最后的仪式后,他沿着床边走下,敲响了“死亡之钟”。应塞梅尔维斯的要求,神父停止敲响医院的丧钟,但母亲们继续成排相继死去。塞梅尔维斯随后要求他的同事和助手在检查妇女或接生婴儿之前用石灰氯溶液洗手。在接下来的十五个月里,死亡率从 12% 下降到 1.2%。塞梅尔维斯被医院解雇。他的继任者停止了洗手的愚蠢要求,死亡率上升到 15%。如果他要求医生在一些随机选择的行中洗手而不是在其他行中洗手,我们将更加确定死亡率的变化是由于洗手引起的。尽管如此,Semmelweis 恰好是正确的,他以一种允许他向要求“给我看”的人提供证据的方式对其进行了测试。不幸的是,当时的医务人员并没有像我们回想起来认为的那样印象深刻。旧的做法一直保留到 1880 年代,当时 Joseph Lister 博士明白了 Semmelweis 实验的重要性。与此同时,塞梅尔维斯失去了理智,

  约翰霍普金斯大学物理学教授、“恶作剧和恶作剧的顽固肇事者”RW Wood 提供了“告诉我”方法的一个更快乐的例子。6个在 Wilhelm Roentgen 于 1895 年发现 X 射线(X 射线可以分解为 α、β 和 γ 射线)之后,物理学家们也渴望发现其他种类的辐射。1903 年,法国最杰出的物理学家之一勒内·布隆洛 (René Blondlot) 宣布,他和他的实验室同事发现了一种新类型,他将其命名为 N 射线,以纪念他在南锡大学担任教授。他宣布,这些光线是从太阳发出的;其他人发现它们也从人体中散发出来。当伍德和其他人试图复制布隆洛特的实验时,他们无法看到 N 射线,最终伍德访问了南锡大学的实验室,大概是为了找出他做错了什么。当向他展示可以创建 N 射线的各种方式时,他看不到它们,尽管他的东道主可以。N 射线必须在黑暗中产生;一种装置涉及让光通过棱镜。在一次演示之后,恶作剧者伍德偷偷地从设备上取下了棱镜,并要求再次演示。它被重复了。他又一次没有看到 N 射线,但他的主人又一次看到了。N 射线就这么多了。

  Semmelweis 和 Wood 的故事说明了一个重要的观点:对一个主张的检验需要比较论证。当医生洗手时,死亡率应该会降低;科学家们应该在棱镜就位时观察 N 射线,而不是在他们不知情的情况下将其移除。因此,为了检验专业心理学家的理解能力,我们不仅需要评估他们的预测能力,还需要将他们的预测准确性与其他一些预测方法的准确性进行比较。毕竟,专业的心理学家可以非常肯定地预测,本书的读者会在接下来的二十四小时内吃点东西。然而,任何对生活进行过随意观察的人都可以。问题是进行比较的适当预测方法是什么。

  答案可能在于以下事实:专业心理学家声称能够对个人做出超越对“一般人”或不同类别人的预测的预测。这与保险公司使用的精算预测相反;此类预测是根据精算表做出的,例如根据年龄、性别、婚姻状况和过去的驾驶记录编制事故率。以“临床”方式理解个人的主张涉及超越注意他们在广泛类别中的成员资格。结果是临床预测。

  其他心理学家通常接受统计分析和概括作为他们工作的关键部分(除了那些使用计算机模拟的)。社会心理学家研究一般或至少在特定文化中人们在特定社会环境中的行为方式——例如在孤独、有凝聚力的群体、陌生人群体中,有或没有交流。认知心理学家研究人们的思维方式、“智能思维”的原则,甚至人工智能的原则。人事心理学家使用某些选择或培训程序来尝试提高人的绩效。健康心理学家研究可以说服人们养成健康习惯的方法,有时会根据被说服者的特征修改这些方法。这些心理学家特别将他们研究的每个个体对象视为他们希望概括的人群的代表,而不是试图对脱离人群的个体做出具体预测。此类索赔具有统计或精算性质。哪里专业心理学家的不同之处在于他们声称将单个个体理解为独特的,而不是作为可以进行统计概括的群体的一部分。他们声称能够分析个人生活中的“什么导致了什么”,而不是陈述什么是“一般”真实的。有一些重叠,并不是所有的专业心理学家都声称自己了解个人。然而,那些不这样做的人并没有参与本书所审查的证据表明是神话而非科学基础的活动。

  不参与专业实践的心理学家通常根据对人和环境的分类进行统计概括。此外,他们的许多预测规则通过与要预测的结果具有明确方向关系的数字来评估变量;这种预测使用数值尺度。因此,平均绩点是一个总结高中生表现的数字;一般而言,数字越高,性能越好并且在大学取得成功的可能性越大。反过来,大学的高平均绩点预示着研究生或专业学校的成功。能力倾向和兴趣测试的构建使得更高的数字预示更好的表现,正如大多数医学指数将更高的数字与更严重的疾病或疾病过程相关联一样。此外,一些心理变量与兴趣标准具有“自然”的方向关系(例如,一个人过去的刑事定罪次数可用于预测假释成功),就像一些物理变量一样(例如血压)霍奇金病中的高血压或白细胞计数)。偶尔,变量与要预测的标准有关系,形状像倒 U 形——例如在人事环境中,适度的攻击性是最好的,或者在身体环境中,适度的血压或一定的体重与身高的比例是可取的。如果用与最大合意性的偏离程度代替原始变量,则该偏离与要预测的结果具有明确的方向关系。

  预测是通过使用统计技术得出数字的加权平均值来最小化预测误差的数字变量进行的;这称为加权平均值。(一组数字的普通平均值是它们的总和除以 n,即该组数字的个数;例如,3、4 和 8 的平均值等于 3 + 4 + 8 = 15 除以 3,或 5. 形成这样的平均值是等价的用分数 1/n 对每个数字进行加权,然后对所得乘积求和;例如 (3 + 4 + 8)/3 = (1/3)×3 + (1/3)×4 + (1/3)×8 = 3/3 + 4/3 + 8/3 = 5。请注意,当对 n 个数求和时,它们所乘以的 1/n 的“权重”之和等于 1。加权平均值与普通平均值的不同之处仅在于每个数所乘以的权重不必都等于 1/n;然而,它们总和仍必须为 1。在目前的情况下,这些权重是通过统计方法选择的,以产生对感兴趣标准的最佳预测。)有时,变量被假设为“相互作用”,这可以被合并通过乘以所涉及变量的值并确定该产品的最佳权重来进行统计预测。但正如我们所见,这种相互作用效应在心理学和其他社会科学中很少见,因为它们意味着对一个变量的预测取决于其他变量。一般来说,这是不正确的;例如,无论学生的学术能力测验 (SAT) 成绩如何,高中的平均绩点越高,确实预示着在大学取得成功的可能性越大,而无论学生的成绩如何,更高的分数预示着成功的可能性更大-点平均值恰好是。这个一般性陈述也有例外——例如,咖啡因帮助“冲动”的人在早上完成认知任务,并阻碍他们在晚上的表现——而“受控制”的人则相反。一般来说,这是不正确的;例如,无论学生的学术能力测验 (SAT) 成绩如何,高中的平均绩点越高,确实预示着在大学取得成功的可能性越大,而无论学生的成绩如何,更高的分数预示着成功的可能性更大-点平均值恰好是。这个一般性陈述也有例外——例如,咖啡因帮助“冲动”的人在早上完成认知任务,并阻碍他们在晚上的表现——而“受控制”的人则相反。一般来说,这是不正确的;例如,无论学生的学术能力测验 (SAT) 成绩如何,高中的平均绩点越高,确实预示着在大学取得成功的可能性越大,而无论学生的成绩如何,更高的分数预示着成功的可能性更大-点平均值恰好是。这个一般性陈述也有例外——例如,咖啡因帮助“冲动”的人在早上完成认知任务,并阻碍他们在晚上的表现——而“受控制”的人则相反。更高的分数预示着更大的成功概率,无论他们的平均绩点是多少。这个一般性陈述也有例外——例如,咖啡因帮助“冲动”的人在早上完成认知任务,并阻碍他们在晚上的表现——而“受控制”的人则相反。更高的分数预示着更大的成功概率,无论他们的平均绩点是多少。这个一般性陈述也有例外——例如,咖啡因帮助“冲动”的人在早上完成认知任务,并阻碍他们在晚上的表现——而“受控制”的人则相反。7这种例外情况很少见。

  因此,心理学精算预测的两个基础是连续变量的分类和加权平均值的构建。两者都检查个人的总数,以确定在形成加权平均值时对数字进行加权的最佳类别或方法。两者都接受预测错误,这种错误应该被最小化而不是被废除。8事实上,统计模型本身指定了将精算公式应用于新的预测案例时预期的误差量。同样,从聚合到具体的转变在医学研究中很常见,例如评估药物、疫苗或新的治疗形式。此外,正如在此类研究中一样,只有当这些个体根据共同特征与其他个体归为一组时,才能尝试确定对特定个体的影响(交互作用)。

  相比之下,“临床”方法的极端形式是尝试对所观察的特定个体进行“内部”理解孤立地——因此,在她或他的所有“复杂性”中——而不是作为一个整体的成员。

  最近在 1992 年美国心理学家的一篇文章中总结了这种方法。9作者说,专家的知识由经验和实践组成,“涉及将以前的理解与特定临床情况的独特性相结合。” 然而,这种适应并不是明确的——也就是说,“是独立事实或规则集的汇编。相反,它是一种动态的、情境化的理解,是认知模式或意义格式塔与环境线索相互作用的结果。” 作者通过参考医学和国际象棋专业知识的工作来证明这种方法的合理性。在其极端和不负责任的形式中,这种方法被表达为“根据我的经验,我只知道”(见第 1 章)。

  这个论点的问题在于,它首先假设执业临床医生具有与医学诊断学家和国际象棋大师相似的专业知识,而不是通过经验建立这种相似性。但这种相似性并不是不证自明的。医学诊断学家使用大量明确的知识——从诊断测试中获得——来“建立直觉的专业知识”,大多数国际象棋大师已经研究了大约五万场国际象棋比赛。10我们根据专家的成就来定义“专业知识”,而不是他们如何完成任务。与精算预测相比,这些心理健康专家的表现如何?由于理解不等同于预测但必然暗示它,我们可以问,专业心理学家做出的预测是否比基于不涉及专业人员的统计模型的预测更好。一个相关的问题是临床方法是否在许多领域优于精算方法——包括医学、商业、犯罪学、会计、牲畜判断等。心理学家自己对这些问题进行了广泛的研究。他们的答案是否定的。

  1954 年,保罗·米尔 (Paul Meehl) 的临床与统计预测:理论分析与回顾中首次全面回顾了统计预测或临床预测是否更优的文学。11 Meehl 回顾了大约 20 项研究,这些研究比较了两种预测学业成功、对电击疗法的反应和犯罪累犯等结果的方法。在比较中,临床预测优于统计预测。例如,在预测学业成绩方面,高中排名和能力倾向测试分数的简单线性加权优于几所大学招生人员的判断。在预测电击疗法的成功时,婚姻状况、精神病持续时间的权重以及患者对其状况的“洞察力”评级优于一家医院的医疗和心理工作人员。在预测几种情况下的累犯时,过去的犯罪和监狱记录优于专家犯罪学家。

  Meehl 主要关注整合信息的统计方法与临床方法。因此,他主要比较了根据完全相同的数据做出两种类型预测的实例。(他还坚持认为,统计模型的准确性不应根据得出模型的相同数据进行检查——或者样本量太大,以至于由于偶然的波动而不会显得优越。)12 年后,杰克·索耶 (Jack Sawyer) 发表了对大约四十五项研究的回顾;再次强调,临床预测没有优势。12与 Meehl 不同的是,Sawyer 还强调临床医生可以获得比统计模型中使用的信息更多的信息的研究——例如,研究包括对人的访谈,这些人的预测是由专家进行的,这些专家事先可以访问统计模型信息去面试。但是这样的访谈并没有改善临床预测。事实上,当采访者的意见被忽略时,预测会更好。此外,在少数向专业临床医生提供精算预测并要求对其进行“改进”的研究中,他们的表现比精算预测更差;也就是说,如果忽略他们的“改进”,预测会更好。Sawyer 得出结论,即使发现临床医生的某些输入是有效的,它们应该与其他预测因素一起以他所谓的“机械”方式纳入统计模型。在 Sawyer 的审查之后,类似的证据继续增加。这导致 Paul Meehl 在 1988 年得出了本章开头引用的结论。后来,他、David Faust 和我总结了在 1989 年 3 月发表的《科学》杂志的一篇受邀文章中进行了更多研究。13

  自 Meehl 的书出版以来涵盖的一个主题是预测明尼苏达州医院系统住院病人的最终诊断是“精神病”还是“神经症”。被诊断为精神病患者是指与外部现实失去联系的患者(如精神分裂症);被诊断为神经症的患者是指与外部现实保持联系但可能遭受无法动弹的内部情绪困扰的患者。

  进入明尼苏达州医院后,每位患者都填写了明尼苏达多相人格量表 (MMPI),该测试包含 567 个项目,患者必须同意或不同意这些项目。有些条目带有明显的心理内容——例如,“有时我觉得自己一点也不好”、“我的性生活令人满意”、“有时我被一些罪犯的聪明逗乐了,以至于我有希望他们能侥幸逃脱。” 其他人则没有明显的心理暗示,例如“我喜欢机械杂志”和“我相信执法部门”。选择这些项目的依据是,他们的答案会区分有明显问题的患者和“正常”人(不幸的是,通常是从探望患者的人中选择的,例如亲属)。因此,与正常人相比,抑郁的人更有可能对“感觉一文不值”的说法回答“是”。事实证明,偏执狂的人比其他人更喜欢机械杂志。患者对所有问题的回答导致 MMPI“概况”(与“肖像”)有十个分数,每个分数表示患者的回答与十种不同病理类型之一的一致程度。MMPI 建立于 1940 年代后期,迅速成为并继续成为精神病患者和其他出于“筛查”目的而在精神病院内外使用最广泛的测试。患者对所有问题的回答导致 MMPI“概况”(与“肖像”)有十个分数,每个分数表示患者的回答与十种不同病理类型之一的一致程度。MMPI 建立于 1940 年代后期,迅速成为并继续成为精神病患者和其他出于“筛查”目的而在精神病院内外使用最广泛的测试。患者对所有问题的回答导致 MMPI“概况”(与“肖像”)有十个分数,每个分数表示患者的回答与十种不同病理类型之一的一致程度。MMPI 建立于 1940 年代后期,迅速成为并继续成为精神病患者和其他出于“筛查”目的而在精神病院内外使用最广泛的测试。14已经进行了大量研究,以确定由此产生的概况(或概况“类型”)与各种类型的心理问题以及人格和行为障碍之间的统计关系。15此外,专业心理学家已经实践并教授了侧写分析的“临床艺术”。

  1960 年代初期,Lewis Goldberg 获得了 1000 多项 MMPI 测试的结果,这些测试已在入院时在明尼苏达州的几家精神病院。戈德堡还可以访问他们最终诊断为神经质或精神病的信息。他根据 10 个 MMPI 分数开发了一个简单的统计公式来预测最终的诊断分类。该公式适用于所有医院的所有患者,当应用于同等规模的群体时,准确率约为 70%。戈德堡随后将这些概况呈现给具有不同资历和经验的专业心理学家,并要求他们判断每位患者是否会被诊断为神经症或精神病。这些人从临床心理学的研究生到以 MMPI 概况解释专家而闻名的经验丰富的专业人士。他们都不能超过 70% 的准确率;偶尔,有些人对一些样品做了,但他们无法在其他样品上重复他们的卓越表现。在一项研究中,Goldberg 和 Len Rorer 甚至向专业人士展示了统计公式的结果,以帮助他们做出判断,但他们做得比公式本身还差。16

  Goldberg 的研究,其中统计公式和临床判断基于相同的数据(十个分数),受到批评,理由是在一些医院中,MMPI 结果本身可能对确定最终诊断有影响。但是没有理由说明为什么这种可能性对统计公式比对专业临床医生实施他们的“艺术”更有帮助。1966 年和 1967 年在安阿伯退伍军人医院,我自己遇到了另一种批评。我制定了一个程序,所有进入的患者的概况都使用戈德堡公式自动评分。每当医院的临床医生发现一个明显被这个公式错误分类的病人时,他们就会向我指出这个错误,有时兴高采烈——比如当它把一个活跃的幻觉、精神病患者归类为神经质时。他们对公式没有犯的错误保持沉默;也许他们甚至没有注意到他们。结果是他们的记忆对公式有偏见,对自己有利。我确信这个公式并没有像我坚持的那样有效,至少在 Ann Arbor VA 医院是这样——就好像临床医生对一小部分患者的记忆是建立公式有效性的更好基础,而不是系统地分析了超过一千名患者的样本。结果是他们的记忆对公式有偏见,对自己有利。我确信这个公式并没有像我坚持的那样有效,至少在 Ann Arbor VA 医院是这样——就好像临床医生对一小部分患者的记忆是建立公式有效性的更好基础,而不是系统地分析了超过一千名患者的样本。结果是他们的记忆对公式有偏见,对自己有利。我确信这个公式并没有像我坚持的那样有效,至少在 Ann Arbor VA 医院是这样——就好像临床医生对一小部分患者的记忆是建立公式有效性的更好基础,而不是系统地分析了超过一千名患者的样本。(当我在他们的评估中指出这种可能的偏差时,我的同事们会善意地同意这是一个问题,但没有人有动力对他们自己判断的准确性进行系统研究,即使是在可用的小样本上也是如此。)

  专业心理学家除了统计公式中使用的信息之外还拥有其他信息——但仍然做出更差的预测——的情况几乎可以在任何非结构化访谈评估中找到。在第二次世界大战的一项研究中,人事心理学家预测了海军新兵在接受专门训练之前就读的军事小学的表现。人事官员可以查看新兵的高中记录或能力倾向测试成绩,或两者兼而有之。他们预测了他们采访的新兵在他们就读的小学中的表现。RF Bloom 和 EG Brundage 研究了超过 37 个样本,17与基于提供给他们的预测信息的统计模型相比,采访者的这种一贯较差的预测已被一次又一次地复制。当然,访谈很有价值,但只是作为一种发现真正具有预测性的信息的方式——然后最好使用统计模型对其进行分析。解释访谈结果的“临床艺术”产生的准确性比“机械地”组合这些信息所获得的准确性差。然而,“专家”继续采访、做出预测,并对他们预测判断的有效性表示出极大的信心。(“我做得越多,我学得越多,我就越好。”)尽管有证据表明,基于此类面试来选择工作和学术或专业课程的做法特别受欢迎。然而,到目前为止,对这种做法的新研究结果是可以预见的。在美国心理学会最近的一次会议上,Thomas Gehrlein 和 Robert Dipboye 发表了一篇论文,其摘要如下:访谈研究在很大程度上忽略了访谈者之间的差异和增量有效性 [访谈者可以在多大程度上改进访谈中的信息统计合并]。这些问题在大学招生的背景下进行了审查。SAT 和高中排名是新生 GPA 的最佳预测指标。在总体层面或个别访谈者层面,没有发现访谈[增量]有效性的证据。与预期相反,有经验的面试官并不比没有经验的面试官更有效。结果对最近提出的采访者级别分析提供更高有效性估计的建议表示怀疑。18

  这篇论文不是新闻。只有当结果不同时,它才会成为新闻。它只是驳斥了之前的研究通过汇总采访者的结果低估了采访的预测有效性的建议。19使用读者现在应该熟悉的真空“逻辑”的论证,之前的研究提出了这个建议来批评作者不喜欢的结果,但他们没有提供积极的证据表明他们的建议可能是正确的. Gehrlein 和 Dipboyle 提供了事实证明并非如此的证据。

  事实上,整个访谈节目都经过评估并发现是无效的。1979 年 4 月,得克萨斯州立法机关要求位于休斯顿的得克萨斯大学医学院将其入学班级的人数从得克萨斯州的 150 名学生扩大到 200 名。前 150 名学生是通过首先审查大约 2,200 名学生的资历并确定其中 800 名最合格的学生选出的。这 800 人随后被邀请到休斯顿校区,在那里他们接受了招生委员会成员和另一名教职员工的面试。面试官向中央委员会提交了书面评估,每个成员都以 0(不可接受)到 7(优秀)的等级对申请人进行评分。这些排名被平均以获得所有 800 名学生的综合排名;休斯顿排名连同德克萨斯大学其他三所医学院的排名与申请人对这些学校的排名通过保证相互最高选择的计算机程序进行了比较。所有最终来到休斯敦的 150 名申请者都在面试程序排名前 350 名之列。为了获得所需的 150 名学生,大约有 10 人退学并被级别较低的申请人取代。当学校被要求额外增加 50 名学生入学时 为了获得所需的 150 名学生,大约有 10 人退学并被级别较低的申请人取代。当学校被要求额外增加 50 名学生入学时 为了获得所需的 150 名学生,大约有 10 人退学并被级别较低的申请人取代。当学校被要求额外增加 50 名学生入学时类,所有可用的最初排名在 700 到 800 之间。这些排名的学生中有四十三名 (86%) 没有被德克萨斯系统内外的任何医学院录取。

  学校的教授没有被告知哪些学生是前 150 名被选中的学生,哪些是排名垫底的 50 名学生。Robert DeVaul 及其同事后来将最初选择的那些人的表现与这 50 人进行了比较。20到第二年末、临床培训结束时(第四年)或住院医师第一年之后,这两组之间的表现没有差异。在这种情况下,“无差异”并不意味着“无显着差异”,而是完全没有差异。例如,每组中有 82% 的人获得了医学博士学位,获得荣誉学位的比例相当,等等。DeVaul 和他的同事得出结论,面试——获得最终排名的唯一方法——完全是浪费时间。早些时候在一项规模较小的研究中得出了类似的结论,该研究将耶鲁大学因面试而被拒绝并去了另一所医学院的医学生与耶鲁大学录取但仍去了同一所学校的医学生进行了比较。21他们在这些其他学校的表现没有差异。(通过只寻找学校内部的差异,作者控制了这样一种可能性,即那些被耶鲁大学拒绝的人通常可能去了比被耶鲁大学录取的人更容易的学校。)

  值得注意的是,休斯顿根据面试排名较低(700-800)的人中有 86% 也没有被其他任何地方接受。显然,有些人在面试中始终没有给人留下很好的印象,但他们给人留下的印象与他们在医学院及以后取得的成功无关。此外,面试并没有预测医学院的两个“临床”年或住院医师第一年的表现,这一事实反驳了标准的假设论点,即尽管面试可能无法预测学术上的成功,但他们可能——“必须” ——预测人际关系的成功。面试情境(“给我留下深刻印象”)向受访者提出了一项独特的任务;成功完成这项任务显然很少暗示人们将如何在以后的任务中取得成功,这些任务对于专业工作或其他任何事情的成功至关重要。第一印象固然重要,但是打动面试官的品质显然与打动同事和主管的品质大不相同。

  参与医学院研究的访谈者不是专业心理学家,但他们采用的临床方法是相同的。它不仅在直观而非明确的统计基础上组合信息,而且收集的信息比有效统计模型组合的信息多得多。在心理评估和预测领域,据我所知,没有任何研究支持这种方法的有效性,无论是谁采用的。添加到两个或三个最具预测性的变量中的信息无济于事。在精算基础上无法预测的信息实际上会造成伤害。这些额外信息的一个作用是增加预测的信心,同时最多保持准确性不变。22(稍后将介绍的医学和商业研究有点模棱两可。)

  在结束这个主题之前,我必须描述另一项访谈研究,因为它具有如此重要的社会意义。在宾夕法尼亚州,被判处两年或更长时间最高刑期的罪犯在完成最高刑期的一半后,将由缓刑和假释委员会考虑假释。批准或拒绝假释的决定基于四个步骤。首先,惩教人员写总结评价;第二,假释案件分析员补充意见;第三,假释面试官面试候选人并向整个假释委员会提出建议;第四,假释委员会做出是/否决定。面谈者可以是假释委员会成员,也可以是可以访问工作人员和分析员之前报告的专业听证官。

  假释面试官在 1977 年 10 月至 1978 年 5 月期间面试了 1,035 名囚犯;其中 743 件随后由假释委员会审议。629 人(84.7%)获得假释。在所有这些案例中,除了一个案例外,假释委员会的决定与面试官的最终建议相同,面试官还对监督预后、未来犯罪风险、未来危险犯罪风险、和攻击潜力。在为期一年的后续研究中,John Carroll 和他的同事比较了基于面谈评分的假释者行为预测与基于预测的预测的准确性。基于简单的背景因素,例如先前定罪的数量。23(这些信息也提供给采访者,并显示与他们的临床判断相关。)

  假释委员会认为,大约 25% 的假释者在获释后一年内失败,原因包括再次入狱、潜逃、因刑事指控被捕或违反技术性假释规定。面试官的评分并没有预测到这些结果;最大的相关性仅为 0.06。相比之下,基于导致入狱的犯罪类型、过去定罪的数量以及违反监狱规则的非犯罪行为的数量的三变量模型确实具有适度的可预测性,相关系数约为 0.22,结果与早期的研究结果表明,基于先前记录的精算预测在大量设置中的相关性约为 0.30。24当假释犯被判犯有新罪行时,他们犯罪的严重性与访谈者对攻击性潜力的评级相关 0.27,但对过去海洛因使用情况的简单二分法评估相关 0.46。

  这些相关性都不是特别高;首先,样本是经过严格挑选的,仅限于那些被判有罪的人;第二,并非所有犯罪的假释犯都被抓获。第三,这些类型的行为并不像我们认为的或希望的那样可预测。然而,精算预测与临床预测的有效性差异非常明显。

  此外,这种差异与预测暴力的精算方法与临床方法的比较非常一致。25一个重要的条件:总的来说,最好的预测是暴力或犯罪行为无论如何都不会重演。26虽然一般的“基本率”预测是人们不会重复问题,但法官——专业和非专业人士——都倾向于认为重复是常见的。研究表明,关于谁更有可能重复的判断在精算基础上比在临床基础上更好。同样的原则甚至适用于预测警察非自愿解雇。27

  在评估因脑损伤导致的智力缺陷方面,精算方法也被证明优于临床方法。例如,当 Leli 和 Filskov 研究进行性脑功能障碍的诊断时,他们发现来自标准测试的诊断规则的智力功能正确识别了 83% 的新病例。但是,经验不足和经验丰富的专业临床医生组使用相同的数据,分别只能正确识别 63% 和 58% 的新病例。当临床医生得到公式的结果时,他们做得更好(分别为 68% 和 75% 的正确识别),但两组都没有达到公式的 83% 准确率。临床医生的改善似乎取决于他们使用该配方的程度。28

  事实上,在一系列研究中,David Faust 和他的同事发现,专业心理学家甚至无法在标准智力测试中发现假装脑损伤的年轻青少年,因为除了“令人信服”之外,他们几乎没有得到任何关于如何做的指示。 ”29即使将伪造的结果与来自真正脑损伤个体的相同数量的结果发送给专业人士,并且专业人士被如实告知他们看到的测试结果有 50% 的可能性是伪造的,他们仍然无法检测到假货。30这些专业人士将自己列为“神经心理学”专家(在美国心理学会名录或国家心理学卫生服务提供者登记册中);他们中的许多人接受过高级培训;他们中的一些人获得了一种特殊的专业地位,称为“外交官”。然而,只有不到 10% 的人认出了伪造的结果。此外,如果有任何负面影响的话经验和识别假货的能力之间的关系——然而,不是一个统计上显着的关系。通常的批评是这些研究存在缺陷,因为神经心理学家通常不会在没有看到客户的情况下解释测试结果——但这种批评一如既往地缺乏任何积极的证据表明神经心理学家如果看到客户会做得更好。31一个更有趣的批评来自一位著名的神经心理学家,当他被告知研究中外交官的比例与该领域的比例大致相等时,他对浮士德说:“嗯,他们不可能真的是优秀的神经心理学家。任何愿意参加你的研究的人都不可能胜任。”

  尽管表现如此糟糕,尽管预测和诊断性能始终低于测试结果的统计分析,但大多数神经心理学家在 1988 年的一项调查中表示,他们更愿意使用非标准方法——即直觉——来通过统计公式得出关于智力缺陷的判断。32这些结果对关于据称因可能导致脑损伤的事故或化学品暴露引起的智力缺陷的法庭证词以及有关各方的心理“画像”具有深远的意义。

  医学判断的研究结果更加复杂,尽管当临床判断和统计公式基于完全相同的输入信息时,该公式再次做出了更好的预测。例如,在霍奇金病可控之前,已故的 Hillel Einhorn 研究了根据活组织检查确定的疾病过程严重程度的判断如何预测生存时间。33研究中的所有 193 名患者均死亡;活检后的存活天数是研究的标准。三位医生,一位是国际公认的权威,另外两位是他的“学徒”,他们对每份活检的九个特征进行了评级,他们认为这些特征与严重程度有关。他们还对疾病过程的严重程度进行了总体评级。虽然严重程度判断与患者将存活多长时间的判断不同,但它们肯定是密切相关的(在负方向上,即严重程度越大,存活时间越短)。Einhorn 开发了精算公式——涉及医生数字评分的加权平均值——以根据医生检查过的 100 名患者样本的九个特征预测生存时间,然后使用这些相同的公式对其余患者检查这些预测的准确性93. 医生对严重程度的总体判断与生存时间完全无关,但公式是。Einhorn 的研究表明,医生对活检特征的评分为预测生存时间提供了潜在有用的信息,但只有这些评分的统计组合才能真正预测它。(有一次,当我在一次正式演讲中谈到这项研究时,一位著名医学院的院长建议说,要是艾因霍恩研究了某某博士,那位公认的“世界专家,” 他会发现医生的总体评分可能非常准确。我不能在那里这么说,但医生实际上是某某医生。)

  在比较医生和急诊室计算机程序分别做出的心脏病发作诊断的研究中发现了类似的结果。医生和程序是平等的擅长发现实际存在的心脏病发作,但该程序在诊断没有心脏病发作(实际上没有心脏病发作)方面优于医生。34还发现统计公式在预测未来心脏病发作方面优于临床医生。35另一方面,已发现统计公式 (APACHE-2) 的预测不如获得内科委员会认证的医生所做的预测,这些医生是“重症监护研究员”,并且“看过病人,了解了病史,进行了身体检查,并审查了相关的实验室和可用的 X 线照片数据。”36在另一项医学研究中,当医生拥有比统计模型中使用的信息更多的信息并且亲自检查患者时,他们优于公式。37

  在预测破产的商业环境中,人们发现了一个公式优于银行贷款专家的判断,其中一些专家的高薪来自每年贷款数十亿美元的银行。38然而,在一项预测销售的研究中,经理们的表现优于统计公式。39在银行贷款研究中,精算公式和银行贷款专家的预测基于相同的信息;但在销售研究中,除了用于统计预测的信息外,经理们“还掌握了内幕信息”。因此,在医疗和商业环境中,当临床法官可以获得比所使用的统计公式更多的信息时,精算判断的普遍优势就会出现例外。也许如果将这些信息纳入公式中,它们会再次变得更好。事实上,这已经发生了。与 APACHE-2 不同,新的统计公式 APACHE-3 在预测重症监护室 24 小时内死亡方面优于医生。40

  这些发现与我们关于直觉有效性的直觉不相符。他们挑战专业预测的专业知识,如果专业人士不能很好地预测未来,我们其他人又如何呢?此外,这些发现似乎“非人化”,因为它们“将人简化为纯粹的数字”。(但统计方法中没有任何内容声称作为人意味着什么;相反,问题是如何预测。事实上,有效的统计方法比无效的临床方法更能认识到自主选择的作用,后者是基于错误的假设是专家可以告诉你这么多关于你的事情,你真的别无选择。)而且,当然,这些发现是对自称专家的自我形象的侮辱。41

  上述发现涉及的领域往往是根据直觉而不是根据公认的科学原理进行预测。正如所研究的各种预测问题所说明的那样,职业心理学只是其中一个领域。心理健康专业通常严重依赖“直觉”理解,其准确性被基于它的预测的劣势所掩盖。然而,依赖直觉的心理健康专家是少数“美化”它的人之一,而不是将它作为知识的第一步——然后通过科学研究使知识尽可能明确并接受审查。

  对直觉而非研究数据的偏好可以从 David Faust 和 Jay Ziskin 发表在《科学》杂志上的一篇论文中看出,该论文主要致力于法医心理学家对法律环境中暴力行为的预测。42作者指出,最好的预测是人们不会使用暴力;他们提到的研究表明,统计预测在确定暴力的相对可能性方面具有优越性——也就是说,哪些人更容易发生暴力,尽管所有人都更有可能不暴力而不是暴力。他们回顾了在心理学家和精神病学家也作证的其他领域显示这种优势的文献。反应迅速而激烈。

  First, the president and president-elect of the APA wrote to Science , claiming to speak “on behalf of 90,000 members of the American Psychological Association,” disputing the conclusions of the article.43由于他们无法对研究的结论提出异议,他们反而指责 Faust 和 Ziskin 进行了片面陈述,忽视了法院在“专家之战”中决定专家证人证词有效性的作用” 但让专家作证的全部意义在于,他们“以合理的确定性”(“协助事实审理者”)就法院无法假设他们声称的专业知识具有一定有效性的事项发表意见。因此,这种有效性的证据是最重要的。法院无权评估所声称的科学作为一个整体的有效性;研究人员是,而这正是 Faust 和 Ziskin 所做的。

  后来,APA Monitor提供了一个很好的理由来忽略支持直觉的研究。APA 实践理事会法律和监管事务主管 Russ Newman 进一步反对 Faust 和 Ziskin 的结论,他指出北卡罗来纳州的一份简报认为应该承认神经心理学家的证词……。一名神经心理学家检查了一名男子,该男子被一根木头砸在头上而受伤。神经心理学家发现了损伤的证据并建议该男子不要开车,但北卡罗来纳州的工业委员会不会承认心理学家的证词,因为他不是医生。相反,它依赖于一位没有发现任何损伤证据的神经科医生的证词。这名男子后来卷入了一场导致两人死亡的车祸。观察纽曼,“这与你应该抛弃这个证词的想法相矛盾。”44

  引用一个已成真的预测实例并不能说明任何问题。事实上,在这种情况下,我们甚至不知道预测成真,因为我们没有得到有关事故的任何信息;据我们所知,这完全是另一位司机的责任。然而,这种对单个实例的依赖确实说明了专业人士对直觉的依赖程度以及直觉思维的谬误。它受到引用单一、生动的轶事的过度影响,这些轶事与已经持有的直觉相容。

  与对 Faust 和 Ziskin 论文的高度情绪化的反对相反,对我们关于临床与实际预测的科学论文的反对(Dawes、Faust 和 Meehl45 ) 不依赖于轶事,而是依赖于论据。(在论文最终被接受发表之前,我们不得不在论文的四次修订中回答这些反对意见。)在这里,我想列出对显示统计预测优越性的实证结果的主要反对意见并反驳他们,因为许多可能会发生读者也是如此。

  对 Faust 和 Ziskin 等发现以及其他发现的第一个反对意见是,每项单独评估的研究都有特定的缺陷,或者他们的数据可以用支持临床预测有效性的替代方式来解释。但再次重申,这只是一种可能性,而不是证明(真空中无处不在的论证)。例如,如果人事专家的判断被忽略并且他们认为表现不佳的人被允许进入一个项目,即使在那些被录取的人中他们的评估与成功无关。当精神病学家和心理学家对精神病房的暴力行为的预测受到研究并被发现很差时,他们的预测可能很差,因为他们预测会发生暴力行为的那些患者因此受到了仔细观察,因此比其他人发生暴力行为的机会更少。如果假释面试官的判断被忽略,则有可能证明他们的判断是有效的。使用这些不同的反对意见作为质疑关于统计预测优越性的总体结果的基础的问题在于,每个反对意见都涉及对每个结果单独的替代解释,我们将不得不根据这些单独的解释得出结论,即它们都独立但同时解释了结果的方向,而不是接受解释该方向的单一原则。这是极不可能的。

  对负面发现的第二个反对意见是,被研究的人不是真正的专家。然而,这种反对意见是基于以一种极端的方式定义“专业知识”,以至于它只能描述大多数公众认为可以做出有效临床预测的专业预测师的一小部分。James Shanteau 发现了一些证据,证明直觉临床专家的有效性,当他们被定义为处于领域顶端的极少数人时——但这些领域是牲畜判断和核算,其中有众所周知的原则与系统反馈相结合,不是心理学。46刘易斯·戈德堡 (Lewis Goldberg) 还发现了一些证据证明一位专家(现已去世)的判断的有效性,但他的研究表明,心理学家和他们的秘书同样擅长区分精神分裂症患者和脑损伤患者对 Bender 的反应-格式塔测试,要求人们复制二维几何图形。47 David Faust 告诉我,一位广为人知的神经心理学家实际上已经在出庭作证之前,他进行了实证研究,以证明他的判决在特定领域是有效的。然而,关键是,在我之前总结的调查中研究其预测的临床人员中有相当一部分是公认的“专家”。此外,虽然许多研究还涉及研究生等“见习专家”,但他们的表现并不比培训他们的所谓专家差。

  第三个反对意见是,没有明确定义的“专家预测任务”群体,像我们这样的研究人员可以从中随机或系统地抽样。那么,我们怎么可能达到统计概括呢?对这一反对意见基本上有四种回应。第一个是在心理学和相关社会科学中,从一组“性质不同”的研究中得出的结论可能比从具有明显共同特征的研究中得出的结论更强,即使通常的统计概括工具并不适用。48第二点是——正如 Meehl 指出的那样——是时候至少达到一个实用的目标了。关于统计预测的优越性的结论,这是我在本章中试图做的。第三个反应是假设一项新任务可以对临床方法显示出更好的预测并不意味着它会(再次真空)。即使它做到了,那又怎样?这样的发现既不意味着概括是错误的,也不意味着应修改实际结论。最后,这些研究确实有一个共同的特点。它们都需要整合通常来自不同来源(例如,背景信息和测试信息,例如平均绩点和 SAT 分数)的无可比拟的信息(例如,活组织检查的特征)。正如我将在本章后面讨论的那样,统计公式特别擅长这种整合,而人们却特别不擅长。

  第四个也是非常普遍的反对意见是,呈现给临床专家的预测任务不是“生态学上有效的”。在此基础上,Erin Bigler 批评 Faust 的研究表明神经心理学家无法在测试结果中检测出假的脑损伤。49在“现实世界”中,比格勒认为,神经心理学家会看到客户以及测试结果。但这种反对意见忽略了这样一个事实,即基于测试结果的判断是更普遍的生态评估的重要组成部分。我声称我可以出色地演奏普罗科菲耶夫的第三钢琴协奏曲,尽管我不会。你问我弹奏音阶,发现我弹得不均匀,甚至偶尔会出现错误的音符。当您随后得出结论认为我的主张是错误的时,我反对您没有向我提供“生态上有效”的任务。毕竟,普罗科菲耶夫的音阶并不多。你最好不要接受我的反对意见。49

  一个密切相关的反对意见是,许多具有真正直觉性质的判断都是“格式塔”判断,其中整体大于部分之和,但所需的任务仅涉及组成部分。这意味着这些研究否认了这种格式塔的存在。不对——研究中没有任何东西可以否认它们的存在。当然,生活中的许多感知、判断和模式(比如旋律)都具有格式塔特征,但就像钢琴演奏一样,有缺陷的部分并不能构成完整的整体。格式塔特征中没有任何东西可以“挽救”对预测任务某些组成部分的错误判断,即一个人可能会感知整个圆圈的方式,即使实际上其中有一个微小的差距。例如,有

  另一个密切相关的反对意见是,如果不是格式塔,真正重要的结果是无法言喻的。例如,“成功”不仅仅意味着获得学位、免于入狱或活着。生活中“真正的”成功或失败是无法衡量的,因此尝试根据“纯粹的指标”来比较预测是没有意义的。但是没有积极的证据表明临床专业判断在预测不可言喻方面比在预测“可言喻”(一次又一次,一次又一次,真空)方面做得更好。其次,如果没有最常用作标准的“可表达的”结果,就很难实现不可表达的结果。例如,如果你“平淡无奇地”死了,你就很难享受生活中不可言说的乐趣,或者在被反复“平淡无奇”地解雇后,很难体会到任何难以言喻的职业成功感。

  然而,对我们的负面发现的主要反对意见对本书的其余部分很重要:结果似乎与我们的直觉相矛盾,即生活是而且应该比研究结果表明的更可预测。

  但是,为什么我们会在这种情况下普遍相信高度可预测性呢?首先,人们有充分的认知理由来寻求世界的可预测性,而根据许多理论家的说法,这种搜索的成功是认知的“功能”。认为可预测性存在但不存在的信念往往比我们无法预测何时可以的信念造成更多伤害,51但相信世界存在可预测性的普遍偏见可能肯定是适应性的。此外,我们显然有一种强烈的情感需要相信这种可预测性。一个不可预测的世界不可能是一个为我们(好人)提供我们应得的“权利”(好的结果)的“公正”世界。52(但是没有人想要一个完全可以预测的世界,那将是一个沉闷的世界。我们也不想要一个过于公正的世界,在这个世界里,每个人都会犯下一点不良行为或患有神经症。被报复的恐惧所困扰。)但是,对可预测性有认知和情感需求并不意味着它存在于我们寻求它的每个环境中。

  为什么在研究的背景下统计预测优于临床预测?部分原因与此类公式的理想特性有关。它们专门用于发现可变性环境中的模式——被噪声扭曲的信号。统计公式以最佳方式组合信息以检测模式。此外,由于可变性导致的权重的微小差异不会导致公式做出的预测出现较大差异。事实上,只要预测变量本身是正相关的,组合规则中的微小差异(例如,在构建加权平均值时应用的权重)导致的预测与最佳组合规则提供的预测非常相似。例如,当加权平均用于预测时,53最后,统计公式提供的加权平均值自动涉及心理上不可比的预测因素的比较。

  相比之下,人们很难组合定性不同或无法比较的预测因子。例如,审查医学院申请人的人如何将过去大学记录的信息与医学院能力倾向的分数结合起来测试?为了做到这一点,有必要了解这些预测变量的分布及其可预测性——法官无法凭直觉获得这些信息,但却构成了统计预测的基础。同样,面试官如何将过去工作经历的信息与关于抱负、才能和目标的自我反思陈述相结合?临床法官如何在知道此类结果表明的疾病极为罕见的情况下,将阳性测试结果整合到医学测试中或对罗夏墨迹测试的异常反应?

  这种集成不能在直觉的基础上完成。相反,临床判断通常基于许多认知“启发式”经验法则。第一种启发式方法是在一个人的记忆(包括一个人的训练记忆)中搜索与手头相似的实例。这种启发式称为可用性。54不幸的是,选择性暴露、选择性回忆、回忆的实例或类别的生动性等等,可用性可能会产生很大的偏差。第二种启发式方法是将线索或特征与刻板印象或与类别相关的一组其他特征相匹配——这种启发式方法称为代表性。55但是,某事物与某个类别的匹配程度并不表示它的可能性有多大。例如,我们对静脉注射毒品成瘾的人的刻板印象是,这样的人吸食大麻;因此,吸食大麻的特征符合我们对静脉注射吸毒者的刻板印象——尽管吸食大麻的人更有可能不使用静脉注射药物而不是使用它们,更不用说对它们上瘾了。

  可用性和代表性是最常导致我们做出错误判断的启发式方法,但它们并不是唯一的。由于这些启发式方法在本章审查的判断中具有一定的有效性,因此临床判断通常比偶然性做得更好,但他们没有在可能的相关因素中仔细选择并确定它们应该如何组合,这是完成的由统计模型自动生成。(有关这些启发式方法的尖锐幽默描述,请参阅 Paul Meehl 的文章“为什么我不参加案例会议”。56在此类会议中,人们会花大量时间进行“自由联想”,通过将正在讨论的患者与之前的患者或原型患者(有时甚至是相对——基于单一共同特征,结合有偏可用性和有偏代表性。)

  然而,正如在涉及霍奇金病和长寿的 Einhorn 研究中所说明的那样,人类判断专家在做出预测方面确实发挥着非常重要的作用:选择可能预测并编码它们。正如没有接受过医学培训的人无法对活组织检查的特征进行编码一样,没有接受过一些心理学培训的人也无法设计出可以预测工作或学术环境成功的测试。这就是专业知识的有效作用。一旦选择并构建或编码了变量,就应该对它们进行研究,以发现它们在预测结果方面的准确程度。这就是统计“科学”的全部意义所在:以一种能够说服要求“展示给我看”的评论家的方式,将想法置于公众监督之下。此外,由此产生的统计公式不必是“僵化的”(这是对它们的普遍批评);它们可能会被修改以纳入可用的新信息。

  统计公式在预测方面的优越性产生了所谓的“基本利率”心理学。人们的行为和感受最好通过将他们视为聚合的成员并通过确定哪些变量通常预测该聚合以及如何预测来最好地预测。该结论与专家声称能够非常详细地分析个人生活并确定是什么原因造成了什么相矛盾。不幸的是,专业心理学家和其他心理健康专家最期望的正是个体化因果关系类型的分析。这种期望不仅来自我们对世界的直觉信念,还来自这些心理学家对自己能力的声明。正如 David Faust 曾经说过的那样,这样的声明应该被视为与专业人士实际可以做什么的示范。57

  此外,正如我们所见,无法预测意味着缺乏理解——不是因为理解和预测是同义词,而是因为声称理解意味着具有预测能力。评估心理治疗的功效使我们得出结论,专业的心理学家并不比心理治疗师更好比受过最少培训的任何人都高——有时甚至比那些根本没有受过任何培训的人高;专业人士只是更贵。而且,在预测人们会做什么方面,临床医生比统计公式差,而统计公式要便宜很多;考虑到廉价的计算机时间,即使开发它们现在也不是什么大笔费用。对统计公式的一种批评是,它们可能必须在使用它们的每个单独上下文中构建、修改和测试,但有证据表明,在类似情况下存在“有效性概括”。58非常遗憾的是,在重复相同的结果、提出和反驳相同的反对意见方面花费了如此多的努力,这些努力本可以花在使用该结果来开发更好的统计公式,从而做出更好的预测. 当我们的科学论文发表后,一位评论家(他给编辑的信没有发表)得出结论,结果暗示心理学家和精神病学家应该接受培训,以便更可靠地使用标准的精神病学诊断手册。那么也许这些临床医生会做得更好。为什么不通过开发更好的统计模型来努力改进我们知道更优越的方法呢?这应该会使几乎所有人受益——当然,那些拿高薪做出低劣预测的人除外。但公众比他们更重要。

  对这些结论的一个反对意见,我个人觉得特别令人沮丧——事实上,令人愤怒——是使用统计公式对人进行预测是“非人性化的”,它将人视为“纯粹的数字”。该方法中没有任何内容暗示对人是什么的判断;关键是做出最好的预测,然后可以将其用于每个人的利益。此外,统计模型可以公开、接受审查和适当修改。它甚至可以与做出预测的人分享,以便他们知道他们将如何被评判。

  让我举一个例子来说明这种开放性。俄勒冈大学心理学系的一项研究表明,一个简单的(加权平均)统计模型结合了过去的记录、考试成绩和对学生本科院校选择性的粗略评级比学生被录取时招生委员会的评分更好地预测了后来教师对学生在研究生院的表现的评分。同样的模型也可用于拒绝委员会根据其成员的临床判断无论如何拒绝的申请人中的 55%,而不拒绝委员会考虑并接受的任何申请人。59我和我的同事认为,这一关于自动淘汰的发现非常重要,应该将其纳入录取过程——既可以让心理学系免于评估没有机会被录取的申请人的无意义工作,也可以节省这些候选人自己承担了申请一个他们没有机会被录取的项目的工作、费用和心痛。

  在实施这个自动筛选程序之前,我在第二年检查了它,尽管从统计角度来看它似乎非常有效。60毕竟,这是一个激进的程序。我所做的是通知招生委员会的其他成员,程序正在实施,他们被要求只对那些通过初步筛选的人做出判断,初步筛选排除了 55%。我欺骗性地将任何似乎具有特殊优势但未反映在过去表现或考试成绩中的申请人交给他们进行评估。我的同事都没有注意到这种欺骗行为(或者,在了解其原因后,事后抱怨)。那些没有通过筛选的申请者中,也没有任何其他委员会成员给予足够高的评级,使其有被录取的机会。原因是对于每一个低于分数线但有特殊实力的申请者,

  刘易斯·戈德堡 (Lewis Goldberg) 担任同一招生委员会负责人时,随后将用于筛选的修订公式告知潜在申请人:平均研究生记录考试分数加上平均绩点乘以 100。61潜在申请者被告知,如果他们的分数低于 950,他们不应该浪费他们的时间和精力申请;他们还被告知他们以高于该水平的特定分数被录取的可能性。虽然这个程序遇到了一些“非人化”的呼声,我们部门的意见是,对申请人完全公开和诚实——通过向他们提供尽可能多的关于他们被录取的机会的信息——是高度道德的。(当然,大学 25 美元的申请费减少了。)我们也能够在同样的基础上公开和明确地实施平权行动计划。

  让我将这样的过程与我在前一本书中描述的基于访谈的过程进行对比:我的一位从事医学决策的同事讲述了一项调查,他被一家著名的大型医学院的院长要求进行调查,以确定招收女学生失败的原因。我的同事“从外部”对问题进行了统计研究,并确定了问题的主要根源。一位年长的教授减少了他的实践,将时间花在面试学校的申请者上。他评估了“情绪成熟度”、“对医学感兴趣的严肃性”和“神经质”等特征。每当他面试一位未婚女性应聘者时,他都会得出她“不成熟”的结论。当他采访一位已婚人士时,他得出的结论是她“对医学不够感兴趣”,而当他采访一位离异人士时,他得出的结论是她“神经质”。62

  有问题。难以言喻的、直觉的临床判断很难被质疑——至少,如果没有广泛的统计研究来评估其偏倚的话。专业心理学家在法庭上声称特别具有破坏性的“临床判断”是基于多年的经验,无法明确证明其合理性,只能以无关紧要的理由——例如培训、提供类似证词的年限、行为举止等——提出质疑。相比之下,统计模型可能会因为它是公开的而受到合理的挑战。

  此外,没有必要在这些模型中包含我们认为不合适或缺乏优点的变量。例如,我本人反对使用纸笔“诚实测试”和性格测试来安排工作,即使它们确实可以预测。在这种环境下的人应该根据他们做了什么和他们能做什么来评判。过去的行为提供了前者的指标,而能力倾向或成就测试表现则是后者的指标。与性格测试或诚实测试不同,参加能力倾向测试或成就测试的受试者知道有一个正确答案(例如一个简短的数学问题)并努力获得它。但是,对于一个关于如何应对偷了 5 美元的重要员工的问题,正确答案是什么?根据测试评分,正确答案是解雇该员工。但如果参加测试的人认为这不是最好的解决方案,那么这个人就会因不诚实而被打分。

  底线是一个快乐的发现。在大多数情况下,个人过去的行为是未来行为的最佳预测指标。这并不意味着人们无法改变。当然,我们中的许多人都这样做,而且常常是深刻的。它的意思是,还没有人设计出一种方法来确定谁将改变,或者如何改变或何时改变。专业心理学家无法预测这一点。(如果有人能够这样做,研究文献对此保密。)但如果我们对任何事情负责,那就是我们自己的行为。因此,统计方法通常最重视我们负有最大责任的事情。

  1 P. E. Meehl, “Causes and Effects of My Disturbing Little Book,” Journal of Personality Assessment, 50 (1986): 370-375, 372-373.

  2 15,509 of 44,901 surveyed, according to a communication from Janet Cole of the American Psychological Association’s ODEER Office on February 22, 1991.

  3 The principle of Ockham’s razor, first proclaimed by William of Ockham in the fourteenth century.

  4 P. A. M. Dirac, “The Evolution of the Physicist’s Picture of Nature,” Scientific American, 208 (1963): 45-53.

  5 See any encyclopedia description.

  6 I. M. Klotz, “The N-Ray Affair,” Scientific American, 242 (1980): 168-173.

  7 W. Revelle, “Personality, Motivation, and Cognitive Performance,” in R. Ackerman, R. Kanfer, and R. Cudeck, eds., Learning and Individual Differences: Abilities, Motivation, and Methodology (Hillsdale, NJ: Erlbaum, 1989), pp. 297-341.

  8 H. J. Einhorn, “Accepting Error to Make Less Error,” Journal of Personality Assessment, 50 (1986): 387-395.

  9 L. T. Hoshmand, and D. E. Polkinghorn, “Refining the Science—Practice Relationship and Professional Training,” American Psychologist, 47 (1992): 60.

  10 W. G. Chase, and H. A. Simon, “The Mind’s Eye in Chess,” in W. G. Chase, ed., Visual Information Processing (London: Academic Press, 1973), p. 215.

  11 P. E. Meehl, Clinical Versus Statistical Prediction: A Theoretical Analysis and Review of the Literature (Minneapolis: University of Minnesota Press, 1954).

  12 J. Sawyer, “Measurement and Prediction, Clinical and Statistical,” Psychological Bulletin, 66 (1966): 178-200.

  13 R. M. Dawes, D. Faust, and P. E. Meehl, “Clinical Versus Actuarial Judgment,” Science, 243 (1989): 1668-1674.

  14 B. Lubin, R. M. Larsen, and J. D. Matarazzo, “Patterns of Psychological Test Usage in the United States: 1935-1982,” American Psychologist, 39 (1984); 451-454; and C. Piotrowski and J. W. Keller, “Psychological Testing in Outpatient Mental Health Facilities: A National Study,” Professional Psychology: Research and Practice, 20 (1989): 423-425.

  15 See S. R. Hathaway and P. E. Meehl, An Atlas for the Clinical Use of the MMPI (Minneapolis: University of Minnesota Press, 1951); and W. G. Dahlstrom, G. S. Welsh, and L. E. Dahlstrom, An MMPI Handbook: Revised Edition (Minneapolis: University of Minnesota Press, 1982).

  16 L. R. Goldberg, “Simple Models or Simple Processes? Some Research on Clinical Judgments,” American Psychologist, 23 (1968): 483-496.

  17 R. F. Bloom and E. G. Brundage, “Predictions of Success in Elementary School for Enlisted Personnel,” in D. B. Stuit, ed., Personnel Research and Test Development in the Naval Bureau of Personnel (Princeton, NJ: Princeton University Press, 1947), pp. 233-261.

  18 T. M. Gehrlein and R. L. Dipboye, “In Search of Validity in the Selection Interview,” poster presented at the second annual convention of the American Psychological Society, Dallas, TX, June 8, 1990.

  19 G. F. Dreher, R. A. Ash, and P. Hancock, “The Role of the Traditional Research Design in Underestimating the Validity of the Employment Interview,” Personnel Psychology, 41 (1988): 315-327.

  20 R. A. DeVaul, F. Jervey, J. A. Chappell, P. Carver, B. Short, and S. O’Keefe, “Medical School Performance of Initially Rejected Students,” Journal of the American Medical Association, 257 (1957): 47-51.

  21 R. M. Milstein, L. Wilkinson, G. N. Burrow, and W. Kessen, “Admission Decisions and Performance During Medical School,” Journal of Medical Education, 56 (1981): 77-82.

  22 S. Oskamp, “Overconfidence in Case Study Judgments,” Journal of Consulting Psychology, 63 (1965): 81-97.

  23 J. S. Carroll, R. L. Winer, D. Coates, J. Galegher, and J. J. Alibrio, “Evaluation, Diagnosis, and Prediction in Parole Decision Making,” Law and Society Review, 17 (1988): 199-228.

  24 D. Gottfredson, L. T. Wilkins, and T. B. Hoffman, Guidelines for Parole and Sentencing (Lexington, MA: Lexington Books, 1976).

  25 For example, see P. D. Werner, T. L. Rose, J. A. Yesavage, and K. Seeman, “Judgment of Dangerousness in Patients on an Acute Care Unit,” American Journal of Psychiatry, 142 (1984): 263-266.

  26 See J. Monahan, “The Prediction of Violent Behavior: Toward a Second Generation of Theory and Policy,” American Journal of Psychiatry, 141, (1984): 10-15. For a striking example, see H. J. Steadman, “Follow Up on Baxstrom Patients Returned to Hospitals for the Criminally Insane,” American Journal of Psychiatry, 130 (1973): 317.

  27 R. E. Inwald, “Five Year Follow-up Study of Departmental Terminations as Predicted by Sixteen Pre-employment Psychological Indicators,” Journal of Applied Psychology, 73 (1988): 703-710.

  28 D. A. Leli and S. B. Filskov, “Clinical-Actuarial Detection and Description of Brain Impairment with the W-B Form I,” Journal of Clinical Psychology, 37 (1981): 623-629.

  29 D. Faust, K. Hart, and T. J. Guilmette, “Pediatric Malingering: The Capacity of Children to Fake Believable Deficits on Neuropsychological Testing,” Journal of Consulting and Clinical Psychology, 56 (1988): 578-582.

  30 D. Faust, K. Hart, T. J. Guilmette, and H. R. Arkes, “Neuropsychologists’ Capacity to Detect Adolescent Malingerers,” Professional Psychology: Research and Practice, 19 (1988): 508-515.

  31 E. D. Bigler, “Neuropsychology and Malingering: Comment on Faust, Hart, and Guilmette (1988),” Journal of Consulting and Clinical Psychology, 58 (1990): 244-247.

  32 T. J. Guilmette, D. Faust, K. Hart, and H. R. Arkes, “A National Survey of Psychologists Who Offer Neuropsychological Services,” Archives of Clinical Neuropsychology, 5 (1990): 373-392.

  33 H. J. Einhorn, “Expert Measurement and Mechanical Combination,” Organizational Behavior and Human Performance, 7 (1972): 86-106.

  34 L. Goldman, E. F. Cook, D. A. Brand, T. H. Lee, G. W. Rouan, M. C. Weisberg, D. A. Acampora, C. Stasiulewicz, J. Walshon, G. Terranova, L. Gottlieb, M. Kobernick, B. Goldstein-Wayne, D. Copen, K. Daley, A. A. Brandt, D. Jones, J. Mellors, and R. Jakubowski, “A Computer Program to Predict Myocardial Infarction in Emergency Department Patients with Chest Pain,” New England Journal of Medicine, 318 (1988): 797-802.

  35 K. L. Lee, D. B. Pryor, F. E. Harrell, R. M. Califf, V. S. Behar, W. L. Floyd, J. J. Morris, R. A. Waugh, R. E. Whalen, and R. A. Rosati, “Predicting Outcome in Coronary Disease,” American Journal of Medicine, 80 (1986): 553-560.

  36 A. L. Brannen, L. J. Godfrey, and W. E. Goetter, “Prediction of Outcome from Critical Illness: A Comparison of Clinical Judgment with a Prediction Rule,” Archives of Internal Medicine, 19(1989): 1083-1086.

  37 G. C. Sutton, “How Accurate Is Computer-Aided Diagnosis?” Lancet, October 14, 1989, pp: 905-908.

  38 W. H. Beaver, Empirical Research in Accounting: Selective Studies (Chicago: University of Chicago, Graduate School of Business, Institute of Professional Accounting, 1966); and E. B. Deacon, “A Discriminant Analysis of Prediction of Business Failure,” Journal of Accounting Research, 10 (1972): 167-179.

  39 R. C. Blattberg and S. J. Hoch, “Database Models and Managerial Intuitions: 50 percent Model 50 percent Manager,” Management Science, 36 (1990): 887-899.

  40 See W. A., Knaus, D. P. Wagner, and J. Lynn, “Short-term Mortality Predictions for Critically 111 Hospitalized Adults: Science and Ethics,” Science, 254 (1991): 389-394.

  41 P. E. Meehl, “Causes and Effects of My Disturbing Little Book,” Journal of Personality Assessment, 50 (1986): 370-375.

  42 D. Faust and J. Ziskin, “The Expert Witness in Psychology and Psychiatry,” Science, 241 (1988): 31-35.

  43 R. D. Fowler and J. D. Matarazzo, “Psychologists and Psychiatrists as Expert Witnesses,” Science, 241 (1988): 1143-1144.

  44 J. Bales, “APA Rebuts Criticism of Clinical Witnesses,” APA Monitor, September 1988, p. 17.

  45 R. M. Dawes, D. Faust, and P. E. Meehl, “Clinical Versus Actuarial Judgment,” Science, 243 (1989): 1668-1674.

  46 J. Shanteau, “Psychological Characteristics and Strategies of Expert Decision Makers,” Acta Psychologica 68 (1988): 203-215.

  47 L. R. Goldberg, “The Effectiveness of Clinicians’ Judgments: The Diagnosis of Organic Brain Damage from the Bender Gestalt Test,” Journal of Consulting Psychology, 23 (1959): 25-33.

  48 R. M. Dawes, “Comment: Quandary: Correlation Coefficients and Contexts,” forthcoming in L. Montada, S. H. Filipp, and M. J. Lerner, eds., Life Crises and Experiences of Loss in Adulthood (Hillsdale, NJ: Erlbaum, 1993), pp. 521-529.

  49 Bigler, “Neuropsychology and Malingering.”

  50 The statistical prediction is superior, but neither prediction is very good in most studies-so, as a dean of an education school once objected, “twice nothing is nothing.” He made that remark after hearing the results of a study I had conducted demonstrating that a unit-weighted average based on three characteristics of applicants to graduate school (standardized undergraduate grade point average, standardized Graduate Record Examination scores and a standardized rating of the selectivity of the applicant’s undergraduate institution) predicted later faculty ratings with a correlation coefficient of .48, whereas the prior average ratings of the admissions committee members predicted it with a correlation of only .19. See R. M. Dawes, “A Case Study of Graduate Admissions: Application of Three Principles of Human Decision Making,” American Psychologist, 26 (1971): 180-188.

  51 See R. M. Dawes, Rational Choice in an Uncertain World (San Diego: Harcourt Brace Jovanovich, 1988), chap. 11.

  52 M. J. Lerner, “Integrating Societal and Psychological Rules of Entitlement: The Basic Task of Each Social Actor and Fundamental Problem for the Social Sciences,” Social Justice Research, 1 (1987): 107-125. I also recommend his excellent The Belief in a Just World: A Fundamental Delusion (New York: Plenum Press, 1980).

  53 S. S. Wilks, “Weighting Systems for Linear Functions of Correlated Variables When There Is No Dependent Variable,” Psychometrika, 8 (1938): 23-30; R. M. Dawes and B. S. Corrigan, “Linear Models in Decision Making,” Psychological Bulletin, 81 (1974): 95-106; H. Wainer, “Estimating Coefficients in Linear Models: It Don’t Make No Nevermind,” Psychological Bulletin, 83 (1978): 312-317; H. Wainer, “On the Sensitivity of Regression and Regressors,” Psychological Bulletin, 85 (1978): 267-273; and D. A. Bloch and L. E. Moses, “Non-Optimally Weighted Least Squares,” American Statistician, 42 (1988): 50-53.

  54 A. Tversky and D. Kahneman, “Judgments Under Uncertainty: Heuristics and Biases,” Science, 185(1974): 1124-1131; R. Hamil, T. D. C. Wilson, and R. E. Nisbett, “Insensitivity to Sample Bias: Generalizing from Atypical Cases,” Journal of Personality and Social Psychology, 39 (1980): 578-589; and Dawes, Rational Choice, chap. 6.

  55 Dawes, Rational Choice, chap. 5; and A. Tversky and D. Kahneman, “Judgments of and by Representativeness,” in D. Kahneman, P. Slovic, and A. Tversky, eds., Judgments Under Uncertainty: Heuristics and Biases (London: Cambridge University Press, 1982).

  56 P. E. Meehl, “Why I Do Not Attend Case Conferences,” in Psychodiagnosis: Selected Papers (New York: Norton, 1973).

  57 D. Faust, “Declarations Versus Investigations: The Case for the Special Reasoning Abilities and Capacities of the Expert Witness in Psychology/Psychiatry,” Journal of Psychiatry and Law, 13 (1986): 33-59.

  58 See F. L. Schmidt, J. E. Hunter, K. Pearlman, H. R. Hirsh, P. R. Sackett, N. Schmidt, M. L. Tenopyr, J. Kehoe, and S. Zedeck, “Forty Questions About Validity Generalization and Meta-analysis with Commentaries,” Personnel Psychology, 38 (1985): 697-798.

  59 R. M. Dawes, “A Case Study of Graduate Admissions: Application of Three Principles of Human Decision Making,” American Psychologist, 26 (1971): 180-188.

  60 Dawes and Corrigan, “Linear Models in Decision Making.”

  61 L. R. Goldberg, “Admission to the Ph.D. Program in the Department of Psychology at the University of Oregon,” American Psychologist, 32 (1977): 663-668.

  62 Dawes, Rational Choice, p. 219.