章节出错了,点此刷新,刷新后小编会在两分钟内校正章节内容,请稍后再试。
基准利率谬误
基准率谬误,也称为基准率忽略或基准率偏差,是一种谬误,人们倾向于忽略基准率(即普遍流行)而倾向于个体化信息(即仅与具体情况)。基本速率忽略是更一般的扩展忽略的一种特定形式。
假阳性悖论
基准利率谬误的一个例子是假阳性悖论。这个悖论描述了假阳性测试结果多于真阳性的情况。例如,如果面部识别摄像头能够以99%的准确率识别通缉犯,但每天分析10,000人,则测试次数超过了高精度,并且该程序的犯罪分子名单中的误报可能远多于真实。阳性检测结果的概率不仅取决于检测的准确性,还取决于抽样人群的特徵。当患病率(即有特定条件的人的比例)低于测试的假阳性时率,即使是在个别情况下给出假阳性风险非常低的测试,总体上给出的假阳性率也会高于真阳性率。这个悖论令大多数人感到惊讶。
在处理了从高流行人群中得出的阳性结果之后,在对低流行人群的测试中解释阳性结果时,这尤其违反直觉。如果测试的假阳性率高于新人群的比例,那麽从高流行人群测试中汲取经验的测试管理员可能会从经验中得出阳性测试结果的结论通常表示一个积极的主题,而实际上更可能发生误报。
例子
示例1:疾病
高发人群
人数
_已感染未感染全部的
测试
阳性400
(真阳性)30
(误报)430
测试
阴性0
(假阴性)570
(真阴性)570
全部的4006001000
想像一下对1000人的人群A进行传染病测试,其中40%被感染。该测试的假阳性率为5%(0.05),没有假阴性率。对人群A进行1000次测试的预期结果将是:
感染和测试表明疾病(真阳性)
1000×40/100=400人会收到真正的肯定
未感染且测试表明疾病(假阳性)
1000×100–40/100×0.05=30人会收到误报
其馀570次测试正确为阴性。
因此,在人群A中,接受阳性检测的人的信心可能超过93%(400/30+400)它正确指示感染。
低发病人群
人数
_已感染未感染全部的
测试
阳性20
(真阳性)49
(误报)69
测试
阴性0
(假阴性)931
(真阴性)931
全部的209801000
现在考虑应用于人群B的相同测试,其中只有2%被感染。对群体B进行1000次测试的预期结果将是:
感染和测试表明疾病(真阳性)
1000×2/100=20人会收到真正的肯定
未感染且测试表明疾病(假阳性)
1000×100–2/100×0.05=49人会收到误报
剩下的931次测试正确地为阴性。
在人群B中,检测结果呈阳性的69人中只有20人实际被感染。所以,在一个人被告知自己被感染后,实际被感染的概率只有29%(20/20+49)用于其他看似“95%准确”的测试。
具有A组经验的测试人员可能会发现一个矛盾的是,在B组中,通常正确指示感染的结果现在通常是假阳性。将感染的后验概率与接收假阳性的先验概率混淆是收到威胁健康的测试结果后的自然错误。
示例2:醉酒司机
在司机清醒的情况下,有5%的警员使用酒精检测仪显示虚假醉酒。然而,呼气测醉器总是能检测到一个真正醉酒的人。千分之一的司机酒驾。假设警察随后随机阻止一名司机进行酒精测试。这表明司机喝醉了。我们假设您对它们一无所知。他们真正喝醉的可能性有多大?
许多人会回答高达95%,但正确的概率约为2%。
对此的解释如下:平均而言,对于每1,000名测试的司机,
1个司机喝醉了,并且100%确定该司机的检测结果为真阳性,因此有1个真阳性检测结果
999名司机未醉酒,其中司机有5%的假阳性检测结果,因此有49.95个假阳性检测结果
因此,在1+49.95=.95的阳性检测结果中,其中一名司机真正喝醉的概率是1/.95≈0.019627.
然而,这个结果的有效性确实取决于最初假设的有效性,即警察确实是随机停车,而不是因为驾驶不当。如果存在阻止驾驶员的那个或其他非任意原因,则计算还涉及醉酒驾驶员能够胜任驾驶和非醉驾驾驶员(不能够)胜任驾驶的概率。
更正式地说,使用贝叶斯定理可以建立大约0.02的相同概率。目标是在酒精分析仪指示驾驶员醉酒的情况下找到驾驶员醉酒的概率,可以表示为
p(drunķ∣D)
其中D表示呼气测醉器指示驾驶员喝醉了。贝叶斯定理告诉我们
p(drunķ∣D)=p(D∣drunķ)p(drunķ)p(D).
我们在第一段中被告知以下内容:
p(drunk)=0.001,
p(sober)=0.999,
p(D∣drunķ)=1.00,和
p(D∣s○ber)=0.05。
从公式中可以看出,贝叶斯定理需要p(D),可以使用总概率定律从前面的值计算:
p(D)=p(D∣drunķ)p(drunķ)+p(D∣s○ber)p(s○ber)
这使
p(D)=(1.00×0.001)+(0.05×0.999)=0.095。
将这些数字代入贝叶斯定理,可以发现
p(drunķ∣D)=1.00×0.0010.095=0.019627。
示例3:恐怖分子识别
在一个拥有100万居民的城市中,假设有100名恐怖分子和999,900名非恐怖分子。为简化示例,假设城市中的所有人都是居民。因此,随机选择的城市居民是恐怖分子的基本概率是0.0001,而同一居民是非恐怖分子的基本概率是0.9999。为了抓捕恐怖分子,该市安装了带有监控摄像头和自动面部识别软件的警报系统。
该软件有两个故障率1%:
假阴性率:如果摄像机扫描到恐怖分子,99%的时间会响铃,1%的时间不会响铃。
误报率:如果摄像头扫描到一个非恐怖分子,99%的时间不会响铃,但有1%的时间会响铃。
现在假设一个居民触发了警报。这个人是恐怖分子的概率是多少?换句话说,P(T|B)是多少,在铃声响起的情况下发现恐怖分子的概率是多少?做出“基本比率谬误”的人会推断出被检测到的人是恐怖分子的概率为99%。虽然这个推论似乎有道理,但它实际上是一个糟糕的推理,下面的计算将表明恐怖分子的概率实际上接近1%,而不是接近99%。
这种谬误源于混淆了两种不同故障率的性质。“每100名恐怖分子中的非恐怖分子数量”和“每100名恐怖分子中的非恐怖分子数量”是不相关的数量。一个不一定等于另一个,它们甚至不必几乎相等。为了证明这一点,请考虑如果在没有恐怖分子的第二个城市设置相同的警报系统会发生什麽。与第一个城市一样,每发现100个非恐怖分子居民中就有1个会发出警报,但与第一个城市不同的是,警报从不会为恐怖分子发出。因此,所有拉响警报的场合100%都是针对非恐怖分子的,但甚至无法计算误报率。该城市的“每100个钟声中的非恐怖分子数量”为100,但P(T|B)=0%。
想像一下,第一个城市的全部100万人都从镜头前经过。100名恐怖分子中约有99人将触发警报,999,900名非恐怖分子中约有9,999人将触发警报。因此,约有10,098人将触发警报,其中约99人将是恐怖分子。触发警报的人实际上是恐怖分子的概率仅为10,098分之99,不到1%,而且非常非常远低于我们最初猜测的99%。
在这个例子中,基准利率谬误非常具有误导性,因为非恐怖分子比恐怖分子多得多,而且误报(非恐怖分子被扫描为恐怖分子)的数量比真阳性(恐怖分子被扫描为恐怖分子)的数量要多得多。
多位从业者认为,由于恐怖主义的基本比率极低,由于误报悖论,使用数据挖掘和预测算法来识别恐怖分子是不可行的。每个准确结果的误报数量估计从一万多到十亿不等;因此,调查每条线索的成本和时间都令人望而却步。使这些模型可行所需的准确度水平可能无法实现。最重要的是,恐怖主义的低基数也意味着缺乏用于製定准确算法的数据。此外,在检测恐怖主义的情况下,假阴性是非常不受欢迎的,因此必须尽可能地减少,但这需要以牺牲特异性为代价提高敏感性,增加假阳性。鑑于超过99%的结果将是误报,执法部门使用此类模型是否会满足必要的举证责任也是值得怀疑的。
心理学的发现
在实验中,人们发现当前者可用时,人们更喜欢个体信息而不是一般信息。
在一些实验中,要求学生估计假设学生的平均绩点(GPA)。当给出关于GPA分佈的相关统计数据时,如果给出关于特定学生的描述性信息,即使新的描述性信息显然与学校表现几乎没有相关性,学生也倾向于忽略它们。这一发现被用来论证面试是大学录取过程中不必要的一部分,因为面试官无法比基本统计数据更好地挑选成功的候选人。
心理学家丹尼尔·卡尼曼(DanielKahneman)和阿莫斯·特沃斯基(AmosTversky)试图用一个简单的规则或称为代表性的“启发式”来解释这一发现。他们认为,许多与可能性或因果关係有关的判断是基于一件事对另一件事或一个类别的代表性。Kahneman认为基本速率忽略是扩展忽略的一种特定形式。RichardNisbett认为,一些归因偏差如基本归因错误是基本利率谬误的实例:人们不使用关于其他人在类似情况下如何表现的“共识信息”(“基本利率”),而是更喜欢更简单的性格归因。
关于人们欣赏或不欣赏基本利率信息的条件,心理学存在相当大的争论。启发式和偏差计划的研究人员强调了实证研究结果,表明人们倾向于忽略基本比率并做出违反某些概率推理规范的推论,例如贝叶斯定理。从这一研究方向得出的结论是,人类概率思维从根本上是有缺陷的并且容易出错。其他研究人员强调了认知过程和信息格式之间的联繫,认为这样的结论通常是没有根据的。
再次考虑上面的示例2。所需的推论是估计(随机挑选的)司机喝醉的(后验)概率,假设呼气测醉器测试为阳性。形式上,这个概率可以使用贝叶斯定理来计算,如上所示。但是,有不同的方式来呈现相关信息。考虑以下问题的形式等效变体:
每1000名司机中就有1名酒驾。呼气测醉器永远不会检测到一个真正醉酒的人。对于999名未醉酒的司机中的名,酒精检测仪会错误地显示醉酒情况。假设警察随后随意拦住一名司机,并强迫他们进行酒精测试。这表明他们喝醉了。我们假设您对它们一无所知。他们真正喝醉的可能性有多大?
在这种情况下,相关的数值信息——p(drunk)、p(D|drunk)、p(D|sober)——以相对于某个参考类的固有频率表示(参见参考类问题)。实证研究表明,当信息以这种方式呈现时,人们的推论更接近于贝叶斯规则,有助于克服外行和专家对基本率的忽视。因此,像CochraneCollaboration这样的组织建议使用这种格式来传达健康统计数据。教人们将这些贝叶斯推理问题转化为自然频率格式比仅仅教他们将概率(或百分比)插入贝叶斯定理更有效。还表明,自然频率的图形表示(例如,图标阵列)有助于人们做出更好的推断。
为什麽自然频率格式有帮助?一个重要的原因是这种信息格式有助于所需的推理,因为它简化了必要的计算。当使用另一种计算所需概率p(drunk|D)的方法时,可以看出这一点:
p(drunk∣D)=N(drunk∩D)N(D)=151=0.0196
其中N(drunk∩D)表示醉酒并获得积极呼气测醉结果的司机人数,N(D)表示酒醉测试结果呈阳性的司机总数。该方程与上述方程的等价性来自概率论公理,根据该公理,N(drunk∩D)=N×p(D|醉酒)×p(醉)。重要的是,虽然这个方程在形式上等价于贝叶斯规则,但它在心理上并不等价。使用自然频率可以简化推理,因为可以对自然数而不是归一化分数(即概率)执行所需的数学运算,因为它使大量误报更加透明,并且因为自然频率表现出“嵌套集”结构体”。
并非每种频率格式都有助于贝叶斯推理。自然频率是指自然採样产生的频率信息,它保留了基本速率信息(例如,在对驾驶员进行随机抽样时,醉酒驾驶员的数量)。这与系统抽样不同,后者的基本比率是先验固定的(例如,在科学实验中)。在后一种情况下,不可能推断出后验概率p(醉酒|阳性测试)来自将醉酒和测试呈阳性的司机人数与呼气测醉结果呈阳性的总人数进行比较,因为基本比率信息没有保留,必须使用贝叶斯定理明确地重新引入.