章节出错了,点此刷新,刷新后小编会在两分钟内校正章节内容,请稍后再试。
阿贝尔森悖论
Abelson悖论是由RobertP.Abelson确定的应用统计悖论。这个悖论涉及r2(即决定係数)效应大小的大小与其实际意义之间可能存在的矛盾关係。
Abelson的例子是从棒球击球率和技能水平的r2分析中获得的。儘管击球率被认为是成功所必需的最重要的特徵之一,但影响大小只有很小的0.003。
准确性悖论
准确性悖论是一个矛盾的发现,即在预测分析中进行分类时,准确性并不是预测模型的良好指标。这是因为一个简单的模型可能具有很高的准确性,但过于粗糙而无用。例如,如果A类的发生率占主导地位,在99%的案例中被发现,那麽预测每个案例都是A类的准确率将达到99%。在这种情况下,精确率和召回率是更好的衡量标准。根本问题是正类和负类之间存在类不平衡。这些类别的先验概率需要在错误分析中加以考虑。精度和召回率有帮助,但精度也可能会受到测试集中非常不平衡的类先验的影响。
例子
例如,一个拥有100万人口的城市有十个恐怖分子。分析系统会产生以下混淆矩阵:
预测等级/实际班级
恐怖分子不是恐怖分子和
恐怖分子10010
不是恐怖分子990999000999990
和10009990001000000
虽然准确率是10+999000/1000000≈99.9%,1000个阳性预测中有990个是不正确的。精度10/10+990=1%表明其表现不佳。由于类如此不平衡,更好的衡量标准是F1分数=2×0.01×1/0.01+1≈2%(召回率是10+0/10=1)。
伯克森悖论
伯克森悖论,也称为伯克森偏差、对撞机偏差或伯克森谬误,是条件概率和统计的结果,通常被发现是违反直觉的,因此是一个真实的悖论。这是比例统计检验中出现的一个複杂因素。具体来说,当研究设计中存在固有的确定偏差时,就会出现这种情况。该效应与贝叶斯网络中的解释消失现像以及图形模型中对撞机的条件有关。
它经常被描述在医学统计学或生物统计学领域,正如JosephBerkson对这个问题的原始描述。
伯克森悖论的一个例子:
在图1中,假设人才和吸引力在人群中不相关。
在图2中,使用名人对人群进行抽样的人可能会错误地推断人才与吸引力呈负相关,因为既没有才华也没有吸引力的人通常不会成为名人。
例子
伯克森悖论的例证。上图表示实际分佈,其中观察到汉堡和薯条的质量之间存在正相关。然而,一个不在任何两个都不好的地方吃饭的人只观察到底部图表上的分佈,这似乎显示出负相关。
概述
伯克森悖论最常见的例子是错误地观察到两个理想特徵之间的负相关,即具有某些理想特徵的群体成员往往缺乏第二个。伯克森悖论发生在这一观察结果似乎正确时,而实际上这两个属性不相关——甚至是正相关——因为两者都不存在的群体成员没有被同等地观察到。例如,一个人可能会从他们的经验中观察到,他们所在地区供应优质汉堡包的快餐店往往会供应劣质薯条,反之亦然;但因为他们可能不会在任何地方都吃很糟糕,他们没有考虑到这一类别中的大量餐厅,这会削弱甚至颠倒相关性。
原图
伯克森的原始插图涉及一项回顾性研究,该研究在医院住院患者群体的统计样本中检查疾病的危险因素。由于样本取自医院住院患者群体,而不是普通公众,这可能导致疾病与风险因素之间存在虚假的负相关。例如,如果危险因素是糖尿病,而疾病是胆囊炎,那麽没有糖尿病的住院病人更比普通人群更可能患有胆囊炎,因为患者首先必须有一些非糖尿病(可能引起胆囊炎)的原因才能进入医院。无论普通人群中糖尿病和胆囊炎之间是否存在任何关联,都会获得该结果。
艾伦伯格示例
JordanEllenberg举了一个例子:假设亚历克斯只会和一个男人约会,如果他的善良加上他的英俊超过了某个阈值。那麽更好的男人不必像亚历克斯的约会对像那样英俊。所以,在亚历克斯约会的男人中,亚历克斯可能会观察到,平均而言,更好的人不那麽帅(反之亦然),即使这些特徵在一般人群中是不相关的。请注意,这并不意味着约会池中的男性与人群中的男性相比处于不利地位。相反,亚历克斯的选择标准意味着亚历克斯的标准很高。亚历克斯约会的普通好男人实际上比人群中的普通男人更英俊(因为即使在好男人中,人群中最丑的部分也被跳过了)。伯克森的负相关是在约会池中产生的一种效应:亚历克斯约会的粗鲁男人一定更帅才有资格。
定量例子
举个定量的例子,假设一个收藏家有1000张邮票,其中300枚漂亮,100枚稀有,30枚既漂亮又稀有。他所有的邮票中有10%是稀有的,而他漂亮的邮票中有10%是稀有的,所以漂亮并不能说明稀有性。他展示了370枚精美或稀有的邮票。展出的邮票中只有27%以上是稀有的(100/370),但仍然只有10%的漂亮邮票是罕见的(展出的70枚不漂亮的邮票中有100%是罕见的)。如果观察者只考虑展出的邮票,他们会观察到由于选择偏差而在漂亮和稀有之间存在虚假的负关係(即,不漂亮强烈表明在展示中稀有,但在总收藏中却没有)。
陈述
鑑于其中至少一个事件发生,两个独立事件成为条件依赖。象徵性地:
如果0<P(A)<1,0<P(B)<1,和P(A|B)=P(A),然后P(A|B,A∪B)=P(A)因此P(A|A∪B)>P(A).
事件A和事件B可能发生也可能不会发生
P(A|B),条件概率,是观察事件的概率A鑑于B是真的。
说明:事件A和B彼此独立
P(A|B,A∪B)是观察事件的概率A鑑于B和(A或者B)发生。这也可以写成P(A|B∩(A∪B))
解释:概率A鑑于两者B和(A或者B)小于概率A给定(A或者B)
换句话说,给定两个独立事件,如果您只考虑至少发生一个事件的结果,那麽它们将成为条件依赖,如上所示。
解释
原因是事件的条件概率A发生,鑑于它或B发生,被夸大:它高于无条件概率,因为我们排除了两者都不发生的情况。
P(A|A∪B)>P(A)
相对于无条件的条件概率膨胀
可以以表格形式看到这一点,如下所示:黄色区域是至少发生一个事件的结果(~A表示“不是A”)。
这裡的概率A是25/50=1/2.
伯克森悖论的出现是因为条件概率A给定B在三细胞子集中等于总体总体中的条件概率,但是子集中的无条件概率相对于总体总体中的无条件概率被夸大了,因此,在子集中,存在B降低条件概率A(回到它的整体无条件概率):
P(A|B,A∪B)=P(A|B)=P(A)
P(A|A∪B)>P(A)