章节出错了,点此刷新,刷新后小编会在两分钟内校正章节内容,请稍后再试。
林德利悖论
林德利悖论是统计中的一种违反直觉的情况,其中假设检验问题的贝叶斯和频率论方法对先验分佈的某些选择给出了不同的结果。HaroldJeffreys1939年的教科书讨论了这两种方法之间的分歧问题;在丹尼斯·林德利(DennisLindley)在1957年的一篇论文中称这种分歧为悖论之后,它被称为林德利悖论。
儘管被称为悖论,但贝叶斯和频率论方法的不同结果可以解释为使用它们来回答根本不同的问题,而不是两种方法之间的实际分歧。
然而,对于一大类先验,频率论和贝叶斯方法之间的差异是由保持显着性水平固定引起的:正如林德利所承认的那样,“该理论并不能证明保持显着性水平固定的做法是合理的”,甚至“一些Pearson教授在对该论文的讨论中的计算强调瞭如果损失和先验概率保持固定,显着性水平将如何随样本量而变化。''事实上,如果临界值随着样本量适当地快,那麽随着样本量的增加,常客和贝叶斯方法之间的分歧变得可以忽略不计。
悖论的描述
结果X一些实验有两种可能的解释,假设H0和H1,以及一些先验分佈π在考虑之前表示不确定哪个假设更准确X.
林德利悖论发生在
结果X是“显着”的频率测试H0,表明有足够的证据拒绝H0,比如说,在5%的水平上,并且
的后验概率H0给定X高,表明强有力的证据表明H0更符合X比H1.
这些结果可以同时发生H0很具体,H1更分散,并且先验分佈不会强烈支持其中一个,如下所示。
数值例子
以下数值示例说明了Lindley悖论。在某个城市,在一定时期内出生了49,581名男孩和48,870名女孩。观察到的比例X因此,男性出生率为49,581/98,451≈0.5036。我们假设男性出生的比例是带有参数的二项式变量θ.我们有兴趣测试是否θ是0.5或其他值。也就是说,我们的零假设是H0:θ=0.5另一种选择是H1:θ≠0.5.
频率论方法
频率论者的测试方法H0是计算一个p值,即观察到一小部分男孩的概率至少与X假设H0是真的。由于出生人数非常多,我们可以对男性出生的比例使用正态近似值X~ñ(μ,σ2),和μ=np=nθ=98,451×0.5=49,225.5和σ2=nθ(1-θ)=98,451×0.5×0.5=24,612.75,计算
P(X≥X∣μ=49225.5)=∫X=495819845112πσ2e−(u−μσ)2/2du=∫x=495819845112π(24,612.75)e−(u−49225.5)224612.75/2du≈0.0117.
如果我们看到49,581名女性出生,我们同样会感到惊讶,即X≈0.4964,因此常客通常会执行一个双边测试,其p值为p≈2×0.0117=0.0235.在这两种情况下,p值都低于5%的显着性水平α,因此频率论方法拒绝H0因为它与观察到的数据不一致。
贝叶斯方法
假设没有理由支持一个假设而不是另一个假设,贝叶斯方法将分配先验概率π(H0)=π(H1)=0.5和均匀分佈到θ在下面H1,然后计算后验概率H0使用贝叶斯定理,
P(H0∣ķ)=P(ķ∣H0)π(H0)P(ķ∣H0)π(H0)+P(ķ∣H1)π(H1).
观察后ķ=49,581男孩出n=98,451出生,我们可以使用二项式变量的概率质量函数计算每个假设的后验概率,
P(ķ∣H0)=(nk)(0.5)k(1−0.5)n−k≈1.95×10−4P(k∣H1)=∫01(nk)θk(1−θ)n−kdθ=(nk)B(k+1,n−k+1)=1/(n+1)≈1.02×10−5
在哪裡E(A,b)是Beta函数。
从这些值,我们发现后验概率P(H0∣ķ)≈0.95,强烈支持H0超过H1.
这两种方法——贝叶斯和常客——似乎是冲突的,这就是“悖论”。
调和贝叶斯方法和频率论方法
几乎可以肯定的假设检验
Naaman提出了使显着性水平适应样本大小以控制误报:αn,使得αn=n-r且r>1/2。至少在数值示例中,取r=1/2导致显着性水平为0.00318,因此常客不会拒绝原假设,这与贝叶斯方法大致一致。
无信息的先验
如果我们使用无信息的先验并检验与频率论方法更相似的假设,则悖论就会消失。
例如,如果我们计算后验分佈P(θ∣X,n),使用均匀的先验分佈θ(IEπ(θ∈[0,1])=1),我们发现
磷(θ∣ķ,n)=B(ķ+1,n-ķ+1).
如果我们用它来检查新生儿比女孩更有可能是男孩的概率,即P(θ>0.5∣ķ,n),我们发现
∫0.51B(49582,48871)≈0.983。
也就是说,男性出生的比例很可能在0.5以上。
两种分析都没有直接估计效应大小,但两者都可以用来确定,例如,男孩出生的比例是否可能高于某个特定阈值。
缺乏实际的悖论
两种方法之间明显的分歧是由多种因素共同造成的。首先,上面测试的频率论方法H0不参考H1.贝叶斯方法评估H0作为替代H1,并发现第一个与观察结果更一致。这是因为后一种假设更加分散,因为θ可以在任何地方[0,1],这导致它具有非常低的后验概率。为了理解原因,将这两个假设视为观察值的生成器是有帮助的:
在下面H0,我们选择θ≈0.500,并询问在98,451次分娩中看到49,581名男孩的可能性有多大。
在下面H1,我们选择θ从0到1的任意位置随机选择,并提出相同的问题。
大多数可能的值θ在下面H1观察结果的支持非常差。本质上,这些方法之间明显的分歧根本不是分歧,而是关于假设如何与数据相关的两种不同陈述:
常客发现H0对观察的解释很差。
贝叶斯发现H0是比观察更好的解释H1.
根据常客测试,新生儿的性别比例不可能是50/50男性/女性。然而,50/50是比大多数(但不是全部)其他比率更好的近似值。假设θ≈0.504会比几乎所有其他比率更适合观察,包括θ≈0.500.
例如,这种假设和先验概率的选择意味着这样的陈述:“如果θ>0.49和θ<0.51,则先验概率θ正好是0.5是0.50/0.51≈98%。”鑑于如此强烈的偏好θ=0.5,很容易看出为什麽贝叶斯方法有利于H0面对X≈0.5036,即使观测值X谎言2.28σ远离0.5。超过2sigma的偏差H0在频率论方法中被认为是重要的,但它的重要性被贝叶斯方法中的先验所推翻。
换个角度来看,我们可以看到先验分佈基本上是平坦的,delta函数为θ=0.5.显然这是值得怀疑的。事实上,如果你将实数描绘为连续的,那麽假设任何给定的数字都不可能完全是参数值会更合乎逻辑,即我们应该假设P(θ=0.5)=0.
更现实的分佈θ在替代假设中,H0.例如,如果我们替换H1和H2:θ=X,即最大似然估计θ,的后验概率H0将只有0.07与0.93相比H2(当然,实际上不能将MLE用作先前分发的一部分)。
最近的讨论
这个悖论继续成为积极讨论的来源。