字:
关灯 护眼
快眼看书 / 耶和华 /  42

 42

章节出错了,点此刷新,刷新后小编会在两分钟内校正章节内容,请稍后再试。

  弗里德曼悖论
  在统计分析中,弗里德曼悖论[以大卫弗里德曼命名,是模型选择中的一个问题,即与因变量无关的预测变量可以通过显着性检验——无论是单独通过t检验,还是联合通过F检验回归的显着性。Freedman证明(通过模拟和渐近计算)当变量的数量与数据点的数量相似时,这是一种常见的情况。
  具体来说,如果因变量和k个回归变量是独立的正态变量,并且有n个观测值,那麽当k和n在比率k/n=ρ中共同趋于无穷大时,
  R2变为ρ,_
  整体回归的F统计量变为1.0,并且
  虚假显着回归变量的数量达到αk,其中α是选择的临界概率(回归变量的I类错误概率)。这第三个结果很直观,因为它表明I类错误的数量等于单个参数上I类错误的概率乘以测试显着性的参数数量。
  最近,已经开发了新的信息论估计器以试图减少这个问题,除了伴随的模型选择偏差问题,预测变量的估计器与响应变量的关係较弱有偏见。
  友谊悖论
  友谊悖论是社会学家斯科特·L·费尔德在1991年首次观察到的现象,即平均而言,大多数人的朋友比他们的朋友少。这可以解释为一种抽样偏差形式,在这种形式中,拥有更多朋友的人更有可能属于自己的朋友群体。换句话说,一个人不太可能与朋友很少的人成为朋友。与此相反,大多数人认为他们的朋友比他们的朋友多。
  同样的观察可以更广泛地应用于由其他关係而非友谊定义的社交网络:例如,大多数人的**(平均而言)拥有比他们拥有的更多数量的**。
  友谊悖论是网络结构如何显着扭曲个人的局部观察的一个例子。
  
  7-8岁儿童的社交网络图,通过要求每个孩子指出他们希望在课堂上坐在旁边的另外两个孩子来绘製。大多数孩子的联繫少于他们所联繫的平均水平。
  数学解释
  儘管其明显自相矛盾的性质,这种现像是真实的,并且可以解释为社交网络的一般数学特性的结果。这背后的数学与算术几何平均不等式和柯西-施瓦茨不等式直接相关。
  形式上,Feld假设一个社交网络由一个无向图G=(V,E)表示,其中顶点集合V对应社交网络中的人,边集合E对应对之间的友谊关係的人。也就是说,他假设友谊是一种对称关係:如果x是y的朋友,那麽y是x的朋友。因此,x和y之间的友谊由边{x,y},一个人的朋友数量对应一个顶点的degree。因此,社交网络中一个人的平均朋友数由图中顶点的度数的平均值给出。也就是说,如果顶点v有d(v)条边接触它(代表一个有d(v)个朋友的人),那麽图中随机人的平均朋友数μ为
  μ=∑v∈Vd(v)|V|=2|B||V|.
  一个典型朋友的平均朋友数量可以通过随机选择一个人(他至少有一个朋友)来建模,然后计算他们的朋友平均有多少朋友。这相当于随机均匀地选择图的一条边(代表一对朋友)和该边的一个端点(其中一个朋友),然后再次计算所选端点的度数。某个顶点的概率v要选择的是
  d(v)|B|12.
  第一个因素对应于所选边包含顶点的可能性,当顶点有更多朋友时,可能性会增加。减半因子仅仅来自于每条边都有两个顶点的事实。所以(随机选择的)朋友的朋友数量的期望值为
  ∑v(d(v)|E|12)d(v)=∑vd(v)22|B|.
  我们从方差的定义中知道
  ∑vd(v)2|V|=μ2+σ2,
  在哪裡σ2是图中度数的方差。这使我们能够计算所需的期望值
  ∑vd(v)22|E|=|V|2|E|(μ2+σ2)=μ2+σ2μ=μ+σ2μ.
  对于具有不同程度的顶点的图(对于社交网络来说是典型的),σ2是严格正的,这意味着朋友的平均度严格大于随机节点的平均度。
  另一种理解第一个术语是如何产生的方法如下。对于每个友谊(u,v),节点u提到v是朋友并且v有d(v)个朋友。有d(v)个这样的朋友提到了这一点。因此是d(v)项的平方。我们从u和v的角度为网络中的所有此类友谊添加这个,这给出了分子。分母是此类友谊的总数,它是网络中总边数的两倍(一个来自u的角度,另一个来自v的角度)。
  在这个分析之后,费尔德继续对两个朋友的朋友数量之间的统计相关性做出一些更定性的假设,基于诸如分类混合等社交网络理论,他分析了这些假设对人数的影响谁的朋友比他们有更多的朋友。基于这一分析,他得出结论,在真实的社交网络中,大多数人的朋友可能比他们朋友的平均朋友数要少。然而,这个结论不是数学上的确定性;存在无向图(如从一个大的完全图中去掉一条边形成的图)不太可能作为社交网络出现,但其中大多数顶点的度数高于其邻居度数的平均值。
  友谊悖论可以用图论术语重新表述为“网络中随机选择的节点的平均度数小于随机选择的节点的邻居的平均度数”,但这没有说明平均的确切机制(即,宏观与微观平均)。让G=(V,E)是一个无向图|V|=ñ和|E|=M,没有孤立的节点。让节点的邻居集合u被表示operatorname⁡(I).那麽平均学位是μ=1ñ∑I∈V|operatorname⁡(I)|=2Mñ≥1.让节点的“朋友的朋友”的数量I被表示nbr⁡(I)=∑v∈operatorname⁡(I)|operatorname⁡(v)|.请注意,这可以多次计算2跳邻居,但Feld的分析也是如此。我们有nbr⁡(I)≥|operatorname⁡(I)|≥1.费尔德考虑了以下“微观平均”数量。
  MicroAvg=∑I∈Vnbr⁡(I)∑I∈V|leftarrow⁡(I)|
  然而,也有(同样合法的)“宏观平均”数量,由下式给出
  MacroAvg=1ñ∑I∈Vnbr⁡(I)|leftarrow⁡(I)|
  MacroAvg的计算可以表示为以下伪代码。
  算法MacroAvg
  对于每个节点I∈V
  初始化Q(I)←0
  对于每条边{I,v}∈B
  Q(u)←Q(u)+|nbr⁡(v)||nbr⁡(u)|
  Q(v)←Q(v)+|leftarrow⁡(I)||leftarrow⁡(v)|
  返回1ñ∑I∈VQ(I)
  “←”表示赋值。例如,“最大←item”表示最大的值更改为item的值。
  “return”终止算法并输出以下值。
  每条边{I,v}对MacroAvg|nbr⁡(v)||nbr⁡(I)|+|nbr⁡(I)||nbr⁡(v)|≥2,因为MinuteA,b>0Ab+bA=2.我们因此得到
  MacroAvg=1ñ∑I∈VQ(I)≥1ñ⋅M⋅2=2Mñ=μ.
  因此,我们同时拥有MicroAvg≥μ和MacroAvg≥μ,但它们之间不存在不等式。
  应用
  对友谊悖论的分析表明,随机选择的个人的朋友可能具有高于平均水平的中心性。这种观察已被用作预测和减缓流行病进程的一种方式,通过使用这种随机选择过程来选择个体进行免疫或监测感染,同时避免对网络中所有节点的中心性进行複杂计算的需要。以类似的方式,在民意调查和选举预测中,友谊悖论已被利用,以接触和询问可能知道其他人将如何投票的人脉广泛的个人.
  Christakis和Fowler在2010年的一项研究表明,通过使用友谊悖论监测社交网络中的感染情况,可以比传统监测措施早两週检测到流感爆发。他们发现,使用友谊悖论分析中心朋友的健康状况是“一种预测疫情的理想方法,但大多数群体都不存在详细信息,而且製作它既费时又费钱。”
  基于友谊悖论的抽样(即抽样随机朋友)已在理论上和经验上被证明优于经典的均匀抽样,用于估计无标度网络的幂律度分佈。这是因为对网络进行均匀採样不会从特徵重尾中收集到足够的样本幂律度分佈的一部分来正确估计它。然而,抽样随机朋友将更多的来自度分佈尾部的节点(即更高度的节点)合併到样本中。因此,基于友谊悖论的採样更准确地捕获了幂律度分佈的特徵重尾,并减少了估计的偏差和方差。
  “广义友谊悖论”指出,友谊悖论也适用于其他特徵。例如,一个人的共同作者平均可能更突出,有更多的出版物、更多的引用和更多的合作者,或者一个人在Twitter上的追随者有更多的追随者。Bollen等人(2017)[24]对主观幸福感也证明了同样的效果,他们使用大型Twitter网络和网络中每个人的主观幸福感纵向数据来证明友谊和“幸福”悖论都可能发生在在线社交网络中。
热门推荐