数风流人物,还靠泊松回归协和八

?说人话的统计学?

咱们《说人话的统计学》专栏从开始介绍统计建模以来,已经依次介绍了线性回归、二分类逻辑回归、多项逻辑回归、定序回归等几种回归模型。正如我们已经着重指出过的,这几种回归模型在本质上是相通的——它们都是用一些自变量的线性组合来预测因变量的取值。而因变量的类型和性质,则决定了我们要在自变量的线性组合这个内核基础上,再搭配怎样的变换,以打通自变量和因变量之间的联系,这正是上面这几种回归模型的差异所在。

现在就让我们来复习一下,遇到什么样的因变量,应该召唤哪种回归模型。因变量是连续变量?「基本款」线性回归可以搞定。因变量是二分类变量?二分类逻辑回归为您效劳。要是多分类变量呢?那我们还得看看这些分类是无序(名义变量)还是有序(定序变量)的,前者要用多项逻辑回归,而后者则要用到前两集介绍的定序回归模型。

读到这里,你可能要问这样一个问题:上面这几种情况是否已经覆盖了所有可能的因变量类型?粗略一想,答案似乎是肯定的。许久以前,我们在《数据到手了,第一件事先干啥?》里讲过的变量分类方法里,就是大体按这几种情况区分的。然而,看过下面这个例子以后你会发现,有个灰色地带并没有被以上的几种情况覆盖到。

计数变量

如果大家几周以前读过《让人眼花缭乱的多项逻辑回归,原来是这么用的》,也许还记得,格格巫在蓝精灵村落推出了自动售货机。在那集文章里,我们用多项逻辑回归模型分析了如下问题:时间和天气这两种因素对蓝精灵顾客们对商品(蓝莓、披萨、蘑菇、面包)的选择有什么影响?最近,格格巫再次走访了遍布村落各处的自动售货机,发现放置在不同地点的机器的顾客数量有很大差异,有的售货机货物周转很快,有的售货机则是门庭冷落。于是,他想研究一下,不同售货机的客流量与什么因素有关——这个问题对格格巫的生意显然十分重要,如果能对客流量的影响因素有了准确认识,不仅可以更好地安排货物的补给和更新,以避免客流繁忙的售货机出现断货,而且还能对未来增加的自动售货机的选址提供指导意见。

根据以往的经验,格格巫知道,周末晚上是自动售货机的重点销售时段。因此,他让助手整理出了旗下所有台自动售货机上周六晚上8点到午夜12点之间有多少人次买过东西。至于可能的影响因素,格格巫想考虑每台售货机附近街区居民的收入水平(连续变量)、售货机周围米内是否有便利店(二分类变量)、是否有公交车站(二分类变量)。要研究的问题弄清楚了,那么我们应该用什么模型来分析这些数据呢?

既然我们已经熟悉的几种回归模型在使用上是按照因变量的类型来划分的,那么就让我们来看一看,在自动售货机买东西的人次是个什么类型的变量——能不能算是连续变量呢?严格来讲,人次这个东西只能取非负的整数,不能算是「连续」的,但实际应用时并不能那么死板。当因变量是连续变量时,线性回归模型认为,因变量在由自变量的线性组合确定的平均值周围呈正态分布。我们知道,正态分布是个对称的钟型曲线,离均值越远,概率就越小,而且正态分布的方差越小,曲线就越瘦。所以,即便因变量有特定的界限(比如说非负),只要实际的取值离界限很远(比如说人次的数量级很大)、分布又比较「紧凑」(方差比较小)的话,还是可以用正态分布来建模。在这种情况下,因变量只能取整数也无伤大雅,因为每个整数之间的间隔比起数据的数量级小得多。

那格格巫手上的人次数据能不能当连续变量来看呢?格格巫浏览了一下,发现有不少售货机的人次数值很小,甚至还有一些是0。这样以来,我们刚才说的条件就不符合了,看来还得另寻他法。人次算不算分类变量呢?这听起来有点别扭,没有顺序的名义变量肯定是不对的,有序变量似乎还能沾上点边儿,但仔细斟酌还是不太对。我们强调过,有序变量只讲方向、不谈距离,但人次的数据又是有距离可言的,比如说,3和2的距离与20和19的距离是一样的。因此,要是硬把定序回归套上去,就不能很好地体现这一信息,得到的结论也可能是不完善的。

所以,我们现在面对的是一个新问题,需要用新的方法来解决。像人次这样的变量,本质上是一个数(第三声)出来的数(第四声),描述了一个时间或空间范围内某个事件发生的次数,所以称为「计数变量」(countvariable)。在日常生活中,计数变量的例子很多,除了某个地方的来访人数以外,还可以是你睡着之前数到第几只绵羊、一定时间内某个网页的点击量、某个路口的车流量、某罕见病的发病数、某些产品或机器发生故障的次数、某个地域范围内发生某种自然灾害的次数等等。

泊松回归

要研究某些因素与一个计数变量之间的关系,我们首先要弄清楚,计数变量会(在理想条件下)服从一个怎样的概率分布。这个问题在将近两百年前被法国数学家泊松(Poisson)所解决,因而这个分布被称为「泊松分布」(Poissondistribution)。泊松分布的定义是什么样子的呢?

假设我们考虑某个事件(比如说,任意某个人来到一台特定的无人售货机买东西)在一段时间(比如说,上周六晚上8点到12点)内随机发生。如果我们把这个时间段分成许多前后相接、互不包含的极其微小的时间段,那么可以想象,假如这些时间段的长度变短,在该微小时间段内,发生这个事件的概率也会变小。这个在直觉上很好理解,假如格格巫在一台自动售货机边上蹲1分钟、1秒钟、0.1秒钟,在他蹲着的时间里正好遇上有人来买东西的概率自然会越来越小。泊松在数学上证明,如果:

(1)在一个微小的时间段内该事件发生一次的概率与时间段的长度成正比;

(2)在一个微小的时间段内不可能发生两次该事件;

(3)随意挑出两个不同的微小时间段,在一个时间段内该事件发生与否,不影响另一个时间段内该事件是否发生(即两者相互独立);

则在整个时间段里,事件发生次数Y=k(k为非负整数)的概率是

其中表示k的阶乘,即1·2·3·…·(k-1)·k,而则是这个分布的唯一一个参数(parameter)。

在进一步讨论泊松分布的性质之前,我们先来想想,我们通常感兴趣的计数变量是不是符合上面的三个条件呢?第一个条件看起来挺合理的,比如说从9点0分0秒到9点0分0.3秒,这段时间内来一个顾客的概率将是9点0分0秒到9点0分0.1秒这段时间内来一个顾客概率的3倍。第二个条件也说得通,如果时间段分得足够细,总归可以把各个人次分开——即便是再繁忙的售货机,某两个顾客出现的时间总不可能分毫不差。第三个条件呢,大致上是说顾客们的行动都是各自为政的,不存在说几人结伴而行或是一个人买完东西以后打电话叫另一个人来买。而且,如果一个人在整个时间段里来了不止一次,他每次来的决定也与上次无关。不难想象,这第三个条件有时候可能会不太符合实际,但即便如此,泊松分布仍然是个合理的近似,可以作为统计建模的出发点。

我们已经知道,泊松分布只有一个参数,就是λ,它一定是个正数,但不一定要是整数。它的意义是什么呢?λ既是事件发生次数X的均值,也是其方差。λ是事件发生次数的均值,意味着它代表了这个事件背后的某种本质规律,但并不意味着在任何的试验中,我们都一定会观察到该事件发生了λ次。λ越大,意味着在我们考虑的整个时间段内,该事件平均来说会发生的次数越大,但同样也不完全排除实际事件发生次数与λ相去甚远的情况(虽然可能性比较小)。下面的图1绘出了λ分别取1、4、10时事件发生次数k(k=1,2,3,…)的概率。容易发现,λ越小,概率分布越不对称(因为发生次数k接近于0的概率很大)。

图1均值取不同数值时的泊松分布

(图片来源:







































白癜风什么中药可以
北京看白癜风的医院



转载请注明地址:http://www.ebushicaoa.com/ecrg/2812.html
  • 上一篇文章:
  • 下一篇文章:
  • 热点文章

    • 没有热点文章

    推荐文章

    • 没有推荐文章