美文网首页统计统计学
统计学(50)-多水平模型

统计学(50)-多水平模型

作者: Zhigang_Han | 来源:发表于2020-02-12 18:03 被阅读0次

多水平模型打破“独立”条件
广义线性模型除要满足“线性”这一条件外,还有一个重要的条件就是“独立性" 。如果不满足线性条件,可以考虑广义可加模型;如果不满足独立性条件,则可以考虑多水平模型(Multilevel Model)。

1、什么是多水平?
image.png

(1)不难理解,所谓多水平数据,也就是自然形成的层次数据。
(2)在多水平数据中,最低层次称为水平1, 往上依次称为水平2 、水平3。如村民是水平1单位,村是水平2单位, 县是水平3单位。

2、多水平数据的非独立性

(1)调查30个村,每个村调查100人的饮食情况,对于每个村内的村民而言,他们很可能有类似的饮食习惯(如都喜欢吃咸),从而可认为村内的村民之间并不是独立的。
(2)观察60人,每人观测5个时间点,了解他们的血压值情况,对于同一个人而言,在5个时间点的血压值应该是差不多的,不会有太大的波动,从而可认为每个人的不同时间的观测值并不是独立的。

3、多水平模型的不同叫法

多水平模型在不同领域有不同的称谓,如分层线性模型(Hierarchical Linear Model) 、混合效应模型(Mixed Effect Model) 、随机效应模型(Random Effect Model) 、随机系数模型(Random Coefficient Model) 、方差成
分模型(Variance Component Model) 等,其实表达的意思都差不多,都是处理多水平数据的模型。

3、多水平模型的思想

(1)多水平模型的思想要稍微复杂一些,因为它同时包含了多个水平的数据,从而在多个水平上都存在残差。总的来说,其思想就是把高水平上的差异估计出来(传统的线性模型不考虑这一差异,将其放到了残差中),这就使得残差变小,估计的结果更为可靠。
(2)虽然理论上多水平模型可以有多个层次,但实际中最常用的是二水平模型。

4、一个例子-二水平模型

下表是12名儿童在30 、36 、42 、48个月时认知能力得分的测量结果(认知能力得分),目的是想了解年龄对认知能力得分是否有影响。(只标注出一部分)

image.png
该数据是一份二水平数据,其中儿童个体为水平2单位,测量的时间点为水平1单位。
如果用常规的线性模型拟合,就是将所有的48个数据建立线性模型。
image.png
(1)这个模型是将12名儿童的数据合起来建立的,因此有时也称合并模型(Pooled Model)。
它暗含了一个假定条件:12 名儿童的认知能力得分随年龄变化的截距和斜率都是相同的,而实际上却未必如此。(类似于4个社区SO2的统计结果)
(2)12 名儿童的认知能力得分随年龄的变化情况,可以看出,有的是随年龄增长,有的则是随年龄降低;即使在增长的儿童中,其增长速度也各不相同,有的增长快,有的增长慢。
(3)也就是说,每个人(水平2单位)的认知能力得分随年龄的变化可能有不同的截距和斜率,而传统线性模型则忽略了水平2单位上的差异。那么,既然它没有考虑到水平2单位上的差异,而水平2单位又确实存在差异,那这一差异去哪儿了呢?被线性模型归到误差中去了,
image.png
从而导致误差增大。
(4)怎样找出这种差异呢?
很自然的一个想法是利用虚拟变量回归,将12 名儿童的认知能力得分随年龄变化的截距差异和斜率差异估计出来,这样就可以反映出水平2 单位之间的差异,这种方法一般称为固定效应模型(Fixed Effect Model)。
但是固定效应模型有一个问题: 12名儿童就需要估计11个虚拟变量,当水平2单位更多的时候(如120名儿童),需要估计的参数太多,用虚拟变量就会消耗太多的自由度,估计结果不可靠,而且也没什么实际意义。因为我们并不关注具体谁和谁之间的差异有多大,我们只要知道这些儿童之间总的有多大差异就行了。这时候用固定效应模型就不大合适,而应采用随机效应模型(Random Effect Model), 也就是多水平模型。
(5)多水平模型
多水平模型是把水平2单位看作从一个更大的总体中随机抽样的个体,个体之间的差异是服从某种特定分布(如正态分布)的随机变动。这样,我们只要把这种分布的均数和方差估计出来,就可以反映出这些水平2 单位围绕均值的波动大小(变异大小)。不管是12人还是1200人,都只需要一个均值和方差便可以描述其变异大小。
5、多水平模型的分类

多水平模型根据实际情况一般可分为两大类:随机截距模型和随机斜率模型。
(1)随机截距模型
这种模型假定水平2 单位之间仅截距不同,斜率是相同的。如下图12名儿童的认知能力得分随年龄变化的斜率都相同,但截距不同。


image.png

(2)随机斜率模型
这种模型假定水平2 单位之间不仅截距不同,而且斜率也不同。下图12 名儿童的认知能力得分随年龄变化的截距和斜率都不同。


image.png
上述两类模型不做具体分析,只把握其思想,后续具体问题具体分析。

相关文章

  • 统计学(50)-多水平模型

    多水平模型打破“独立”条件广义线性模型除要满足“线性”这一条件外,还有一个重要的条件就是“独立性" 。如果不满足线...

  • R语言:多水平统计模型

    转自个人微信公粽号【易学统计】的统计学习笔记:R语言:多水平统计模型[https://mp.weixin.qq.c...

  • 统计学习方法概论

    统计学习方法概论 统计学习 监督学习 统计学习三要素 模型评估与模型选择 泛化能力 生成模型与判别模型 分类问题 ...

  • 李航-第1章统计学习方法概论

    统计学习方法的三要素:模型、策略和算法。即:统计学习方法 = 模型 + 策略 +算法 基本概念 监督学习统计学习包...

  • 统计学习方法(李航)---第一章

    (一)统计学习三要素:模型、策略、算法 (二)统计学习: 1.定义:基于数据建立概率统计模型并运用模型对数据进行预...

  • 统计学习:现代机器学习

    统计学习 统计学习是关于计算机基于数据构建概率统计模型并运用模型对数据进行预测与分析的一门学科,统计学习也称为统计...

  • 统计学习方法概论

    统计学习 统计学习是关于计算机基于数据构建概率统计模型并运用模型对数据进行预测与分析的一门学科。统计学习也称为统计...

  • 《统计学习方法》-第一章(1)

    统计学习概述 统计学习的特点 统计学习是关于计算机基于数据构建概率统计模型并运用模型对数据进行预测和分析的一门学科...

  • 统计机器学习基本概念

    -------- 李航《统计学习方法》 笔记 1. 统计学习三要素模型 策略 算法 1.1 模型 监督学习过程中,...

  • ML学习计划

    1、完成李航版《统计学习方法》的学习,完成对统计学习的基本模型的认识。 2、着手机器学习模型进行实战,并完成模型的...

网友评论

    本文标题:统计学(50)-多水平模型

    本文链接:https://www.haomeiwen.com/subject/weeqfhtx.html