代码拉取完成,页面将自动刷新
# mscologit:multiscale ordered logit model
作者:吴依含(东南大学)
邮箱:<[email protected]>
## 1.模型介绍
多尺度Logit模型(multiscale ordered logit model)通常用于处理具有序次特性的被解释变量数据。不同于传统的有序Logit模型(ordinal logit model),它能够灵活处理数据中的非比例优势假设(即解释变量对被解释变量的影响不是恒定比例的),从而提供更加准确和细致的数据分析结果。因此,多尺度Logit模型能够更好地捕捉数据中的复杂关系,特别是当数据违反常规有序Logit模型的假设时。
## 2.模型理论
### 2.1 有序Logit模型
#### 2.1.1 模型设定
在研究中遇到被解释变量是排序数据(ordered data),比如,公司债券的信用评级(AAA级、AA级、A级等),或者医院满意度调查将患者对医院的态度划分为不满意、一般、满意和很满意,如果使用无序离散选择模型而不考虑其序次性,则会损失部分数据信息;此外,最小二乘估计法(OLS)也会把排序数据当作基数来处理,因此,这种情况下我们应该使用极大似然估计法(MLE)的序次离散选择模型。
序次离散选择模型是二分类Logit或Probit模型的拓展形式,以有序Logit模型为例,有序n分类的Logit模型本质上就是n-1个二分类Logit模型的拟合,但需要注意的是,其拟合的是被解释变量序次取值的累积概率。可简单表示为如下阈值模型(threshold model):
$$
Pr(y_i>j)=\frac{exp(\alpha_j+X_i\beta)}{1+\exp(\alpha_j+X_i\beta)}\quad\text{for }j=1,2,\ldots,k-1
$$
即个体i对应的被解释变量$$y_i$$高于j类别的概率。跨越阈值j的概率被表示为协变量向量$$X_i$$,系数向量$$β$$和一组阈值参数或切点$$α_j$$的标准Logit函数。相应的高于j类别的协变量为$$X_i$$的条件比例模型(model for the conditional odds)可表示为:
$$
\Omega(Y_i>j)=\frac{Pr(Y_i>j|X)}{Pr(Y_i\leq j|X)}=\frac{\frac{\exp(\alpha_j+X_i\beta)}{1+\exp(\alpha_j+X_i\beta)}}{\frac{1}{1+\exp(alpha_j+X_i\beta)}}=\exp(\alpha_j+X_i\beta) \quad\text{for} \quad j=1,2,\ldots,k-1,
$$
这些结果在切点位置$$\exp(\alpha_j)$$是完全成比例的。因此,任何特定协变量的变化(或差异)产生的影响可以由几率比的简单表达式给出,比例优势模型(proportional odds model)如下:
$$
OR_j=\frac{\Omega(Y_i>j|x,x_i+\Delta x)}{\Omega(Y_i>j|x,x-1)}=\frac{\exp(\alpha_j+(x_i+\Delta x)\beta)}{\exp(\alpha_j+x_i\beta)}=\exp(\Delta x\times\beta)
$$
其累积概率函数,即y取前j个值的累积概率可表示为:
$$
p_j=p(y \leq j \mid x)=\left\{\begin{array}{c}
\frac{\exp \left(\alpha_j+\beta x\right)}{1+\exp \left(\alpha_j+\beta x\right)}, 1 \leq j \leq k-1 \\
1, j=k
\end{array}\right\}
$$
在{1,...,j}、{j+1,...,k}基础上定义的logit表示后k-j个值的累积概率的比例对数,因此该模型又称累积优势模型(cumulative odds model)。
该模型需要满足一个非常重要的假设——比例优势假设(proportional odds assumption)或平行线假设(oparallel lines assumption),即被解释变量取到不同值时,解释变量$$x$$对应的斜率都相同,两者之间的关系不受分类组别的影响。基于这个假设,拟合的n-1个二分类Logit模型的各个解释变量系数都相等,差别只在于截距。在满足比例优势/平行线假设的情况下,$$y_i=j$$的概率受解释变量$$x$$的影响是固定的。
#### 2.1.2 模型推导
与二分类Logit模型类似,我们也可以使用潜变量法来推导MLE估计量。假设$$
y_i^*=\mathrm{x}_i^{\prime} \beta+\varepsilon_i$$,其中$$y_i^*$$为不可观测的连续型潜变量(该式表明同一回归平面$$X_iβ$$会从切点向切点截距$$α_i$$移动),而$$y$$与$$y_i^*$$的关系可通过如下分段函数表示:
$$
y_i= \begin{cases}0 & y_i^* \leq r_0 \\ 1 & r_0<y_i^* \leq r_1 \\ \cdots \ldots \ldots . & \\ J-1 & r_{J-2}<y_i^* \leq r_{J-1} \\ J & r_{J-1} \leq y_i^* \end{cases}
$$
其中,$$0、1、……J-1、J$$为被解释变量的取值,$$r_0、r_1、……r_{J-2}、r_{J-1}、r_J$$为待估参数,即截距。
假设随机扰动项$$\varepsilon_i$$服从逻辑分布,则可得到有序Logit模型概率:
$$
P\left(y_i=0 \mid \mathrm{x}\right)=P\left(y^* \leq r_0\mid \mathrm{x}\right)=P\left(\mathrm{x}_i^{\prime} \beta+\varepsilon_i \leq r_0\mid \mathrm{x}\right)=P\left(\varepsilon_i \leq r_0-\mathrm{x}_i^{\prime} \beta\mid \mathrm{x}\right)=φ\left(r_0-\mathrm{x}_i^{\prime} \beta\right)
$$
$$
P\left(y_i=1 \mid \mathrm{x}\right)=P\left(r_0<y_i^* \leq r_1\mid \mathrm{x}\right)=P\left(y^* \leq r_1\mid \mathrm{x}\right)-P\left(y_i^*< r_0\mid \mathrm{x}\right)
=P\left(\mathrm{x}_i^{\prime} \beta+\varepsilon_i \leq r_1\mid -φ\left(r_1-\mathrm{x}_i^{\prime} \beta\right)=P\left(\varepsilon_i \leq r_0-\mathrm{x}_i^{\prime} \beta\mid \mathrm{x}\right)-φ\left(r_1-\mathrm{x}_i^{\prime} \beta\right)=φ\left(r_1-\mathrm{x}_i^{\prime} \beta\right)\right)-φ\left(r_0-\mathrm{x}_i^{\prime} \beta\right)
$$
$$
P\left(y_i=J-1 \mid \mathrm{x}\right)=φ\left(r_{J-1}-\mathrm{x}_i^{\prime} \beta\right)-φ\left(r_{J-2}-\mathrm{x}_i^{\prime} \beta\right)
$$
$$
P\left(y_i=J \mid \mathrm{x}\right)=1-φ\left(r_{J-1}-\mathrm{x}_i^{\prime} \beta\right)
$$
### 2.2 多尺度有序Logit模型
### 2.2.1 模型设定
多尺度有序Logit模型是在有序Logit模型基础上的扩展,与其共享关键的平行线假设,但可适用于社会科学研究中存在多个评级量表的情形,如随时间变化或跨不同调查变化的多种评级量表。我们可以通过该模型将不同回答格式的序次数据汇集在一起,以构造单一测度方式,同时保持有序Logit模型的解释性和比例优势(或平行线)假设成立。
具体地,如果针对被解释变量的同一问题的回答格式随时间发生改变,或者不同调查中的回答格式存在系统差异,在某些情况下可以适当设计数据协调规则,例如,关注“同意”和“完全同意”两个回答的等效性来确定回答量表,以确定不同时期或不同调查能够有相对一致的回答阈值;标准统计软件的区间回归模型(interval regression routines)也能够直接处理这类多种回答格式的情形。
但是当回答格式明显不同,或线索不兼容,以及被解释变量在尺度水平是有序的时候,这种情况无法根据原始数据来源进行数据汇集,就需要使用多尺度有序Logit模型。例如,某次调查个人生活满意度时,受访者可能被要求用1-5分来评价,下一次调查中提供的是1-10的分数,还有一次则是“不满意”“一般”“非常满意”的类别格式。我们通常将比例优势模型作为有序Logit模型扩展到多尺度有序Logit模型的起点,因为平行线假设结构成分$$X_iβ$$与用来捕捉基础(连续)指数变量的评级量表的精确响应格式无关(Long,1997:117-119;Agresti,2010:56),在此情形下如果观测结果是在2个或更多调查中合并而来,使用不同回答格式的评级量表来构建潜在结果$$y*$$模型的有效性也不会受到影响。
多尺度Logit模型可表示如下:
$$
Pr(y_i>j_s|s_i=s)=\frac{exp(\alpha_{j_s}+X_i\beta_{j_s})}{1+\exp(\alpha_{j_s}+X_i\beta_{j_s})}\quad\text{for }j_s=1,2,\ldots,k_s-1 \quad and \quad s=1,2,\ldots,m.
$$
与有序Logit模型类似,该模型也可以使用极大似然估计,也能保留其直观解释和所有其他特征,但在有序Logit模型中生成平行回归平面的恒定协变量向量$$β$$已被特定于切点的协变量向量$$β_{j_s}$$所代替,该向量允许协变量$$X$$和结果变量$$Y$$之间的关联在每个可观察的回答阈值处自由变化(Fu,1998)。(10)式有几组切点$$j_s$$,即每个调查工具都有一组切点$$s=1,2,…m$$,表示可观测的被解释变量$$Y$$,由$$X_iβ$$定义的平行回归平面现在沿着特定量表类型$$s_i=s$$,的切点$$j_s$$移动结果。也就是说多尺度有序Logit模型允许估计中存在多组尺度点,每种问题格式对应一组切点,不同切点$$a_{j_s}$$的实际位置是作为模型的参数被估计的(如图2),因此可以跨回答格式进行比较,以评估可能被视为模型中隐含的数据协调规则。
Gangl(2023)给出了一个具体的例子,即利用ESS(2018-2022年欧洲社会调查)、GSS(Smith, Davern, Freese, et al.,2019)和EVS/WVS(1981-2017年欧洲价值观研究/Inglehart、Haerpfer、Moreno et al.,2014)等不同调查来源的数据研究公民对国家议会的信任程度,主要讨论受访者性别、年龄和教育水平,以及人均GDP、经济不平等程度等会如何影响信任度。那么,如何将ESS、GSS和EVS/WVS等数据汇集起来探究公民对机构信任的决定因素,以增加制度、社会或宏观经济条件的经验差异呢?在EVS/WVS中,受访者的回答格式是“非常信任”、“相当信任”、“不太信任”和“完全不信任”,而GSS的回答格式是“非常信任”、“只有一些信任”和“几乎不信任”(当然也偶尔在分样本中采用一些其他回答格式)。此时,如果采取几种较为合理的协调规则则会存在一定随意性,虽然也很可能会被审稿人接受,但是我们还可以使用多尺度有序Logit模型来作为替代方案。该模型会估计出不同回答格式下的切点位置,但需要注意的是,这并非是研究者可能采用的某种有实质性的证据是实质性协调规则的建议,相反,该模型反而是避开了不同评级尺度的回答类别是否具有实质等同性的问题。
#### 2.2.2 放宽平行线假设
(10)式存在的缺点是,可能会估计许多最终不需要的参数, 因为有些参数实际上可能在整个结果分布中是不变的,或者至少仅在分布的某些部分显示出一些更有限的变化,然后广义模型的许多参数实际上可能也不是必需的,因为它们之间(在统计显著性)没有不同。
于是Williams(2006,2016)提出了部分比例优势模型(partial proportional odds model )来确定最小参数集,避免估计和报告多余的系数。从主题视角(subject-matter perspective)来看,虽然,但是如果研究人员希望评估的假设超出了对平均结果水平的(条件性)群体差异的预期,似乎还是有必要使用标准比例优势模型的。例如,社会科学家可能对某些因素$$X$$如何影响结果分布的形状抱有期望,这种期望超过了通过检验条件平均结果可以发现的总体分布的任何向上或向下移动。应用到具体案例中,我们可能会推断出某些协变量$$X$$可能与保护结果分布特别相关。
类似地,Gangl(2023)给出了例子。适当的宏观经济表现通常被视为民主合法性的必要条件,转换为统计学术语就是宏观经济条件主要影响信任分布的下端,即对决定某人是否对民主治理机构给予至少某种基本程度的信任具有决定性作用,但对某人是否可能“几乎一直”信任某特定机构的影响可能较少小。在这种情况下,实质性假设将意味着一种平均值的变化——当宏观经济环境良好时,对民主制度的信任通常会高于经济衰退时。但更明显的是,它将涉及对结果分布形状变化的预期,在宏观经济危机期间,结果分布的方差会增加,而方差的增加是由于分布的较低尾部向外扩散,因为在经济困境下,一定比例的公民会对民主治理机构失去基本信心。
为满足社会科学家的兴趣,检验如上例的实质性假设,我们可以将广义(当然也是多尺度的)Logit模型设定为:
$$
Pr(Y_i > j_s | s_i = s) = \frac{exp(\alpha_{j_s} + X_{i\beta_{r}})}{1 + exp(\alpha_{j_s} + X_{i\beta_{r}})} \quad \text{for } j_s = 1, 2, ..., k_s - 1, s = 1, 2, ..., m, \quad \text{and } r = \{ {j_s|\alpha_{j_s} \leq c_1}, {j_s|c_1 < \alpha_{j_s} \leq c_2}, ..., {j_s|\alpha_{j_s} \leq c_t} \}
$$
其中,$$β_r$$在模型中不再是恒定的,而被允许在切点$$j_s$$的元组r中发生系统性变化,当元组由位于潜在结果分布的某些预先指定范围$$c_1 < \alpha_{j_s} \leq c_2$$内的截断点位置$$α_{j_s}$$(跨尺度格式)定义时,就可以检验结果分布不同区域βr的效应异质性。
#### 2.2.3 相关注意点
(1)多尺度有序Logit模型也依赖于某些统计假设(与任何用于系数结果数据的传统回归模型隐含的假设相同),其并非是为确定不同调查的回答格式的实质等同性而提出现成解决方案,只是为我们提供了可规避可比性问题的统计工具,同时允许对旨在测量同一指数变量的备选问题格式进行实质性有意义的数据分析。
(2)多尺度有序Logit模型在某些情况下也无法得到有意义的结果,例如,不同调查中的回答格式非常不同,而回答结果的重合度又很低的情况。该模型只是在合理且实际可行的假设下尽可能利用我们的不完美数据。
## 3.Stata实操
### 3.1 基本语法
在 Stata 中使用 `mscologit` 命令的基本语法如下:
```stata
mscologit depvars [if] [, indvar(indepvars) options]
```
- depvars:有序的被解释变量,应该根据不同的量表标准化或调整;
- indvar(indepvars):一组解释变量
### 3.2 选项
- vce(vcetype):用于计算稳健或聚类标准误,logit支持的所有vcetype也可以与mscologit一起使用;
- lo:用于放松潜在结果变量下尾部的平行线假设。使用选项lowcut(probability)定义下尾,使用选项lowvar(varlist)定义要放宽平行线假设的变量。当未指定lowvar(varlist)时,将为所有indepvar估计单独的系数。lo的使用要求depvar的所有元素有至少3个回答类别的结果,lo和up的同时使用要求depvar的所有元素有至少4个回答类别结果。在回归表中,与结果分布的下尾部相关的回归系数被标记为lo_<varname>。
- up:用于放松潜在结果变量的上尾部中的平行线假设。使用选项upcut(probability)定义上尾部,使用选项upvar(varlist)定义要放宽平行线假设的变量。当未指定upvar(varlist)时,将为所有indepvar估计单独的系数。up的使用要求depvar的所有元素有至少3个回答类别的结果,lo和up的同时使用要求depvar的所有元素有至少4个回答类别结果。在回归表中,与结果分布的上尾部相关的回归系数被标记为up_<varname>。
- altpar:用于切换广义模型中回归系数的格式。mscologit默认是系数估计为交互项,这为用户提供了针对结果分布中间部分的模型系数可变性的直接测试。altpar将mscologit行为切换为估计结果分布的每个区域的单独回归系数,然后可以使用测试和相关的后估计命令进行相应的假设测试(related post-estimation commands)。
mscologit允许通过其lo和up选项放松比例优势模型的平行线假设,从而估计广义有序logit模型的多尺度情形。mscologit还允许实现多尺度有序logit模型的多级规范(multilevel specifications);在当前的实现中,mscologit中最多可以指定5个层次级别。
## 4.参考资料
1、Gangl M. A Generalized Ordered Logit Model to Accommodate Multiple Rating Scales[J]. Sociological Methods & Research, 2023: 00491241231186655.
2、Agresti, Alan. 2010. Analysis of Ordinal Categorical Data. 2nd edition. Hoboken, NJ: Wiley.
3、Long, J. Scott. 1997. Regression Models for Categorical and Limited Dependent Variables. Thousand Oaks, CA: Sage.
4、Fu, Vincent Kang. 1998. “Sg88: Estimating Generalized Ordered Logit Models.” Stata Technical Bulletin 8:160–64.
5、Smith, Tom W., Michael Davern, Jeremy Freese, and Stephen L. Morgan. 2019. “General Social Surveys, 1972-2018 [Machine-Readable Data File].” Chicago, IL: NORC.
6、Williams, Richard. 2006. “Generalized Ordered Logit/Partial Proportional Odds Models for Ordinal Dependent Variables.” Stata Journal 6(1):58–82.
7、Williams, Richard. 2016. “Understanding and Interpreting Generalized Ordered Logit Models.” Journal of Mathematical Sociology 40(1):7–20.
8、陈强,高级计量经济学及stata应用(第二版)
9、[【DCM-11】有序Logit模型及其Stata实现 - 知乎 (zhihu.com)](https://zhuanlan.zhihu.com/p/149677082)
此处可能存在不合适展示的内容,页面不予展示。您可通过相关编辑功能自查并修改。
如您确认内容无涉及 不当用语 / 纯广告导流 / 暴力 / 低俗色情 / 侵权 / 盗版 / 虚假 / 无价值内容或违法国家有关法律法规的内容,可点击提交进行申诉,我们将尽快为您处理。