手冲咖啡的香气弥漫在狭小的房间里。
窗外下着雨,和往常一样。我端着第二杯아아(冰美式简称,아이스 아메리카노,ice americano —— 一个无聊的冷知识),坐在电脑前,屏幕上是那篇用孟德尔随机化(Mendelian Randomization, MR)研究喝咖啡和抑郁症关系的论文1。结论是:没关系。
喝咖啡续命这件事,看来只是续命。
这个结果令人有点失落。毕竟每天两杯美式,总想骗自己说这是在预防抑郁。
去年的经济学奖把因果推论的地位又提升了一档,前几天刚啃完IV(Instrumental Variable, 工具变量法),再看这篇文章,清楚了许多,心境也已经不一样了。
从一个问题开始
咖啡和抑郁没有关系。这句话本身没问题。
问题在于:怎么证明?
最直接的方法是比较喝咖啡的人和不喝咖啡的人,看谁的抑郁风险更高。
但喝咖啡的人和不喝咖啡的人,能直接比较吗?恐怕不能。喝咖啡的人可能本来就生活规律、社交广泛、压力较小——这些因素本身就降低抑郁风险。你怎么知道是咖啡有用,还是这些混淆因素在作祟?
随机对照试验(RCT)可以解决。但你不能把人随机分组,一组命令喝咖啡,一组禁止喝,然后跟踪十年看谁先抑郁。伦理上说不通,时间上也等不起。
所以观察性研究只能告诉你"喝咖啡的人抑郁风险更低",永远不能告诉你"喝咖啡能降低抑郁风险"。
因果推论在这里碰壁了。
工具变量登场
这时候,计量经济学的老朋友出现了:工具变量。
一个变量 $Z$ 要成为好的工具变量,需要满足三个条件:
- 相关性:$Z$ 必须和自变量 $T$ 相关
- 排他性:$Z$ 只能通过 $T$ 影响因变量 $Y$,不能有别的途径
- 无混淆:$Z$ 和混淆因素无关
用人话说:$Z$ 要能影响 $T$,但只能通过 $T$ 来影响 $Y$,不能自己偷偷影响 $Y$,也不能和影响 $Y$ 的其他因素有关联。
举例:烟草税 $Z$ 作为工具变量,研究吸烟 $T$ 对肺癌 $Y$ 的影响。
烟草税影响吸烟行为(相关性)。烟草税和个人生活习惯可能无关(无混淆)。烟草税只能通过改变吸烟行为来影响肺癌,不能自己直接导致肺癌(排他性)。
满足这三个条件,工具变量就帮你绕开了混淆问题。
怎么用?二阶最小二乘法(2SLS):
第一阶,用 $Z$ 预测 $T$:
$$T = \pi_0 + \pi_1 Z + u$$第二阶,用预测值 $\hat{T}$ 回归 $Y$:
$$Y = \beta_0 + \beta_1 \hat{T} + v$$$\beta_1$ 就是因果效应——把 $T$ 中和混淆相关的部分剔除,只留下工具变量"干净"的那部分影响。
听起来很美。
问题是:好的工具变量很难找。
烟草税是一个特例。大多数时候,你想找个和"吸烟"相关但又不通过其他途径影响肺癌的变量,没那么容易。
基因:天然的随机分配
孟德尔随机化(Mendelian Randomization, MR)的核心思想是:用基因变异作为工具变量。
为什么基因可以?
第一,基因和暴露因素相关。比如某些基因变异会影响咖啡因代谢速度,进而影响咖啡摄入量。
第二,基因在受精时就已经确定,不受后天环境影响。你的咖啡因代谢基因不会因为你开始健身、戒烟或者搬家而改变。这意味着基因不受那些通常干扰暴露-结局关系的混淆因素影响。
第三,基因型通常不直接导致结局——除非是直接相关的基因疾病。它只能通过影响暴露因素间接发挥作用。
这就好像自然界帮你做了一个随机对照试验。基因在受精时随机分配,就像抛硬币。
所以MR的逻辑链条是:基因变异 $G$ → 暴露因素 $T$ → 结局 $Y$。$G$ 作为工具变量,通过 $T$ 影响 $Y$,而 $G$ 本身不和 $Y$ 的混淆因素相关。
应用到咖啡-抑郁问题:找到影响咖啡摄入量的基因变异,用这些变异作为工具变量,估计咖啡对抑郁的因果效应。
那篇论文用的就是这种方法。找到了和咖啡摄入相关的基因变异,做MR,结论是:没因果关系。
好。
局限与反思
但MR不是万能的。
首先,工具变量难找。不是所有暴露因素都有合适的基因变异。咖啡因代谢基因能找到,但"生活满意度"这种东西呢?很难找到相关的基因。
其次,水平多效性(horizontal pleiotropy)问题。一个基因可能通过多条路径影响结局——不只是通过咖啡摄入,还可能通过其他代谢途径直接影响抑郁。这样就违反了排他性假设。
第三,弱工具变量问题。如果基因变异和暴露因素的相关性太弱,估计精度会很低,结果不可靠。
第四,样本量要求。大样本GWAS的基因数据是MR的基础,没有足够的数据,MR做不了。
科学方法总是这样——
看起来很美,用起来全是坑。
但转念一想,这不就是科研的常态吗?每种方法都有局限,没有完美的方法,只有不断逼近真相的尝试。MR提供了一种在观察性数据里估计因果关系的思路,即便不完美,也比什么都不做要强。
尾声
雨还在下。
窗户上有一层水。咖啡杯上也有一层水。
研究者用MR证明喝咖啡和抑郁没有因果关系——这不是坏消息,这是一件好事。它让我知道,想要靠咖啡续命来预防抑郁,是我自己想多了。
生活中很多事情不需要因果证据。
喜欢就够了。
-
Kwok MK, Leung GM, Schooling CM. Habitual coffee consumption and risk of type 2 diabetes, ischemic heart disease, depression and Alzheimer’s disease: a Mendelian randomization study. Scientific Reports. 2016;6:36500. doi:10.1038/srep36500 ↩︎