Judea Pearl 懟 Michael Jordan:不是所有隨機對照實驗都叫「反事實」
2011 年圖靈獎得主、因果科學之父 Judea Pearl 曾提出著名的“因果階梯”論(Pearl Causal Hierarchy,PCH)。
他認為,因果推斷有三個層級,最低的第一層級是相關(association),涉及的是預測,而不涉及因果關系,只討論變量之間的關聯,比如公雞打鳴與日出之間的相關關系。
第二層級是干預(intervention),涉及因果性,比如吸煙與患肺癌之間的因果關系。
第三層級是 反事實(Counterfactuals) ,涉及的是回答諸如“如果情況不是現在這樣,可能會發生什么”的問題。
反事實是當下許多因果推斷研究的熱門話題,但也出現不少蹭熱度的研究,一些研究對于“反事實”一詞加以不準確的使用甚至濫用。
最近,一篇研究文中多次提及“反事實”的因果推斷論文在推特上被轉發后,遭到了 Judea Pearl 的批評。

這篇論文的第一作者是加州大學伯克利分校的 Michael Jordan 教授,論文中,作者研究了一種構造算法(constructive algorithm),該算法聚焦于因果推理泛函,通過有限差分逼近統計泛函的 Gateaux 導數。在概率分布是先驗未知但也需要從數據中估計的情況下,估計的分布產生經驗的 Gateaux 導數,因此作者還進一步考察了經驗的、數值的和分析的 Gateaux 導數之間的關系。在反事實均值估計的案例研究中,作者證明了有限差分與解析 Gateaux 導數之間的確切關系。
一個關注提供貝葉斯網絡軟件和服務的公司賬號 @www.ar-tiste.xyz(以下稱“ar-tiste”)轉發了該論文,并評論:Michael Jordan 教授用貝葉斯網絡而不是 SCM 來做反事實,所以他認為可以在不用 SCM 的情況下做第三梯級(即反事實)的推理計算。
SCM 是 Judea Pearl 提出的結構因果模型(Structural Causal Models),它由表示因果知識的圖模型、反事實和干預邏輯、結構方程組成,常被用于回答反事實問題。
而 Pearl 認為:任何聲稱使用貝葉斯網絡(Rung-2,第二階梯)進行反事實計算的人都應該受到質疑,證據來自第 35-36 頁(Pearl 的著作《Causality: models, reasoning, and inference》)中的示例。Jordan 的這篇論文將反事實定義為 E[Y(1)],也就是第二階梯,而不是第三階梯的反事實即 E[Y(1)|Y]。
他所引用的證據就是下面這兩頁內容:
一位研究因果的俄羅斯研究員也參與了討論,他指出,反事實涉及的是類似于“如果治療方案不同,結果有多大可能不同?”的問題。所以,這篇論文并不是在做反事實計算。
ar-tiste 對此回應說,他并沒有宣稱 SCM 是錯誤的,而是認為 SCM 是一個特例,如果做一個 bnet 的全概率分布的 FUNCTIONAL Taylor 級數,那么該擴展中的主導項就是 SCM。他認為,這也正是 Jordan 這篇論文的目的,Gateaux 導數是泛函導數。這篇論文并非一篇關于變分推理(VI)的論文。
他接著指出,“潛在結果”(Potential Outcomes,PO)是在沒有使用 SCM 的情況下做反事實計算,而 Pearl 和 Bareinboim 聲稱只能使用 SCM 做反事實計算。所以要么是這篇論文搞錯了,要么是 Pearl 的觀點錯誤。
這個說法引起了 Pearl 的強烈反對,他表示,自己并沒有聲稱“只能使用 SCM 進行反事實計算”,他的態度是,“如果你想了解你在做什么,你想捍衛或檢驗你的假設,那么你就需要知道 反事實來源于 SCM ”。
Pearl 引用了他早在 2014 年寫的一篇博客“On the First Law of Causal Inference”,文中他提到,因果分析的現代工具并不是新事物,而是從 SEM 框架有機繼承而來的。因此,人們可以利用 SEM 的研究來使因果分析更有效。

博客地址:http://causality.cs.ucla.edu/blog/index.php/2014/11/29/on-the-first-law-of-causal-inference/
所謂 SEM 是指“結構方程模型”(Structural Equation Model),是一種做多元數據分析的統計工具,在因果研究中,在貝葉斯網絡的基礎上加入 SEM 可以進一步構建 SCM。Pearl 認為,反事實的結構性定義( structural definition)是因果推理的第一定律。
到這里,論文的作者之一 Angela Zhou 終于出面回應 Pearl :“是的,這篇論文只關注了第二階梯(干預效應,干預平均值),而根本沒有對第三階梯(反事實)發表任何觀點”。
然而,ar-tiste 看到正主回應后并不死心,又去搜了一下論文中的“counterfactual”一詞,發現一共被提及了 25 次,所以“at all”這個說法并不準確...
這時,另一個網友站出來解釋,在 PO 語境下,干預量和反事實量沒有區別,所以即使文中多次出現“反事實”一詞,論文本身也可能不涉及 Rung-3。
而 ar-tiste 認為,這似乎暗示了在 Pearl 和 PO 兩派(SCM 和 PO ?是兩種主要的因果框架)眼中,“反事實”的定義不同,但二者都是將 Y(0) 和 Y(1) 定義為反事實變量。
Pearl 則發表了他對于“反事實”的看法,他認為,甚至是做第一階梯估計的人也會聲稱自己在研究反事實,因為這個詞顯得更具現代性和前瞻性,這也是為什么他呼吁人們 只在第三階梯任務中使用“反事實”這個詞 的原因。
可以看出,Pearl 對于“反事實”一詞的使用非常謹慎,在一位不知真相的網友評論 Jordan 這篇論文是“優秀的因果建模并非常有 1980 年代的風格”時,Pearl 就毫不留情地指出,他沒有從中看出一點 1980 年代的影子,論文沒有 d-separation,也沒有 graphoids,跟 1980 年代的圖模型是八竿子打不著。
的確,因果推斷的研究時下非常熱門,也出現了很多盲目追趕潮流的研究,但 Pearl 認為: 研究中將隨機對照實驗所產生的的一切都稱為“反事實”的習慣是造成誤解的主要來源。
最后,論文作者 ?Angela Zhou 沒有給出更多解釋,她回應:論文之后的編輯版本將改稱為“干預平均值”(interventional mean),以此作為澄清。
不過,Pearl 還是將嚴謹態度貫徹到底,他認為,即使是“干預平均值”在論文例 1 中的定義也并不明確。
看來,即便是在因果推斷這門看似不那么“硬”的學科中,研究者也需要保持足夠的嚴謹精神。
掃碼添加 AI 科技評論 微信號,投稿&進群:

雷峰網 (公眾號:雷峰網)
雷峰網版權文章,未經授權禁止轉載。詳情見。