終結「看meta-analysis都跳過最重要的統計」
臨床上需要大量看meta-analysis,就以“Risk of stillbirth, preterm delivery, and fetal growth restriction following exposure in a previous birth: systematic review and meta-analysis¹” 這篇為範例走過一遍。整理我自己怎麼看meta-analysis研究。但這和“會做一個meta-analysis研究”還有一段距離。
Step 1: What’s the goal of Meta-Analysis
後設研究的目的為何?
在現有的文獻中,大多研究的是「上一胎早產造成下一胎早產的風險上升多少?上一胎死產造成下一胎死產的風險上升多少?」。
而在“Risk of stillbirth”研究裡面,他把死產(Stillbirth)、早產(Preterm birth)和胎兒生長受限(Fetal growth restriction)三個放在一起看,要問的問題是「上一胎早產造成下一胎死產的風險上升多少?」論文作者告訴我們,儘管這三個診斷各異,背後常有一些共同機制例如placental insufficiency,因此他們把三個放在一起跑統計是合理的。
但我還是會打個大大的問號。光是stillbirth就有infection ,congenital anomalies等多種原因。雖然的確可能同時造成Preterm或FGR,但是否下一胎也會如此,和造成adverse outcome機制的關聯性多大,是需要懷疑的。也就是說,統計可以提供我們一些線索,但要解釋因果關係仍然要保守。
Step 2: What’s the variables and bias?
變項和誤差有哪些?
此研究的search strategy、eligibility criteria都算明確而嚴謹的。這三者之間也沒有明確cofounder, intermediates, modifier。
Publication bias(study selection bias)
有顯著結果的論文比較容易被發表,導致效應被放大或其實沒有效應,在流行病學或醫學研究很常見。包含significance bias(傾向回報有顯著結果的研究), size bias(期刊傾向接受收案量大的研究), suppresion bias(沒有符合研究者預期結果的研究不回報)。
用來評估Publication bias的工具最常見的是funnel plot。Light 和 Pillemer在1984就已經發展,直到1997才被Egger發揚光大²。Funnel plot是非常直觀的方法,對稱的漏斗圖表示較少有publication bias,有不對稱就要進一步去釐清背後原因。
判定是否對稱是非常主觀的,BMJ的這篇研究³給了一些建議,包含:
- 研究數<10不應使用漏斗圖:研究數目小於10個統計檢定力不足
- 標準誤 (standard error) 相近不應使用漏斗圖:研究大小都差不多
- 視覺對稱性應該搭配統計結果解讀:是否有小型研究、不同intervention estimates的研究影響視覺對稱性,
若不對稱,可能的原因有:
- 通報誤差 (Reporting bias): 除了包含我們要的publication bias,還有延後報告誤差(如近期做的研究結果還沒報出來)、地區誤差 (發表語言、國家)、選擇性回報 (selective outcome reporting, selective analysis reporting)
- 小型研究品質不良導致過度膨脹 (Poor methodological quality):方法不良、設計不佳或研究詐欺都有可能
- Heterogeneity
- Chance
除了Funnel plot,還有其他方法可以檢驗publication bias,如:
- Trim and fill method:加入 hypothetical studies使funnel plot對稱後,是否影響effect size estimate
- Modeling selection process:看需要多少effect size為0的研究,來讓整體effect size estimate不顯著
Heterogeneity
異質性的類型有Clinical heterogeneity和Statistical heterogeneity。
- Clinical heterogeneity: 研究protocol設計、藥物劑量、藥物使用時間等臨床因素本身就不同。太多clinical heterogeneity的研究不應合併。
- Statistical heterogeneity: 研究結果及統計導致的差異,可以用統計方法測量。
測定研究的異質性是meta-analysis非常重要的一環,如果沒有弄好就跳下來找“average effect”,研究的意義就不大了。
Heterogeneity analysis的主要形式是把研究兩兩抓在一起,比較結果的差異。常用來測量heterogeneity的統計方法有
- I2 statistic:代表有多少程度的variability of effect size是由between-study variability造成的。判斷時cut point切在25, 50,75,分別代表低、中、高程度的heterogeneity。 研究數量太少時,檢定力有限。
- Cochrane’s Q statistic:虛無假設假定研究結果homogenous,以chi square test檢驗。如果不顯著則接受虛無假設,就代表研究間的確是homogenous,可以一起做meta-analysis。P value <0.10則會認為顯著,表示有異質性。然而 Q statistic 在研究數量太少時檢定力有限,在數量太多時又很容易有over-detect heterogeneity。
如果出現高度異質性,這些研究不應該被合併處理,需檢討導致異質性的原因。也就是說,當Meta-analysis有高度異質性時,結果並不可信。或者應該用隨機分派模式 (random-effect model),而非固定效應模式 (fixed-effect model) 。要用什麼模型將在下面做討論。
Step 3: Are the statistical model and methods appropriate?
統計方法和模型合理嗎?
模型初步有兩大類:
- Fixed effects models
假設這些研究背後有單一的“True effect size”,也就只需考慮 within-study variance。Fixed-effects weight通常記做1/SE²(Inverse-variance weighting)。 - Random effect model
假設每個研究所代表的族群有差異,因此效應是隨機的。需考量between-study variance和within-study variance,給予不同研究不同權重來統合結果。Random-effects weight 記做1/(SE² + τ²)
乍看之下random effect model考量的比較周全。Standard errors 和 confidence limits可以反映更多不確定的組間變異。但當estimates和standard error相關時,採用random effect model會使得統合出來的結果受小型研究影響較大。因此random effect model並不總是最好的。
要怎麼決定採用哪個model呢?分析各研究的publication bias和heterogeneity的結果可以作為參考。
當Funnel plot有不對稱時,可以進一步分析是否有heterogeneity,或小型研究有瑕疵,考慮剔除小型研究。而當傾向認為不對稱是publication bias造成時,可考慮extrapolate(外推)回歸線。
當residual heterogeneity 相對較小,選擇fixed-effects 或 random-effects model都可以。不過,當變異數過小時,也要小心是否有computational errors、multiple publication of the same group 、conformity bias(研究者傾向發表和之前研究結果相近的數據)
更常用的方法是兩個都做。比較兩種方法是否影響結論,討論哪一種模型較可信。在BCOG2017Stillbirth研究中,由於各研究差異大,採用的是random effect model,然而heterogeneity多在75%以上,研究數量也不是非常多。因此結果較不可信,可能需要收集新資料來佐證研究結論。
Final step: Affect clinical management?
看完這篇論文後,我們可以得到的資訊是:前胎早產(Preterm birth)和胎兒生長受限(Fetal growth restriction),會使得下一胎死產的機會上升,大約和抽菸、高齡產婦等風險因子的odds ratio差不多。然而研究異質性過高,odds ratio還有變動可能。
最後就是要問自己,這篇研究是否會改變臨床行醫?在這裡可能是不會的,但我們得到更多關於風險的資訊。也就是說,當孕婦前胎有preterm birth或FGR時,我們可以先告知下一胎stillbirth的風險,提高孕婦警覺程度,鼓勵密集產檢。
Meta-analysis是一種整合多項研究的統計研究方法。直白的說,就是沒有搜集新數據,重複使用現有數據,搜羅多項研究試圖推導出更可信的結論。因此評估meta-analysis有兩大重點:一是個別研究的品質,如果數據已經爛了,重複利用也只是再爛一遍。二是整合的統計方法,錯的方法可能導致錯的結論,或將不適合的研究統合在一起。
所以啊…統計是meta-analysis重要的環節之一,下次勁量不要跳過吧!
Footnotes
1.Malacova, E., et al., Risk of stillbirth, preterm delivery, and fetal growth restriction following exposure in a previous birth: systematic review and meta-analysis. BJOG, 2018. 125(2): p. 183–192.
2.Matthias Egger, Bias in meta-analysis detected by a simple, graphical test. BMJ. 315 (7109): 629–634. Reference
1. Chapter33. Meta-analysis Modern Epidemiology 3ed. Rothman. (大推)
2. Chapter45.Combing probabilities Intuitive Biostatistics
3. Uptodate Systematic review and meta-analysis