從疫苗有效性,談事件因果關係
文:黃正傑 2021-07-20
發布時間: 2021-07-20 09:41:00
國產疫苗有效嗎? 為什麼要緊急授權? 這是在疫情下民眾會討論的話題,但其實是一個科學問題、一個數據方法問題。本文主要從疫苗有效性,談論實驗設計方法以及大數據、機器學習方法可以協助的地方。數據驅動的企業應該要善用傳統與新的數據方法。
疫苗有效嗎?
大多人在討論國產疫苗有沒有效? 第三期實驗做不做? 政府要用EUA授權來彌補傳統的疫苗製造過程,或者判定打疫苗後猝死跟疫苗有沒有關係等。從這些疫苗的爭議中,我們可以發現,要證明疫苗有沒有效,需要數千、乃至於數萬個疫苗測試者和未施打人比較,是否能夠有效抵抗病毒等,這需要嚴謹的實驗設計、科學方法來驗證疫苗,與是否能抵抗病毒的因果關係。
實驗設計證明因果關係
我們都知道要證明事件間的因果關係實在並不容易,因為太多因素在干擾了:人們的年齡、身體健康因素、居住的環境、飲食的問題等,都影響疫苗的有效性。因此,我們需要控制干擾因素的做法以證明事件間的因果關係。
實驗設計就是一種證明事情因果關係的統計、數據科學方法 (註:當然,還有許多比實驗設計更嚴謹的因果分析方法)。
費雪被稱為「現代統計學之父」,在1926年發表了隨機實驗設計法,透過隨機、重複、集區等原則進行實驗設計,以分析事件間是否有因果關係或是受到其他影響因素影響。例如:實驗不同品種小麥是否會有影響收穫量。
首先要控制的是土地的肥沃度、土質、含水量等影響因素。因為在條件不一的土地上,種植不同品種小麥,收穫量不同可能來自於品種不同,也可能是土地本身造成的影響。因此,實驗設計方法就是把地質條件相對齊的土地區塊組合成「集區」,在每一集區內地質條件相近的土地上種植不同品種的小麥;收穫量的不同,就可完全歸因於品種的差別。
「隨機」的作法就是把不同品種小麥隨機種在不同區塊的土地、「重複」則是將實驗設計重複幾次。最後,利用統計學方法分析不同品種小麥是否顯著影響收穫量。
圖、費雪拉丁方實驗設計法(資料來源:Baily etc al. (2008))
大數據可以協助實驗設計
實驗設計的發明將近兩百年,已經廣泛的運用在各行各業,如:農業、工業、醫療衛生領域。在工廠品質領域,有1950年代由田口玄一創始的田口實驗方法,用來檢驗品質要因 (影響因素) 對於品質特性的影響。
不過,從疫苗的爭議中,我們可以了解到,實驗設計必須經過數年、多人測試的驗證,而且還必須在自然隨機的環境下 (如:COVID-19普遍流行的地區測試)。以此,實驗設計必須長期、嚴謹地進行科學的驗證。
運用在工廠的品質領域中,同樣面臨尋找品質要因的困難、缺乏具有技巧品質工程人員等因素,使得中小型的工廠不易使用。此外,若影響品質的因素眾多,需要大量實驗數據與重複實驗次數,更增添困難度。
在大數據、物聯網技術發展的今天,我們可以利用決策樹、多元回歸等機器學習方法,讓電腦快速地發現影響品質的要因,甚至透過物聯網的即時數據,預測每一批生產的品質良率。例如:WD硬碟製造商,就追蹤硬碟機生產過程,以預測每個硬碟生產品質,以避免出貨後因品質問題造成顧客資料遺失的形象與法律糾紛。
事實上,在2020年COVID-19大爆發初期,也是利用機器學習方法快速分析可以抑制病毒的舊藥,或者利用藥物數據庫快速產生新的化學結構模型,以協助緊急藥物發展需求。大數據、機器學習方法擅長從大量數據中找出數據影響關鍵因子、多因素對於結果的影響等,快速地發現並能預測結果。
小結
儘管機器學習方法並不若傳統實驗設計方法在因果關係上的驗證嚴謹,但卻能夠滿足在資源不足的狀況下,快速取得結果。如同疫苗的緊急授權、快篩或新藥發現的做法,以快制亂,進一步再用嚴謹方法進行確認。
以此,可以發現在大數據、物聯網的技術發展下,不論在行銷、工廠、醫學等各個領域都有與傳統數據方法相互結合產生新的火花,讓我們一起探究數據驅動的各項創新應用!!
黃正傑
你喜歡挑戰不斷隆起的技術高原、探索無限寬廣的創新領域嗎? 那麼我們是同路人。黃正傑,台大資管博士,協助鼎新進行前瞻技術研究與應用發展。歷經IT架構技術顧問、供應鏈管理顧問、軟體產業分析師等多項職務,並兼任文化大學助理教授。讓我們一起從創新與變革角度,探索新興技術!
更多案例