重力波觀測中的深度學習問題淺談

  • 物理專文
  • 撰文者:林俊鈺(財團法人國家實驗研究院 國家高速網路與計算中心)
  • 發文日期:2022-04-01
  • 點閱次數:1550

本文將一瞥在傳統方法外,深度學習在重力波研究上的一些嘗試,並針對降躁應用的現在進行式進行簡略說明。

深度學習的成功,將機器學習應用範疇提升到新的層次,並帶領了這一波人工智慧風潮。其中的關鍵,除了是發展已久[1]的卷積神經網路架構、與反向傳播演算法(即利用微分連鎖率來計算對損失函式的微分進行神經網路訓練,取代耗時的數值微分) 外,也來自GPU、TPU、或FPGA等加速晶片所帶來的算力、與大量資料的製備與取得,使的大型類神經網路的訓練與推論變得實際,並廣泛應用在影像、語音、文字等的辨識或生成。而 “資料” 的重要性,更是主導了近來資訊科技的版面,從大資料,資料科學、到人工智慧,皆可謂是為了應付資料的規模、種類、增長速度所發展的資料處理策略。在自然科學領域,實驗或觀測物理學研究也同樣面臨類似的大資料難題。同步輻射成像、高能粒子對撞實驗、重力波觀測等研究,除了邁向知識、與實驗觀測技術的邊疆,也帶來了不同程度的資料分析挑戰。本文將一瞥在傳統方法外,深度學習在重力波研究上的一些嘗試,並針對降躁應用的現在進行式進行簡略說明。關於重力波觀測及其在天文物理上的重要性,可參閱物理雙月刊 2017諾貝爾獎重力波專刊

傳統的機器學習方法,如隨機森林(random forest),支援向量機(support vector machine),決策樹(decision tree), 類神經網路(artificial neural network)等等,已廣泛用於天文觀測或實驗資料分析,例如事件偵測,訊號源的參數估計,或進一步地,透過與模擬資料的擬合,來推論出生成分布(population-synthesis)模型,並得到媲美傳統統計推論方法所得到的結果。其中,類神經網路可視為一種可根據資料得出隱含模型的泛用函數生成器 \(y=f(x; \theta)\),其訓練過程可類比於迴歸(regression)或曲線擬合:透過具代表性的訓練資料集 \( ( \hat{x} , \hat{y}) \) 進行監督學習,找到一組參數 \(\theta\) 使得 \( f ( \hat{x} ; \theta)\) 最接近 \( \hat{y}\),也就是最小化自訂的損失函數(Loss function),如差平方 \( || f( \hat{x}; \theta) - \hat{y}||^2 \),直接從資料中近似出隱含的函數關係。數學上,通用近似定理(Universal approximation theorem) 賦予神經網路擬合任意函數的能力。但實際上,訓練過程中有太多的自由度,因此,如何選擇適合的網路架構、最佳化演算法、與訓練次數或參數等等,仍是該領域關注的課題之一。目前,即使關於架構及參數搜尋的自動化研究有不少進展,但在實際應用上,恐怕仍需要針對不同類型的問題,透過反覆的數值實驗來決定最適合的網路架構及參數組合。

最簡單的類神經網路為多層感知器 (MLP,Multilayer Perceptron),每一層由數個神經元構成,並與前後層神經元完全相連。其中每一條連接即代表一個權重參數,而每一個神經元則為所有上層神經元的加權激活。而深度學習中最典型的卷積神經網路 (CNN),除了來自生物視覺系統的靈感外,數學上可簡單地視為具備特定連結的多層感知器,由數個重複的卷積(Convolution)、激活(activation)、與池化(pooling)層,最後在接上一般的多層感知器:每一卷積層由數個局域濾波 (filter,或稱kernel,各自代表一組權重參數) 對輸入資料進行移動加權平均,產生數個特徵圖 (feature map),因此增大輸出維度;激活層僅是作用一個非線性算子到每個神經元上已引進非線性效果;池化層進一步利用平均、或取最大值的方法粗粒化 (coarse graining) 資訊並進一步減少神經元數量。和全連結的多層感知器相比,卷積層中的局部濾波僅貢獻鄰近資訊到下一層神經元,大幅減少權重參數數量。以單一濾波對輸入層計算加權移動平均也隱含了平移對稱性,這代表特別在圖形辨識的問題上,它超越了僅以像素為處理單位,故有能力辨認不同層級的特徵,如邊緣,形狀等等。可以說,前端卷積層擷取出較具表達性的特徵,讓後端的多層感知器進行更準確的分類。許多神經網路架構的發想,都為了針對各種不同型態的原始資料輸入,有效地學習出較具代表性的特徵,或使之更容易在層與層傳遞中保持,像是聰明的傻瓜相機,不用太依賴專家做太多資料解釋及處理。至於,如何理解這些特徵,如何深入了解或建構訓練過程的理論,也都是相當有趣的研究課題,但並不妨礙它的應用。

截至目前,重力波觀測網路已公布了90個來自致密雙星體碰撞的事件[2]。許多團隊也可針對重力波訊號的一維時間序列、或是二維時頻域圖形,成功地訓練出能夠識別這些事件的卷積神經網路,並得到與標準分析流程相似的結果。但是,以機器學習計算出的準確率或其他統計量,僅代表相對於訓練資料集內的統計。實際的分析流程是利用多個干涉儀觀測資料、與其若干個不同時間平移所得到的擬真資料之對比,作為估計干涉儀的背景雜訊的依據,並用來計算事件信躁比分布,判定每一個候選事件的可信度。因此,冀望以深度學習分析單一重力波應變訊號來取代標準流程,還需要更深入的研究[3]。在這方面,機器學習能帶來的最大優勢應該是即時性 ---- 更快的識別與定位,目標在數秒鐘內,將候選事件發佈給其他波段的天文觀測參考,將是重力波天文學最主要的任務。機器學習也對干涉儀常態運作的穩定性有幫助,提升有效工作週期(duty cycle),辨識及分類各種暫態雜訊模式,這些也是目前所謂的機器學習維運 (MLOps) 思維能夠應用之處。甚至,類神經網路作為泛用的函數生成器,也有研究嘗試利用深度學習快速產生模擬波形,而非從頭以數值計算廣義相對論所推導的波形方程。

目前的重力波資料分析中,干涉儀訊號的降躁是相當重要,也可能是較實際的機器學習應用情境之一[4]。透過辨識、分析各種雜訊源,了解它們如何影響重力波應變 \( h(t)\),也就是干涉儀長度的相對變化量,並將對應的雜訊成分扣除,我們甚至可以觀測到比干涉儀靈敏度還小的重力波事件。可以說,重力波干涉儀的發展,就是辨識雜訊來源、並加以抑制的進化史。目前的地面重力波干涉儀的可說是地球上最安靜的地方,甚至可媲美太空環境。LIGO 與VIRGO的靈敏度可感測到比地表小10個量級的震動!由於重力波訊號來自於深空,不應與任何來自地面、或是控制器迴路所造成的局部擾動有關,因此,一座地面干涉儀除了記錄重力波應變,與數個為了保持干涉儀共振的回饋控制訊號外,數千個以上的環境監測器也遍布各個角落,監測著各種物理量波動。例如,在 KAGRA 的 環境監測器中地震儀或加速規直接反映地面震動,磁力儀紀錄著由交流電網載頻所輻射的電磁波,各級避震器訊號的相關性反映出鏡面的方位角擾動,麥克風則記錄著附近的人為活動與自然現象所產生的聲音等。這些環境監測器的頻率主要在10 Hz ~1000 Hz區間,相當於干涉儀的靈敏區間,但更低頻的擾動也可因非線性耦合影響到重力波應變頻道。以簡單的平方耦合為例,兩個頻率分別為 \(f_1\) 與 \(f_2\) 正弦波的平方和疊加後,會生成頻率為 \(2f_1\) 、 \(2f_2\) 的倍頻諧波與 \(f_1 \pm f_2\) 邊帶(sideband)頻率。雜訊本身也會互相影響,例如,測試質量反射鏡的角度偏移與雷射光班飄移的乘積,會影響長度量測變化;超出制動範圍的制動控制訊號產生非線性雜訊;過大的反射鏡飄移量限制了制動器範圍等。值得強調的是,雖然任何擾動都可能影響重力波頻道,但有些雜訊直接出現在重力應變中,並沒有已知的輔助頻道與之相關,因此無法利用這裡所討論的方法降躁,例如來自於量子統計或分子熱擾動的雜訊。

藉由這些輔助頻道 (控制迴路訊號及環境監測頻道)來重建雜訊並據此還原重力波訊號,是相當廣義的時間序列問題。對於線性與穩態 (stationary) 的雜訊,維納濾波 (Wiener filtering)是最優解。它是基於最小平方法,找到最佳濾波以得到估計雜訊 \( \displaystyle n(t)= \sum_{l=1}^{L} \int_{0}^{T}a_l (\tau)w_l (t- \tau) d \tau\),也就是 \(L\) 個環境監測頻道 \(w_l (t)\) 的加權疊加,使 \(n(t)\) 趨近重力波頻道 \(h(t)\)。兩者之差即為降躁的重力應變 \(h_{\rm cleaned}(t) = h(t) - n(t)\)。可以看出這裡的權重 \(a_l (\tau)\),也就是長度為 \(T\) 的濾波,僅線性耦合到環境監測頻道,並且只是時間差的函數 (穩態)。

對於非線性、非穩態雜訊,每一刻的統計行為都不完全相同,甚至突發的暫態突波有可能與真實事件混淆,一般需要特別瞭解雜訊源的物理機制,並設計分析方法,而機器學習提供另一個可能性。目前廣被研究的DeepClean[5] 就是基於卷積神經網路自編碼器(Autoencoder)的雜訊模型,輸入任意(目前設為21)個輔助頻道 \(w_l (t)\) 的時間序列,可得到所預測出的總雜訊 \( n(t)=\mathcal{F}( w_l (t); \theta)\),也就是學習到了這些輔助頻道如何貢獻到總雜訊的複雜耦合形式,即使真正的解析式仍為未知。自編碼器可視為正向與反向卷積神經網路的串聯:前段卷積網路的輸出在自編碼器中部形成維度較低的瓶頸,相當於保存了原始資料經降維、壓縮後最精華的特徵。後段的反向卷積網路則可根據這個特徵,生成出類比於訓練資料集的高維資料。透過不同的訓練資料,同樣的自編碼器可產生不一樣的合成效果。許多以假亂真,並可任意轉換風格的電腦生成影片、影像、音樂、或文章,都是基於這種技術的延伸。重力波資料取樣率為16k Hz,而DeepClean以約20分鐘 2k Hz 取樣率的訓練資料即可做到相當於古典作法的降躁水準。

深度學習是一個新的技術選項,對於尖端的科學問題,有時利用傳統機器學習方法加上一些切合該領域知識的約束也可能達到不錯的效果。但對於面臨資料量爆炸的實驗或觀測計畫,應用深度學習仍有實用上的潛力。這是由於基於加速晶片的推論伺服器計算模式,已逐漸成為大型雲端資源所推廣的標準化服務之一,因此,將資料分析問題轉化成為獨立的深度學習問題,不但可利用標準化的資訊設備 (如商業雲端資源或大型計算中心) 進行大規模的資料分析,也可立即享受成熟的資訊服務框架所帶來效能優勢。目前,這個概念已在實驗高能物理、重力波觀測、及微中子觀測等社群間漸漸成形[6],試圖將一部份的分析流程轉化成機器學習的推論問題,利用本地端或雲端的GPU等加速晶片處理。已實驗高能物理為例,目前大型強子對撞機(LHC) 中的CMS實驗至少用了30萬以上的計算核心進行軟體的事件篩選,即使利用GPU僅有10%的加速,也代表著相同規模的資訊設備可用來分析更多資料,彌補資源缺口。相比於實驗高能物理,重力波的資料量並不算太大,但每一座LIGO等級的干涉儀每天也會產生約2 TB資料,並且需要不斷進行各種分析,因此,利用深度學習仍有實用上的優勢。

 



[1] ‪Geoffrey Hinton, “How neural networks learn from experience”, Sci Am. 1992 Sep 267, 144

[2] “GWTC-3”, the LIGO, Virgo, KAGRA Collaboration, http://arxiv.org/abs/2111.03606

[3] Timothy D. Gebhard, et al., “Convolutional neural networks: A magic bullet for gravitational-wave detection?” Phys. Rev. D 100, 063015 (2019)–

[4] G. Vajente, et al., “Machine-learning nonstationary noise out of gravitational-wave detectors”, Phys. Rev. D 101, 042003 (2020)

[5] Rich Ormiston, et al., “Noise reduction in gravitational-wave data via deep learning”, Phys. Rev. Research 2, 033066 (2020)

[6] A3D3 project: Accelerated AI Algorithms for Data-Driven Discovery, http://a3d3.ai/