材料科學在第四代典範科學的發展
- 物理專文
- 撰文者:李玟頡、芮嘉勇、楊安正、陳冠朋、陳南佑
- 發文日期:2022-06-01
- 點閱次數:3749
材料的發展應用流程,首先從實驗室發現新的材料開始,進入到研發、產品優化、認證、及量產製造,到最後透過行銷部屬於商業市場上,實際落地應用所需的時間相當長遠,統計結果顯示光從材料發現到研發過程至少5~10年,而實際到達商業部屬則至少15~20年不等,比一般藥物研發的平均12年還要久,而這也只是那些成功能被應用的少數材料的發展平均時程,實際在過程中更有無數被發展的材料是經過不斷的研究嘗試卻無法被落地應用的候選材料。隨著近年來科技的迅速發展,太空科技、6G通訊、電動車、能源系統、埃尺度世代半導體元件…等元件對於新材料的需求都將迫在眉睫。
傳統上,材料發現與研究通常是透過專家的研究背景與實務經驗提出可能的候選材料與方法,經實驗的手段實做出新材料的樣品,過程中需經過長時間的實驗試錯(trial and error)過程才得以發掘,因此相當耗費時間與金錢成本。而人們對於新科技的發展渴望,也驅動著基礎材料研發的前進,更優越特性規格的材料也會是我們持續探索的方向。隨著計算機能力的大幅增加、理論模型的成熟、及開源軟體的蓬勃發展,電腦輔助材料計算方法已足以準確預測材料的性質。因此計算材料科學(Computational Materials Science)甚至是材料虛擬篩選(Materials Virtual Screening)早已成為炙手可熱的研究主題。美國總統歐巴馬在2011六月啟動Materials Genome Initiative(MGI)國家型計畫[1],結合美國國家科學基金會(NSF)、美國國家標準暨技術研究院(NIST)、美國國防高等研究計畫局(DARPA),投入超過5億美元資金,目的在藉由高通量計算與材料大數據庫以加速各領域對於新材料的開發及製造,陸續,歐盟也在2015年起成立了NOMAD laboratory (European centre of excellent);中國大陸於上海成立材料基因研究中心、日本成立三個跨部會計畫,並以MatNavi資料庫為核心,進行材料訊息研究;2017年中國大陸發起3.2億人民幣規模的材料基因計畫(國家重點研發項目);台灣也在2018年科技部啟動了『智慧仿生材料與數位設計平台』專案計畫。
MGI的目地希望幫助企業發現、開發、與部屬新材料到市場時程加快至少兩倍,透過重新建構嶄新的e化材料研發之基礎設施,讓材料研發過程更有效率。MGI是一種新的材料篩選技術,需透過建立創新的高通量計算與實驗平台(High throughput-calculations and experiments)及材料數據生態環境(Material data ecosystem)的關鍵基礎設施(如圖1所示[2]),來提升既有的理論計算方法(軟體)、實驗技術、與材料資料庫的不足。在研發流程中,窮舉可能的候選材料經由理論計算方法,例如第一原理計算(ab initio calculation)或相圖半經驗計算方法(CALPHAD),在高效能電腦叢集上透過可平行化、流程化、與自動化的高通量計算框架,大量的計算生產出材料特性數據,如同工廠自動化量產流程一般,並一步一步的篩選出符合各種目標特性的候選材料後,再藉由實驗或高通量實驗驗證與更進一步研究。除了透過目標導向的流程找到符合應用端的需求規格材料之外,更是要在流程過程中建置所屬於領域的材料資料數據管理中心,提供友善(user friendly)且易檢索(easy access)的使用環境,並透過數據管理使資料格式標準化與視覺化,以增加資料的未來延續性與可用性,此外,開放數據,讓世界各地的材料專家可檢索搜尋現有的材料資料庫,以減少重覆冗長的材料研發,加速並創造新材料的進展。
圖1. 美國MGI計畫中,發展新一代材料計算工具、實驗工具、與數據庫的三個核心技術,以因應未來乾淨能源、次世代勞動力、國家安全與人類福祉發展之挑戰。[2]
而近十年來基於第一原理計算的高通量計算研究材料結構組成與特性的數據有了指數性增長,也推動了材料數據庫系統的發展並加速了材料創新[3]。例如,杜克大學(Duke university)的automatic-flow (AFLOW) 平台[4,5]是最早開發的材料知識庫平台,自2003年起便開始相關的研究,其知識庫的計算結果是取用的無機晶體結構資料庫(Inorganic Crystal Structure Database(ICSD)),以第一原理計算軟體(例如:VASP 和 Quantum Espresso)為物理計算核心,透過他們開發的AFLOW[4]高通量計算框架來窮舉計算出ICSD中收錄材料的電子結構、熱力學特性、磁性及結構相圖,此外,高通量的工作流程管理軟體AFLOW更開放於線上免費提供下載使用,讓使用者可以在自己的工作站建立屬於自己的材料高通量篩選研究。至今AFLOW已計算超過三百五十萬種材料,共計有超過六億筆材料特性的計算結果被收錄其中。此外,還有美國能源部、美國勞倫斯伯克利國家實驗室(Lawrence Berkeley National Laboratory)及美國國家科學基金會所支持的Materials Project平台[6] (提供超過14萬 種無機化合物材料、五十萬種孔隙結構材料與六萬種分子)與西北大學(Northwestern University)的Chris Wolverton團隊建構的The Open Quantum Materials Database (OQMD)平台[7](提供超過一百萬種結構合金與能源材料)等也都是知名的高通量第一原理計算線上知識庫。這些知識庫內容所涵蓋的應用材料非常廣泛,包括了電池材料、儲氫材料、太陽能材料、熱電材料等,裡面收錄了材料的晶體結構、熱力學、力學、電學、磁學、甚至熱電等性質。
然而,高通量篩選(High-throughput screening, HTS)方法的缺點可能會受到選擇的篩選資料集或專家的直覺的影響,這可能會導致篩選過程中錯過可能的高性能材料。此外,儘管HT計算利用了第一原理計算讓材料性質可透過電腦計算獲得,大幅降低了實驗試誤,但此理論方法仍是相當耗費計算資源,一般實驗室資源實難以負荷。材料是由元素與晶格結構所組合而成,各種晶格結構可歸納為七大晶系,各種晶系又可分別與十四種布拉維斯晶格(Bravais lattices)的結構相對應,當我們從週期元素提出幾種元素組合成材料成分,在搭配上不同的結構後,對於二元或三元材料的計算模許或許有辦法輕易地建構並通過高通量計算把所有材料的組合成分與結構窮舉篩選,但對於四元以上元素組成的材料,例如近年來相當熱門的高熵材料,其具五種元素以上的材料成份,且材料元素在晶體結構上的排列可能更多元,也導致候選可計算的材料數量將巨幅增加,儘管直接投入國家級的計算能量,透過高通量計算窮舉建立高熵材料資料庫,除了計算力難以負荷且效益過低。
MGI促進了材料科學進入所謂第四代科學典範(Fourth Paradigm of Science)[8],讓材料數據驅動(data-driven)的研究模式更加的蓬勃發展,而材料數據驅動研究的技術又稱為材料資訊學(material informatics, MI),它是一門材料科學、資訊學、與統計數學的綜合學科,主要以數據為核心的方法來推進材料科學進展與新材料發現,MI的基礎在於數據,可利用機器學習(machine learning, ML)方法(實現人工智慧(AI)應用的一種方法)從數據中萃取出材料的關鍵特徵,並揭示材料的隱藏關聯性,輔以尋找未知的物理關聯性,從而開闢材料發現與設計的新途徑。交大黃爾文教授等在2022年所發表的論文中回顧統整了近20年來具機器學習與高熵合金等關鍵字的發表論文[9],其統計數據可見2012年以後各種不同機器學習應用領域的論文被大量的發表,而其中被應用在高熵合金的研究自2018年只有五篇發表,之後有了明顯的增加,至今每年已有數十篇論文發表。
ML是透過訓練一個可識別多變數輸入資料模式(patterns)或描述符(descriptors) 的模型,來預測目標的輸出,在材料開發的應用範疇上,可透過材料(實驗或理論)數據訓練一個運算速率極高的ML預測模型,透過最佳化過程找到目標條件的新材料成分;若在實驗數據充足的情境下,更可訓練一個可預測材料經過複雜實驗流程後的特性(例如經過鍛造、退火、回火後的材料特性),以大幅的降低實驗試誤。而在ML實作上,須通過資料前處理、模型訓練、與最後的知識萃取,相關流程如圖3所示,資料收集部分,只要是任何各種有助於實務設計情境的需求皆可利用,而這些從文獻、資料庫或相關研究紀錄所彙整的資料,很重要的第一步是須經過領域專家的過濾以避免內涵差異性過大或可靠度低的資料共同使用,進而誤導了模型的學習方向,此外,材料資料通常需要靠專家賦予可量化的材料描述符或特徵(將在後面描述),當輸入資料賦予了可能的關聯性描述符後,所需的訓練資料甚至可能只需要數十筆資料,便可訓練出一個可應用在特定問題(參數)範圍的準確模型[10]。最後,這個訓練的模型可應用在協助專家探知材料成分、結構、製程與特性間的關聯性[9],並可將資料庫的材料成份做內插,預測未知的新材料的特性,更能通過優化算法或生成網路模型做逆向工程外插找到比目前資料更優異的新材料組合與結構[9, 10],甚至從萃取的關聯性建構出新的物理模型。[9]
圖2 機器學習在材料科學與工程的應用流程
機器學習的優勢在於其預測迅速(可高於理論模型數萬倍的計算效率)、低成本(可基於既有資料庫或文獻資料來訓練)、與高創造性(可建構傳統理論方法所難以建構的模型)等特點,因此不管是單晶、多晶、非晶、具缺陷、穩態、介穩態的任何材料,只要能定義明確的目標與取得相關的資料,都有機會訓練出實用的模型,但相反的只要相關資料蒐集不足,機器學習便無用武之地,因此它對資料有高度依賴性。而對於量子計算模型而言,由於它基於理論物理的基礎,除了可算出設定模擬環境條件下的材料特性,並可理解材料性質的原因與微觀物理機制,但在實務應用上,有些應用問題可能仍受限於理論發展不健全、軟體發展不足、或計算力不足等問題,以至於仍有許多問題難以直接求解。因此兩方法各有其優缺,無法相互取代,卻可在各方面互補。[9]例如,在實驗數據不足的情況下,可先透過理論計算的資料,先經由機器學習訓練理解材料成份與特性在理想狀態下的關聯性,之後再透過機器學習的轉移性學習技術,將模型轉移給少量實驗數據的模型重新訓練,而這個校正過後的新模型將有機會準確地預測實驗的量測特性。[11]
有別於其它熱門的AI應用領域,例如自駕車、醫療影像、社交媒體等,應用在材料領域的的機器學習,專家經常難有大量的實驗數據可供模型訓練,僅有高通量計算的數據庫有辦法建構深度學習模型,例如ElemNet[12],但目前也只建構了預測材料的形成焓的模型,以評估不同材料在晶體結構下的形成可能性,而目前大部分的材料機器學習研究上,通常需要透過專家的領域知識處理稀疏、高維度、有偏見、或具雜訊的數據,讓材料物性差異過大、資料來源不可靠、或可能干擾模型訓練的數據資料做清除或修正,此外還會將這些材料資料藉由物理性質轉換讓原本單調的輸入數據(例如材料成分比例)賦予更多的物理意義,也就是所謂的材料描述符或特徵(materials descriptor or characteristic),例如將材料成份的物理性質、熱力學性質、或微觀原子特性等[9]經由材料成分比例的加權相加來表現此材料數據的描述符,以一個五元高熵合金來說明,其公式可呈現如下$$D_{ave}=\sum^N_{i=1}c_i r_i$$
其中 \(N=5\) 代表五種元素,\(c_i\) 是第 \(i\) 個元素的成份比例,\(r_i\) 則是第 \(i\) 個元素成分的元素特性。或是以不對稱性描述符來表現:$$D_{asy}=\sqrt{\sum^N_{i=1} c_i (1- \frac{r_i}{\bar{r}})^2}$$
其中 \(\bar{r}\) 代表 \(N\) 個元素特性的平均值。圖4總結了近年來利用機器學習研究高熵合金時,常用的各類描述符,其中物理描述符表示宏觀上可測量的物理特性;原子描述符則可用晶格和電子特性表示;熱力學描述符代表基本能量和傳輸相關特性。這些描述符對於訓練機器學習來預測高熵材料的結構、熱學、力學性質有很好的表現,而對於高熵材料的腐蝕行為環境因素參數和元素比例才是重要的關鍵描述符。
圖3 訓練預測高熵材料之特性的機器學習模型常用的描述符分類
目前針對材料數據庫、材料描述符的轉換、與材料機器學習模型發展有像Matminer [13]and Pymatgen [14]等Python程式語言的開源套件提供免費使用,大幅降低了初學者開發程式的門檻;Citrination平台[15]提供了免費的材料資料庫分享空間、資料分析、機器學習預測、與關聯性分析資訊;OQMD透過第一原理資料建構的機器學習模型[7],只要輸入化合物成分即可藉由模型迅速的預測材料在理想狀態下的各種性質,預測時間比原第一原理計算時間快上六個數量級。
資料驅動材料研究方向的第四類科學典範(Fourth Paradigm)時代來臨,應用人工智慧、高通量理論計算與資料庫輔助材料科學與工程發展已儼然成為未來材料設計的主流趨勢,其優勢可輔以迅速建立過去理論所無法建構的預測模型、最佳化指引開發方向、歸因偵測關鍵影響參數,讓開發成本降低與研究效率提升。然而,其存在的挑戰在於原始收集數據的準確性、代表性和異質性。只要我們有可靠的高質量數據,材料資訊就是推動材料科學發展的強大利器。
參考文獻:
[1] https://obamawhitehouse.archives.gov/blog/2016/08/01/materials-genome-initiative-first-five-years
[2] J. P. Holdren et al. Material Genome Initiative Strategic Plan. Technical Report December 2014, https://www.nist.gov/system/files/documents/2017/05/09/MGI-StrategicPlan-2014.pdf. (accessed at 2022-04-1)
[3] L. Lin, Materials Databases Infrastructure Constructed by First Principles Calculations: A Review, Materials Performance and Characterization 4, 148-169. (2015)
[4] AFLOWLIB, http://aflowlib.org/. (accessed at 2022-04-1).
[5] R. H. Taylor, F. Rose, C. Toher, O. Levy, K. Yang, M. B. Nardelli, S. Curtarolo, A RESTful API for exchanging materials data in the AFLOWLIB.org consortium, Computational Materials Science 93, 178-192, (2014)
[6] Materials Project, https://materialsproject.org (accessed at 2022-04-1).
[7] OQMD, http://www.oqmd.org (accessed at 2022-04-1).
[8] A. Agrawal, A. Choudhary, Perspective: Materials informatics and big data: Realization of the “fourth paradigm” of science in materials science, APL Materials 4, 053208. (2016)
[9] E-Wen Huang, Wen-Jay Lee, Sudhanshu Shekhar Singh, Poresh Kumar, Chih-Yu Lee, Tu-Ngoc Lam, Hsu-Hsuan Chin, Bi-Hsuan Lin, and Peter K. Liaw, Machine-Learning and High-Throughput Studies for High-Entropy, Materials Science and Engineering R 147, 100645. (2022)
[10] Yao-Jen Chang, Chia-Yung Jui, Wen-Jay Lee, An-Chou Yeh,. Prediction of the Composition and Hardness of High-Entropy Alloys by Machine Learning, JOM, 71(10), 3433-3442. (2019)
[11]Wu, S., Kondo, Y., Kakimoto, Ma. et al. Machine-learning-assisted discovery of polymers with high thermal conductivity using a molecular design algorithm. npj Comput Mater 5, 66. (2019).
[12] Dipendra Jha, Logan Ward, Arindam Paul, Wei-keng Liao, Alok Choudhary, Chris Wolverton & Ankit Agrawal, ElemNet: Deep Learning the Chemistry of Materials From Only Elemental Composition, Scientific Reports 8, 17593 (2018) .
[13]L. Ward, A. Dunn, A. Faghaninia, N.E.R. Zimmermann, S. Bajaj, Q. Wang, J. Montoya, J. Chen, K. Bystrom, M. Dylla, K. Chard, M. Asta, K.A. Persson, G.J. Snyder, I. Foster, A. Jain, Matminer: An open source toolkit for materials data mining, Computational Materials Science 152, 60-69. (2018)
[14] S.P. Ong, W.D. Richards, A. Jain, G. Hautier, M. Kocher, S. Cholia, D. Gunter, V.L. Chevrier, K.A. Persson, G. Ceder, Python Materials Genomics (pymatgen): A robust, open-source python library for materials analysisComputational Materials Science 68, 314-319. (2013)
[15] Citrination : https://citrination.com (accessed at 2022-04-1).