MIT博士的催化材料征途:用AI4S造一枚化學工業“芯片”|甲子光年

追趕化學材料領域的ChatGPT時刻。

作者|蘇霍伊

“量子離我們的生活一點都不遠。”

“一米是多少距離,一秒是多長時間,而一千克又是多少質量?”剛一碰面,深度原理的創始人兼CEO賈皓鈞便問了「甲子光年」三個問題。

兩千多年前,莊子曾給出答案:一尺之捶,日取其半,萬世不竭。與現代物理學中的基本定律不同,莊子和許多古代哲學家都認爲物質是連續的,物質可以被無限分割,任何尺度的長度都只是相對和近似的,沒有有絕對精確的度量標準,所以“一米”不能用基本物理定律精準定義它長度。

但物質並不是連續的。

“米、千克和秒這樣耳熟能詳的計量單位,都是用量子力學來標準化的。量子現象更加精準地定義了日常生活中的很多概念。” 深度原理創始人兼CTO段辰儒認爲,“量子力學是人類近代最偉大的發現。”

數千年來,人們都以太陽定義時間。地球的自轉和繞太陽公轉的週期穩定性,也由此產生了天、小時、分鐘等時間單位。實際上,“一秒”的定義既不是1/60分鐘,也不是1/3600小時,現代科學給出了更精確的時間定義:“一秒”是銫-133原子基態的兩個超精細能級之間發生9,192,631,770次躍遷的持續時間。

這種定義與地球的自轉或公轉週期無關,而是基於原子物理的恆定性。

“我們日常工作等精確到分鐘就足夠了。”賈皓鈞說,“然而社會生產、科學研究和國防建設中,需要極其精確的時間測量,精度高達千分之一秒甚至百萬分之一秒。對時間極致追求的科學家們在20世紀50年代發明了永久的時間測量標準——銫原子鐘。”

銫原子鐘,來源:NLP

銫原子鐘以原子的運動爲基準。當用激光照射銫原子時,銫原子最外層的單個電子會在兩個狀態之間來回循環,即超精細躍遷,這個速率是恆定的。其精確度在2000萬年的時間跨度內,誤差僅爲一秒鐘。

使用銫原子定義的一秒與原來的一秒時長無異,但這種新的定義涉及到銫原子內部電子的量子態變化,正是量子力學研究的核心內容。

“量子力學爲我們描述和預測微觀粒子的狀態及其變化提供了理論框架。這些粒子狀態的變化是物質相互轉換的基礎,深深影響着材料和化學領域。”段辰儒進而表示,“我們的研究就是通過AI for Science(簡稱AI4S)的方法,結合量子化學和實驗解鎖新的化學反應,以及發現更高效的催化劑。”

AI4S並不是一個新詞。它是使用AI相關的技術和思想來指導科學發現,一個典型的例子是谷歌的DeepMind團隊開發的蛋白質摺疊模型AlphaFold。無論是科技行業的領頭羊如微軟、英偉達和字節跳動等,還是化學材料製造的巨頭巴斯夫和陶氏、3M等,都在斥巨資佈局AI4S領域。

隨着AI4S技術朝着規模化和產業化發展,賈皓鈞和段辰儒捕捉到了其中的應用潛力——如果在化學領域實現規模化和產業化,就能推動高效且成本低廉的催化材料的研發,還提高能源使用效率和溫室氣體的轉化率。

瞄準時機,兩人一拍即合,共同創辦深度原理科技公司,專攻化學反應和催化材料。

六月回國後,他們完成了近千萬美元的種子輪融資。本輪融資由線性資本領投,真知創投和Taihill Venture跟投,晶泰科技與深勢科技作爲科技產業方參與。在美國去工業化背景下,中國的材料化學企業正在從生產向研發轉型,AI4S在這裡前景更加廣闊。

2022年,段辰儒獲得麻省理工學院(以下稱MIT)化學的博士學位,此前曾在微軟擔任研究科學家,主要研究生成式AI和大模型在化學方面的應用,和微軟AI4S研究的產品化;賈皓鈞也在今年獲得了MIT物理化學博士學位,此前他曾任職陶氏化學的核心研發部門,利用人工智能技術開發催化劑配方和預測化學反應過程。

段辰儒(左一)與賈皓鈞(右一)在MIT校園,來源:「甲子光年」拍攝

爲什麼是催化劑?

能源是人類社會運轉的基礎,而催化劑則是能源效率的關鍵之匙,毫不誇張地講,催化劑就是現代化學材料工業生產中的“芯片”。

“化學反應無處不在。”賈皓鈞介紹,“其中90%以上的化學品是通過催化工藝合成製備的,催化所創造的產值約佔全球GDP的30%。工業生產中,催化劑貫穿整個化學反應。爲了更好地控制這些反應,我們迫切需要關於催化材料的創新。”

以合成氨的生產爲例,這一過程每年消耗全球1%至2%的能源,並造成全球約3%的碳排放。通過改進催化劑,若能將合成氨的轉化提升1%,那麼不僅能節省數十億美元的成本,還能大幅減少碳排放。

“當AI4S技術將合成氨效率提高5%時,便是我心中化學材料的‘ChatGPT時刻’。”段辰儒說。

但發掘新型催化材料是一個極複雜的多任務問題。過程涉及大量的衡量標準和極大的材料空間。實驗設計、數據分析和理論模擬,每一步都需要精確的控制和深刻的化學理解。不僅是科學上的難題,更是工程上的挑戰。

基礎科研不存在捷徑。對於基礎學科的前沿研究來說,理論知識是基礎,未知問題的答案往往不會在課本上出現。而由此科研成果衍生的創業嘗試,儘管困難重重,卻能真正地重塑能源未來。賈皓鈞略帶激動地說:“化學改變了世界,現在,我們用人工智能改變化學。”

曾經在MIT化學工程系樓裡,賈皓鈞和段辰儒佔據着實驗室一角,埋頭於屏幕前,鍵盤不斷髮出粗重的顫音,這是大腦與AI同頻共振的聲音,有時空氣中還會瀰漫一陣熱力推動的電子元件的實驗室氣味。兩個人經常在這裡一待就是十幾個小時,用字符編織算法,在與數據無聲對話。

現在,一個綠色且高效的未來,正在深度原理中,靜靜孕育。未來的圖景如星空璀璨,腳下的征途依然漫長,他們正在一步一步地邁進。

1.催化劑是工業生產的“芯片”

段辰儒和賈皓鈞有時覺得自己的工作就像在沙場排兵佈陣,對化學結構調兵遣將,而新材料就是隊伍中的主力軍。他們專攻催化領域,通過催化作用來影響化學反應,控制化學鍵的斷裂和新化學鍵生成的速度和方向。

比如煤碳轉化爲石油的自然過程需要數百萬到數億年,但藉助催化劑,這一過程顯著加速。催化劑能在溫和的條件下促使原本難以進行的反應順利進行,從而改變物質和能源的轉化方式。“我們的主要任務是尋找性能優異的新催化劑,並設計和實現新的催化反應過程。”賈皓鈞解釋道。

從麪包烘焙到火箭昇天,數千年來人類一直在不知不覺中感受着催化的力量。

化學產品示意圖,來源:受訪者提供

在化學反應的歷史中,每當發現新的催化劑或化學反應,人類合成新化合物的數量都會經歷跳躍式增長,爲科學發現和工業生產模式帶來革命性變化。就像1950年代,齊格勒-納塔催化劑(Ziegler-Natta Catalysts)的誕生時。它主要用於聚合反應,特別是聚合乙烯和丙烯這類塑料的生產。齊格勒-納塔催化劑讓塑料製品的大規模生產成爲可能,極大地推動了現代塑料工業進程,影響了包裝、建築、汽車等多個行業。

催化劑示意圖,來源:Oil&Gas

能源是人類社會不可或缺的血液。

工業革命以來,人類大規模開採化石能源。在煤炭、石油與天然氣燃燒的灰燼中誕生了高樓大廈與車水馬龍。然而這種對化石能源的過度依賴以及二氧化碳的大量排放,也帶來了資源枯竭、生態失衡和全球氣候變化等一系列問題。

數據顯示,自工業革命以來,全球地表平均溫度已升高約1.1攝氏度,預計到21世紀中葉將超過2攝氏度。同時全球大氣污染正威脅人類生存條件。按照當前消費水平推測,全球煤炭儲備將維持不超過200年,石油則可能在50至100年內耗盡。

能源危機兵臨城下,探索新型催化材料迫在眉睫。

2017年《Nature》刊登的文章《The Drug-maker’s Guide to the Galaxy》中提到,在整個化學空間中,人類可發現材料(物質)的可能性,是10的60次方。

但篩選10的60次方種材料如是現實中不可能完成的任務。

“用一個最優條件假設,我們就能充分認識到催化材料設計的困難。假設只需 1 微秒即可獲得一份候選材料的所有所需信息,且我們擁有與Nvidia總銷量相等的1300萬臺A100 GPU,同時並行、不間斷地運行它們。我們每年消耗114大千瓦時的電力(占人類總用電量的 0.5%)。”段辰儒分析,“理想情況下,遍歷這些材料需要10的36次方年,宇宙壽命大約爲100億年,這相當於宇宙壽命的10的26方倍。”

誠然科技發展早期,新材料的發現易如探囊取物,比如愛迪生通過試驗找到燈絲材料鎢的過程。

傳統化學發現過程依賴於不斷的試驗和錯誤,此過程通常涉及實驗室中的化學發現,但手工操作準確性不盡人意,整個過程的時間尺度從幾個月延伸到幾年,費用和時間成本都很高。但這種“大海撈針”式的方法論已無法滿足當前新材料研發的需求。

想尋找催化材料的答案,要深入到肉眼不可見的微觀世界。原子正等待着從雜亂無章逐漸走向有序,在最適合的微觀結構中釋放潛力。段辰儒介紹:“藉助AI4S,我們能在信息大海中快速定位到最有價值的資源。”

賈皓鈞和段辰儒在尋求一種“既有當前又有未來,我們要尋找一些全新的可能”。他們將實驗、計算與機器學習三成形成一個循環(Experiment-Computation-ML in a Loop),通過AI決策鏈結合這些“武器”,從而優化整個化學發現的過程,讓“AI鍊金術”成爲現實。

“現在國內高校和企業越發重視AI4S了,但深入的空間還很大。我們要做的是彌補材料化學和AI結合創新的空白。”賈皓鈞說道。

2.“AI計算”鍊金術

深度原理的核心算法有4塊:

總而言之,就是在閉環系統中,通過高通量計算和機器學習減少實驗次數和提高數據處理速度,在幾秒鐘內進行大量的計算和預測,而這些預測通常需要在實驗室中花費數月甚至數年的時間。再利用AI進行決策支持,將機器學習、計算核試驗的結果整合分析,以確定最有潛力的化學反應路徑或材料設計方案。

其中的關鍵技術是一種基於生成式人工智能技術的擴散模型,名爲OA-ReactDiff。

關於OA-ReactDiff論文切片,來源:受訪者

OA-ReactDiff能夠快速精確地從原子組分直接生成並優化過渡態(TS)結構,並有效支持化學反應的機理研究和反應網絡構建,並通過機器學習替代了昂貴的傳統量子化學計算。它避開了傳統過渡態搜索中常見的複雜步驟,如原子順序的調整和片段的對齊,而是直接利用反應物和產物的3D幾何結構來生成過渡態。

最後聚焦到了過渡態的搜索,讓這個過渡態的搜索速度提高了1000倍左右,將原本需要幾小時甚至超過一天的過程縮短至十秒內。

在化學領域,尋找過渡態是闡明反應機制和探索反應網絡的節點。

過渡態是一種特殊的分子結構,它存在於反應物變爲產物的那一剎那。它是化學反應中的橋樑,連接着反應物(起始物質)和產物(最終物質)。好比烘焙過程中蛋糕從液態混合物轉變爲固體的那個關鍵時刻,過渡態對於深入理解化學反應的機制至關重要,研究人員依據過渡態的結構和能壘推斷反應速率,就能設計更有效的催化劑。

但由於過渡態的瞬態性質,實驗上難以觀察到過渡態結構。加上其勢能表面的複雜性,尋找準確的3D過渡態結構需要極大的量子化學計算。比如使用密度泛函理論(DFT)構建詳盡的反應網絡,用時從數小時到數天不等,其成本高昂又錯誤頻發。

“複雜的反應網絡是通過立即迭代枚舉當前已知物種可能發生的基本反應。而傳統的過渡態搜索方法,如推動彈性帶方法(NEB),計算成本高又難以收斂,常常導致大量的計算資源浪費。”段辰儒解釋說,近年來越來越多的研究開始探索使用機器學習技術來尋找過渡態,比如把過渡態搜索轉換爲一個從2D到3D結構的問題,或通過各種網絡模型來解決,但此類方法的弊端也很明顯——還未能完全達到使用DFT評估的精確度。

對於這個化學領域盤旋已久的難題,2023年年底,段辰儒、賈皓鈞和研究團隊開發了一個名爲OA-ReactDiff的新模型,它是一個能感知對象的SE(3)等變擴散模型,無需長時間的DFT計算,就能生成高精度的三維過渡態結構。同時他們還構建了一個基於置信度評分的推薦系統,讓模型能夠僅對最具挑戰性的反應進行少量的DFT優化,從而接近所需精確度。

而解決問題的靈感來來自於一篇“利用散模型進行小分子藥物生成”的論文。

2022年在AI4S的研討會上,段辰儒與朋友聊起了Diffusion Model在小分子合成和生物學領域的應用前景。他很快意識到,儘管這些技術已被用於生成單個分子,但在化學領域的核心應用卻鮮有人涉足。

之前生成式AI模型已被用在了單獨的小分子藥物設計。“Diffusion Model能夠精確產生可以結合到特定蛋白質活性部位的藥物。這讓我十分好奇,除了生成單一分子或藥物,是否能用這種方法生成整個化學反應?”段辰儒講到。

“想法很新穎,但技術上的挑戰也不容忽視。”與生成單一物質不同,化學反應涉及的多物體系統需要考慮更復雜的對稱性,其中共涉及三種不同的物質:反應物、產物和過渡態。

在設計包含多種組分的化合物(比如金屬-有機框架)或者研究涉及多種不同結構的化學反應時,傳統的SE(3)等變擴散模型很難進行,因爲它們難以準確處理和表達多個組分協同作用時的對稱性。

這就不得不提到化學領域內最關鍵問題——物質之間的相互轉化。

穩定性的定義是物質在勢能面上的極小點狀態。化學反應本質上是從一個勢能極小點轉移到另一個極小點的過程。基於這一點,段辰儒決定利用擴散模型來生成化學反應,“過程中困難重重,尤其是之前的Diffusion Model和圖神經網絡不能保證化學反應中一些特有的對稱性。”

“抓耳撓腮”地思考了三個月後,段辰儒他們研發出了一套圖神經網絡確保化學反應中對稱性,同時將該網絡與Diffusion Model結構相結合,創建了一個能夠生成完整化學反應的系統。“它能正確處理和維持反應物或產物中原子的排列,同時也能確保在處理多線程時,每部分的旋轉和移動都是正確的。”賈皓鈞說。

“一開始,我想到AI可以做這件事,但沒有想到效果、精度會這麼好。我們現在生成的過渡態已能與實驗中的反應速率不相上下了,雖然反應速率仍會差一個數量級,但已經讓我們看到‘計算和AI引導實驗’的潛力。”段辰儒語速快了起來:“最令人激動的是,OA-ReactDiff生成的過渡態結構非常精確,與真實結構的差異極小。處理速度也非常快,在單個GPU上只需6秒。”

這一突破性成果已在《Nature Computational Science》雜誌上發表,並榮獲封面論文,在業內也掀起不小的“風暴”。GAMESS的開發者、哥本哈根大學的化學教授詹·哈爾博格·詹森(Jan Halborg Jensen)稱讚這種新方法代表了“在預測化學反應性方面的重大進步”。

該論文的《Nature Computational Science》封面,來源:受訪者

整個博士生涯,段辰儒與賈皓鈞在Nature大子刊等頂級期刊及NeurIPS等頂級會議上合計發表超過60篇論文,並開創了多個AI for Chemistry新模型。目前,他們有多項專利正在申請流程中。

“我們應該是第一批將GenAI放到化學流程裡面的創業團隊。”段辰儒說,“當時大家已經把Generative AI,尤其是 Diffusion Model 相關的東西運用在了一些純的小分子生成和生物裡面,但這裡面其實都只涉及到生成一個分子。”

“「深度原理」也寓意着結合深度學習(Deep Learning)和第一性原理思考(First Principle),用人工智能重新解構分子世界的運作原則。”賈皓鈞補充道,“段辰儒是也AI4S領域最早的一批研究者。”

3.創業不是“做飯”

一路從吉林大學讀到MIT,賈皓鈞的學術生涯還算順利,也曾想過將學術道路已走到底,但創業的種子在一直在心中未曾泯滅。

賈皓鈞和段辰儒同屬MIT化學工程系教授、AI化學設計領軍人物Heather Kulik教授門下。不同的是,賈皓鈞專注於具體的催化反應機理和材料設計,而段辰儒則擅長AI和化學算法。在實驗室裡,段辰儒是“大師兄”般的存在,他醉心AI4Chemistry,開創了AI決策模型在高通量計算中的整合和應用;賈皓鈞更像團隊裡的“小太陽”,他熱情、爽朗、充滿能量,總是勇於嘗試新的方法和思路。

導師Heather Kulik教授對他們也有着截然不同的評價。她評價段辰儒有着“出色的學術領導力”,對賈皓鈞則是“我最勇敢的學生”。

Kulik組的合影,其中Heather Kulik(左一)、段辰儒(左五)和賈皓鈞(右一)。來源:受訪者

第一次見面時,段辰儒對賈皓鈞的印象“不太好”。

2019年秋天,剛到MIT讀博的賈皓鈞寫郵件給段辰儒,諮詢選擇導師的問題。“見面時感覺這孩子有點‘軸’,諮詢得都是好不好畢業、哪個研究方向更有前景等目的性很強的問題,但我做科研是出於熱愛,不太聊得來。”段辰儒回憶。

但賈皓鈞對段辰儒的第一印象卻“好極了”。

“辰儒耐心地解答了我提出的問題,對學術很熱愛也很有見解。當時就下定決心一定要抱住這條‘大腿’。”事實也證明了賈皓鈞的“眼光”獨到,整個博士期間,段辰儒共發表了50多篇文章,其中一作20篇。

幾次合作後,段辰儒對賈皓鈞印象有了徹底地改觀:“皓鈞在博士五年間堅持做了一個組內從來沒人探索過的方向,當時連導師都勸他換個方向,他卻堅持下來了,並小有成績,這種‘雖千萬人吾往矣’的勇氣非常人能及。”

段辰儒與賈皓鈞的合作時間,基本貫穿了彼此的博士生涯,也建立了十足的默契。“我們是和而不同的創業者,我骨子裡是很悲觀的人,辰儒樂觀的態度讓我倍受鼓舞。”賈皓鈞說,“但我們對AI4S的認知是相同的。”

段辰儒在微軟工作期間意識到自己的研究在工業界的實用性,但現實問題也接踵而來:材料化學公司的科研方式過於保守,而採用和更新AI4S工具的門檻又太高。

這些“門檻”也成了激發了他繼續深耕AI4S的動力。“因爲創業和我最初想做學術的初衷是一致的。我熱愛的是研究和解決問題的過程,初創公司這個形式非常適合去實現它。”段辰儒堅定地表示。

段辰儒在微軟總部的留影,來源:受訪者

最初,創業的想法是由賈皓鈞提出的。“不瞞你說,我從小對‘搞錢’就十分感興趣。幼兒園學算術時,你問‘15+27’等於多少我未必能答對,但問‘15元’+‘27元’等於多少元我一定能馬上答對。”賈皓鈞逐漸嚴肅起來,“‘搞錢’一度是我的追求,但後隨着對物理、化學的深入研究,我逐漸認識到有更重要的事業等着我去做:作爲一名青年科學家和創業者,我們應該敢於面對國家的技術需求,探索能解決瓶頸問題的基礎研究。”

對於AI4S的創業方法論,他們認爲AI4S初創公司必須依賴技術創新才能脫穎而出。

AI4S類別的創業公司雖然是技術驅動,但終極目標仍是通過創新滿足市場需求。科技創業需要平衡市場與技術的不確定性。

Instagram在技術上的風險較低,但最大的不確定因素,人們是否願意公開分享自己的照片;與之相比Commonwealth Fusion Systems,雖然在可控核聚變方面遇到了很多技術挑戰,一旦成功,他們就能清楚地知道如何在有組織的市場中銷售他們提供的廉價且清潔的熱能和電力。

市場與技術的不確定性,來源:The Engine Ventures

賈皓鈞表示:“大部分硬科技公司都處於這兩個極端之間,他們需要在資金有限的情況下,同時推進市場和技術的試驗和探索。”

在公司發展的早期階段,技術是核心競爭力。隨着公司發展至後期,重點逐漸轉向市場和產品開發,技術的直接表現可能不如之前顯眼,因爲目標轉爲滿足客戶需求而非單純展示技術。雖然可樂的製作涉及複雜技術,如罐裝和儲存技術,消費者卻只關心其基本功能——解渴。這些背後的技術雖然關鍵,但對消費者而言是不可見的。

深度原理的目標是將技術轉化爲產品發動機,特別是在快速迭代的化學材料領域,這更親環保的能源解決方案和更合理的能源分配。“我們希望通過創新來實現這一目標。雖然可以使用各種工具和方法,如AI或傳統化學直覺,但我們認爲使用AI4S來開發這些解決方案可能性最大。”段辰儒表示。

在實現這些目標的過程中,體系化的方法非常關鍵。

相比於依賴隨機的直覺或偶然的發現,體系化的方法提供了一個更可靠的框架,能夠有效地迭代和優化策略。這種方法在創業、思考問題,以及執行任何計劃時都是一種強大的能力。

“畢竟創業不是做飯。”賈皓鈞說。

賈皓鈞在MIT博士畢業典禮上,來源:受訪者

他認爲創業的方法理論固然重要,但創業一定不是一個循規蹈矩的過程。“因爲創業不像做飯,只有指導原則,沒有固定配方,全靠探索。”

從出發到現在,他們未曾忘記深藏心中的願景:將人工智能、量子化學和高通量實驗技術應用於化學材料領域,讓化學材料創新的工作流程得以改善,加速研發創新的效率。

段辰儒分享了自己在計算機頂級會議ICML和NeurIPS上組織AI4S社羣和會議的體驗,“從參加人數的急劇增加可以看出社區的興盛和AI在科學中應用的熱度上升。”段辰儒說,“AI4S是一個興起的領域。作爲最頂尖的研究者時,我們最擅長的就是重塑問題並解決它們;那在創業時,我們爲什麼不挖掘工業界催化材料的研發生產問題並解決他們呢?作爲CTO,我最重要的使命就是找到AI4S在化學材料領域最頂尖的研究者和工程師,把他們聚集在深度原理,和他們一起在工業界真實的應用場景上‘打怪’。”

“我希望深度原理不僅成爲一個成功的公司,更是一個科技創新的象徵,吸引全球頂尖的科學家和工程師來此大展身手。”賈皓鈞憧憬着。

毋庸置疑,這是最好的時機。

2020年,我國提出了“2030年全面現碳達峰”的宏偉目標,將能源效率的戰略意義提升到前所未有的高度。

賈皓鈞表示:“降低碳排放的最有效的方式是提高能源效率。”催化研究的核心目標是促進能源轉型,優化能源結構,實現低碳化,併爲國家能源安全提供技術保障。

(封面圖來源:「甲子光年」拍攝)