人工智能如何助力“算”出新藥?

藥物研發過程漫長而複雜,“先導化合物的發現”是關鍵一步。面對化合物多如牛毛、靶點信息有限、作用機制難以明確的困境,人工智能會發揮什麼樣的作用?

2024浦江創新論壇期間,上海國際計算生物學創新大賽面向業界出題:篩選出對NMDA受體亞型GluN1/GluN3A具有高活性的藥物分子。來自上海科技大學的GeminiMol團隊開發了一種人工智能模型,該模型通過融合化合物的成藥性與構象空間信息以精準表徵藥物分子性質,從而顯著提高藥物篩選命中率。憑藉這一創新方法,團隊篩選出的分子在所有參賽隊伍中活性最強,並以總分第一的成績斬獲一等獎。

“儘管人工智能帶來的變革剛起步,但它已經顯示出巨大潛力。”上海科技大學研究員白芳說,傳統的計算生物學依賴物理模型驅動,需要將生物學現象抽象成數學公式,而人工智能的出現改變了這一局面,“即使缺乏精確的物理模型,人工智能依然可以通過‘數據驅動’的方法,將物理或生物現象直接映射到所需的輸出結果。這種‘黑箱’特性使人工智能具有極高的應用潛力,但同時也限制了模型的解釋性和可控性,因此展現出一種雙刃劍的性質。”

從“大海撈針”到“對症下藥”

爲什麼以NMDA受體亞型GluN1/GluN3A爲題?記者採訪瞭解到,NMDA受體是神經疾病的熱門藥物靶點,與腦卒中、抑鬱症、癲癇、阿爾茨海默病、疼痛等多種疾病相關。而該受體亞型GluN1/GluN3A尚未被廣泛開發,關於其蛋白結構和小分子調節劑的信息非常匱乏。

如果把受體比作門鎖,那麼藥物分子就是打開門鎖的鑰匙。在不知道鎖孔形狀的情況下尋找鑰匙,非常困難。

大賽的出題人介紹,研究人員以往普遍採用高通量生物實驗的方法篩選藥物分子,這一過程猶如大海撈針。

計算生物學可以通過模擬和計算加快這一進程。簡單來說,計算生物學是利用計算機技術研究生物學的交叉學科,如今深度學習等人工智能技術可通過“幹實驗”(計算模擬)先從大量化合物中篩選出潛在的藥物分子,相當於爲生物學“溼實驗”(生物實驗)大幅縮小了範圍。

“藥物分子要發揮生物功能,與其自身多變的三維構象和蘊含的藥效信息密切相關。我們開發的人工智能模型GeminiMol,通過對比學習的方式將構象空間信息融入分子表徵中。與傳統分子表徵方法相比,這種方式顯著提升了模型的表徵能力和預測精度。”此次斬獲一等獎的GeminiMol團隊成員王世航說,團隊先調研了一些已知活性分子,然後在大賽主辦方提供的分子庫中尋找與已知活性分子的三維藥效構象高度相似、二維化合物結構不相似的新分子。

王世航表示,團隊篩選出來的藥物分子,對NMDA受體亞型GluN1/GluN3A的活性爲0.98微摩爾,這一指標的含義是發揮出藥物的作用需要的劑量,數值越小越好。

篩選藥物分子的模型怎樣打造

二維結構是生成分子數據的起點,構象空間則進一步反映了分子在自然狀態下可能存在的動態形態。如果兩個化合物在構象空間上非常相似,它們可能作用於相同的疾病靶標,有相似藥效。

GeminiMol團隊成員王林介紹,目前的分子相似性評價工具之所以有待提升,是因爲其往往只關注分子的二維結構:“就像人們打招呼,握手和握拳的意義完全不一樣,不同手勢會產生不同效果,藥物分子的空間構象也決定了其藥效。”

人工智能的學習能力可以將人的經驗轉化爲可靠的模型。王林表示,團隊首先花費了大量時間對分子的構象空間進行採樣,並投餵給人工智能模型進行學習。此外,團隊通過計算分子間的構象空間相似性形成了一系列描述符號,讓模型從描述符號數據中學習評價分子相似性的能力。

速度快,是人工智能模型的優點之一。以這次比賽爲例,面對1800萬個化合物分子,GeminiMol模型僅用不到半個小時就完成了篩選評價。

在篩選過程中,人工智能模型還可以“集百家之長”。“我們可以同時借鑑兩三個已知活性較佳的分子,這樣得到的新分子可能兼具所有已知活性分子的藥效特徵或結構信息。”王林說。

GeminiMol團隊指導老師、上海科技大學研究員白芳表示,計算生物學經歷了幾十年的發展,如今迎來了從硬件到算法的顯著進步。硬件方面,人工智能芯片、專門爲計算生物學設計的高性能計算機提供了計算支持;算法方面,人工智能的第三次浪潮帶來了機器學習的飛躍,深度學習等先進算法不僅提高了計算生物學的預測能力,還賦予了它創造新事物的可能性。

人工智能推動藥物設計新範式

“人工智能賦能藥物設計的空間非常大,未來會發展得更好。”白芳介紹,現階段的人工智能模型並非全能,其帶來的變革剛起步不久,很多藥物設計任務中還需要基於物理模型的計算機輔助藥物設計方法予以輔助。

生物製藥中的問題通常是極其複雜的超高維問題,但當前的生物實驗數據在數量上極爲有限,質量參差不齊,並且數據之間難以對齊。“面對這些高維數據的挑戰,我們往往需要藉助物理模型對科學問題進行降維處理,以簡化問題並降低數據量的需求。”白芳表示,這是權宜之計,雖然降低了對數據數量的依賴性,但也要付出一些準確性上的代價。

以藥物設計的兩種路線爲例,一種是參考有藥效活性的分子設計藥效活性更佳的新分子,這正是GeminiMol團隊人工智能模型的思路,業界探索廣泛且成效初顯;另一種則是基於靶標結構來設計與其適配並強結合的分子,人工智能對此雖然有一些嘗試,但還不成熟。再如,業界希望讓人工智能自動生成高活性的化合物,但生成全新化合物往往並不容易,理想與現實間還存在技術壁壘。

受訪者提到,計算生物學的發展表明,單一學科的知識和經驗已不足以應對當前的科研挑戰。GeminiMol團隊成員田思源表示,儘管團隊主要負責人工智能工具的開發和應用,但驗證環節涉及生物實驗,這表明科研人員最好能瞭解並掌握從上游到下游各個環節的知識。

白芳呼籲,在人才培養方面,儘可能早地進行學科交叉學習和項目實踐,“隨着人工智能技術不斷髮展,學科交叉已是大勢所趨,這種跨學科的合作和知識融合,將爲解決複雜科學問題提供新的視角和方法。”

來源:經濟參考報