14歲上清華,29歲獲普林斯頓終身教職,王夢迪最新論文,開發能讀懂mRNA的語言模型,助力mRNA疫苗設計
撰文丨王聰
編輯丨王多魚
排版丨水成文
基於語言模型(language model)的生成式人工智能,讓我們真正感受到了人工智能的巨大潛力,編寫代碼、閱讀並理解文字、生成繪畫甚至視頻。
我們的基因組是由4種鹼基排列組合而成,其包含了生命的各種信息指令,基因組中的每個序列都遵循着與人類自然語言類似的語法和句法規則,改變一個或幾個字詞會徹底改變一句話,而改變基因組中的一個或幾個鹼基也足以產生巨大影響,實際上,許多重大遺傳疾病只是因爲單個鹼基的改變。
那麼,語言模型能夠理解基因組序列信息嗎?可以用來幫助我們優化mRNA序列,從而開發出更有效的mRNA疫苗或療法嗎?
2024年4月5日,普林斯頓大學王夢迪團隊 (褚晏伊、于丹爲共同第一作者) 在Nature Machine Intelligence上發表了題爲:A 5′ UTR language model for decoding untranslated regions of mRNA and function predictions 的研究論文,該論文此前於2023年10月在預印本平臺bioRxiv上線。
該研究開發了一種語言模型(language model)——UTR-LM, 該模型利用其語義表徵能力解碼mRNA的5'UTR區並預測其功能,並在此基礎上生成mRNA的5'UTR序列,其中,生成的新冠病毒S蛋白的mRNA的5'UTR區,相比現有的優化的5'UTR區,能夠將S蛋白生成水平大幅提高32.5%,從而幫助開發更有效的mRNA疫苗。
王夢迪教授
王夢迪,14歲時考入清華大學自動化系,23歲時獲得麻省理工學院(MIT)電子工程與計算機博士學位,同年加入普林斯頓大學任助理教授,29歲時獲得普林斯頓大學終身教職。
自然界中的生命都遵循一個基本法則——中心法則,即細胞生命的遺傳信息從DNA向RNA再向蛋白質的流動,DNA儲存了遺傳信息,蛋白組負責了細胞的結構和功能,而mRNA將DNA中的遺傳信息翻譯爲蛋白組。實際上,mRNA中只有一部分會被翻譯爲蛋白質,其餘部分是非翻譯區,發揮着調控翻譯的功能。
5'非翻譯區(5 ' UTR) 是mRNA序列開頭的一段區域,位於蛋白質編碼序列之前。它影響着mRNA分子的穩定性、定位和翻譯,在調控mRNA到蛋白質的翻譯過程中發揮着至關重要的作用。
對於mRNA疫苗,控制其蛋白質產生的效率非常關鍵。在這項研究中,研究團隊將他們開發的語言模型集中於mRNA的5'非翻譯區(5′ UTR)——UTR-LM, 以瞭解如何優化mRNA翻譯效率和改進疫苗。
與驅動ChatGPT等聊天機器人的大語言模型(LLM)相比,該研究開發的這個語言模型(UTR-LM)在程度上不同,前者是在互聯網上數十億頁的文本上進行訓練,而UTR-LM是在幾十萬個來自不同物種的mRNA序列上進行基於Transformer模型的預訓練,並納入了mRNA二級結構和最小自由能(MFE)等監督信息。訓練後的UTR-LM模型能夠準確預測mRNA的平均核糖體結合數量(MRL)、mRNA的翻譯效率(TE)和表達水平(EL),還可預測mRNA非翻譯區上未被註釋的核糖體進入位點(IRES)。這些預測的準確率均顯著高於現有工具。
5′UTR功能預測與設計的UTR-LM模型
然後,研究團隊使用經過訓練的UTR-LM模型創建了一個包括211個新序列的庫。每個序列都被優化以實現所需功能,主要是提高蛋白質翻譯效率,例如提高mRNA新冠疫苗所編碼的刺突蛋白(S蛋白)。研究團隊通過實驗室實驗進一步驗證了這些生成的序列,其中最佳序列優於現有的能夠顯著提高S蛋白表達效率的5'UTR序列 ——NCA-7d-5'UTR,將S蛋白的生產水平提高了32.5%。這一提高幅度足以對包括傳染病疫苗、癌症疫在內的mRNA疫苗和療法帶來巨大推動。
對UTR-LM模型及由UTR-LM生成的5'UTR序的實驗驗證
以前的研究已經創建了語言模型來解碼各種生物序列,包括蛋白質序列和DNA序列,而UTR-LM是第一個專注於mRNA非翻譯區的語言模型,其除了提高mRNA的整體翻譯效率外,還能夠預測序列在各種相關任務中的表現。
論文通訊作者王夢迪教授表示,創建這個語言模型的真正挑戰在於讓其理解可用數據的完整上下文,訓練模型不僅需要具有所有特徵的原始數據,還需要這些特徵的下游結果。 該模型的成功還指向了一個更基本的可能性——通過對少數物種的mRNA進行訓練,它能夠解碼核酸序列,並揭示有關基因調控的新知識。基因調控是生命最基本的功能之一,掌握着解鎖疾病和疾病起源的關鍵。像這樣的語言模型可以提供一種探索基因調控的新方式。
該論文此前已於2023年10月在預印本平臺bioRxiv上線。
參考資料:
https://www.nature.com/articles/s42256-024-00823-9
https://mwang.princeton.edu