2 月 21 日消息,清華大學人工智能產業(yè)研究院(AIR)和北京水木分子生物科技有限公司(簡稱:水木分子)昨日宣布推出升級版的生物醫(yī)藥多模態(tài)開源基礎大模型 BioMedGPT-R1。
此前,在 2023 年,雙方合作發(fā)布了開源可商用、生物醫(yī)藥多模態(tài)百億參數(shù)開源基礎大模型 BioMedGPT,水木分子發(fā)布了自研千億參數(shù)多模態(tài)生物醫(yī)藥專業(yè)大模型 ChatDDFM 和新一代 AI 驅動藥物發(fā)現(xiàn)工具 ChatDD。這次 DeepSeek 版 ChatDD-R1 基座模型也已同步上線 ChatDD,用于生物醫(yī)藥企業(yè)的藥物研發(fā)。
BioMedGPT 是清華大學智能產業(yè)研究院(AIR)攜手水木分子開源的全球首個可商用多模態(tài)生物醫(yī)藥百億參數(shù)大模型,該模型在生物醫(yī)藥專業(yè)領域問答能力號稱“比肩人類專家水平”,發(fā)布時在自然語言、分子、蛋白質跨模態(tài)問答任務上達到 SOTA。
在 BioMedGPT 的基礎上,清華大學 AIR 與水木分子推出了 BioMedGPT-R1,用 DeepSeek R1 蒸餾版本模型更新了 BioMedGPT 中現(xiàn)采用的文本基座模型,從而引入了更優(yōu)的文本推理能力。
通過跨模態(tài)特征對齊,BioMedGPT-R1 實現(xiàn)了生物模態(tài)與自然語言文本模態(tài)在同一個特征空間的統(tǒng)一融合,探索了生物多模態(tài)場景下的模型深度推理能力。
通過訓練對齊翻譯層(Translator),BioMedGPT-R1 將生物模態(tài)編碼器(Molecule Encoder 與 Protein Encoder)輸出映射到自然語言表征空間,從而在 DeepSeek R1 基礎上增加了生物模態(tài)數(shù)據(jù)的理解能力。


BioMedGPT-R1 的訓練分為兩個主要步驟:
首先,僅訓練對齊翻譯層 Translator,使其能將編碼后的生物模態(tài)表征映射到語義表征空間;
然后,同時微調對齊翻譯層 Translator 和基座大語言模型,激發(fā)其在下游任務上的多模態(tài)深度推理能力。
清華大學 AIR 和水木分子研究團隊表示,將長期持續(xù)維護 OpenBioMed 開源平臺,團隊現(xiàn)階段探索方向是如何在強推理語言模型的基礎上更好地適應性地實現(xiàn)跨模態(tài)對齊,團隊正在以 BioMedGPT-R1 為基礎進行系統(tǒng)性研究與綜合評估,目前已經觀察到其在化學分子理解任務上的性能提升,如在 CheBI-20化學分子描述任務上相比上一版本效果提升超 15%,后續(xù)也將依托 OpenBioMed 平臺開源 BioMedGPT-R1 模型和生物醫(yī)藥研發(fā) Agent 系統(tǒng)框架。

附開源地址如下,當前新版本還未開源:
https://github.com/PharMolix/OpenBioMed
本文鏈接:http://www.rrqrq.com/showinfo-45-11002-0.html清華系團隊 DeepSeek 版多模態(tài)生物醫(yī)藥大模型 BioMedGPT-R1 發(fā)布,后續(xù)計劃開源
聲明:本網頁內容旨在傳播知識,若有侵權等問題請及時與本網聯(lián)系,我們將在第一時間刪除處理。郵件:[email protected]