斯坦福大學(xué)近期公布了一項(xiàng)關(guān)于臨床醫(yī)療人工智能模型的深度評(píng)估結(jié)果,DeepSeek R1憑借其卓越的表現(xiàn),在這場(chǎng)九強(qiáng)爭(zhēng)霸中脫穎而出,以66%的勝率及0.75的宏觀平均分榮膺桂冠。此次評(píng)估不僅涵蓋了傳統(tǒng)醫(yī)療執(zhí)照考試的內(nèi)容,更深入模擬了臨床醫(yī)生的日常工作環(huán)境,為評(píng)估增添了實(shí)戰(zhàn)色彩。
為了全面而準(zhǔn)確地評(píng)估各模型的性能,斯坦福大學(xué)的評(píng)測(cè)團(tuán)隊(duì)精心打造了一個(gè)名為MedHELM的綜合評(píng)估體系,該體系包含35項(xiàng)基準(zhǔn)測(cè)試,廣泛覆蓋了22個(gè)醫(yī)療任務(wù)子領(lǐng)域。這一體系的科學(xué)性和實(shí)用性得到了29名來(lái)自14個(gè)不同醫(yī)學(xué)專(zhuān)科的執(zhí)業(yè)醫(yī)生的驗(yàn)證與認(rèn)可。評(píng)估結(jié)果顯示,DeepSeek R1在各項(xiàng)測(cè)試中均表現(xiàn)出色,穩(wěn)定性極高,勝率標(biāo)準(zhǔn)差僅為0.10。緊隨其后的是o3-mini和Claude3.7Sonnet,它們分別以64%的勝率和0.77的最高宏觀平均分,以及64%的勝率獲得了第二和第三名的佳績(jī)。
值得注意的是,o3-mini在臨床決策支持方面的表現(xiàn)尤為搶眼,展現(xiàn)了其在特定醫(yī)療場(chǎng)景下的強(qiáng)大實(shí)力。而Claude系列模型,如Claude3.5和3.7Sonnet,雖然未能奪冠,但也以不俗的勝率緊隨DeepSeek R1和o3-mini之后,顯示出其在醫(yī)療AI領(lǐng)域的競(jìng)爭(zhēng)力。
此次評(píng)估還采用了創(chuàng)新的大語(yǔ)言模型評(píng)審團(tuán)(LLM-jury)方法,該方法的結(jié)果與臨床醫(yī)生的評(píng)分高度吻合,進(jìn)一步驗(yàn)證了其評(píng)估的有效性和準(zhǔn)確性。同時(shí),研究團(tuán)隊(duì)還進(jìn)行了成本效益分析,發(fā)現(xiàn)推理模型的使用成本相對(duì)較高,更適合對(duì)精度和性能有較高要求的用戶;而非推理模型則成本較低,更易于普及和應(yīng)用。
斯坦福大學(xué)的這項(xiàng)評(píng)估不僅為醫(yī)療AI的發(fā)展提供了重要的數(shù)據(jù)參考,也為未來(lái)的臨床實(shí)踐提供了更多的選擇和可能性,推動(dòng)了醫(yī)療AI技術(shù)的不斷前進(jìn)。















本文鏈接:http://www.rrqrq.com/showinfo-45-13385-0.html斯坦福評(píng)測(cè):DeepSeek R1醫(yī)療AI大放異彩,成臨床場(chǎng)景新冠軍
聲明:本網(wǎng)頁(yè)內(nèi)容旨在傳播知識(shí),若有侵權(quán)等問(wèn)題請(qǐng)及時(shí)與本網(wǎng)聯(lián)系,我們將在第一時(shí)間刪除處理。郵件:[email protected]
上一篇: 階躍星辰C端產(chǎn)品調(diào)整,“冒泡鴨”停運(yùn),業(yè)務(wù)重心轉(zhuǎn)向Agent研發(fā)?