當(dāng)前位置：首頁(yè) > 元宇宙 > AI

斯坦福評(píng)測(cè)：DeepSeek R1醫(yī)療AI大放異彩，成臨床場(chǎng)景新冠軍

來(lái)源：責(zé)編：時(shí)間：2025-06-04 12:24:09 115觀看

導(dǎo)讀斯坦福大學(xué)近期公布了一項(xiàng)關(guān)于臨床醫(yī)療人工智能模型的深度評(píng)估結(jié)果，DeepSeek R1憑借其卓越的表現(xiàn)，在這場(chǎng)九強(qiáng)爭(zhēng)霸中脫穎而出，以66%的勝率及0.75的宏觀平均分榮膺桂冠。此次評(píng)估不僅涵蓋了傳統(tǒng)醫(yī)療執(zhí)照考試的內(nèi)容，更深入模

斯坦福大學(xué)近期公布了一項(xiàng)關(guān)于臨床醫(yī)療人工智能模型的深度評(píng)估結(jié)果，DeepSeek R1憑借其卓越的表現(xiàn)，在這場(chǎng)九強(qiáng)爭(zhēng)霸中脫穎而出，以66%的勝率及0.75的宏觀平均分榮膺桂冠。此次評(píng)估不僅涵蓋了傳統(tǒng)醫(yī)療執(zhí)照考試的內(nèi)容，更深入模擬了臨床醫(yī)生的日常工作環(huán)境，為評(píng)估增添了實(shí)戰(zhàn)色彩。

為了全面而準(zhǔn)確地評(píng)估各模型的性能，斯坦福大學(xué)的評(píng)測(cè)團(tuán)隊(duì)精心打造了一個(gè)名為MedHELM的綜合評(píng)估體系，該體系包含35項(xiàng)基準(zhǔn)測(cè)試，廣泛覆蓋了22個(gè)醫(yī)療任務(wù)子領(lǐng)域。這一體系的科學(xué)性和實(shí)用性得到了29名來(lái)自14個(gè)不同醫(yī)學(xué)專(zhuān)科的執(zhí)業(yè)醫(yī)生的驗(yàn)證與認(rèn)可。評(píng)估結(jié)果顯示，DeepSeek R1在各項(xiàng)測(cè)試中均表現(xiàn)出色，穩(wěn)定性極高，勝率標(biāo)準(zhǔn)差僅為0.10。緊隨其后的是o3-mini和Claude3.7Sonnet，它們分別以64%的勝率和0.77的最高宏觀平均分，以及64%的勝率獲得了第二和第三名的佳績(jī)。

值得注意的是，o3-mini在臨床決策支持方面的表現(xiàn)尤為搶眼，展現(xiàn)了其在特定醫(yī)療場(chǎng)景下的強(qiáng)大實(shí)力。而Claude系列模型，如Claude3.5和3.7Sonnet，雖然未能奪冠，但也以不俗的勝率緊隨DeepSeek R1和o3-mini之后，顯示出其在醫(yī)療AI領(lǐng)域的競(jìng)爭(zhēng)力。

此次評(píng)估還采用了創(chuàng)新的大語(yǔ)言模型評(píng)審團(tuán)（LLM-jury）方法，該方法的結(jié)果與臨床醫(yī)生的評(píng)分高度吻合，進(jìn)一步驗(yàn)證了其評(píng)估的有效性和準(zhǔn)確性。同時(shí)，研究團(tuán)隊(duì)還進(jìn)行了成本效益分析，發(fā)現(xiàn)推理模型的使用成本相對(duì)較高，更適合對(duì)精度和性能有較高要求的用戶；而非推理模型則成本較低，更易于普及和應(yīng)用。

斯坦福大學(xué)的這項(xiàng)評(píng)估不僅為醫(yī)療AI的發(fā)展提供了重要的數(shù)據(jù)參考，也為未來(lái)的臨床實(shí)踐提供了更多的選擇和可能性，推動(dòng)了醫(yī)療AI技術(shù)的不斷前進(jìn)。

舉報(bào) 0收藏 0打賞 0評(píng)論 0

更多>同類(lèi)資訊

華為WATCH5智能手表：雙大模型加持，運(yùn)動(dòng)健康管理再上新臺(tái)階！

06-04

智能領(lǐng)航！云海科技大型船舶總段對(duì)接裝備開(kāi)啟建造新時(shí)代

06-04

得一微引領(lǐng)AI存力芯片革命，數(shù)據(jù)智能新紀(jì)元即將開(kāi)啟

06-04

英偉達(dá)市值飆升，超越微軟成為全球新“一哥”！

06-04

蘋(píng)果A20芯片大升級(jí)！iPhone 18 Pro將首發(fā)2納米工藝，性能飆升

06-04

GPT-5即將面世，OpenAI員工證實(shí)：性能遠(yuǎn)超現(xiàn)有模型！

06-04

AI重塑市場(chǎng)調(diào)研：1400億美金市場(chǎng)迎來(lái)虛擬消費(fèi)者時(shí)代

06-04

OpenAI高層五天"離職又回歸"風(fēng)波，將被搬上大銀幕？

06-04

DeepSeek新AI模型性能卓越，是否暗藏Google Gemini數(shù)據(jù)訓(xùn)練之謎？

06-04

螞蟻集團(tuán)“AI 健康管家”通過(guò)信通院評(píng)估，4000萬(wàn)用戶共赴智能健康之旅

06-04

英偉達(dá)市值超微軟，重返全球市值榜首！

當(dāng)?shù)貢r(shí)間6月3日，美股三大指數(shù)集體收漲，熱門(mén)科技股多數(shù)上漲。其中，英偉達(dá)上漲近3%，收?qǐng)?bào)141.40美元，市值再度超越微軟，重奪全球市值最高上市公司頭銜。英偉達(dá)目前市值為3.45萬(wàn)億美元，微軟市值3.44萬(wàn)億…

06-04

《Artificial》今夏開(kāi)機(jī)，揭秘OpenAI 2023年CEO罷免又復(fù)職風(fēng)波

據(jù)報(bào)道，一部聚焦 2023 年 OpenAI 內(nèi)部動(dòng)蕩的新影片《Artificial》正式啟動(dòng)，由盧卡?瓜達(dá)尼諾執(zhí)導(dǎo)，大衛(wèi)?海曼和杰弗里?克利福德?lián)沃破巹∥髅?里奇參與制片，詹妮弗?福克斯正在商談加入，…

06-04

蘋(píng)果A20芯片大升級(jí)！iPhone 18 Pro將首發(fā)2nm工藝，性能如何？

06-04

Deepseek梁文鋒拒資專(zhuān)注AGI，開(kāi)源模式引爆AI新生態(tài)

據(jù)報(bào)道，資深投資人宋春雨透露，Deepseek創(chuàng)始人梁文鋒因?qū)ι虡I(yè)化不感興趣、專(zhuān)注打磨基礎(chǔ)模型并追求實(shí)現(xiàn) AGI使命，拒絕所有投資人，且因團(tuán)隊(duì)主體不差錢(qián)，其開(kāi)源的 Deepseek 以低部署成本、高性能表現(xiàn)…

06-04

字節(jié)跳動(dòng)香港布局加速，抖音月活破300萬(wàn)，BytePlus云技術(shù)引領(lǐng)AI新時(shí)代

據(jù)悉，字節(jié)跳動(dòng)在香港業(yè)務(wù)發(fā)展迅猛。抖音在香港月活躍用戶超 300 萬(wàn)，較 2022 年底增長(zhǎng) 147%，較 2024 年同期增長(zhǎng)超 60%，近40% 香港常住人口每月使用抖音。同時(shí)，字節(jié)跳動(dòng)旗下 ByteP…

06-04

點(diǎn)擊查看更多 +

全站最新