1 月 24 日消息,非營(yíng)利組織“人工智能安全中心”(CAIS)與提供數(shù)據(jù)標(biāo)注和 AI 開(kāi)發(fā)服務(wù)的公司 Scale AI 聯(lián)合推出了一個(gè)名為“人類(lèi)終極考試”(Humanity's Last Exam)的新型基準(zhǔn)測(cè)試,旨在評(píng)估前沿 AI 系統(tǒng)的綜合能力。這一測(cè)試因其極高的難度引起關(guān)注。

據(jù)了解,該基準(zhǔn)測(cè)試包含來(lái)自50個(gè)國(guó)家 / 地區(qū)500多個(gè)機(jī)構(gòu)的近1,000名學(xué)科專(zhuān)家撰稿人提出問(wèn)題,這些專(zhuān)家主要由教授、研究人員和研究生學(xué)位持有者組成,涵蓋數(shù)學(xué)、人文學(xué)科和自然科學(xué)等多個(gè)領(lǐng)域。為增加測(cè)試的挑戰(zhàn)性,題目形式多樣,包括結(jié)合圖表和圖像的復(fù)雜題型。這種設(shè)計(jì)旨在全面考察 AI 系統(tǒng)在跨學(xué)科知識(shí)和多模態(tài)信息處理方面的能力。
在初步研究中,所有公開(kāi)可用的旗艦 AI 系統(tǒng)在該測(cè)試中的回答準(zhǔn)確率均未超過(guò) 10%。這一結(jié)果表明,盡管當(dāng)前 AI 技術(shù)在特定領(lǐng)域已取得顯著進(jìn)展,但在應(yīng)對(duì)復(fù)雜、綜合性的問(wèn)題時(shí)仍存在明顯短板。


CAIS 和 Scale AI 表示,他們計(jì)劃將這一基準(zhǔn)測(cè)試向研究社區(qū)開(kāi)放,以便研究人員能夠“深入挖掘差異”并評(píng)估新開(kāi)發(fā)的 AI 模型。
本文鏈接:http://www.rrqrq.com/showinfo-45-10176-0.html“人類(lèi)終極考試”基準(zhǔn)測(cè)試發(fā)布:頂級(jí) AI 系統(tǒng)表現(xiàn)慘淡,回答準(zhǔn)確率均未超 10%
聲明:本網(wǎng)頁(yè)內(nèi)容旨在傳播知識(shí),若有侵權(quán)等問(wèn)題請(qǐng)及時(shí)與本網(wǎng)聯(lián)系,我們將在第一時(shí)間刪除處理。郵件:[email protected]
上一篇: OpenAI 首個(gè)智能體 Operator 測(cè)評(píng),你也能擁有 24 小時(shí)私人管家
下一篇: Anthropic 發(fā)布 Citations API,迎戰(zhàn) AI 信息來(lái)源驗(yàn)證挑戰(zhàn)