9 月 14 日消息,一項(xiàng)新研究發(fā)現(xiàn),人類讀取指針式時(shí)鐘的準(zhǔn)確率可達(dá) 89.1%,而目前最優(yōu)秀的人工智能(AI)模型準(zhǔn)確率僅為 13.3%,該結(jié)果凸顯出當(dāng)前語言模型在視覺推理能力方面與人類存在巨大差距。

阿萊克?薩法爾(Alek Safar)采用名為“ClockBench”的全新測試,讓來自 6 家企業(yè)的 11 個(gè)大型語言模型與 5 名人類展開正面較量。該基準(zhǔn)測試包含 180 個(gè)定制的指針式時(shí)鐘及 720 道測試題,遵循“人類易上手、AI 難突破”的設(shè)計(jì)思路,這一思路在 ARC-AGI、SimpleBench 等基準(zhǔn)測試中也有所體現(xiàn)。
為確保公平性并避免與模型訓(xùn)練數(shù)據(jù)重疊,薩法爾從零開始構(gòu)建了該數(shù)據(jù)集。數(shù)據(jù)集包含 36 種獨(dú)特的鐘面設(shè)計(jì),融合了羅馬數(shù)字與阿拉伯?dāng)?shù)字、不同朝向、時(shí)針標(biāo)識(shí)、鏡像布局及彩色背景等元素。每種設(shè)計(jì)他都制作了 5 個(gè)不同的時(shí)鐘,總共有 180 個(gè)時(shí)鐘。
每個(gè)時(shí)鐘均通過四類問題進(jìn)行測試:讀取時(shí)間、時(shí)間計(jì)算、按特定角度調(diào)整指針,以及時(shí)區(qū)轉(zhuǎn)換。薩法爾根據(jù)時(shí)鐘類型設(shè)置了不同的誤差允許范圍,例如,僅含時(shí)針的時(shí)鐘比同時(shí)具備時(shí)針、分針、秒針的時(shí)鐘誤差容忍度更高。
薩法爾表示,相較于“人類終極測試”(Humanity's Last Exam)這類側(cè)重知識(shí)儲(chǔ)備的測試,ClockBench 對(duì) AI 模型的難度更高。測試結(jié)果表明,即便面對(duì)看似簡單的視覺任務(wù),AI 與人類的差距仍十分顯著。
谷歌旗下的 Gemini 2.5 Pro 模型以 13.3% 的準(zhǔn)確率位居榜首,Gemini 2.5 Flash 緊隨其后,準(zhǔn)確率為 10.5%。GPT-5 排名第三,準(zhǔn)確率 8.4%,且調(diào)整模型的推理預(yù)算對(duì)提升準(zhǔn)確率效果甚微。

Grok 4 模型表現(xiàn)墊底,準(zhǔn)確率僅 0.7%,這一結(jié)果頗為出人意料,因?yàn)樵撃P驮谄渌鶞?zhǔn)測試中常常表現(xiàn)出色。Grok 4 將 63.3% 的時(shí)鐘判定為“無效”,但實(shí)際上 180 個(gè)時(shí)鐘中僅 37 個(gè)顯示的是“不可能時(shí)間”。這種極度謹(jǐn)慎的方式意味著,從技術(shù)層面來講,Grok 4 的正確答案數(shù)量最多,但這只是通過隨機(jī)將時(shí)鐘標(biāo)記為無效實(shí)現(xiàn)的。
Anthropic 公司的 Claude 4 Sonnet(準(zhǔn)確率 4.2%)與 Claude 4.1 Opus(準(zhǔn)確率 5.6%)表現(xiàn)同樣不佳。研究還發(fā)現(xiàn),61.7% 的時(shí)鐘未能被任何一個(gè) AI 模型正確讀取。
相較于準(zhǔn)確率,誤差的嚴(yán)重程度更能反映問題本質(zhì)。人類讀取時(shí)間的中位誤差僅為 3 分鐘,而表現(xiàn)最佳的 AI 模型中位誤差達(dá) 1 小時(shí),性能最差的 AI 模型誤差約為 3 小時(shí),對(duì)于 12 小時(shí)制時(shí)鐘而言,這幾乎和隨機(jī)猜測差不多。

注意到,部分鐘面特征對(duì) AI 而言難度極高:當(dāng)鐘面采用羅馬數(shù)字時(shí),AI 準(zhǔn)確率降至 3.2%;采用圓形數(shù)字時(shí),準(zhǔn)確率僅為 4.5%。此外,秒針、彩色背景及鏡像布局也會(huì)對(duì) AI 的判斷造成干擾。
僅含時(shí)針的時(shí)鐘對(duì) AI 而言相對(duì)容易(準(zhǔn)確率 23.6%),這得益于其更高的誤差容忍度。采用阿拉伯?dāng)?shù)字和基礎(chǔ)表盤的標(biāo)準(zhǔn)時(shí)鐘,也能讓 AI 取得相對(duì)更好的成績。

測試還獲得了一個(gè)意外發(fā)現(xiàn):當(dāng) AI 模型成功讀取時(shí)間后,它們在時(shí)間計(jì)算、指針調(diào)整或時(shí)區(qū)轉(zhuǎn)換任務(wù)中幾乎都能得出正確結(jié)果。這意味著,AI 面臨的挑戰(zhàn)并非“進(jìn)行時(shí)間相關(guān)的數(shù)學(xué)運(yùn)算”,而是“從視覺信息中讀取時(shí)間”這一初始步驟。
薩法爾認(rèn)為,背后原因可能有三點(diǎn):其一,讀取指針式時(shí)鐘對(duì)視覺推理能力是一項(xiàng)嚴(yán)峻考驗(yàn);其二,罕見或特殊的鐘面設(shè)計(jì)在訓(xùn)練數(shù)據(jù)中出現(xiàn)頻率極低;其三,將鐘面視覺信息轉(zhuǎn)化為文字描述,對(duì)當(dāng)前 AI 模型而言很可能是一項(xiàng)難題。
ClockBench 被定位為一項(xiàng)長期基準(zhǔn)測試。其完整數(shù)據(jù)集目前處于保密狀態(tài),以避免污染未來 AI 的訓(xùn)練過程,但已有一個(gè)規(guī)模較小的公開版本可供測試使用。
盡管 AI 在該測試中的得分普遍較低,薩法爾仍看到了希望:性能最佳的模型表現(xiàn)優(yōu)于隨機(jī)猜測,且展現(xiàn)出基礎(chǔ)的視覺推理能力。不過,這些能力能否通過“擴(kuò)大現(xiàn)有方法規(guī)模”得到提升,還是需要全新技術(shù)路徑來突破,目前仍是一個(gè)待解的問題。
一年前,中國一項(xiàng)研究也曾發(fā)現(xiàn)多模態(tài)語言模型存在類似的能力短板,但當(dāng)時(shí)的結(jié)果要好得多。彼時(shí),GPT-4o 模型在包含“讀時(shí)鐘、讀儀表”的儀表盤任務(wù)中,準(zhǔn)確率達(dá)到 54.8%。而此次 ClockBench 測試中,AI 的最高準(zhǔn)確率僅為 13.3%,這一差距既表明新基準(zhǔn)測試難度顯著提升,也反映出 AI 的時(shí)鐘讀取能力并未取得明顯進(jìn)步。
本文鏈接:http://www.rrqrq.com/showinfo-45-27648-0.html新研究:人類讀指針式時(shí)鐘準(zhǔn)確率達(dá) 89.1%,頂尖 AI 僅 13.3%
聲明:本網(wǎng)頁內(nèi)容旨在傳播知識(shí),若有侵權(quán)等問題請及時(shí)與本網(wǎng)聯(lián)系,我們將在第一時(shí)間刪除處理。郵件:2376512515@qq.com
上一篇: OpenAI GPT-5 擁有博士級(jí)能力?谷歌 DeepMind CEO:無稽之談
下一篇: 科學(xué)家發(fā)現(xiàn) AI 能像人類一樣評(píng)估社交情境,科研效率遠(yuǎn)超人工