當(dāng)前位置：首頁 > 元宇宙 > AI

新研究：人類讀指針式時(shí)鐘準(zhǔn)確率達(dá) 89.1%，頂尖 AI 僅 13.3%

來源：責(zé)編：時(shí)間：2025-09-17 11:35:34 61觀看

導(dǎo)讀 9 月 14 日消息，一項(xiàng)新研究發(fā)現(xiàn)，人類讀取指針式時(shí)鐘的準(zhǔn)確率可達(dá) 89.1%，而目前最優(yōu)秀的人工智能（AI）模型準(zhǔn)確率僅為 13.3%，該結(jié)果凸顯出當(dāng)前語言模型在視覺推理能力方面與人類存在巨大差距。阿萊克?薩法爾（Alek Saf

9 月 14 日消息，一項(xiàng)新研究發(fā)現(xiàn)，人類讀取指針式時(shí)鐘的準(zhǔn)確率可達(dá) 89.1%，而目前最優(yōu)秀的人工智能（AI）模型準(zhǔn)確率僅為 13.3%，該結(jié)果凸顯出當(dāng)前語言模型在視覺推理能力方面與人類存在巨大差距。

阿萊克?薩法爾（Alek Safar）采用名為“ClockBench”的全新測試，讓來自 6 家企業(yè)的 11 個(gè)大型語言模型與 5 名人類展開正面較量。該基準(zhǔn)測試包含 180 個(gè)定制的指針式時(shí)鐘及 720 道測試題，遵循“人類易上手、AI 難突破”的設(shè)計(jì)思路，這一思路在 ARC-AGI、SimpleBench 等基準(zhǔn)測試中也有所體現(xiàn)。

為確保公平性并避免與模型訓(xùn)練數(shù)據(jù)重疊，薩法爾從零開始構(gòu)建了該數(shù)據(jù)集。數(shù)據(jù)集包含 36 種獨(dú)特的鐘面設(shè)計(jì)，融合了羅馬數(shù)字與阿拉伯?dāng)?shù)字、不同朝向、時(shí)針標(biāo)識(shí)、鏡像布局及彩色背景等元素。每種設(shè)計(jì)他都制作了 5 個(gè)不同的時(shí)鐘，總共有 180 個(gè)時(shí)鐘。

每個(gè)時(shí)鐘均通過四類問題進(jìn)行測試：讀取時(shí)間、時(shí)間計(jì)算、按特定角度調(diào)整指針，以及時(shí)區(qū)轉(zhuǎn)換。薩法爾根據(jù)時(shí)鐘類型設(shè)置了不同的誤差允許范圍，例如，僅含時(shí)針的時(shí)鐘比同時(shí)具備時(shí)針、分針、秒針的時(shí)鐘誤差容忍度更高。

薩法爾表示，相較于“人類終極測試”（Humanity's Last Exam）這類側(cè)重知識(shí)儲(chǔ)備的測試，ClockBench 對(duì) AI 模型的難度更高。測試結(jié)果表明，即便面對(duì)看似簡單的視覺任務(wù)，AI 與人類的差距仍十分顯著。

谷歌旗下的 Gemini 2.5 Pro 模型以 13.3% 的準(zhǔn)確率位居榜首，Gemini 2.5 Flash 緊隨其后，準(zhǔn)確率為 10.5%。GPT-5 排名第三，準(zhǔn)確率 8.4%，且調(diào)整模型的推理預(yù)算對(duì)提升準(zhǔn)確率效果甚微。

Grok 4 模型表現(xiàn)墊底，準(zhǔn)確率僅 0.7%，這一結(jié)果頗為出人意料，因?yàn)樵撃Ｐ驮谄渌鶞?zhǔn)測試中常常表現(xiàn)出色。Grok 4 將 63.3% 的時(shí)鐘判定為“無效”，但實(shí)際上 180 個(gè)時(shí)鐘中僅 37 個(gè)顯示的是“不可能時(shí)間”。這種極度謹(jǐn)慎的方式意味著，從技術(shù)層面來講，Grok 4 的正確答案數(shù)量最多，但這只是通過隨機(jī)將時(shí)鐘標(biāo)記為無效實(shí)現(xiàn)的。

Anthropic 公司的 Claude 4 Sonnet（準(zhǔn)確率 4.2%）與 Claude 4.1 Opus（準(zhǔn)確率 5.6%）表現(xiàn)同樣不佳。研究還發(fā)現(xiàn)，61.7% 的時(shí)鐘未能被任何一個(gè) AI 模型正確讀取。

相較于準(zhǔn)確率，誤差的嚴(yán)重程度更能反映問題本質(zhì)。人類讀取時(shí)間的中位誤差僅為 3 分鐘，而表現(xiàn)最佳的 AI 模型中位誤差達(dá) 1 小時(shí)，性能最差的 AI 模型誤差約為 3 小時(shí)，對(duì)于 12 小時(shí)制時(shí)鐘而言，這幾乎和隨機(jī)猜測差不多。

注意到，部分鐘面特征對(duì) AI 而言難度極高：當(dāng)鐘面采用羅馬數(shù)字時(shí)，AI 準(zhǔn)確率降至 3.2%；采用圓形數(shù)字時(shí)，準(zhǔn)確率僅為 4.5%。此外，秒針、彩色背景及鏡像布局也會(huì)對(duì) AI 的判斷造成干擾。

僅含時(shí)針的時(shí)鐘對(duì) AI 而言相對(duì)容易（準(zhǔn)確率 23.6%），這得益于其更高的誤差容忍度。采用阿拉伯?dāng)?shù)字和基礎(chǔ)表盤的標(biāo)準(zhǔn)時(shí)鐘，也能讓 AI 取得相對(duì)更好的成績。

測試還獲得了一個(gè)意外發(fā)現(xiàn)：當(dāng) AI 模型成功讀取時(shí)間后，它們在時(shí)間計(jì)算、指針調(diào)整或時(shí)區(qū)轉(zhuǎn)換任務(wù)中幾乎都能得出正確結(jié)果。這意味著，AI 面臨的挑戰(zhàn)并非“進(jìn)行時(shí)間相關(guān)的數(shù)學(xué)運(yùn)算”，而是“從視覺信息中讀取時(shí)間”這一初始步驟。

薩法爾認(rèn)為，背后原因可能有三點(diǎn)：其一，讀取指針式時(shí)鐘對(duì)視覺推理能力是一項(xiàng)嚴(yán)峻考驗(yàn)；其二，罕見或特殊的鐘面設(shè)計(jì)在訓(xùn)練數(shù)據(jù)中出現(xiàn)頻率極低；其三，將鐘面視覺信息轉(zhuǎn)化為文字描述，對(duì)當(dāng)前 AI 模型而言很可能是一項(xiàng)難題。

ClockBench 被定位為一項(xiàng)長期基準(zhǔn)測試。其完整數(shù)據(jù)集目前處于保密狀態(tài)，以避免污染未來 AI 的訓(xùn)練過程，但已有一個(gè)規(guī)模較小的公開版本可供測試使用。

盡管 AI 在該測試中的得分普遍較低，薩法爾仍看到了希望：性能最佳的模型表現(xiàn)優(yōu)于隨機(jī)猜測，且展現(xiàn)出基礎(chǔ)的視覺推理能力。不過，這些能力能否通過“擴(kuò)大現(xiàn)有方法規(guī)模”得到提升，還是需要全新技術(shù)路徑來突破，目前仍是一個(gè)待解的問題。

一年前，中國一項(xiàng)研究也曾發(fā)現(xiàn)多模態(tài)語言模型存在類似的能力短板，但當(dāng)時(shí)的結(jié)果要好得多。彼時(shí)，GPT-4o 模型在包含“讀時(shí)鐘、讀儀表”的儀表盤任務(wù)中，準(zhǔn)確率達(dá)到 54.8%。而此次 ClockBench 測試中，AI 的最高準(zhǔn)確率僅為 13.3%，這一差距既表明新基準(zhǔn)測試難度顯著提升，也反映出 AI 的時(shí)鐘讀取能力并未取得明顯進(jìn)步。

本文鏈接：http://www.rrqrq.com/showinfo-45-27648-0.html新研究：人類讀指針式時(shí)鐘準(zhǔn)確率達(dá) 89.1%，頂尖 AI 僅 13.3%

聲明：本網(wǎng)頁內(nèi)容旨在傳播知識(shí)，若有侵權(quán)等問題請及時(shí)與本網(wǎng)聯(lián)系，我們將在第一時(shí)間刪除處理。郵件：2376512515@qq.com

上一篇： OpenAI GPT-5 擁有博士級(jí)能力？谷歌 DeepMind CEO：無稽之談

下一篇：科學(xué)家發(fā)現(xiàn) AI 能像人類一樣評(píng)估社交情境，科研效率遠(yuǎn)超人工

標(biāo)簽：

熱門焦點(diǎn)

韓國主權(quán)基金增加對(duì)硅谷初創(chuàng)公司投資押注元宇宙和人工智能

韓國投資公司(KIC)CEO Seoungho Jin預(yù)計(jì)，該公司在舊金山的辦事處今年將擴(kuò)招人手，探索在硅谷投資科技、健康和綠色項(xiàng)目。規(guī)模高達(dá)2000億美元的韓國主權(quán)財(cái)富基金—
萬字專訪Vitalik Buterin：以太坊將成為主流和最安全的基礎(chǔ)層

Vitalik Buterin 在 19 歲時(shí)撰寫了以太坊白皮書。他的目標(biāo)簡單而全面，即創(chuàng)建一個(gè)“世界計(jì)算機(jī)”，旨在成為所有在線應(yīng)用程序的靈活基礎(chǔ)層，無需任何第三方。自 2015
美國一區(qū)塊鏈風(fēng)投公司宣布成立2.5億美元web3投資新基金

No.1 俄羅斯財(cái)政部長: 在俄羅斯禁止比特幣就如禁止互聯(lián)網(wǎng)一樣2月16日消息，俄羅斯財(cái)政部長安東·西盧安諾夫（Anton Siluanov）表示，在俄羅斯禁止加密貨幣就跟禁止互
上海虹口成立10億元元宇宙基金，香港首只元宇宙ETF擬上市

區(qū)塊鏈日報(bào)17日訊今日《元宇宙新鮮事》有：上海虹口將成立總額約10億元的元宇宙產(chǎn)業(yè)基金；香港市場首只元宇宙主題ETF擬于2月21日上市；元宇宙平臺(tái)Roblox出現(xiàn)違禁游
全面擁抱“虛擬世界”，摩登天空要打造“音樂元宇宙”

作者：袁佳琦沈黎暉不怎么打游戲，但許多事兒在他眼里都“有意思”。好玩，有意思，是他的口頭禪，在接受娛樂獨(dú)角獸的采訪過程中，他多次提到，做虛擬音樂人，“是件挺好玩的
知識(shí)產(chǎn)權(quán)可能在元宇宙中“消失”？

開篇老雅痞先來劃重點(diǎn)：一些公司開始采取積極的方式來保護(hù)他們在元宇宙的知識(shí)產(chǎn)權(quán)。耐克、愛馬仕和米拉麥克斯最近提起訴訟，聲稱NFT侵犯了他們的知識(shí)產(chǎn)權(quán)。Inside
Meta 呼吁行業(yè)合作建立元宇宙網(wǎng)絡(luò)基礎(chǔ)設(shè)施

Facebook 的母公司 Meta呼吁，建立必要的全球合作的基礎(chǔ)設(shè)施，以支持其蓬勃發(fā)展的元宇宙野心。“元宇宙”成為 2021 年的主要流行語之一，這在很大程度上是由 Facebo
百度虛擬人——AI手語主播首次亮相冬奧會(huì)！

除了火遍全國的冰墩墩，虛擬人也成為這屆冬奧會(huì)的一大亮點(diǎn)元素。以體育明星谷愛凌為原型的數(shù)智人Meet Gu最先亮相。在2月5日谷愛凌首秀、2月7日谷愛凌首金的兩天
從NFT數(shù)字收藏，洞察數(shù)字音樂版權(quán)市場發(fā)展趨勢

去年8月9日，騰訊音樂布局NFT數(shù)字收藏，在騰訊應(yīng)用寶發(fā)布幻核app，騰訊音樂的提前布局示意著未來區(qū)塊鏈技術(shù)將對(duì)數(shù)字音樂版權(quán)市場進(jìn)行改造升級(jí)。作者從深層測分析為

国产精品嫩草99av在线_一区在线视频观看_欧美高清一区_欧美日韩国产一区_99精品欧美一区二区三区_久久大香伊蕉在人线观看热2_一色屋精品视频在线观看网站_在线亚洲国产精品网站_亚洲区一区二区三区_你懂的视频一区二区

首頁

元宇宙

NFT

區(qū)塊鏈

虛擬人

AR/VR

AI

元宇宙百科

新研究：人類讀指針式時(shí)鐘準(zhǔn)確率達(dá) 89.1%，頂尖 AI 僅 13.3%

韓國主權(quán)基金增加對(duì)硅谷初創(chuàng)公司投資押注元宇宙和人工智能

萬字專訪Vitalik Buterin：以太坊將成為主流和最安全的基礎(chǔ)層

美國一區(qū)塊鏈風(fēng)投公司宣布成立2.5億美元web3投資新基金

上海虹口成立10億元元宇宙基金，香港首只元宇宙ETF擬上市

全面擁抱“虛擬世界”，摩登天空要打造“音樂元宇宙”

知識(shí)產(chǎn)權(quán)可能在元宇宙中“消失”？

Meta 呼吁行業(yè)合作建立元宇宙網(wǎng)絡(luò)基礎(chǔ)設(shè)施

百度虛擬人——AI手語主播首次亮相冬奧會(huì)！

從NFT數(shù)字收藏，洞察數(shù)字音樂版權(quán)市場發(fā)展趨勢

最新推薦

元宇宙的文旅賽道，還能如何發(fā)力？

【量子位】虛擬數(shù)字人深度產(chǎn)業(yè)報(bào)告 | 元宇宙Meta洞見

“元宇宙”里過大年，《迷你世界》在做一場怎樣的實(shí)驗(yàn)？

NFT也有黃牛？這家公司專門對(duì)付外掛作弊機(jī)器人

NFT：新騙局的狩獵場

用戶可以把自己的醫(yī)療健康數(shù)據(jù)做成NFT出售給醫(yī)藥公司掙錢

猜你喜歡

熱門推薦

相關(guān)資訊