當(dāng)前位置：首頁(yè) > 元宇宙 > AI

新研究：人類讀指針鐘準(zhǔn)確率近九成，頂尖AI模型準(zhǔn)確率僅一成多

來(lái)源：責(zé)編：時(shí)間：2025-09-15 11:51:32 59觀看

導(dǎo)讀一項(xiàng)名為“ClockBench”的全新測(cè)試揭示，人類在讀取指針式時(shí)鐘方面的準(zhǔn)確率高達(dá)89.1%，而當(dāng)前最先進(jìn)的人工智能模型準(zhǔn)確率僅為13.3%。這一差距凸顯了AI在視覺(jué)推理能力上與人類的顯著差異，尤其是在處理復(fù)雜視覺(jué)信息時(shí)，AI的表

一項(xiàng)名為“ClockBench”的全新測(cè)試揭示，人類在讀取指針式時(shí)鐘方面的準(zhǔn)確率高達(dá)89.1%，而當(dāng)前最先進(jìn)的人工智能模型準(zhǔn)確率僅為13.3%。這一差距凸顯了AI在視覺(jué)推理能力上與人類的顯著差異，尤其是在處理復(fù)雜視覺(jué)信息時(shí)，AI的表現(xiàn)遠(yuǎn)未達(dá)到預(yù)期水平。

該測(cè)試由研究者阿萊克·薩法爾設(shè)計(jì)，旨在通過(guò)定制化的指針式時(shí)鐘數(shù)據(jù)集，評(píng)估AI在視覺(jué)推理任務(wù)中的表現(xiàn)。測(cè)試中，來(lái)自6家企業(yè)的11個(gè)大型語(yǔ)言模型與5名人類參與者展開(kāi)對(duì)比。數(shù)據(jù)集包含180個(gè)獨(dú)特的指針式時(shí)鐘，涵蓋36種鐘面設(shè)計(jì)，融合了羅馬數(shù)字與阿拉伯?dāng)?shù)字、不同朝向、時(shí)針標(biāo)識(shí)、鏡像布局及彩色背景等元素，確保測(cè)試的復(fù)雜性和多樣性。

每個(gè)時(shí)鐘需通過(guò)四類問(wèn)題測(cè)試：讀取時(shí)間、時(shí)間計(jì)算、按特定角度調(diào)整指針及時(shí)區(qū)轉(zhuǎn)換。為保證公平性，數(shù)據(jù)集從零構(gòu)建，避免與模型訓(xùn)練數(shù)據(jù)重疊。測(cè)試結(jié)果顯示，AI模型在讀取時(shí)間時(shí)的中位誤差達(dá)1小時(shí)，而人類的中位誤差僅為3分鐘。性能最差的AI模型誤差甚至接近3小時(shí)，幾乎與隨機(jī)猜測(cè)無(wú)異。

在參與測(cè)試的AI模型中，谷歌旗下的Gemini 2.5 Pro以13.3%的準(zhǔn)確率位居榜首，Gemini 2.5 Flash和GPT-5分別以10.5%和8.4%的準(zhǔn)確率緊隨其后。然而，Grok 4模型的表現(xiàn)令人意外，其準(zhǔn)確率僅0.7%，且將63.3%的時(shí)鐘判定為“無(wú)效”，遠(yuǎn)高于實(shí)際無(wú)效時(shí)鐘的比例（180個(gè)中僅37個(gè)）。這種過(guò)度謹(jǐn)慎的策略雖在技術(shù)上增加了正確答案數(shù)量，但并未真正提升模型能力。

測(cè)試還發(fā)現(xiàn)，鐘面特征對(duì)AI判斷影響顯著。當(dāng)鐘面采用羅馬數(shù)字時(shí)，AI準(zhǔn)確率驟降至3.2%；采用圓形數(shù)字時(shí)，準(zhǔn)確率也僅為4.5%。秒針、彩色背景及鏡像布局均會(huì)干擾AI的判斷。相比之下，僅含時(shí)針的時(shí)鐘（準(zhǔn)確率23.6%）和采用阿拉伯?dāng)?shù)字的標(biāo)準(zhǔn)時(shí)鐘，能讓AI取得相對(duì)更好的成績(jī)。

一個(gè)意外發(fā)現(xiàn)是，AI模型在成功讀取時(shí)間后，能正確完成時(shí)間計(jì)算、指針調(diào)整或時(shí)區(qū)轉(zhuǎn)換任務(wù)。這表明，AI的挑戰(zhàn)并非在于時(shí)間相關(guān)的數(shù)學(xué)運(yùn)算，而在于從視覺(jué)信息中提取時(shí)間的初始步驟。薩法爾分析，原因可能包括：指針式時(shí)鐘讀取對(duì)視覺(jué)推理能力要求極高；罕見(jiàn)或特殊的鐘面設(shè)計(jì)在訓(xùn)練數(shù)據(jù)中極少出現(xiàn)；以及將視覺(jué)信息轉(zhuǎn)化為文字描述對(duì)當(dāng)前AI模型而言難度較大。

ClockBench被定位為長(zhǎng)期基準(zhǔn)測(cè)試，其完整數(shù)據(jù)集目前保密，以避免污染未來(lái)AI的訓(xùn)練過(guò)程，但已有一個(gè)公開(kāi)版本供測(cè)試使用。盡管AI在該測(cè)試中得分普遍較低，薩法爾認(rèn)為，性能最佳的模型已展現(xiàn)出基礎(chǔ)的視覺(jué)推理能力，優(yōu)于隨機(jī)猜測(cè)。然而，這些能力能否通過(guò)擴(kuò)大現(xiàn)有方法規(guī)模提升，還是需要全新技術(shù)路徑突破，仍是一個(gè)待解的問(wèn)題。

此前，中國(guó)一項(xiàng)研究也曾發(fā)現(xiàn)多模態(tài)語(yǔ)言模型存在類似短板，但當(dāng)時(shí)GPT-4o模型在包含“讀時(shí)鐘、讀儀表”的任務(wù)中準(zhǔn)確率達(dá)54.8%。此次ClockBench測(cè)試中，AI最高準(zhǔn)確率僅為13.3%，既表明新基準(zhǔn)測(cè)試難度顯著提升，也反映出AI在時(shí)鐘讀取能力上并未取得明顯進(jìn)步。

更多>同類資訊?OpenAI未來(lái)六年算力與研發(fā)投入或達(dá)3500億美元，2030年盈利穩(wěn)定性存疑?09-14

海馬emoji是否存在？ChatGPT等AI深陷“記憶迷局”反復(fù)糾錯(cuò)難自明09-14

螞蟻開(kāi)源聯(lián)合Inclusion AI發(fā)布大模型生態(tài)全景圖，呈現(xiàn)AI開(kāi)源新特征與三大開(kāi)發(fā)趨勢(shì)09-14

OpenAI稱GPT-5有博士級(jí)能力，谷歌DeepMind CEO：尚缺全面博士能力，AGI或需5到10年09-14

缺錢(qián)仍具洞察：陶哲軒直指AI在數(shù)學(xué)研究中隱性目標(biāo)被忽視之困09-14谷歌DeepMind CEO：當(dāng)前AI系統(tǒng)難達(dá)博士級(jí)，GPT-5綜合能力被指差距大09-14OpenAI 2024-2030年擬投巨資：算力租賃與研發(fā)成本高企，盈利前景存疑09-14

岳麓大會(huì)十二年：從“閉門(mén)論道”到“鏈上生長(zhǎng)”，湖南數(shù)字生態(tài)如何崛起？09-14谷歌DeepMind CEO：當(dāng)前AI系統(tǒng)難達(dá)博士級(jí)，GPT-5能力被指夸大09-14

新學(xué)期新氣象！北京1400余所中小學(xué)全學(xué)段開(kāi)設(shè)人工智能通識(shí)課09-14

宇樹(shù)王興興福耀科大開(kāi)講：AI時(shí)代機(jī)遇均等，新生當(dāng)懷熱忱逐夢(mèng)前行09-14

螞蟻開(kāi)源2025外灘大會(huì)發(fā)布大模型全景圖，AI開(kāi)發(fā)現(xiàn)三大趨勢(shì)：工具、路線與生態(tài)分化月 13 日，在 2025 Inclusion·外灘大會(huì)AI開(kāi)源見(jiàn)解論壇上，螞蟻開(kāi)源聯(lián)合Inclusion AI 發(fā)布了全新的《全球大模型開(kāi)源開(kāi)發(fā)生態(tài)全景與趨勢(shì)告》。本次發(fā)布的大模型開(kāi)源開(kāi)發(fā)生態(tài)全景圖共收錄了…09-14

?對(duì)話京東方陳炎順：AI驅(qū)動(dòng)產(chǎn)業(yè)升級(jí)，未來(lái)三年500億研發(fā)攜手伙伴共拓新局?“早在2024年初，京東方就將AI提高到了企業(yè)的整體發(fā)展戰(zhàn)略”，陳炎順對(duì)作者表示，“一方面我們成立了AI+創(chuàng)新與應(yīng)用委員會(huì)，要求以營(yíng)業(yè)收入的0.5%來(lái)用于AI的研發(fā)。陳炎順指出，從CES到SID等國(guó)際展會(huì)上…09-14

OpenAI奧爾特曼坦言：ChatGPT問(wèn)世后，模型細(xì)微調(diào)整牽動(dòng)數(shù)億人思維行為致其難眠9月14日消息，據(jù)《財(cái)富》報(bào)道，OpenAI CEO 薩姆·奧爾特曼在接受采訪時(shí)表示，“自從 ChatGPT 推出以來(lái)，我就沒(méi)睡過(guò)一個(gè)好覺(jué)。” 奧爾特曼描述了監(jiān)管這項(xiàng)如今每天有數(shù)億人使用的技術(shù)的壓力，他擔(dān)憂的…09-14

上海創(chuàng)智學(xué)院：90后導(dǎo)師領(lǐng)航博士CEO逐夢(mèng) 機(jī)器人奇境挑戰(zhàn)未來(lái)2023年，劉鵬飛完成美國(guó)博后工作回國(guó)加盟上海交通大學(xué)，去年以雙聘的形式加盟創(chuàng)智學(xué)院，他深深感受時(shí)代的機(jī)遇正在眼前——“三個(gè)低概率事件”交匯：智能革命的發(fā)生、創(chuàng)智學(xué)院模式的獨(dú)一無(wú)二，學(xué)院對(duì)師生資源的傾斜。就…09-14點(diǎn)擊查看更多 +全站最新 鴻蒙智行MPV新車諜照現(xiàn)身智界品牌或迎新成員明年上半年有望上市

鴻蒙智行MPV新車諜照現(xiàn)身智界品牌或迎新成員明年上半年有望上市

岳麓大會(huì)十二年：從“閉門(mén)論道”到“鏈上生長(zhǎng)”，湖南數(shù)字生態(tài)如何崛起？

抖音圖文創(chuàng)作新思路：精選素材+用心運(yùn)營(yíng)，輕松開(kāi)啟自媒體變現(xiàn)路！

方形CMOS加持！iPhone 17前置攝像頭如何打破自拍構(gòu)圖限制？

?杭州全球農(nóng)創(chuàng)客大賽落幕：AI養(yǎng)豬、超濾凈水，青年科技繪就農(nóng)業(yè)新藍(lán)圖?

億級(jí)賣家吞吞揭秘：TikTok美區(qū)直播如何選渠道、控成本、定布局？熱門(mén)內(nèi)容

熱度攀升！千億科技龍頭頻獲機(jī)構(gòu)調(diào)研，業(yè)務(wù)增長(zhǎng)透露哪些行業(yè)新動(dòng)向？
蘋(píng)果加速AI布局，或收購(gòu)兩家法國(guó)AI初創(chuàng)企業(yè)
DeepSeek V3.1大模型升級(jí)，適配國(guó)產(chǎn)新芯片，性能顯著提升
蘋(píng)果秋季發(fā)布會(huì)亮相iPhone 17系列："史上最薄"Air登場(chǎng)，Pro Max 2TB版定價(jià)17999元
?小米16系列或提前登場(chǎng)，首發(fā)驍龍8 Elite Gen5，9月機(jī)圈大戰(zhàn)一觸即發(fā)?
蘋(píng)果AI布局加速，或?qū)⒊饩拶Y收購(gòu)歐洲兩大AI初創(chuàng)企業(yè)
紅米Note15系列前瞻：7s芯片、7000mAh大電池，防水新標(biāo)桿即將登場(chǎng)
華為智能手表登頂全球，蘋(píng)果需直面挑戰(zhàn)求變革
科創(chuàng)板AI基金8月22日凈值飆升7.79%，重倉(cāng)股表現(xiàn)搶眼
vivo X300系列新機(jī)入網(wǎng)：首發(fā)LYT-828+2億像素，衛(wèi)通版支持北斗衛(wèi)星短信
?字節(jié)跳動(dòng)千人芯片團(tuán)隊(duì)架構(gòu)調(diào)整，轉(zhuǎn)至新加坡子公司Picoheart引關(guān)注?
蘋(píng)果加速布局中國(guó)市場(chǎng)！Apple Intelligence和新版Siri或年底至明年上線
OpenAI沖刺5000億估值，GPT-5遇冷：資本狂歡與技術(shù)瓶頸的碰撞
華為云重組風(fēng)暴：多部門(mén)整合，聚焦AI領(lǐng)域引發(fā)關(guān)注
科大訊飛2026秋招啟動(dòng)，畢業(yè)兩年內(nèi)可投，多樣崗位等你來(lái)選！

本欄最新

岳麓大會(huì)十二年：從“閉門(mén)論道”到“鏈上生長(zhǎng)”，湖南數(shù)字生態(tài)如何崛起？

新學(xué)期新氣象！北京1400余所中小學(xué)全學(xué)段開(kāi)設(shè)人工智能通識(shí)課

宇樹(shù)王興興福耀科大開(kāi)講：AI時(shí)代機(jī)遇均等，新生當(dāng)懷熱忱逐夢(mèng)前行

螞蟻開(kāi)源2025外灘大會(huì)發(fā)布大模型全景圖，AI開(kāi)發(fā)現(xiàn)三大趨勢(shì)：工具、路線與生態(tài)分化

?對(duì)話京東方陳炎順：AI驅(qū)動(dòng)產(chǎn)業(yè)升級(jí)，未來(lái)三年500億研發(fā)攜手伙伴共拓新局?

OpenAI奧爾特曼坦言：ChatGPT問(wèn)世后，模型細(xì)微調(diào)整牽動(dòng)數(shù)億人思維行為致其難眠

本文鏈接：http://www.rrqrq.com/showinfo-45-27565-0.html新研究：人類讀指針鐘準(zhǔn)確率近九成，頂尖AI模型準(zhǔn)確率僅一成多

聲明：本網(wǎng)頁(yè)內(nèi)容旨在傳播知識(shí)，若有侵權(quán)等問(wèn)題請(qǐng)及時(shí)與本網(wǎng)聯(lián)系，我們將在第一時(shí)間刪除處理。郵件：2376512515@qq.com

上一篇：美國(guó)最大出版商CEO控訴谷歌：用單一爬蟲(chóng)抓內(nèi)容助力AI，卻讓出版商陷入困境

下一篇： ?OpenAI未來(lái)六年算力與研發(fā)投入或達(dá)3500億美元，2030年盈利穩(wěn)定性存疑?

標(biāo)簽：

熱門(mén)焦點(diǎn)

這一超級(jí)富豪“逆襲”，身價(jià)大增4330億

來(lái)源：侃見(jiàn)財(cái)經(jīng)互聯(lián)網(wǎng)的突圍沒(méi)有“終點(diǎn)”。在快節(jié)奏的商業(yè)環(huán)境下，不斷的試錯(cuò)成了互聯(lián)網(wǎng)企業(yè)的標(biāo)配，一年一個(gè)風(fēng)口，一個(gè)風(fēng)口造就一個(gè)熱點(diǎn)，但是回頭來(lái)看，最終受益的還是身處
汽車元宇宙，是概念還是未來(lái)？

作者｜何文元宇宙是未來(lái)趨勢(shì)已經(jīng)無(wú)需驗(yàn)證。從概念上來(lái)看，元宇宙是兩種存在多年的概念的融合：虛擬現(xiàn)實(shí)和數(shù)字第二人生。這也就意味著，元宇宙所代表的是一種新的數(shù)
中國(guó)虛擬數(shù)字人如何橫向拓展市場(chǎng)需求，探索發(fā)展場(chǎng)景?

通過(guò)5G、AI等新技術(shù)更新?lián)Q代，虛擬數(shù)字人為諸多下游行業(yè)帶來(lái)新的發(fā)展機(jī)會(huì)。虛擬數(shù)字人技術(shù)以其簡(jiǎn)化性和精品性持續(xù)拓展泛娛樂(lè)、金融、教育、政務(wù)、醫(yī)療、零售等
完美世界被元宇宙“拒之門(mén)外”

春節(jié)期間，游戲是消磨時(shí)間最好的方式，完美世界的《幻塔》作為選擇的首要目標(biāo)，倒不是因?yàn)樗奈τ卸啻螅兇馐菑V大網(wǎng)友的吐槽。繼《原神》之后，進(jìn)擊元宇宙的游戲
頂流IP“冰墩墩”帶著中國(guó)元素NFT進(jìn)入全球視野

一場(chǎng)被國(guó)際奧委會(huì)主席評(píng)價(jià)堪稱獨(dú)具匠心、非凡卓越的2022年北京冬季奧運(yùn)會(huì)，在這個(gè)“雙奧之城”經(jīng)歷了16個(gè)令人難忘的精彩日夜，最終圓滿閉幕。讓我們印象深刻的不
“我沒(méi)搞懂元宇宙，但一天能賺9w塊”

作者：鄭宇軒最近幾個(gè)月，“元宇宙”爆火，除了 Facebook 改名為 Meta 高調(diào)進(jìn)軍元宇宙外， BAT 為代表的大廠紛紛著手“元宇宙”新業(yè)務(wù)。剎那之間，元宇宙成為新風(fēng)口，除了
權(quán)限風(fēng)波過(guò)后 X2Y2如何挑戰(zhàn)OpenSea？

繼LooksRare之后，又一個(gè)OpenSea挑戰(zhàn)者X2Y2來(lái)了。上周，X2Y2宣布向超過(guò)86萬(wàn)個(gè)OpenSea交易用戶發(fā)放X2Y2通證空投，并啟動(dòng)了「掛單挖礦」的獎(jiǎng)勵(lì)機(jī)制。這場(chǎng)早期激勵(lì)活動(dòng)
又一家數(shù)字營(yíng)銷公司入局元宇宙，國(guó)內(nèi)首個(gè)藝術(shù)元宇宙社區(qū)“Meta彼岸”上線

作者：董宇佳2月28日，智度股份在北京舉辦產(chǎn)品發(fā)布會(huì)，宣布其與國(guó)光電器聯(lián)手打造的國(guó)內(nèi)首個(gè)藝術(shù)元宇宙社區(qū)——“Meta彼岸”在VR端和移動(dòng)端正式公測(cè)。從科技巨頭布局
多位全國(guó)政協(xié)委員提交元宇宙提案，國(guó)金證券稱元宇宙仍處初期投資階段

財(cái)聯(lián)社|區(qū)塊鏈日?qǐng)?bào)2日訊今日《元宇宙新鮮事》有：全國(guó)政協(xié)委員劉偉建議出臺(tái)“元宇宙中國(guó)”的頂層設(shè)計(jì)方案；國(guó)金證券稱元宇宙仍處初期投資龐大獲利不易階段；阿聯(lián)酋

国产精品嫩草99av在线_一区在线视频观看_欧美高清一区_欧美日韩国产一区_99精品欧美一区二区三区_久久大香伊蕉在人线观看热2_一色屋精品视频在线观看网站_在线亚洲国产精品网站_亚洲区一区二区三区_你懂的视频一区二区

首頁(yè)

元宇宙

NFT

區(qū)塊鏈

虛擬人

AR/VR

AI

元宇宙百科

新研究：人類讀指針鐘準(zhǔn)確率近九成，頂尖AI模型準(zhǔn)確率僅一成多

這一超級(jí)富豪“逆襲”，身價(jià)大增4330億

汽車元宇宙，是概念還是未來(lái)？

中國(guó)虛擬數(shù)字人如何橫向拓展市場(chǎng)需求，探索發(fā)展場(chǎng)景?

完美世界被元宇宙“拒之門(mén)外”

頂流IP“冰墩墩”帶著中國(guó)元素NFT進(jìn)入全球視野

“我沒(méi)搞懂元宇宙，但一天能賺9w塊”

權(quán)限風(fēng)波過(guò)后 X2Y2如何挑戰(zhàn)OpenSea？

又一家數(shù)字營(yíng)銷公司入局元宇宙，國(guó)內(nèi)首個(gè)藝術(shù)元宇宙社區(qū)“Meta彼岸”上線

多位全國(guó)政協(xié)委員提交元宇宙提案，國(guó)金證券稱元宇宙仍處初期投資階段

最新推薦

拯救XR，蘋(píng)果力不從心

Meta、谷歌、微軟競(jìng)相涌入元宇宙，小型企業(yè)該如何伺機(jī)而動(dòng)？

餐桌上怎么變出元宇宙？

2030年的元宇宙產(chǎn)業(yè)將會(huì)如何發(fā)展？

王老吉啟動(dòng)元宇宙“吉空間”，HTC發(fā)布元宇宙應(yīng)用VIVERSE

GameFi 深度解析，元宇宙內(nèi)容雛形顯現(xiàn)

猜你喜歡

熱門(mén)推薦

相關(guān)資訊