国产精品嫩草99av在线_一区在线视频观看_欧美高清一区_欧美 日韩 国产 一区_99精品欧美一区二区三区_久久大香伊蕉在人线观看热2_一色屋精品视频在线观看网站_在线亚洲国产精品网站_亚洲区一区二区三区_你懂的视频一区二区

當(dāng)前位置:首頁 > 元宇宙 > AI

新研究:人類讀指針式時(shí)鐘準(zhǔn)確率達(dá) 89.1%,頂尖 AI 僅 13.3%

來源: 責(zé)編: 時(shí)間:2025-09-17 11:35:34 61觀看
導(dǎo)讀 9 月 14 日消息,一項(xiàng)新研究發(fā)現(xiàn),人類讀取指針式時(shí)鐘的準(zhǔn)確率可達(dá) 89.1%,而目前最優(yōu)秀的人工智能(AI)模型準(zhǔn)確率僅為 13.3%,該結(jié)果凸顯出當(dāng)前語言模型在視覺推理能力方面與人類存在巨大差距。阿萊克?薩法爾(Alek Saf

9 月 14 日消息,一項(xiàng)新研究發(fā)現(xiàn),人類讀取指針式時(shí)鐘的準(zhǔn)確率可達(dá) 89.1%,而目前最優(yōu)秀的人工智能(AI)模型準(zhǔn)確率僅為 13.3%,該結(jié)果凸顯出當(dāng)前語言模型在視覺推理能力方面與人類存在巨大差距。sox28資訊網(wǎng)——每日最新資訊28at.com

sox28資訊網(wǎng)——每日最新資訊28at.com

阿萊克?薩法爾(Alek Safar)采用名為“ClockBench”的全新測試,讓來自 6 家企業(yè)的 11 個(gè)大型語言模型與 5 名人類展開正面較量。該基準(zhǔn)測試包含 180 個(gè)定制的指針式時(shí)鐘及 720 道測試題,遵循“人類易上手、AI 難突破”的設(shè)計(jì)思路,這一思路在 ARC-AGI、SimpleBench 等基準(zhǔn)測試中也有所體現(xiàn)。sox28資訊網(wǎng)——每日最新資訊28at.com

為確保公平性并避免與模型訓(xùn)練數(shù)據(jù)重疊,薩法爾從零開始構(gòu)建了該數(shù)據(jù)集。數(shù)據(jù)集包含 36 種獨(dú)特的鐘面設(shè)計(jì),融合了羅馬數(shù)字與阿拉伯?dāng)?shù)字、不同朝向、時(shí)針標(biāo)識(shí)、鏡像布局及彩色背景等元素。每種設(shè)計(jì)他都制作了 5 個(gè)不同的時(shí)鐘,總共有 180 個(gè)時(shí)鐘。sox28資訊網(wǎng)——每日最新資訊28at.com

每個(gè)時(shí)鐘均通過四類問題進(jìn)行測試:讀取時(shí)間、時(shí)間計(jì)算、按特定角度調(diào)整指針,以及時(shí)區(qū)轉(zhuǎn)換。薩法爾根據(jù)時(shí)鐘類型設(shè)置了不同的誤差允許范圍,例如,僅含時(shí)針的時(shí)鐘比同時(shí)具備時(shí)針、分針、秒針的時(shí)鐘誤差容忍度更高。sox28資訊網(wǎng)——每日最新資訊28at.com

薩法爾表示,相較于“人類終極測試”(Humanity's Last Exam)這類側(cè)重知識(shí)儲(chǔ)備的測試,ClockBench 對(duì) AI 模型的難度更高。測試結(jié)果表明,即便面對(duì)看似簡單的視覺任務(wù),AI 與人類的差距仍十分顯著。sox28資訊網(wǎng)——每日最新資訊28at.com

谷歌旗下的 Gemini 2.5 Pro 模型以 13.3% 的準(zhǔn)確率位居榜首,Gemini 2.5 Flash 緊隨其后,準(zhǔn)確率為 10.5%。GPT-5 排名第三,準(zhǔn)確率 8.4%,且調(diào)整模型的推理預(yù)算對(duì)提升準(zhǔn)確率效果甚微。sox28資訊網(wǎng)——每日最新資訊28at.com

sox28資訊網(wǎng)——每日最新資訊28at.com

Grok 4 模型表現(xiàn)墊底,準(zhǔn)確率僅 0.7%,這一結(jié)果頗為出人意料,因?yàn)樵撃P驮谄渌鶞?zhǔn)測試中常常表現(xiàn)出色。Grok 4 將 63.3% 的時(shí)鐘判定為“無效”,但實(shí)際上 180 個(gè)時(shí)鐘中僅 37 個(gè)顯示的是“不可能時(shí)間”。這種極度謹(jǐn)慎的方式意味著,從技術(shù)層面來講,Grok 4 的正確答案數(shù)量最多,但這只是通過隨機(jī)將時(shí)鐘標(biāo)記為無效實(shí)現(xiàn)的。sox28資訊網(wǎng)——每日最新資訊28at.com

Anthropic 公司的 Claude 4 Sonnet(準(zhǔn)確率 4.2%)與 Claude 4.1 Opus(準(zhǔn)確率 5.6%)表現(xiàn)同樣不佳。研究還發(fā)現(xiàn),61.7% 的時(shí)鐘未能被任何一個(gè) AI 模型正確讀取。sox28資訊網(wǎng)——每日最新資訊28at.com

相較于準(zhǔn)確率,誤差的嚴(yán)重程度更能反映問題本質(zhì)。人類讀取時(shí)間的中位誤差僅為 3 分鐘,而表現(xiàn)最佳的 AI 模型中位誤差達(dá) 1 小時(shí),性能最差的 AI 模型誤差約為 3 小時(shí),對(duì)于 12 小時(shí)制時(shí)鐘而言,這幾乎和隨機(jī)猜測差不多。sox28資訊網(wǎng)——每日最新資訊28at.com

sox28資訊網(wǎng)——每日最新資訊28at.com

注意到,部分鐘面特征對(duì) AI 而言難度極高:當(dāng)鐘面采用羅馬數(shù)字時(shí),AI 準(zhǔn)確率降至 3.2%;采用圓形數(shù)字時(shí),準(zhǔn)確率僅為 4.5%。此外,秒針、彩色背景及鏡像布局也會(huì)對(duì) AI 的判斷造成干擾。sox28資訊網(wǎng)——每日最新資訊28at.com

僅含時(shí)針的時(shí)鐘對(duì) AI 而言相對(duì)容易(準(zhǔn)確率 23.6%),這得益于其更高的誤差容忍度。采用阿拉伯?dāng)?shù)字和基礎(chǔ)表盤的標(biāo)準(zhǔn)時(shí)鐘,也能讓 AI 取得相對(duì)更好的成績。sox28資訊網(wǎng)——每日最新資訊28at.com

sox28資訊網(wǎng)——每日最新資訊28at.com

測試還獲得了一個(gè)意外發(fā)現(xiàn):當(dāng) AI 模型成功讀取時(shí)間后,它們在時(shí)間計(jì)算、指針調(diào)整或時(shí)區(qū)轉(zhuǎn)換任務(wù)中幾乎都能得出正確結(jié)果。這意味著,AI 面臨的挑戰(zhàn)并非“進(jìn)行時(shí)間相關(guān)的數(shù)學(xué)運(yùn)算”,而是“從視覺信息中讀取時(shí)間”這一初始步驟。sox28資訊網(wǎng)——每日最新資訊28at.com

薩法爾認(rèn)為,背后原因可能有三點(diǎn):其一,讀取指針式時(shí)鐘對(duì)視覺推理能力是一項(xiàng)嚴(yán)峻考驗(yàn);其二,罕見或特殊的鐘面設(shè)計(jì)在訓(xùn)練數(shù)據(jù)中出現(xiàn)頻率極低;其三,將鐘面視覺信息轉(zhuǎn)化為文字描述,對(duì)當(dāng)前 AI 模型而言很可能是一項(xiàng)難題。sox28資訊網(wǎng)——每日最新資訊28at.com

ClockBench 被定位為一項(xiàng)長期基準(zhǔn)測試。其完整數(shù)據(jù)集目前處于保密狀態(tài),以避免污染未來 AI 的訓(xùn)練過程,但已有一個(gè)規(guī)模較小的公開版本可供測試使用。sox28資訊網(wǎng)——每日最新資訊28at.com

盡管 AI 在該測試中的得分普遍較低,薩法爾仍看到了希望:性能最佳的模型表現(xiàn)優(yōu)于隨機(jī)猜測,且展現(xiàn)出基礎(chǔ)的視覺推理能力。不過,這些能力能否通過“擴(kuò)大現(xiàn)有方法規(guī)模”得到提升,還是需要全新技術(shù)路徑來突破,目前仍是一個(gè)待解的問題。sox28資訊網(wǎng)——每日最新資訊28at.com

一年前,中國一項(xiàng)研究也曾發(fā)現(xiàn)多模態(tài)語言模型存在類似的能力短板,但當(dāng)時(shí)的結(jié)果要好得多。彼時(shí),GPT-4o 模型在包含“讀時(shí)鐘、讀儀表”的儀表盤任務(wù)中,準(zhǔn)確率達(dá)到 54.8%。而此次 ClockBench 測試中,AI 的最高準(zhǔn)確率僅為 13.3%,這一差距既表明新基準(zhǔn)測試難度顯著提升,也反映出 AI 的時(shí)鐘讀取能力并未取得明顯進(jìn)步。sox28資訊網(wǎng)——每日最新資訊28at.com

本文鏈接:http://www.rrqrq.com/showinfo-45-27648-0.html新研究:人類讀指針式時(shí)鐘準(zhǔn)確率達(dá) 89.1%,頂尖 AI 僅 13.3%

聲明:本網(wǎng)頁內(nèi)容旨在傳播知識(shí),若有侵權(quán)等問題請及時(shí)與本網(wǎng)聯(lián)系,我們將在第一時(shí)間刪除處理。郵件:2376512515@qq.com

上一篇: OpenAI GPT-5 擁有博士級(jí)能力?谷歌 DeepMind CEO:無稽之談

下一篇: 科學(xué)家發(fā)現(xiàn) AI 能像人類一樣評(píng)估社交情境,科研效率遠(yuǎn)超人工

標(biāo)簽:
  • 熱門焦點(diǎn)
Top 国产精品嫩草99av在线_一区在线视频观看_欧美高清一区_欧美 日韩 国产 一区_99精品欧美一区二区三区_久久大香伊蕉在人线观看热2_一色屋精品视频在线观看网站_在线亚洲国产精品网站_亚洲区一区二区三区_你懂的视频一区二区
激情小说欧美图片| 国产精品久久午夜夜伦鲁鲁| 欧美日韩在线播放三区四区| 4438x亚洲最大成人网| 欧美一区二区国产| 国产精品短视频| 性欧美大战久久久久久久久| 蜜臀久久久久久久| 亚洲成人免费电影| 成人国产电影网| 亚洲激情自拍| 欧美日韩综合在线| 欧美性生活大片视频| 欧美大度的电影原声| 亚洲同性gay激情无套| 日韩在线一二三区| 91麻豆国产自产在线观看| 国产日韩欧美三级| 欧美一区二区在线观看| 国产精品另类一区| 国产一区美女在线| 亚洲电影成人| 欧美日韩在线一二三| 在线观看一区视频| 欧美丝袜丝交足nylons| 6080国产精品一区二区| 日韩精彩视频在线观看| 处破女av一区二区| 久久经典综合| 一区二区三区日韩在线观看| 91美女精品福利| 久久婷婷丁香| 一区二区三区鲁丝不卡| 成人国产精品免费观看动漫| 麻豆精品网站| 亚洲欧美日韩小说| 成人成人成人在线视频| 国产农村妇女精品一区二区| 日韩免费高清视频| 日韩精彩视频在线观看| 国产伦精品一区二区三| 久久久不卡网国产精品一区| 成人深夜在线观看| 午夜欧美一区二区三区在线播放| 色综合天天综合在线视频| 国产亚洲精品久久久久婷婷瑜伽| 欧美日韩一级大片网址| 亚洲线精品一区二区三区| 国模冰冰炮一区二区| 亚洲人成人一区二区三区| 国产亚洲1区2区3区| 国产成人亚洲综合a∨猫咪| 色先锋aa成人| 国产成人午夜99999| 欧美日韩在线一区二区| 国产一区二区成人久久免费影院| 久久亚洲视频| 日本伊人色综合网| 久久精品在线| 国产精品538一区二区在线| 狼狼综合久久久久综合网| 国产盗摄女厕一区二区三区| 欧洲一区二区三区免费视频| 秋霞影院一区二区| 日韩午夜在线播放| 成人精品小蝌蚪| 在线电影院国产精品| 成人avav影音| 亚洲一区二区五区| 91久久久免费一区二区| 不卡电影一区二区三区| 自拍偷拍国产精品| 国产精品xxx在线观看www| 一个色综合av| 在线一区日本视频| 久久蜜桃一区二区| 欧美连裤袜在线视频| 国产精品色哟哟| 亚洲欧美电影在线观看| 日韩激情视频在线观看| 欧美高清dvd| 亚洲人成人一区二区三区| 日韩精品一二三| 欧美一二三区在线| 精品成人在线| 亚洲aaa精品| 久久综合色天天久久综合图片| 一区二区亚洲| 久久国产夜色精品鲁鲁99| 久久久国际精品| 久久久亚洲一区| 欧美一区激情| 国产酒店精品激情| 亚洲日本电影在线| 欧美大片免费久久精品三p | 欧美日韩精品久久| 久久国产人妖系列| 亚洲一区二区五区| 国产日韩欧美亚洲| 欧美日韩国产综合草草| 在线亚洲激情| 欧美三区在线| 91在线观看污| 国产91丝袜在线播放| 免费在线观看一区| 亚洲综合在线免费观看| 国产亚洲精品超碰| 欧美一区二区三区免费大片| 精品91在线| 国产精品国码视频| 国产成人免费高清| 视频一区中文字幕| 风间由美一区二区三区在线观看| 欧美啪啪一区| 欧美综合色免费| 精品国产一区二区亚洲人成毛片| 欧美日韩中文另类| 中文字幕在线视频一区| 麻豆成人久久精品二区三区小说| 成人精品在线视频观看| 国产女主播一区二区三区| 777奇米成人网| 亚洲一区视频在线| 日本亚洲三级在线| 亚洲一区影音先锋| 日韩专区在线视频| 国产精华液一区二区三区| 成人性生交大合| 亚洲国产精选| 日韩一区国产二区欧美三区| 一区二区三区福利| 在线精品视频免费观看| 日韩一区二区三区免费观看| 欧美一区二区三区男人的天堂| 国产亚洲欧美一区在线观看| 亚洲国产视频一区| 国产成人亚洲综合a∨婷婷 | 9l国产精品久久久久麻豆| 亚洲高清成人| 欧美一区二区黄色| 亚洲国产综合在线| av成人老司机| 欧美日韩一区二区三区高清 | 丝瓜av网站精品一区二区| 成人免费不卡视频| 欧美午夜不卡视频| 久久精品无码一区二区三区| 爽好久久久欧美精品| 日韩网站在线| 欧美日韩精品一区二区三区蜜桃| 一区视频在线播放| 99综合影院在线| 欧美三电影在线| 午夜电影网一区| 亚洲国产欧美不卡在线观看| 欧美性受极品xxxx喷水| 亚洲线精品一区二区三区八戒| 欧美日韩国产综合视频在线| 在线不卡免费av| 一区二区三区欧美视频| 国产一区二区三区四区hd| 精品国产成人在线影院 | 91在线精品一区二区| 欧美一区二区女人| 九九久久精品视频| 欧美日韩激情一区二区| 免费一区二区视频| 激情欧美一区| 国产精品蜜臀av| 亚洲经典三级| 香蕉乱码成人久久天堂爱免费| 亚洲福利久久| 亚洲h在线观看| 欧美无砖砖区免费| 韩国三级电影一区二区| 欧美高清视频一二三区| 成人丝袜高跟foot| 国产拍欧美日韩视频二区| 欧美日韩综合| 中文字幕永久在线不卡| 久久精品国产清高在天天线| 玖玖九九国产精品| 中文字幕亚洲在| 欧美日韩hd| 久久精品免费观看| 久久蜜桃av一区精品变态类天堂 | 国产麻豆精品95视频| 亚洲人成精品久久久久久| 日本韩国一区二区三区视频| 97久久超碰精品国产| 喷水一区二区三区| 亚洲丝袜制服诱惑| 久久久久久9999| 51午夜精品国产| 在线亚洲欧美专区二区| 先锋a资源在线看亚洲| 亚洲欧美在线网| 成人av手机在线观看| 国产精品综合一区二区| 日本不卡视频在线观看|