国产精品嫩草99av在线_一区在线视频观看_欧美高清一区_欧美 日韩 国产 一区_99精品欧美一区二区三区_久久大香伊蕉在人线观看热2_一色屋精品视频在线观看网站_在线亚洲国产精品网站_亚洲区一区二区三区_你懂的视频一区二区

當前位置:首頁 > 元宇宙 > AI

新研究:人類讀指針式時鐘準確率達 89.1%,頂尖 AI 僅 13.3%

來源: 責編: 時間:2025-09-17 11:35:34 19觀看
導讀 9 月 14 日消息,一項新研究發現,人類讀取指針式時鐘的準確率可達 89.1%,而目前最優秀的人工智能(AI)模型準確率僅為 13.3%,該結果凸顯出當前語言模型在視覺推理能力方面與人類存在巨大差距。阿萊克?薩法爾(Alek Saf

9 月 14 日消息,一項新研究發現,人類讀取指針式時鐘的準確率可達 89.1%,而目前最優秀的人工智能(AI)模型準確率僅為 13.3%,該結果凸顯出當前語言模型在視覺推理能力方面與人類存在巨大差距。GUL28資訊網——每日最新資訊28at.com

GUL28資訊網——每日最新資訊28at.com

阿萊克?薩法爾(Alek Safar)采用名為“ClockBench”的全新測試,讓來自 6 家企業的 11 個大型語言模型與 5 名人類展開正面較量。該基準測試包含 180 個定制的指針式時鐘及 720 道測試題,遵循“人類易上手、AI 難突破”的設計思路,這一思路在 ARC-AGI、SimpleBench 等基準測試中也有所體現。GUL28資訊網——每日最新資訊28at.com

為確保公平性并避免與模型訓練數據重疊,薩法爾從零開始構建了該數據集。數據集包含 36 種獨特的鐘面設計,融合了羅馬數字與阿拉伯數字、不同朝向、時針標識、鏡像布局及彩色背景等元素。每種設計他都制作了 5 個不同的時鐘,總共有 180 個時鐘。GUL28資訊網——每日最新資訊28at.com

每個時鐘均通過四類問題進行測試:讀取時間、時間計算、按特定角度調整指針,以及時區轉換。薩法爾根據時鐘類型設置了不同的誤差允許范圍,例如,僅含時針的時鐘比同時具備時針、分針、秒針的時鐘誤差容忍度更高。GUL28資訊網——每日最新資訊28at.com

薩法爾表示,相較于“人類終極測試”(Humanity's Last Exam)這類側重知識儲備的測試,ClockBench 對 AI 模型的難度更高。測試結果表明,即便面對看似簡單的視覺任務,AI 與人類的差距仍十分顯著。GUL28資訊網——每日最新資訊28at.com

谷歌旗下的 Gemini 2.5 Pro 模型以 13.3% 的準確率位居榜首,Gemini 2.5 Flash 緊隨其后,準確率為 10.5%。GPT-5 排名第三,準確率 8.4%,且調整模型的推理預算對提升準確率效果甚微。GUL28資訊網——每日最新資訊28at.com

GUL28資訊網——每日最新資訊28at.com

Grok 4 模型表現墊底,準確率僅 0.7%,這一結果頗為出人意料,因為該模型在其他基準測試中常常表現出色。Grok 4 將 63.3% 的時鐘判定為“無效”,但實際上 180 個時鐘中僅 37 個顯示的是“不可能時間”。這種極度謹慎的方式意味著,從技術層面來講,Grok 4 的正確答案數量最多,但這只是通過隨機將時鐘標記為無效實現的。GUL28資訊網——每日最新資訊28at.com

Anthropic 公司的 Claude 4 Sonnet(準確率 4.2%)與 Claude 4.1 Opus(準確率 5.6%)表現同樣不佳。研究還發現,61.7% 的時鐘未能被任何一個 AI 模型正確讀取。GUL28資訊網——每日最新資訊28at.com

相較于準確率,誤差的嚴重程度更能反映問題本質。人類讀取時間的中位誤差僅為 3 分鐘,而表現最佳的 AI 模型中位誤差達 1 小時,性能最差的 AI 模型誤差約為 3 小時,對于 12 小時制時鐘而言,這幾乎和隨機猜測差不多。GUL28資訊網——每日最新資訊28at.com

GUL28資訊網——每日最新資訊28at.com

注意到,部分鐘面特征對 AI 而言難度極高:當鐘面采用羅馬數字時,AI 準確率降至 3.2%;采用圓形數字時,準確率僅為 4.5%。此外,秒針、彩色背景及鏡像布局也會對 AI 的判斷造成干擾。GUL28資訊網——每日最新資訊28at.com

僅含時針的時鐘對 AI 而言相對容易(準確率 23.6%),這得益于其更高的誤差容忍度。采用阿拉伯數字和基礎表盤的標準時鐘,也能讓 AI 取得相對更好的成績。GUL28資訊網——每日最新資訊28at.com

GUL28資訊網——每日最新資訊28at.com

測試還獲得了一個意外發現:當 AI 模型成功讀取時間后,它們在時間計算、指針調整或時區轉換任務中幾乎都能得出正確結果。這意味著,AI 面臨的挑戰并非“進行時間相關的數學運算”,而是“從視覺信息中讀取時間”這一初始步驟。GUL28資訊網——每日最新資訊28at.com

薩法爾認為,背后原因可能有三點:其一,讀取指針式時鐘對視覺推理能力是一項嚴峻考驗;其二,罕見或特殊的鐘面設計在訓練數據中出現頻率極低;其三,將鐘面視覺信息轉化為文字描述,對當前 AI 模型而言很可能是一項難題。GUL28資訊網——每日最新資訊28at.com

ClockBench 被定位為一項長期基準測試。其完整數據集目前處于保密狀態,以避免污染未來 AI 的訓練過程,但已有一個規模較小的公開版本可供測試使用。GUL28資訊網——每日最新資訊28at.com

盡管 AI 在該測試中的得分普遍較低,薩法爾仍看到了希望:性能最佳的模型表現優于隨機猜測,且展現出基礎的視覺推理能力。不過,這些能力能否通過“擴大現有方法規模”得到提升,還是需要全新技術路徑來突破,目前仍是一個待解的問題。GUL28資訊網——每日最新資訊28at.com

一年前,中國一項研究也曾發現多模態語言模型存在類似的能力短板,但當時的結果要好得多。彼時,GPT-4o 模型在包含“讀時鐘、讀儀表”的儀表盤任務中,準確率達到 54.8%。而此次 ClockBench 測試中,AI 的最高準確率僅為 13.3%,這一差距既表明新基準測試難度顯著提升,也反映出 AI 的時鐘讀取能力并未取得明顯進步。GUL28資訊網——每日最新資訊28at.com

本文鏈接:http://www.rrqrq.com/showinfo-45-27648-0.html新研究:人類讀指針式時鐘準確率達 89.1%,頂尖 AI 僅 13.3%

聲明:本網頁內容旨在傳播知識,若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。郵件:2376512515@qq.com

上一篇: OpenAI GPT-5 擁有博士級能力?谷歌 DeepMind CEO:無稽之談

下一篇: 科學家發現 AI 能像人類一樣評估社交情境,科研效率遠超人工

標簽:
  • 熱門焦點
Top 国产精品嫩草99av在线_一区在线视频观看_欧美高清一区_欧美 日韩 国产 一区_99精品欧美一区二区三区_久久大香伊蕉在人线观看热2_一色屋精品视频在线观看网站_在线亚洲国产精品网站_亚洲区一区二区三区_你懂的视频一区二区
国产精品香蕉一区二区三区| 精品久久久久av影院| 欧美日韩成人综合天天影院| 亚洲国产aⅴ天堂久久| 中文字幕av一区二区三区免费看 | 国产福利91精品一区| 91久久精品午夜一区二区| 五月婷婷久久综合| 国产精品一区在线播放| 17c精品麻豆一区二区免费| 欧美全黄视频| 日韩欧美中文字幕精品| 国内偷窥港台综合视频在线播放| 欧美三级在线看| 精品一区二区三区的国产在线播放| 色婷婷综合久色| 日韩av不卡一区二区| 麻豆精品传媒视频| 图片区日韩欧美亚洲| 久久精品欧美| 美国毛片一区二区三区| 午夜在线视频观看日韩17c| 一区二区激情小说| 国产精品乱码| 日韩精品每日更新| 欧美日韩在线播放一区| 韩国一区二区在线观看| 欧美丰满美乳xxx高潮www| 久久国产生活片100| 亚洲国产人成综合网站| 国产亚洲精品bv在线观看| 亚洲国产综合视频在线观看| 99精品福利视频| 亚洲国产日产av| 99成人精品| 日韩精品一二三区| 欧美色老头old∨ideo| 国产成人久久精品77777最新版本 国产成人鲁色资源国产91色综 | 日韩午夜视频在线观看| 中文字幕日韩精品一区| 国产麻豆午夜三级精品| 欧美精品一区视频| 午夜精品亚洲| 亚洲视频一区在线| 亚洲综合不卡| 婷婷国产在线综合| 91福利精品视频| 狠狠久久亚洲欧美| 精品少妇一区二区三区日产乱码 | 轻轻草成人在线| 欧美日韩视频在线第一区 | 欧美日韩国产精品一卡| 中文字幕在线观看一区| 国产欧美日本| 美女看a上一区| 91麻豆精品国产91久久久久久 | 91国产精品成人| 精品一区二区三区久久久| 日韩亚洲欧美一区二区三区| 福利一区福利二区| 欧美精选一区二区| 99久久久久久99| 国产精品欧美一区喷水| 亚洲一区二区三区精品动漫| 午夜精品福利久久久| 欧美日韩在线三级| 国内精品免费在线观看| 精品福利av导航| 一色屋精品视频在线看 | 国产一区91精品张津瑜| 日韩视频永久免费| 欧美激情麻豆| 国产精品推荐精品| 国产一区二区三区在线观看免费| 精品国产三级电影在线观看| 亚洲国产91| 蜜臀av性久久久久av蜜臀妖精| 欧美大片拔萝卜| 亚洲激情偷拍| 久久精品国产网站| 国产视频911| 亚洲一区在线免费| 国产综合色视频| 精品国产一区二区三区久久影院| 国产精品成人一区二区网站软件| 亚洲成人av资源| 欧美一区午夜视频在线观看| 国产精品magnet| 日韩极品在线观看| 日韩三区在线观看| 国产欧美精品| 懂色av一区二区在线播放| 亚洲婷婷综合久久一本伊一区| 欧美私模裸体表演在线观看| 亚洲女人的天堂| 亚洲黄色视屏| 欧美aⅴ一区二区三区视频| 日韩欧美国产一二三区| 亚洲精品久久| 国产精品一级片| 亚洲人成网站在线| 91精品欧美久久久久久动漫| 欧美日韩精品免费观看| 久久国产精品区| 国产精品毛片无遮挡高清| 欧美日韩色综合| 亚洲国产一区二区三区在线播| 韩国中文字幕2020精品| 中文字幕在线播放不卡一区| 欧美放荡的少妇| 一区二区三区导航| 国产传媒久久文化传媒| 一区二区三区精品在线| 欧美va在线播放| 久久夜色精品| 欧美激情视频一区二区三区在线播放 | 欧美日韩一二三| 影音先锋亚洲精品| 国产精品综合视频| 亚洲精品成人悠悠色影视| 日韩欧美一区在线观看| 亚洲一区久久| 欧美.日韩.国产.一区.二区| 麻豆精品在线视频| 国产精品区一区二区三区| 3d动漫精品啪啪1区2区免费 | 欧美日韩亚洲综合在线| 99亚洲精品| 91污在线观看| 激情都市一区二区| 日韩午夜激情av| 国一区二区在线观看| 国产aⅴ综合色| 首页国产欧美日韩丝袜| 国产精品电影院| 精品动漫一区二区三区在线观看| 色欧美片视频在线观看| 亚洲电影自拍| 成人综合婷婷国产精品久久免费| 五月天久久比比资源色| 中文无字幕一区二区三区 | 欧美午夜理伦三级在线观看| 欧美网站在线| 国产成人激情av| 日本欧美一区二区在线观看| 亚洲欧美国产三级| 精品免费视频一区二区| 欧美日本乱大交xxxxx| 久久综合九色综合欧美狠狠| 极品av少妇一区二区| 99久久久国产精品免费蜜臀| 久久99国产乱子伦精品免费| 一区二区高清视频在线观看| 日本一区二区高清| 亚洲精品一区二区三区四区高清| 欧美日韩在线三区| 狂野欧美一区| 一区二区不卡在线视频 午夜欧美不卡'| 不卡高清视频专区| 国产乱码精品一区二区三区av| 青椒成人免费视频| 偷拍一区二区三区四区| 一区二区国产盗摄色噜噜| 成人免费一区二区三区在线观看| 国产亚洲va综合人人澡精品| 日韩精品一区二区三区三区免费| 精品视频1区2区3区| 欧洲人成人精品| 久久久噜噜噜| 久久xxxx精品视频| 亚洲一区高清| 国产亚洲永久域名| 国产亚洲一区在线播放| 亚洲欧洲三级| 伊人久久婷婷色综合98网| 国内久久精品| 欧美日韩一区二| 国产精品chinese| 欧美性事免费在线观看| 欧美+日本+国产+在线a∨观看| 91香蕉视频黄| 99国产精品久久| 欧美69wwwcom| 欧美精品二区| 亚洲无线观看| 亚洲三级影院| 中文精品视频| 男人天堂欧美日韩| 久久精品五月婷婷| 日本高清不卡视频| 欧美日精品一区视频| 欧美日韩国产精品自在自线| 欧美美女一区二区三区| 欧美一区二区免费视频| 精品国产免费人成电影在线观看四季 | 国产欧美精品一区aⅴ影院| 中文字幕第一区二区| 国产精品美女久久久久久久久| 亚洲天堂中文字幕| 午夜欧美大尺度福利影院在线看|