国产精品嫩草99av在线_一区在线视频观看_欧美高清一区_欧美 日韩 国产 一区_99精品欧美一区二区三区_久久大香伊蕉在人线观看热2_一色屋精品视频在线观看网站_在线亚洲国产精品网站_亚洲区一区二区三区_你懂的视频一区二区

當前位置:首頁 > 元宇宙 > AI

OpenAI GPT-5 編程成績有貓膩:自刪 23 道測試題,關鍵基準還是自己提的

來源: 責編: 時間:2025-08-14 10:20:17 74觀看
導讀 別急著用 GPT-5 編程了,可能它能力沒有你想象中那么強。有人發現,官方測試編程能力用的 SWE-bench Verified,但貨不對板,只用了 477 個問題。什么意思呢?我們知道,SWE-bench 是評估模型 / 智能體自主編程能力的一個

別急著用 GPT-5 編程了,可能它能力沒有你想象中那么強。9Yw28資訊網——每日最新資訊28at.com

有人發現,官方測試編程能力用的 SWE-bench Verified,但貨不對板,只用了 477 個問題。9Yw28資訊網——每日最新資訊28at.com

9Yw28資訊網——每日最新資訊28at.com

什么意思呢?我們知道,SWE-bench 是評估模型 / 智能體自主編程能力的一個通用且常用的指標。而 SWE-bench Verified 作為它的子集,本來一共有 500 個問題。9Yw28資訊網——每日最新資訊28at.com

現在相當于 OpenAI 自行省略的那 23 個問題,自己搞了個子集的“子集”來評估模型能力。9Yw28資訊網——每日最新資訊28at.com

而如果這些題默認零分,那么得分實際上是比 Claude Opus 4.1 還要低的。因為現在僅有 0.4% 的差距。9Yw28資訊網——每日最新資訊28at.com

9Yw28資訊網——每日最新資訊28at.com

OpenAI 這種自行忽略 23 道題的操作,已經不是第一次了。9Yw28資訊網——每日最新資訊28at.com

早在 GPT-4.1 發布時就信誓旦旦地說,之所以忽略是因為這些問題的解決方案無法在他們的基礎設施運行。9Yw28資訊網——每日最新資訊28at.com

9Yw28資訊網——每日最新資訊28at.com

離譜了朋友們!要知道 SWE-bench Verified 這個 OpenAI 自己提的,理由也是因為 SWE-bench 無法系統評估模型的編程能力,所以決定自己再提煉一個子集。9Yw28資訊網——每日最新資訊28at.com

現在又因為測試題無法正常運行,所以自行又搞了個子集的“子集”。9Yw28資訊網——每日最新資訊28at.com

本來以為 GPT-5 直播里出現圖表錯誤已經夠離譜了,結果現在告訴我這里面的成績可能還有假?9Yw28資訊網——每日最新資訊28at.com

9Yw28資訊網——每日最新資訊28at.com

OpenAI 一直省略 23 個問題

已經開始有網友發現,GPT-5 能力并不比 Claude 4.1 Opus 好多少。9Yw28資訊網——每日最新資訊28at.com

現在來看,這個官方給的結果或許根本沒有參考價值。9Yw28資訊網——每日最新資訊28at.com

網友們除了自行忽略部分測試題,“偽造了結果”這一發現外,還發現,他們是將具有最大思維努力的 GPT-5 與沒有擴展思維僅靠原始模型輸出的 Opus 4.1 進行比較。這種比較實際上沒有參考意義。9Yw28資訊網——每日最新資訊28at.com

9Yw28資訊網——每日最新資訊28at.com

而他們之所以只使用 477 個問題來測試,理由也跟 GPT-4.1 發布時一樣,因為他們內部的基礎設施運行不了剩下的 23 個問題。9Yw28資訊網——每日最新資訊28at.com

9Yw28資訊網——每日最新資訊28at.com

今年 4 月份發布 GPT-4.1 時,在同一基準僅使用 477 個問題下得得分在 54.6%。9Yw28資訊網——每日最新資訊28at.com

當時官方還指出,如果保守地將這些問題的得分定為 0,那么 54.6% 的得分就變成了 52.1%。即便是這樣,這個數值放在當時也是最高的。9Yw28資訊網——每日最新資訊28at.com

9Yw28資訊網——每日最新資訊28at.com

而 Anthropic 這邊,其實也已經發現了 OpenAI 這個操作。9Yw28資訊網——每日最新資訊28at.com

就在 Claude Opus 4.1 發布公布編程成績之時,在文章的末尾有這么一句話。9Yw28資訊網——每日最新資訊28at.com

9Yw28資訊網——每日最新資訊28at.com

對于 Claude 4 系列模型,他們繼續使用相同的簡單框架,該框架僅為模型配備了兩種工具 —— 一個 Bash 工具和一個通過字符串替換進行文件編輯的工具,并且不再包含 Claude 3.7 Sonnet 中使用的第三個“規劃工具”。9Yw28資訊網——每日最新資訊28at.com

并在最后注明:在所有 Claude 4 模型中,他們報告的分數基于完整的 500 個問題。OpenAI 模型的得分基于 477 道問題的子集進行報告。9Yw28資訊網——每日最新資訊28at.com

9Yw28資訊網——每日最新資訊28at.com

基準還是 OpenAI 自己提的

如果說,SWE-bench Verified 還是 OpenAI 自己提的基準,那這件事就更離譜了。9Yw28資訊網——每日最新資訊28at.com

這不就相當于自己搬起石頭砸自己的腳啦嘛。9Yw28資訊網——每日最新資訊28at.com

9Yw28資訊網——每日最新資訊28at.com

當時啊還是因為類似的原因 —— 他們測試發現 SWE-bench 的一些任務可能難以解決甚至無法解決,導致 SWE-bench 無法系統性評估模型的自主編程能力。9Yw28資訊網——每日最新資訊28at.com

于是乎,他們決定與 SWE-bench 的作者合作,決定弄出個新版本,希望能夠提供更準確的評估。9Yw28資訊網——每日最新資訊28at.com

他們共同發起了一項人工注釋活動,共有 93 位資深程序員參與進來,以篩選 SWE-bench 測試集每個樣本,從而獲得適當范圍的單元測試和明確指定的問題描述。9Yw28資訊網——每日最新資訊28at.com

他們隨機抽取了 1699 個樣本,然后基于統一標準來進行標注。9Yw28資訊網——每日最新資訊28at.com

比如,問題描述是否明確?每個注釋都有一個標簽,范圍從 [0, 1, 2, 3],嚴重程度依次遞增。9Yw28資訊網——每日最新資訊28at.com

標簽 0 和 1 表示輕微;標簽 2 和 3 表示嚴重,表示樣本在某些方面存在缺陷,應予以丟棄。9Yw28資訊網——每日最新資訊28at.com

9Yw28資訊網——每日最新資訊28at.com

此外,我們還會評估每個示例的難度,方法是讓注釋者估算開發人員確定并實現解決方案所需的時間。9Yw28資訊網——每日最新資訊28at.com

最終得到了 500 個經過驗證的樣本,并且按照難度對數據集進行細分。“簡單”子集包含 196 個小于 15 分鐘的修復任務,而“困難”子集包含 45 個大于 1 小時的任務。9Yw28資訊網——每日最新資訊28at.com

結果現在這個子集又被 OpenAI 縮減了。9Yw28資訊網——每日最新資訊28at.com

One More Thing

不過,還是有個總榜單或許值得參考,就是那個最原始的 SWE-bench。9Yw28資訊網——每日最新資訊28at.com

在這個榜單中,Claude 4 Opus 還是占據著領先位置。9Yw28資訊網——每日最新資訊28at.com

9Yw28資訊網——每日最新資訊28at.com

GPT-5 也已經發過好一陣了,不知道你有沒有這樣類似的編程體驗呀?歡迎在評論區與我們分享。9Yw28資訊網——每日最新資訊28at.com

參考鏈接:9Yw28資訊網——每日最新資訊28at.com

[1]https://www.swebench.com/9Yw28資訊網——每日最新資訊28at.com

[2]https://openai.com/index/introducing-gpt-5/9Yw28資訊網——每日最新資訊28at.com

[3]https://www.anthropic.com/news/claude-opus-4-19Yw28資訊網——每日最新資訊28at.com

[4]https://x.com/SemiAnalysis_/status/19550281502174781779Yw28資訊網——每日最新資訊28at.com

[5]https://x.com/DavidOndrej1/status/19541581617214874829Yw28資訊網——每日最新資訊28at.com

本文來自微信公眾號:量子位(ID:QbitAI),作者:白交,原標題《GPT-5 編程成績有貓膩!自刪 23 道測試題,關鍵基準還是自己提的》9Yw28資訊網——每日最新資訊28at.com

本文鏈接:http://www.rrqrq.com/showinfo-45-26086-0.htmlOpenAI GPT-5 編程成績有貓膩:自刪 23 道測試題,關鍵基準還是自己提的

聲明:本網頁內容旨在傳播知識,若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。郵件:2376512515@qq.com

上一篇: 英特爾升級多顯卡 AI 推理,Battlematrix 整體性能最高提升 80%

下一篇: 超 98% 參賽者:OpenAI 神秘 AI 模型首次斬獲信息學奧賽 IOI 2025 金牌

標簽:
  • 熱門焦點
Top 国产精品嫩草99av在线_一区在线视频观看_欧美高清一区_欧美 日韩 国产 一区_99精品欧美一区二区三区_久久大香伊蕉在人线观看热2_一色屋精品视频在线观看网站_在线亚洲国产精品网站_亚洲区一区二区三区_你懂的视频一区二区
制服丝袜激情欧洲亚洲| 欧洲一区在线电影| 午夜不卡在线视频| 中文字幕精品一区| 91精品国产91久久久久久一区二区| 一区二区动漫| 欧美精品综合| 国产成人午夜精品5599 | 亚洲国产精品久久人人爱| 久久久国产一区二区三区四区小说 | 狠狠干成人综合网| 日韩一区二区视频| 亚洲精品一区二区三区在线观看| 精品美女在线播放| 精品国产91乱码一区二区三区| 日韩西西人体444www| 欧美精品一区二区三区蜜桃| 国产人妖乱国产精品人妖| 中文字幕免费不卡在线| 亚洲精品菠萝久久久久久久| 香蕉加勒比综合久久| 青草国产精品久久久久久| 日本女人一区二区三区| 黑人巨大精品欧美一区| 成人开心网精品视频| 欧美午夜不卡| 久久亚洲一级片| 久久久精品一品道一区| 亚洲欧洲精品成人久久奇米网| 亚洲女人小视频在线观看| 日韩专区在线视频| 色国产综合视频| 欧美日韩精品一区视频| 久久美女高清视频| 亚洲激情图片一区| 经典三级在线一区| 欧美日韩一区在线观看视频| 老鸭窝91久久精品色噜噜导演| 欧美日韩视频在线观看一区二区三区 | 美女爽到高潮91| av中文字幕不卡| 中文久久精品| 欧美高清精品3d| 国产精品的网站| 日本不卡在线视频| 91在线云播放| 葵司免费一区二区三区四区五区| 日韩一区二区电影| 综合久久国产九一剧情麻豆| 国内精品不卡在线| 在线观看日韩av电影| 欧美人与性动xxxx| 亚洲精品视频免费看| 国产精品99精品久久免费| 亚洲伦伦在线| 精品国产乱码久久久久久1区2区 | 亚洲另类一区二区| 成人一级视频在线观看| 亚洲资源av| 久久久久久99久久久精品网站| 亚洲一区二区三区爽爽爽爽爽| 国产福利一区二区三区| 香蕉久久夜色精品国产| 国产欧美日韩在线观看| 精品一区二区三区在线播放视频| 在线日韩av| 欧美精品一区二区久久婷婷 | 麻豆精品91| 国产亚洲欧美一区在线观看| 麻豆91精品91久久久的内涵| 亚洲二区三区四区| 久久综合色天天久久综合图片| 青青草97国产精品免费观看无弹窗版| 国产精品扒开腿做爽爽爽软件| 国产精品不卡在线| 国产精品91一区二区| 久久人人97超碰人人澡爱香蕉| 国产精品美女一区二区三区| 国产精品亚洲人在线观看| 色呦呦一区二区三区| 一区二区三区在线免费观看| 91麻豆国产自产在线观看| 91精品国产一区二区三区蜜臀| 天天操天天综合网| 国产日韩一区二区| 国产精品欧美一区喷水| 91色视频在线| 精品成人在线观看| 国产成人在线视频网站| 欧美日韩一区在线| 蜜桃视频一区二区三区| 亚洲一区二区三区欧美 | 欧美久久久久久| 亚洲精品在线三区| 国产成人日日夜夜| 欧美日韩国产精品自在自线| 免费观看久久久4p| 欧美性一二三区| 免费不卡在线观看| 欧美色网站导航| 蜜臀精品久久久久久蜜臀| 一本大道久久a久久精品综合| 亚州成人在线电影| 一本大道久久a久久综合婷婷| 午夜精品久久久久| 色婷婷久久99综合精品jk白丝| 亚洲午夜国产一区99re久久| 亚洲一区二区伦理| 五月婷婷激情综合| 在线观看欧美精品| 国产又黄又大久久| 欧美一区二区三区日韩视频| 成人午夜看片网址| 久久日一线二线三线suv| 欧美一区二区视频在线| 中文一区二区完整视频在线观看| 好吊日精品视频| 亚洲国产精品一区二区久久| 色哟哟一区二区| 国产高清不卡一区二区| 欧美电影免费观看高清完整版在线| 成人av电影在线| 国产精品不卡在线| 久久高清国产| 韩国欧美一区二区| 久久天天做天天爱综合色| 黑人中文字幕一区二区三区| 亚洲尤物在线视频观看| 欧美亚洲免费在线一区| av在线这里只有精品| 亚洲三级在线播放| 色欲综合视频天天天| 成人美女视频在线观看18| 综合av第一页| 国产偷国产偷精品高清尤物| 中文欧美日韩| 久久国内精品视频| 久久久三级国产网站| 亚洲国产一区二区三区a毛片| 午夜精品久久久久久| 日韩午夜精品电影| 亚洲精品九九| 狠狠色狠狠色综合系列| 国产片一区二区三区| 久久人人97超碰人人澡爱香蕉| 粉嫩av一区二区三区在线播放| 亚洲视频资源在线| 欧美人狂配大交3d怪物一区| 国产精品99免费看| 久久国产福利国产秒拍| 国产精品国产三级国产aⅴ原创| 日本乱码高清不卡字幕| 欧美777四色影| 麻豆视频观看网址久久| 欧美国产日韩一二三区| 91精品1区2区| 亚洲国产精品一区二区第四页av| 精品一区二区免费在线观看| 综合在线观看色| 日韩三级免费观看| 久久aⅴ国产紧身牛仔裤| 99在线精品免费| 久久精品国产亚洲5555| 中文字幕亚洲视频| 日韩你懂的电影在线观看| 亚洲欧美日韩国产| 欧美日韩爆操| 美国av一区二区| 亚洲图片欧美综合| 国产日韩精品视频一区| 正在播放一区二区| 色天天综合色天天久久| 在线日韩av| 欧美二区在线| 国产高清不卡二三区| 免费在线观看成人| 一区二区三区精密机械公司| 国产欧美一区二区在线| 6080国产精品一区二区| 久久精品男女| 国产欧美综合一区二区三区| 欧美久久综合| 99riav一区二区三区| 国产91丝袜在线观看| 美女一区二区视频| 亚洲国产aⅴ成人精品无吗| 中文字幕永久在线不卡| 久久综合久久综合亚洲| 欧美一区二区国产| 欧美日韩免费一区二区三区 | 亚洲美女视频在线| 中文字幕欧美国产| 国产无遮挡一区二区三区毛片日本| 欧美一区永久视频免费观看| 欧美视频自拍偷拍| 在线观看国产精品网站| 色婷婷激情一区二区三区| 久久免费国产| 美玉足脚交一区二区三区图片| 国产欧美二区|