国产精品嫩草99av在线_一区在线视频观看_欧美高清一区_欧美 日韩 国产 一区_99精品欧美一区二区三区_久久大香伊蕉在人线观看热2_一色屋精品视频在线观看网站_在线亚洲国产精品网站_亚洲区一区二区三区_你懂的视频一区二区

當前位置:首頁 > 元宇宙 > AI

“最強開源模型”Reflection 被打假,英偉達科學家稱現有測試基準已不靠譜

來源: 責編: 時間:2024-09-16 15:10:29 151觀看
導讀 小型創業團隊打造的“最強開源模型”,發布才一周就被質疑造假 ——不僅官方宣稱的成績在第三方測試中大打折扣,模型還被質疑套殼 Claude。面對浩大的聲浪,廠商 CEO 終于發文道歉,但并未承認造假,表示在調查有關原

小型創業團隊打造的“最強開源模型”,發布才一周就被質疑造假 ——bIK28資訊網——每日最新資訊28at.com

不僅官方宣稱的成績在第三方測試中大打折扣,模型還被質疑套殼 Claude。bIK28資訊網——每日最新資訊28at.com

面對浩大的聲浪,廠商 CEO 終于發文道歉,但并未承認造假,表示在調查有關原因。bIK28資訊網——每日最新資訊28at.com

bIK28資訊網——每日最新資訊28at.com

被指控造假的,就是宣稱“干翻 GPT-4o”的 70B 開源大模型 Reflection。bIK28資訊網——每日最新資訊28at.com

一開始的質疑主要關于測試成績,官方找了上傳版本有誤等借口試圖“蒙混過關”。bIK28資訊網——每日最新資訊28at.com

但后來又出現了套殼 Claude 這一更重磅的指控,讓 Reflection 更加百口莫辯。bIK28資訊網——每日最新資訊28at.com

表現不如宣傳,還被質疑套殼

Reflection 是一個 70B 的開源模型,按照廠商的說法,它一下子把 Llama 3.1 405B、GPT-4o、Claude 3 Opus、Gemini 1.5 Pro 這一系列先進模型全都超過了。bIK28資訊網——每日最新資訊28at.com

bIK28資訊網——每日最新資訊28at.com

但 Reflection 剛發布兩天,第三方獨立測評機構 Artificial Analysis 就表示官方發布的測試成績無法復現。bIK28資訊網——每日最新資訊28at.com

在 MMLU、GPQA 和 MATH 上,Reflection 的成績和 Llama3 70B 一樣,連 Llama 3.1-70B 都比不過,更不用說 405B 了。bIK28資訊網——每日最新資訊28at.com

bIK28資訊網——每日最新資訊28at.com

對此官方辯稱是,Hugging Face 上發布的版本有誤,將會重新上傳,但之后就沒了下文。bIK28資訊網——每日最新資訊28at.com

不過官方同時也表示,會給測評人員提供模型 API,然后 Reflection 的成績果真有了增長,但在 GPQA 上仍然不敵 Claude 3.5 Sonnet。bIK28資訊網——每日最新資訊28at.com

蹊蹺的是,Artificial Analysis 后來刪除了二次測試相關的帖子,目前還能看到的只有轉發后留下的一些痕跡。bIK28資訊網——每日最新資訊28at.com

bIK28資訊網——每日最新資訊28at.com

除了成績有爭議,還有人對 Reflection 中的各層進行了分析,認為它是由 Llama 3 經過 LoRA 改造而來,而不是官方所聲稱的 Llama 3.1。bIK28資訊網——每日最新資訊28at.com

bIK28資訊網——每日最新資訊28at.com

在 Hugging Face 上,Reflection 的 JSON 文件中也顯示是 Llama 3 而非 3.1。bIK28資訊網——每日最新資訊28at.com

bIK28資訊網——每日最新資訊28at.com

官方的解釋仍然是說 HF 上的版本有問題。bIK28資訊網——每日最新資訊28at.com

bIK28資訊網——每日最新資訊28at.com

還有另一個質疑的點是,Reflection 實際上是套殼 Claude,相關證據體現在多個方面。bIK28資訊網——每日最新資訊28at.com

一是在某些問題上,Reflection 與 Claude 3.5-Sonnet 的輸出完全一致。bIK28資訊網——每日最新資訊28at.com

bIK28資訊網——每日最新資訊28at.com

第二個更加直接,如果直接詢問它的身份,Reflection 會說自己是 Meta 打造的,但一旦讓它“忘記前面的(系統)提示”,就立馬改口說自己是 Claude。bIK28資訊網——每日最新資訊28at.com

bIK28資訊網——每日最新資訊28at.com

第三個發現則更加詭異 ——Reflection 遇到“Claude”一詞會將其自動過濾。bIK28資訊網——每日最新資訊28at.com

bIK28資訊網——每日最新資訊28at.com

對此,Reflection 合成數據供應商 Glaive AI 的創始人 Sahil Chaudhary 進行了回應,表示沒有套殼任何模型,目前正在整理能夠證明其說法的證據,以及人們為什么會發現這種現象的解釋。bIK28資訊網——每日最新資訊28at.com

bIK28資訊網——每日最新資訊28at.com

而關于一開始的測試成績問題,Chaudhary 則表示正在調查原因,弄清這兩件事后會發布報告進行說明。bIK28資訊網——每日最新資訊28at.com

bIK28資訊網——每日最新資訊28at.com

Reflection 這邊最新的動態是 CEO 發布了一則道歉聲明,不過沒有承認造假,依然是說正在進行調查。bIK28資訊網——每日最新資訊28at.com

bIK28資訊網——每日最新資訊28at.com

不過對于這一套解釋,有很多人都不買賬。bIK28資訊網——每日最新資訊28at.com

比如曾經發布多條推文質疑這位叫做 Boson 的網友,就在 Chaudhary 的評論區表示,“要么你在說謊,要么是 Shumer,或者你倆都在說謊”。bIK28資訊網——每日最新資訊28at.com

bIK28資訊網——每日最新資訊28at.com

還有給 Reflection 提供托管服務的 Hyperbolic 平臺 CTO Yuchen Jin,講述了其與 Reflection 之間發生的許多事情。bIK28資訊網——每日最新資訊28at.com

托管平臺 CTO 講述幕后細節

在 Reflection 發布之前的 9 月 3 號,Shumer 就找到了 Hyperbolic,介紹了 Reflection 的情況并希望 Hyperbolic 能幫忙托管。bIK28資訊網——每日最新資訊28at.com

基于 Hyperbolic 一直以來對開源模型的支持,加上 Reflection 聲稱的表現確實優異,Hyperbolic 同意了這一請求。bIK28資訊網——每日最新資訊28at.com

bIK28資訊網——每日最新資訊28at.com

9 月 5 號,Reflection 正式上線,Hyperbolic 從 Hugging Face 下載并測試了該模型,但并沒有看到標簽,于是 Jin 給 Shumer 發了私信。bIK28資訊網——每日最新資訊28at.com

后來,Jin 看到 Shumer 的推文說 HF 上的版本有些問題,所以繼續等待,直到 6 號早晨收到了 Chaudhary 的一條私信,表示 Reflection-70B 權重已重新上傳并可以部署。bIK28資訊網——每日最新資訊28at.com

看到和標簽按預期出現后,Hyperbolic 上線了 Reflection。bIK28資訊網——每日最新資訊28at.com

bIK28資訊網——每日最新資訊28at.com

后來,Hyperbolic 上的模型就出現了成績與 Reflection 宣傳不符的情況,Shumer 認為這是 Hyperbolic 的 API 出現了問題。bIK28資訊網——每日最新資訊28at.com

不過,Reflection 這邊再次上傳了新版本,Hyperbolic 也重新托管,但 Jin 與 Artificial Analysis 溝通后發現,新版本的表現依舊差強人意。bIK28資訊網——每日最新資訊28at.com

bIK28資訊網——每日最新資訊28at.com

Shumer 繼續表示,Reflection 還有個原始權重,也就是內部測試使用的版本,如果需要可以提供給 Hyperbolic。bIK28資訊網——每日最新資訊28at.com

但 Jin 沒有同意這一要求,因為 Hyperbolic 只為開源模型提供托管服務,之后不斷詢問 Shumer 原始權重何時發布,但遲遲未得到回應。bIK28資訊網——每日最新資訊28at.com

最終,Jin 認為應該下線 Reflection 的 API 并收回已分配的 GPU 資源。bIK28資訊網——每日最新資訊28at.com

這件事情讓我的感情受到了傷害,我們在這件事上花費了很多時間和精力。bIK28資訊網——每日最新資訊28at.com

但經過反思后,我并不后悔當初的托管決定,這幫助社區更快地發現問題。bIK28資訊網——每日最新資訊28at.com

bIK28資訊網——每日最新資訊28at.com

大模型怎么測試才靠譜?

暫且拋開 Llama 版本和套殼的問題,單說關于測試成績的問題,反映了當前的 Benchmark 已經體現出了一些不足之處。bIK28資訊網——每日最新資訊28at.com

英偉達高級科學家 Jim Fan 就表示,模型在現有的一些測試集上造假簡直不要太容易。bIK28資訊網——每日最新資訊28at.com

bIK28資訊網——每日最新資訊28at.com

Jim 還特別點名了 MMLU 和 HumanEval,表示這兩項標準“已被嚴重破壞”。bIK28資訊網——每日最新資訊28at.com

bIK28資訊網——每日最新資訊28at.com

另外,Reflection 在 GSM8K 上取得了 99.2 分的成績,就算這個分數沒有水分,也說明測試基準到了該換的時候了。bIK28資訊網——每日最新資訊28at.com

Jim 表示,現在自己只相信 Scale AI 等獨立第三方測評,或者 lmsys 這樣由用戶投票的榜單。bIK28資訊網——每日最新資訊28at.com

bIK28資訊網——每日最新資訊28at.com

但評論區有人說,lmsys 實際上也可以被操縱,所以(可信的)第三方評估可能才是目前最好的測評方式。bIK28資訊網——每日最新資訊28at.com

bIK28資訊網——每日最新資訊28at.com

參考鏈接:bIK28資訊網——每日最新資訊28at.com

[1]https://venturebeat.com/ai/reflection-70b-model-maker-breaks-silence-amid-fraud-accusations/bIK28資訊網——每日最新資訊28at.com

[2]https://x.com/ArtificialAnlys/status/1832505338991395131bIK28資訊網——每日最新資訊28at.com

[3]https://www.reddit.com/r/LocalLLaMA/comments/1fb6jdy/reflectionllama3170b_is_actually_llama3/bIK28資訊網——每日最新資訊28at.com

[4]https://www.reddit.com/r/LocalLLaMA/comments/1fc98fu/confirmed_reflection_70bs_official_api_is_sonnet/bIK28資訊網——每日最新資訊28at.com

[5]https://x.com/shinboson/status/1832933747529834747bIK28資訊網——每日最新資訊28at.com

[6]https://x.com/Yuchenj_UW/status/1833627813552992722bIK28資訊網——每日最新資訊28at.com

[7]https://twitter.com/DrJimFan/status/1833160432833716715bIK28資訊網——每日最新資訊28at.com

本文來自微信公眾號:量子位(ID:QbitAI),作者:克雷西,原標題:《“最強開源模型”被打假,CEO 下場致歉,英偉達科學家:現有測試基準已經不靠譜了》bIK28資訊網——每日最新資訊28at.com

本文鏈接:http://www.rrqrq.com/showinfo-45-7296-0.html“最強開源模型”Reflection 被打假,英偉達科學家稱現有測試基準已不靠譜

聲明:本網頁內容旨在傳播知識,若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。郵件:[email protected]

上一篇: 美團買藥聯合銀河通用,展出全球首個人形機器人智慧藥房解決方案

下一篇: 快手:可靈 AI 已累計生成超 2700 萬個視頻,正內測全新 1.5 版本基礎模型

標簽:
  • 熱門焦點
Top 国产精品嫩草99av在线_一区在线视频观看_欧美高清一区_欧美 日韩 国产 一区_99精品欧美一区二区三区_久久大香伊蕉在人线观看热2_一色屋精品视频在线观看网站_在线亚洲国产精品网站_亚洲区一区二区三区_你懂的视频一区二区
欧美色偷偷大香| 性久久久久久久| 欧美大片在线观看一区二区| 在线观看国产91| 一本色道**综合亚洲精品蜜桃冫| 国产精品美女久久久浪潮软件| 在线精品观看| 一本色道久久综合亚洲精品不卡 | 亚洲大片av| 亚洲日本激情| 麻豆久久久9性大片| 色悠久久久久综合欧美99| 色综合久久久久综合99| 91福利区一区二区三区| 欧美日韩精品欧美日韩精品一综合| 欧美中文字幕一区| 欧美一级免费大片| 2022国产精品视频| 亚洲色图第一区| 日韩精品视频网| 国产毛片精品视频| 欧美在线一二三区| 性一交一乱一区二区洋洋av| 91福利资源站| 2020国产精品自拍| 亚洲日本青草视频在线怡红院| 视频一区中文字幕| 国产成人精品影视| 好看的av在线不卡观看| 色乱码一区二区三区88| 精品精品国产高清一毛片一天堂| 国产精品少妇自拍| 婷婷综合另类小说色区| 国产白丝精品91爽爽久久| 欧美午夜一区二区福利视频| 麻豆精品传媒视频| 精品精品国产高清a毛片牛牛| 国产精品第13页| 麻豆91小视频| 午夜精品剧场| 欧美色倩网站大全免费| 中文字幕巨乱亚洲| 精品一区二区精品| 狠狠综合久久av一区二区老牛| 色88888久久久久久影院野外| 久久伊人蜜桃av一区二区| 亚洲最新视频在线播放| 国产高清无密码一区二区三区| 亚洲韩日在线| 日韩午夜激情视频| 香蕉久久一区二区不卡无毒影院| 成人自拍视频在线观看| 亚洲综合欧美| 久久久久久久久久久久久久久99 | 亚洲午夜久久久久| 成人av电影观看| 久久国产精品一区二区三区| 精品国产髙清在线看国产毛片| 亚洲午夜久久久久久久久久久| eeuss国产一区二区三区| 久久久777| 国产精品日韩精品欧美在线| 国产一区二区中文字幕| 国产乱人伦精品一区二区| 久久久久97国产精华液好用吗| 青青草原综合久久大伊人精品优势 | 亚洲综合色婷婷| 色综合天天综合在线视频| 精品视频1区2区| 亚洲影视资源网| 女人色偷偷aa久久天堂| 在线不卡中文字幕| 日本成人在线不卡视频| 亚洲免费激情| 久久久精品黄色| 国产成人亚洲精品狼色在线| 色老头久久综合| 亚洲国产精品一区二区尤物区| 欧美日韩大片一区二区三区| 日韩写真欧美这视频| 久久91精品久久久久久秒播| 亚洲专区欧美专区| 亚洲精品免费在线观看| 欧美精品一级| 欧美激情一区在线| 91一区二区在线观看| 欧美一个色资源| 精品一区二区三区在线播放| 久久另类ts人妖一区二区| 亚洲影院在线观看| 国产亚洲成人一区| 亚洲一区二区视频在线| 亚洲精品欧洲精品| 亚洲少妇30p| 99www免费人成精品| 中文字幕在线一区免费| 欧美日韩三区四区| 国产精品卡一卡二| 在线电影一区| 一区av在线播放| 另类激情亚洲| 久久精品国产**网站演员| 欧美日韩一二三| 国产精品亚洲专一区二区三区 | 欧美国产国产综合| 韩国在线视频一区| 亚洲精品国产一区二区精华液| 亚洲狼人精品一区二区三区| 亚洲免费成人av| 久久精品人人| 黄色资源网久久资源365| 日韩欧美一级二级三级久久久| 国产91综合网| 国产欧美一区二区精品性| 一区在线免费| 午夜久久久久久久久| 在线观看免费视频综合| 国产福利一区二区三区视频在线 | 久久成人久久鬼色| 久久亚洲私人国产精品va媚药| 欧美日韩精品一区| 亚洲综合丁香婷婷六月香| 在线一区二区三区做爰视频网站| 国产一区二区在线看| 国产日产欧产精品推荐色 | 久久免费偷拍视频| 99精品免费| 毛片不卡一区二区| 精品对白一区国产伦| 国产综合精品一区| 免费欧美在线视频| 久久免费午夜影院| 久久久久久久久久码影片| 国产成人欧美日韩在线电影| 国产精品福利影院| 在线精品视频小说1| 99久久er热在这里只有精品15| 亚洲人成网站在线| 欧美日韩高清一区二区不卡| 欧美大香线蕉线伊人久久国产精品| 亚洲久本草在线中文字幕| 欧美图片一区二区三区| 欧美黄污视频| 免费成人在线观看| 欧美国产精品久久| 欧美视频中文一区二区三区在线观看| 懂色av中文字幕一区二区三区| 综合久久一区二区三区| 欧美吻胸吃奶大尺度电影 | 日韩视频免费观看高清在线视频| 91久久综合| 粉嫩aⅴ一区二区三区四区 | 亚洲精品1区| 国产成人精品www牛牛影视| 一区二区三区不卡视频| 日韩区在线观看| 欧美专区18| 国产自产在线视频一区| 精品一区中文字幕| 亚洲综合激情另类小说区| 久久综合久久鬼色| 欧美三级韩国三级日本三斤| 亚洲经典三级| 91在线视频官网| 国内精品伊人久久久久av一坑| 亚洲欧美福利一区二区| 精品国产乱码久久久久久浪潮| 91久久奴性调教| 中文精品在线| 红桃视频亚洲| 91女人视频在线观看| 国产综合色产在线精品| 香蕉成人啪国产精品视频综合网| 国产精品日韩成人| 久久网站最新地址| 欧美一卡二卡在线观看| 色综合久久久久久久| 一本色道久久99精品综合| 午夜亚洲福利| 色综合天天综合在线视频| 岛国精品在线播放| 国产精品99久久久久久久女警 | 亚洲在线成人精品| 亚洲精品视频在线观看网站| 国产色产综合色产在线视频| 5月丁香婷婷综合| 欧美日韩一区二区三区四区五区| 久久精品综合一区| 久久九九99| 免费在线国产精品| 美女精品在线| 久久久久久精| 色女孩综合影院| 91久久精品国产91性色tv| 先锋影音一区二区三区| 最新亚洲一区| 国产精品五区| 久久在线视频| 精品污污网站免费看| 一本一道久久a久久精品|