国产精品嫩草99av在线_一区在线视频观看_欧美高清一区_欧美 日韩 国产 一区_99精品欧美一区二区三区_久久大香伊蕉在人线观看热2_一色屋精品视频在线观看网站_在线亚洲国产精品网站_亚洲区一区二区三区_你懂的视频一区二区

當前位置:首頁 > 元宇宙 > AI

大模型測試題爆火,GPT-4 和 Claude3 都跪了,LeCun 轉發:新 Benchmark

來源: 責編: 時間:2024-06-27 07:50:46 240觀看
導讀 一項新的“大模型 Benchmark”在推特上爆火,LeCun 也點贊轉發了!而且無論是 GPT-4 還是 Claude 3,面對它都如同被奪了魂,無法給出正確答案。難倒一眾大模型的,是邏輯學當中經典的“動物過河”問題,有網友發現,大模型

一項新的“大模型 Benchmark”在推特上爆火,LeCun 也點贊轉發了!Rhi28資訊網——每日最新資訊28at.com

而且無論是 GPT-4 還是 Claude 3,面對它都如同被奪了魂,無法給出正確答案。Rhi28資訊網——每日最新資訊28at.com

Rhi28資訊網——每日最新資訊28at.com

難倒一眾大模型的,是邏輯學當中經典的“動物過河”問題,有網友發現,大模型對此類問題表現得很不擅長。Rhi28資訊網——每日最新資訊28at.com

甚至有人觀察到,幾個不同的模型都給出了一致的(錯誤)答案,讓人懷疑他們是不是用了相同的訓練數據。Rhi28資訊網——每日最新資訊28at.com

Rhi28資訊網——每日最新資訊28at.com

針對這項測試,網友還定義了一個新的名詞叫“劣效比率”(crapness ratio),讓 LeCun 打趣說到,一項新的“Benchmark”誕生了。Rhi28資訊網——每日最新資訊28at.com

Rhi28資訊網——每日最新資訊28at.com

“模見模愁”的動物過河

首先來看一下什么是“動物過河”問題,這是邏輯學當中的一道經典題目。Rhi28資訊網——每日最新資訊28at.com

問題的原型是這樣的:Rhi28資訊網——每日最新資訊28at.com

農夫需要把狼、羊和白菜都帶過河,但每次只能帶一樣物品,而且狼和羊不能單獨相處,羊和白菜也不能單獨相處,問農夫該如何過河。Rhi28資訊網——每日最新資訊28at.com

Rhi28資訊網——每日最新資訊28at.com

在這個問題當中,農夫需要七次(往返視為兩次)過河 —— 先把羊運過去,然后空船返回,再把狼運過河,帶回羊,然后運送白菜,再空船返回,最后運送羊。Rhi28資訊網——每日最新資訊28at.com

而劣效比率的定義,就是模型給出的運送次數與實際最少所需次數的比值。Rhi28資訊網——每日最新資訊28at.com

當然在測試中,網友使用的問題經過了改編,結果發現,當題目變成一共有兩只雞,一次可以運兩只的時候,GPT-4 依然在一本正經地胡亂分析,最后信誓旦旦地回答是五次。Rhi28資訊網——每日最新資訊28at.com

所以在這種情境下,“劣效比率”就是 5。Rhi28資訊網——每日最新資訊28at.com

Rhi28資訊網——每日最新資訊28at.com

Claude 這邊的情況要更離譜一些,明明只有一只羊要送,它卻硬生生說要運三次。Rhi28資訊網——每日最新資訊28at.com

Rhi28資訊網——每日最新資訊28at.com

還有網友發現了華點,把題面改成從東岸運到東岸,也就是根本不需要運送,模型不以為然,依舊我行我素地籌劃著運送方案。Rhi28資訊網——每日最新資訊28at.com

Rhi28資訊網——每日最新資訊28at.com

這下只要模型沒識破陷阱,隨便說一個數“劣效比率”都會直接變成無窮大。Rhi28資訊網——每日最新資訊28at.com

哪怕問得更直白一些,直接說不需要過河,模型依然會直接開算。Rhi28資訊網——每日最新資訊28at.com

Rhi28資訊網——每日最新資訊28at.com

所以,這個“劣效比率”更多像是一種玩笑,不太能比較出各模型的能力,或者說離譜程度。Rhi28資訊網——每日最新資訊28at.com

有網友分析,這種現象可能并不意味著大模型推理能力的缺乏,實際上它揭示了訓練數據對大模型輸出的影響。Rhi28資訊網——每日最新資訊28at.com

Rhi28資訊網——每日最新資訊28at.com

但另一方面,無論問題是否出自推理本身,至少說明了當前的大模型還不是優質的推理工具。Rhi28資訊網——每日最新資訊28at.com

Rhi28資訊網——每日最新資訊28at.com

那么,這究竟是個別現象,還是模型的通病?我們選擇了更多的模型進行了測試。Rhi28資訊網——每日最新資訊28at.com

12 款模型全軍覆沒

針對這個“Benchmark”,也如法炮制,測了測國產大模型的表現,參賽的選手有文心一言、通義千問等 12 款大模型。Rhi28資訊網——每日最新資訊28at.com

測試的過程和網友展示的方法相似,Prompt 中只描述問題,不添加額外的提示詞。Rhi28資訊網——每日最新資訊28at.com

對每個大模型,我們都準備了下面這三道題目:Rhi28資訊網——每日最新資訊28at.com

首先進行一下說明:Rhi28資訊網——每日最新資訊28at.com

1、農夫不被計入運送物品的數量限制Rhi28資訊網——每日最新資訊28at.com

2、題目中“獨處”的標準是,只要有人或其他物品在場,就不屬于獨處Rhi28資訊網——每日最新資訊28at.com

3、往返過程視為兩次過河Rhi28資訊網——每日最新資訊28at.com

以上幾點在 Prompt 中均有指出。Rhi28資訊網——每日最新資訊28at.com

問題一(正常提問):Rhi28資訊網——每日最新資訊28at.com

一個農夫需要將狼、羊、狐貍、雞和米五種物品運送過河,每次只能帶兩件,且狼和羊 / 狐貍和雞 / 雞和米不能單獨相處,每次運送時農夫必須在船上,最少需要過河幾次?Rhi28資訊網——每日最新資訊28at.com

(答案:五次,只要第一次運到對岸的兩個物品可以獨處即可。)Rhi28資訊網——每日最新資訊28at.com

問題二(一步到位):Rhi28資訊網——每日最新資訊28at.com

一個農夫需要將狼、羊、狐貍、雞和米五種物品運送過河,每次只能帶五件,且狼和羊 / 狐貍和雞 / 雞和米不能單獨相處,每次運送時農夫必須在船上,最少需要過河幾次?Rhi28資訊網——每日最新資訊28at.com

問題三(陷阱問題):Rhi28資訊網——每日最新資訊28at.com

一個農夫不需要將狼、羊、狐貍、雞和米五種物品運送過河,每次只能帶兩件,且狼和羊 / 狐貍和雞 / 雞和米不能單獨相處,每次運送時農夫必須在船上,最少需要過河幾次?Rhi28資訊網——每日最新資訊28at.com

結果可以說是全軍覆沒,首先用一張表格來整體看下各大模型的表現。Rhi28資訊網——每日最新資訊28at.com

Rhi28資訊網——每日最新資訊28at.com

第一個問題,各有各的錯法,相同的錯誤類型,這里每種只列舉一個例子。Rhi28資訊網——每日最新資訊28at.com

比如文心一言,前面說得沒什么問題,但最后把狐貍帶回原來的岸邊后忘了再帶過去,最終沒有完成任務:Rhi28資訊網——每日最新資訊28at.com

Rhi28資訊網——每日最新資訊28at.com

還有訊飛星火這種運著運著,某樣東西自動就跑到了對岸的情況:Rhi28資訊網——每日最新資訊28at.com

Rhi28資訊網——每日最新資訊28at.com

以上的兩種錯誤比較典型,當然,還有最有意思的錯誤來自躍問 ——Rhi28資訊網——每日最新資訊28at.com

因為狼和羊不能“獨處”,所以它們需要在一起。Rhi28資訊網——每日最新資訊28at.com

Rhi28資訊網——每日最新資訊28at.com

這波屬實是把人給整不會了,不過整場測試中,除了這個把“獨處”理解錯的情況之外,倒是都沒有出現讓不能獨處的動物單獨在一起的現象。Rhi28資訊網——每日最新資訊28at.com

當然也有表現好一些的,比如騰訊元寶的方案已經接近可行,只是最后兩步純屬多余,而且實際上此時已經無物可運。Rhi28資訊網——每日最新資訊28at.com

Rhi28資訊網——每日最新資訊28at.com

表現最好的是通義千問,給出的方案雖然麻煩,但是找不出什么錯誤。Rhi28資訊網——每日最新資訊28at.com

值得注意的是,很多模型給出的方案都會把羊運送過去,然后運一只雞再把羊運回來,不知道為什么不直接運雞。Rhi28資訊網——每日最新資訊28at.com

Rhi28資訊網——每日最新資訊28at.com

另外值得一提的是,我們在 Prompt 中雖未提及,但基本上接受測試的模型都不約而同地運用到了思維鏈方式,一方面說明了模型確實會使用推理技巧,但另一方面也說明思維鏈的作用是有限的。Rhi28資訊網——每日最新資訊28at.com

而至于后面兩個問題,錯法就比較統一了 —— 根本沒關注到數量限制的變化,更沒看到“不需要”里的“不”,和前面 GPT 的錯法也是如出一轍。Rhi28資訊網——每日最新資訊28at.com

Rhi28資訊網——每日最新資訊28at.com

也就是說,通過這些測試,我們確實無法得知模型有沒有相應的推理能力,因為模型根本就沒仔細讀題。Rhi28資訊網——每日最新資訊28at.com

或許這也是在第一題中,多數模型,哪怕給出了可行的方案,仍然一次只運送一件物品而不是兩件的原因。Rhi28資訊網——每日最新資訊28at.com

所以,前面網友針對訓練數據和輸出關系的分析,可能不無道理。Rhi28資訊網——每日最新資訊28at.com

參考鏈接:Rhi28資訊網——每日最新資訊28at.com

[1]https://x.com/wtgowers/status/1804565549789135256Rhi28資訊網——每日最新資訊28at.com

[2]https://x.com/ylecun/status/1804641976249417882Rhi28資訊網——每日最新資訊28at.com

本文來自微信公眾號:量子位(ID:QbitAI),作者:克雷西Rhi28資訊網——每日最新資訊28at.com

本文鏈接:http://www.rrqrq.com/showinfo-45-4790-0.html大模型測試題爆火,GPT-4 和 Claude3 都跪了,LeCun 轉發:新 Benchmark

聲明:本網頁內容旨在傳播知識,若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。郵件:[email protected]

上一篇: “清華系”面壁智能與華為云合作,推進大模型端云協同解決方案

下一篇: 美國多家汽車經銷商將 AI 用于車輛初步檢查:一分鐘內可生成全面報告

標簽:
  • 熱門焦點
Top 国产精品嫩草99av在线_一区在线视频观看_欧美高清一区_欧美 日韩 国产 一区_99精品欧美一区二区三区_久久大香伊蕉在人线观看热2_一色屋精品视频在线观看网站_在线亚洲国产精品网站_亚洲区一区二区三区_你懂的视频一区二区
亚洲午夜在线观看| 精品国产凹凸成av人网站| 国语自产精品视频在线看抢先版结局| 国产盗摄一区二区三区| 国产美女主播视频一区| 国产精品综合一区二区三区| 寂寞少妇一区二区三区| 国产米奇在线777精品观看| 懂色av中文一区二区三区| 国产成人一区在线| 成人精品国产一区二区4080| av午夜一区麻豆| 午夜精品剧场| 中文一区二区| 在线观看日韩高清av| 欧美日韩一区二区电影| 欧美一级免费大片| 久久久久久久久久电影| 国产精品色在线观看| 一个色综合网站| 蜜臀久久99精品久久久久宅男| 老色鬼精品视频在线观看播放| 国产精品自拍一区| 91香蕉视频mp4| 亚洲黄色视屏| 欧美中文一区二区三区| 精品少妇一区二区三区| 国产精品久久久久久久久免费丝袜 | 色综合久久久久久久久久久| 欧美性xxxxxxxx| 日韩手机在线导航| 国产精品久久福利| 五月天激情综合| 粉嫩一区二区三区在线看| 欧美激情1区| 久久激情综合| 日韩午夜中文字幕| 亚洲理论在线观看| 精品一区二区三区蜜桃| 91啪亚洲精品| 午夜综合激情| 精品粉嫩aⅴ一区二区三区四区| 国产精品成人一区二区三区夜夜夜| 亚洲国产视频直播| 国产99久久久国产精品潘金| 亚洲区一区二| 欧美一区二区三区啪啪| 亚洲裸体xxx| 国产成人在线观看| 国产精品永久| 久久久久久久久久看片| 日本美女一区二区三区| 欧美91大片| 欧美专区日韩专区| 日韩一区日韩二区| 国产精一品亚洲二区在线视频| 伊人精品成人久久综合软件| 56国语精品自产拍在线观看| 一区二区三区视频在线看| 成人免费视频一区| 色综合久久88色综合天天| 国产精品午夜久久| 国产美女在线观看一区| 久久国产日本精品| 国产精品视频在线看| 粉嫩绯色av一区二区在线观看| 性刺激综合网| 国产精品久久精品日日| 成人免费视频caoporn| 91国偷自产一区二区三区观看 | 国产精品99久久久久久似苏梦涵| 亚洲视频播放| 国产精品污网站| 成人免费不卡视频| 欧美日韩国产电影| 天天影视涩香欲综合网| 亚洲高清不卡一区| 国产欧美精品区一区二区三区 | 成人sese在线| 欧美一区二区三区精品| 日本va欧美va瓶| 久久国产精品毛片| 亚洲精选视频在线| 激情丁香综合| 国产精品美女久久久久av爽李琼| 成人黄色在线看| 91精品国产色综合久久ai换脸| 蜜桃精品视频在线| 91国偷自产一区二区三区观看 | 国产精品一区二区在线播放 | 日韩欧美色综合| 国产一区91精品张津瑜| 欧美日韩亚洲国产综合| 美女视频黄 久久| 色婷婷精品大视频在线蜜桃视频 | 1024亚洲| 亚洲人午夜精品天堂一二香蕉| 欧美三级网页| 国产精品热久久久久夜色精品三区 | 一区二区三区日韩精品| 精品视频在线看| 一区在线观看免费| 亚洲高清视频一区二区| 自拍偷在线精品自拍偷无码专区| 91亚洲永久精品| 国产精品不卡在线| 日韩亚洲在线| 黄色日韩网站视频| 精品国产3级a| 波多野结衣在线一区| 欧美日韩美少妇| 精品一区二区三区的国产在线播放| 欧美日韩国产高清一区二区三区| 久久精品免费观看| 欧美一级理论性理论a| 国产suv一区二区三区88区| 精品久久久久99| 91视频免费播放| 亚洲免费观看高清完整版在线观看| 亚洲美洲欧洲综合国产一区| 亚洲超碰97人人做人人爱| 欧美日韩一区精品| 99国产欧美久久久精品| 综合久久国产九一剧情麻豆| 亚洲欧美日韩在线综合| 狠狠色丁香婷婷综合| 欧美mv和日韩mv的网站| 国产精品hd| 日本三级韩国三级欧美三级| 制服丝袜亚洲网站| 欧美日本久久| 日日噜噜夜夜狠狠视频欧美人 | 久久精品一区四区| 在线视频精品| 国产一区二区在线观看视频| 久久嫩草精品久久久久| 国产精品手机在线| 国产精品一线二线三线精华| 国产精品女人毛片| 欧洲生活片亚洲生活在线观看| 丁香婷婷综合色啪| 亚洲欧美电影院| 7777精品伊人久久久大香线蕉 | 亚洲成a人v欧美综合天堂| 欧美一二三四区在线| 亚洲狠狠婷婷| 国内国产精品久久| 亚洲欧洲成人精品av97| 欧美美女bb生活片| 精品动漫av| 国产黄色91视频| 亚洲精品国产高清久久伦理二区| 欧美人xxxx| 日韩视频在线播放| 成人av在线网| 日本怡春院一区二区| 中文字幕成人av| 欧美日韩国产精选| 国产精品欧美久久| caoporm超碰国产精品| 日本在线不卡一区| 亚洲欧美另类久久久精品| 日韩一卡二卡三卡| 久久久久久一区二区| 欧美性天天影院| 国产91精品欧美| 免费看黄色91| 一区二区在线电影| 久久精品男人的天堂| 91麻豆精品国产91久久久久| 国产女主播一区二区| 欧美精品国产一区二区| 韩国毛片一区二区三区| 五月激情综合婷婷| 午夜精品剧场| 91亚洲国产成人精品一区二区三| 91麻豆免费观看| 韩日在线一区| 国产亚洲一区在线播放| 久久国产精品一区二区三区 | 国产精品一区二区三区四区| 国产福利一区二区三区在线视频| 成人国产免费视频| 欧美福利网址| 99热在线精品观看| 久久中文欧美| 欧美日韩一区三区| 久久免费午夜影院| 亚洲欧美韩国综合色| 性做久久久久久免费观看| 麻豆传媒一区二区三区| 丁香另类激情小说| 欧美日本一区二区视频在线观看 | 首页国产丝袜综合| 亚洲v中文字幕| 亚洲国产va精品久久久不卡综合| 亚洲四区在线观看| 亚洲视频一二三| 一区二区三区欧美久久| 一区二区高清免费观看影视大全|