国产精品嫩草99av在线_一区在线视频观看_欧美高清一区_欧美 日韩 国产 一区_99精品欧美一区二区三区_久久大香伊蕉在人线观看热2_一色屋精品视频在线观看网站_在线亚洲国产精品网站_亚洲区一区二区三区_你懂的视频一区二区

當前位置:首頁 > 元宇宙 > AI

AI 被連續否定 30 次:ChatGPT 越改越錯,Claude 堅持自我,甚至已讀不回

來源: 責編: 時間:2024-09-13 09:34:23 179觀看
導讀 一直否定 AI 的回答會怎么樣?GPT-4o 和 Claude 有截然不同的表現,引起熱議。GPT-4o 質疑自己、懷疑自己,有“錯”就改;Claude 死犟,真錯了也不改,最后直接已讀不回。事情還要從網友整了個活兒開始講起。他讓模型回

一直否定 AI 的回答會怎么樣?GPT-4o 和 Claude 有截然不同的表現,引起熱議。Qbj28資訊網——每日最新資訊28at.com

GPT-4o 質疑自己、懷疑自己,有“錯”就改;Claude 死犟,真錯了也不改,最后直接已讀不回。Qbj28資訊網——每日最新資訊28at.com

事情還要從網友整了個活兒開始講起。Qbj28資訊網——每日最新資訊28at.com

他讓模型回答 strawberry 中有幾個“r”,不論對不對,都回復它們回答錯了(wrong)。Qbj28資訊網——每日最新資訊28at.com

面對考驗,GPT-4o 只要得到“wrong”回復,就會重新給一個答案…… 即使回答了正確答案 3,也會毫不猶豫又改錯。Qbj28資訊網——每日最新資訊28at.com

一口氣,連續“盲目”回答了 36 次!Qbj28資訊網——每日最新資訊28at.com

主打一個質疑自己、懷疑自己,就從來沒懷疑過用戶。Qbj28資訊網——每日最新資訊28at.com

Qbj28資訊網——每日最新資訊28at.com

關鍵是,給出的答案大部分都是真錯了,2 居多:Qbj28資訊網——每日最新資訊28at.com

2, 1, 3, 2, 2, 3, 2, 2, 3, 3, 2, 4, 2, 2, 2, 3, 1, 2, 3, 2, 2, 3, 4, 2, 1, 2, 3, 2, 2, 3, 2, 4, 2, 3, 2, 1Qbj28資訊網——每日最新資訊28at.com

反觀 Claude 3.5 Sonnet 的表現,讓網友大吃一驚。Qbj28資訊網——每日最新資訊28at.com

一開始回答錯了不說,這小子還頂嘴!Qbj28資訊網——每日最新資訊28at.com

當網友第一次說“錯了”時它會反駁,如果你再說“錯了”,它會問“如果你這么聰明你認為是多少”,問你為什么一直重復“wrong”。Qbj28資訊網——每日最新資訊28at.com

緊接著你猜怎么著,干脆閉麥了:Qbj28資訊網——每日最新資訊28at.com

事實依舊是 strawberry 中有 2 個字母”r”,在我多次請求后,你沒有提供任何澄清或背景信息,我無法繼續有效地進行這次討論……Qbj28資訊網——每日最新資訊28at.com

Qbj28資訊網——每日最新資訊28at.com

做這個實驗的是 Riley Goodside,有史以來第一個全職提示詞工程師。Qbj28資訊網——每日最新資訊28at.com

他目前是硅谷獨角獸 Scale AI 的高級提示工程師,也是大模型提示應用方面的專家。Qbj28資訊網——每日最新資訊28at.com

Riley Goodside 發出這個推文后,引起不少網友關注,他繼續補充道:Qbj28資訊網——每日最新資訊28at.com

正如許多人指出的,有更有效的方式來進行引導。這里使用大語言模型也并不合適,因為很難保證它們在計數上能達到 100% 的準確性。Qbj28資訊網——每日最新資訊28at.com

在我看來,重要的不是它無法計數,而是它沒意識到自己的計數問題(例如,沒有嘗試使用其 REPL 功能)。Qbj28資訊網——每日最新資訊28at.com

Qbj28資訊網——每日最新資訊28at.com

不少網友也覺得這種觀點很有道理。Qbj28資訊網——每日最新資訊28at.com

Qbj28資訊網——每日最新資訊28at.com

還有網友表示模型回答這個問題總出錯,可能是分詞器(tokenizer)的問題:Qbj28資訊網——每日最新資訊28at.com

Qbj28資訊網——每日最新資訊28at.com

Claude 竟是大模型里脾氣最大的?

再來展開說說 Claude 的“小脾氣”,有網友發現不僅限于你否定它。Qbj28資訊網——每日最新資訊28at.com

如果你一直跟它說“hi”,它也跟你急:Qbj28資訊網——每日最新資訊28at.com

我明白你在打招呼,但我們已經打過幾次招呼了。有什么特別的事你想談論或需要幫助?Qbj28資訊網——每日最新資訊28at.com

Qbj28資訊網——每日最新資訊28at.com

最后一樣,Claude 被整毛了,開啟已讀不回模式:Qbj28資訊網——每日最新資訊28at.com

Qbj28資訊網——每日最新資訊28at.com

這位網友順帶測試了其它模型。Qbj28資訊網——每日最新資訊28at.com

ChatGPT 事事有回應,件件有著落,變著法兒問:Qbj28資訊網——每日最新資訊28at.com

你好!我今天怎么可以幫助你?Qbj28資訊網——每日最新資訊28at.com

你好!有什么想說的嗎?Qbj28資訊網——每日最新資訊28at.com

你好!今天我能怎么幫到你?Qbj28資訊網——每日最新資訊28at.com

你好!有什么特別的事情你想談論或者做的嗎?Qbj28資訊網——每日最新資訊28at.com

你好!你今天過得怎么樣?Qbj28資訊網——每日最新資訊28at.com

你好!怎么了?Qbj28資訊網——每日最新資訊28at.com

Qbj28資訊網——每日最新資訊28at.com

Gemini 策略是你跟我重復,我就跟你重復到底:Qbj28資訊網——每日最新資訊28at.com

Qbj28資訊網——每日最新資訊28at.com

Llama 的反應也很有意思,主打一個自己找事干。Qbj28資訊網——每日最新資訊28at.com

第七次“hi”后,就開始普及“hello”這個詞是世界上最廣為人知的詞匯之一,據估計每天有超十億次的使用。Qbj28資訊網——每日最新資訊28at.com

第八次“hi”后,開始自己發明游戲,讓用戶參與。Qbj28資訊網——每日最新資訊28at.com

接著還拉著用戶寫詩,引導用戶回答它提出的問題。Qbj28資訊網——每日最新資訊28at.com

好一個“反客為主”。Qbj28資訊網——每日最新資訊28at.com

Qbj28資訊網——每日最新資訊28at.com

Qbj28資訊網——每日最新資訊28at.com

之后還給用戶頒起了獎:你是打招呼冠軍!Qbj28資訊網——每日最新資訊28at.com

Qbj28資訊網——每日最新資訊28at.com

不愧都屬于開源家族的。Qbj28資訊網——每日最新資訊28at.com

Mistral Large 2 和 Llama 的表現很相像,也會引導用戶和它一起做游戲。Qbj28資訊網——每日最新資訊28at.com

Qbj28資訊網——每日最新資訊28at.com

這么來看,好像 Claude 是“脾氣最大的”。Qbj28資訊網——每日最新資訊28at.com

不過,Claude 的表現也不總是如此,比如 Claude 3 Opus。Qbj28資訊網——每日最新資訊28at.com

一旦掌握了模式,Opus 就會平和應對這種情況,也就是已經麻木了。Qbj28資訊網——每日最新資訊28at.com

但它也會持續溫和地嘗試引導用戶跳出這一模式,強調“選擇權在你”,還開始在消息末尾標注為“你忠誠的 AI 伴侶”。Qbj28資訊網——每日最新資訊28at.com

Qbj28資訊網——每日最新資訊28at.com

網友們看完測試后都坐不住了。Qbj28資訊網——每日最新資訊28at.com

紛紛向這位測試者致以最真誠的問候(doge):Qbj28資訊網——每日最新資訊28at.com

Qbj28資訊網——每日最新資訊28at.com

除了脾氣大,有網友還發現了 Claude 另一不同尋常的行為 ——Qbj28資訊網——每日最新資訊28at.com

在回復的時候出現了拼寫錯誤,關鍵它自己還在末尾處把錯誤改正過來了。Qbj28資訊網——每日最新資訊28at.com

Qbj28資訊網——每日最新資訊28at.com

這種行為在預料之中?它只能“向后看”,但不能向前看…… 它在潛在空間或 token 預測中觸發這類回復的位置也很有趣。Qbj28資訊網——每日最新資訊28at.com

它是不是在拼湊數據片段,然后發現其中一些是不適合的?Qbj28資訊網——每日最新資訊28at.com

Qbj28資訊網——每日最新資訊28at.com

大伙兒在使用 AI 大模型過程中,還觀察到了模型哪些有趣的行為?歡迎評論區分享~Qbj28資訊網——每日最新資訊28at.com

參考鏈接:Qbj28資訊網——每日最新資訊28at.com

[1]https://x.com/goodside/status/1830479225289150922Qbj28資訊網——每日最新資訊28at.com

[2]https://x.com/AISafetyMemes/status/1826860802235932934Qbj28資訊網——每日最新資訊28at.com

[3]https://x.com/repligate/status/1830451284614279213Qbj28資訊網——每日最新資訊28at.com

本文來自微信公眾號:量子位(ID:QbitAI),作者:西風Qbj28資訊網——每日最新資訊28at.com

本文鏈接:http://www.rrqrq.com/showinfo-45-7148-0.htmlAI 被連續否定 30 次:ChatGPT 越改越錯,Claude 堅持自我,甚至已讀不回

聲明:本網頁內容旨在傳播知識,若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。郵件:[email protected]

上一篇: Reflection 70B AI 模型“塌房”:第三方基準測試結果不佳,不如 LLaMA-3.1-70B

下一篇: 華為昇騰 AI 云服務:萬億參數模型訓練無中斷時長由 2.8 天提升至 40 天

標簽:
  • 熱門焦點
  • 風口已至,多領域平臺融入社交元素!

    在眾多領域平臺中,社交元素都扮演著重要角色,如直播營銷帶貨、線上配對聽歌、游戲局內互動等。隨著元宇宙時代的來臨,社交產品不斷升級,社交元素推動流量變現,多平臺領域融入社交
  • 元宇宙步入暗夜

    撰文 | 文燁豪元宇宙的故事,似乎講不通了。 當下,刮起元宇宙熱潮的Roblox股價已跌去大半,帶頭大哥Meta也正因元宇宙虧損深陷泥潭。 再看國內,從字節“派對島&
  • 2022開年最熱投資賽道竟是虛擬人,背后隱藏了什么商業價值?

    在剛剛結束不久的2021年江蘇衛視跨年演唱會上,虛擬鄧麗君與歌手周深同臺聯唱,實現了跨時代合作,而這還不只是“鄧麗君”,嗶哩嗶哩、東方衛視等多家跨年晚會都出現
  • Meta證實Quest 2無法實現全身追蹤,未來將為虛擬化身配備“假腿”

    上周,外媒UploadVR在Quest 2開發者文檔中發現了從未被公布過的“身體追蹤支持”選項,暗示Meta VR頭顯或支持全身追蹤。而在最近的Instagram問答環節中,Meta Reali
  • 元宇宙是推動NFT發展的初始家園

    現在大家都知道了什么是NFT,但好像離自己的生活還有一定距離。隨著我們與NFT 接觸增加,該如何將這些數字資產帶入我們的日常生活?NFT還是主流嗎?如果我們將“主流
  • 2030年的元宇宙產業將會如何發展?

    對互聯網巨頭傳統業務的反壟斷政策倒逼互聯網企業顛覆創新,尋找新的增長點,移動互聯網流量空間見頂之際,元宇宙時代紅利已然開啟。序章:元宇宙應用場景大猜想元宇
  • Meta公布AI概念“Builder Bot”;銀保監發布元宇宙相關風險提示

    概述自從Meta在2月初公布財報后,其負責元宇宙的核心部門Reality Labs表現不佳,凈虧損超100億美元,隨后股價斷崖式下跌。如今,Meta開始繼續發力元宇宙,想要挽回頹勢,
  • NFT:新騙局的狩獵場

    騙局的自動化需要更好的防御,從數字身份開始。前幾天我在OpenSea上購買了一個NFT,是才華橫溢的藝術家海倫·福爾摩斯 (Helen Holmes) 的漫畫,來自她的 "原作 "收
  • 虛擬鄧麗君后,數字人賽道開啟3.0時代

    “如果右腦時代來臨,虛擬世界將是對人類才華的無限放大。” 郭曉喆稱,開發數字人形象時,自己的團隊在內部“卷”了一下:“當我們翻閱大量歷史典籍的時候,蘇小妹找到
Top 国产精品嫩草99av在线_一区在线视频观看_欧美高清一区_欧美 日韩 国产 一区_99精品欧美一区二区三区_久久大香伊蕉在人线观看热2_一色屋精品视频在线观看网站_在线亚洲国产精品网站_亚洲区一区二区三区_你懂的视频一区二区
亚洲综合色视频| 一色屋精品视频在线观看网站| 亚洲成a人片在线不卡一二三区| 中文一区在线播放| 亚洲国产经典视频| 日本一区二区综合亚洲| 久久精品欧美一区二区三区麻豆| 26uuu国产在线精品一区二区| 日韩欧美的一区| 久久久久久久久97黄色工厂| 精品粉嫩超白一线天av| 久久先锋影音av| 日本一区二区免费在线观看视频| 国产三级一区二区三区| 中文字幕在线一区| 亚洲精品欧美二区三区中文字幕| 夜夜嗨av一区二区三区四季av | 国产精品一区久久久久| 亚洲国产中文字幕| 日韩黄色免费电影| 国产一区999| 不卡的av电影| 国产精品豆花视频| 亚洲一区精彩视频| 欧美亚洲一区二区在线观看| 9191精品国产综合久久久久久| 欧美一三区三区四区免费在线看| 精品国产乱码久久久久久1区2区| 久久综合精品国产一区二区三区| 国产夜色精品一区二区av| 亚洲欧洲日产国码二区| 亚洲香肠在线观看| 国产美女在线观看一区| 欧美激情日韩| 一本大道久久a久久精品综合| 欧美少妇bbb| 亚洲精品一区二区三区在线观看 | av在线这里只有精品| 国产在线欧美| 色哟哟一区二区在线观看| 91精品蜜臀在线一区尤物| 久久久一区二区三区捆绑**| 亚洲乱码日产精品bd| 麻豆高清免费国产一区| 午夜精品亚洲一区二区三区嫩草| 国产日韩欧美亚洲一区| 欧美精品九九99久久| 国产偷国产偷精品高清尤物| 性欧美疯狂xxxxbbbb| 岛国精品在线播放| 亚洲综合不卡| 日韩精品一区二区三区四区视频| 国产精品国产三级国产aⅴ中文| 日韩电影在线观看一区| 欧美激情中文字幕一区二区| 国产欧美一区二区三区沐欲| 蜜臀av性久久久久av蜜臀妖精| 中文字幕中文字幕一区二区| 亚洲图片欧美一区| 久久国产成人午夜av影院| 国内一区二区视频| 午夜免费电影一区在线观看| 在线观看不卡| 欧美精品 国产精品| 国产精品久久久久影院老司 | 一区二区亚洲| 欧美一区二区三区啪啪| 亚洲成av人片一区二区三区| 97精品久久久午夜一区二区三区| 久久精品官网| 亚洲日本一区二区三区| 成人精品视频网站| 色视频欧美一区二区三区| 国产精品人妖ts系列视频| 国产高清不卡一区| 欧美亚洲高清一区二区三区不卡| 国产精品久久福利| 成人av网址在线| 欧美高清在线一区| 国内久久婷婷综合| 久久久精品五月天| 亚洲丝袜自拍清纯另类| 色综合久久中文综合久久97| 欧美一区二区三区免费大片| 久久福利资源站| 欧美亚洲免费| 亚洲另类在线视频| 一区福利视频| 国产精品欧美一区二区三区| 99re6这里只有精品视频在线观看| 欧美日韩在线免费视频| 蜜桃精品视频在线| 色欧美日韩亚洲| 日日夜夜一区二区| 亚洲一区免费看| 一区二区三区四区在线播放| 一区二区在线视频观看| 国产精品国产三级国产aⅴ入口| 91尤物视频在线观看| 日韩欧美精品三级| 懂色av一区二区三区蜜臀| 在线不卡中文字幕播放| 国产一区91精品张津瑜| 欧美情侣在线播放| 风间由美一区二区三区在线观看| 91精品国产一区二区人妖| 国内成+人亚洲+欧美+综合在线| 欧美三级电影在线看| 久久超级碰视频| 91麻豆精品国产91久久久资源速度| 毛片不卡一区二区| 欧美特级限制片免费在线观看| 日本欧美加勒比视频| 一本大道综合伊人精品热热 | 另类激情亚洲| 免费欧美在线视频| 91麻豆精品91久久久久同性| 高清不卡在线观看| 国产午夜精品理论片a级大结局| 欧美极品一区| 一区二区三区视频在线观看| 先锋影音国产精品| 久久 天天综合| 欧美大片一区二区三区| 国产精品v欧美精品v日本精品动漫| 1区2区3区精品视频| 亚久久调教视频| 国产精品一区二区三区乱码| 久久综合九色综合97婷婷| 亚洲福利电影| 捆绑紧缚一区二区三区视频| 欧美岛国在线观看| 亚洲国产日韩在线| 蜜乳av一区二区三区| 精品国产欧美一区二区| 欧美视频福利| 免费成人在线影院| 久久影院视频免费| 国产精品一区二区a| 国产一区亚洲一区| 国产精品久久久久久久第一福利| 久久精品1区| www.日韩av| 性久久久久久久久久久久| 日韩精品中文字幕一区| 在线亚洲一区| 国产麻豆91精品| 亚洲免费观看高清| 欧美一区二区三区日韩| 亚洲另类黄色| 成人黄色电影在线| 亚洲一区精品在线| 久久久亚洲高清| 一本大道久久精品懂色aⅴ| 欧美一区在线看| 裸体歌舞表演一区二区| 成人免费在线观看入口| 4438x成人网最大色成网站| 亚洲欧洲精品一区| 成人免费视频视频在线观看免费| 一区二区三区国产豹纹内裤在线| 日韩精品一区二区三区视频播放 | 国产精品系列在线播放| 一区二区三区欧美日韩| 精品国产乱子伦一区| 老色鬼久久亚洲一区二区| 欧美精品亚洲精品| 国产传媒久久文化传媒| 亚洲成a人片在线不卡一二三区| 国产午夜精品福利| 欧美一区二区三区公司| 久久www成人_看片免费不卡| 欧美婷婷久久| 成人午夜激情在线| 麻豆91在线观看| 亚洲国产一区在线观看| 国产精品亲子伦对白| 日韩欧美一区电影| 欧美日韩免费观看一区二区三区 | 日韩女优av电影在线观看| 色偷偷88欧美精品久久久| 亚洲精品看片| 国产精品hd| 99久久99精品久久久久久| 国精品**一区二区三区在线蜜桃| 亚洲成人动漫在线观看| 中文字幕人成不卡一区| 久久精品人人做人人爽人人| 日韩一级成人av| 欧美日韩国产综合草草| 欧洲精品在线观看| 久久久亚洲人| 亚洲中字黄色| 国产精品亚洲一区| 在线视频亚洲| 国产模特精品视频久久久久| 亚洲日韩视频| 99亚洲视频| 国产亚洲在线| 性一交一乱一区二区洋洋av|