国产精品嫩草99av在线_一区在线视频观看_欧美高清一区_欧美 日韩 国产 一区_99精品欧美一区二区三区_久久大香伊蕉在人线观看热2_一色屋精品视频在线观看网站_在线亚洲国产精品网站_亚洲区一区二区三区_你懂的视频一区二区

當前位置:首頁 > 元宇宙 > AI

北大千問團隊推出數(shù)學專用版 CriticGPT,“找茬”讓大模型進步更快

來源: 責編: 時間:2024-07-11 17:26:16 256觀看
導讀 批評不僅能讓人進步,也能讓大模型的能力提升。OpenAI 就用這個思路造了個“找茬模型”CriticGPT。非常巧合的是,就在 CriticGPT 放出的前幾天,北大聯(lián)合千問等團隊以類似的思路設(shè)計出了“數(shù)學專用版”CriticGPT。

批評不僅能讓人進步,也能讓大模型的能力提升。3QM28資訊網(wǎng)——每日最新資訊28at.com

OpenAI 就用這個思路造了個“找茬模型”CriticGPT。非常巧合的是,就在 CriticGPT 放出的前幾天,北大聯(lián)合千問等團隊以類似的思路設(shè)計出了“數(shù)學專用版”CriticGPT。3QM28資訊網(wǎng)——每日最新資訊28at.com

在無需訓練的設(shè)置下,驗證器能夠在推理時輔助模型在 GSM8K 上的準確率從 86.6% 提升到 88.2%。3QM28資訊網(wǎng)——每日最新資訊28at.com

在 GSM8K 數(shù)據(jù)集上,它可以讓模型的準確率從 86.6% 提升到 88.2%。3QM28資訊網(wǎng)——每日最新資訊28at.com

3QM28資訊網(wǎng)——每日最新資訊28at.com

CriticGPT 的核心思路是在代碼中故意設(shè)置 bug 并進行詳細標注,然后用得到的數(shù)據(jù)訓練出會 debug 的模型。3QM28資訊網(wǎng)——每日最新資訊28at.com

北大團隊發(fā)現(xiàn),這種方法不僅在代碼當中有用,也能幫助語言模型解決數(shù)學問題。3QM28資訊網(wǎng)——每日最新資訊28at.com

于是團隊利用相似的思路,把代碼換成數(shù)學問題,推出了“數(shù)學版 CriticGPT”——Math-Minos。3QM28資訊網(wǎng)——每日最新資訊28at.com

用 GPT4 逐步提出修正意見

在數(shù)學推理領(lǐng)域,驗證解決方案的正確性,是確保推理質(zhì)量的關(guān)鍵步驟。3QM28資訊網(wǎng)——每日最新資訊28at.com

然而,現(xiàn)有的數(shù)學驗證器大多依賴于二元分類標簽進行訓練,這種方式在提供正確或錯誤原因的解釋上存在明顯不足,無法給驗證器提供足夠充分的監(jiān)督信號來訓練。3QM28資訊網(wǎng)——每日最新資訊28at.com

Math-Minos 則克服了這一局限,提供了更深入的解釋,極大地豐富了驗證器的訓練信息。3QM28資訊網(wǎng)——每日最新資訊28at.com

它引入了逐步的自然語言反饋作為理由標簽,不僅指出了解決方案的正誤,還能逐步分析出錯誤的原因。3QM28資訊網(wǎng)——每日最新資訊28at.com

3QM28資訊網(wǎng)——每日最新資訊28at.com

在自然語言反饋的獲取上,研究團隊一開始使用 GPT-4 生成訓練數(shù)據(jù),但通過實驗發(fā)現(xiàn),即使是 GPT-4,在逐步評價數(shù)學推理任務時也會出現(xiàn)一定比例的錯誤。3QM28資訊網(wǎng)——每日最新資訊28at.com

為了一定程度避免這個問題,研究人員通過在提示中引入步驟級別的二元分類標簽,簡化了 GPT-4 的任務,使得 GPT-4 能夠更準確地生成評估。3QM28資訊網(wǎng)——每日最新資訊28at.com

3QM28資訊網(wǎng)——每日最新資訊28at.com

首先,通過監(jiān)督式微調(diào),使用自然語言反饋作為訓練數(shù)據(jù),有效提升了模型的評估能力。3QM28資訊網(wǎng)——每日最新資訊28at.com

其次,通過標準的 ORM(Outcome Reward Model,輸出獎勵模型)和 PRM(Process Reward Model,過程獎勵模型)訓練,實現(xiàn)了高效的推理,這種做法有兩個好處。3QM28資訊網(wǎng)——每日最新資訊28at.com

一是通過兩階段訓練,可以將二分類數(shù)據(jù)和監(jiān)督微調(diào)數(shù)據(jù)解耦。3QM28資訊網(wǎng)——每日最新資訊28at.com

由于監(jiān)督信號的稀疏性,訓練二分類的數(shù)據(jù)往往遠多于監(jiān)督微調(diào)的數(shù)據(jù),而研究發(fā)現(xiàn),僅需要少量的監(jiān)督微調(diào)數(shù)據(jù),就可以很大程度提升模型的評估能力。3QM28資訊網(wǎng)——每日最新資訊28at.com

另一方面,在驗證器進行驗證時,不需要顯示地生成自然語言反饋,讓推理過程更高效。3QM28資訊網(wǎng)——每日最新資訊28at.com

3QM28資訊網(wǎng)——每日最新資訊28at.com

ORM 任務表現(xiàn)明顯提升

總得來看,研究人員在訓練階段添加了 30K 的自然語言反饋數(shù)據(jù),為 Mistral-7B 驗證器帶來了數(shù)學能力的提升,在 Best-of-256 的實驗設(shè)置下:3QM28資訊網(wǎng)——每日最新資訊28at.com

在 ORM 的設(shè)置下,MATH-Minos 將 Mistral-7B 的準確率在 GSM8K 數(shù)據(jù)集從 86.2% 提升到 87.3%,在 MATH 數(shù)據(jù)集從 35.9% 提升到 37.4%。3QM28資訊網(wǎng)——每日最新資訊28at.com

在 PRM 的設(shè)置下,MATH-Minos 將 Mistral-7B 的準確率在 GSM8K 數(shù)據(jù)集從 87.1% 提升到 87.6%,在 MATH 數(shù)據(jù)集從 36.7% 提升到 37.8%。3QM28資訊網(wǎng)——每日最新資訊28at.com

在與 Self-Consistency 結(jié)合的設(shè)置下,MATH-Minos 將 Mistral-7B 的準確率在 GSM8K 數(shù)據(jù)集從 87.1% 提升到 88.2%,在 MATH 數(shù)據(jù)集從 37.8% 提升到 38.6%。3QM28資訊網(wǎng)——每日最新資訊28at.com

在 ORM 和 PRM 任務設(shè)置中,Math-Minos 均展現(xiàn)出了優(yōu)越的性能,特別是在 ORM 設(shè)置中,其改進更為顯著。3QM28資訊網(wǎng)——每日最新資訊28at.com

3QM28資訊網(wǎng)——每日最新資訊28at.com

另外,研究團隊還對生成器在步驟級別產(chǎn)生的錯誤進行了深入分析,將其歸類為五種類型 —— 無關(guān)錯誤、累積錯誤、計算錯誤、邏輯錯誤和其他錯誤。3QM28資訊網(wǎng)——每日最新資訊28at.com

分析結(jié)果表明,在多步驟推理中,步驟錯誤的可能原因有很多種,而且模型在這些錯誤類型中都有可能出錯,這進一步強調(diào)了引入自然語言反饋來指導模型學習的重要性。3QM28資訊網(wǎng)——每日最新資訊28at.com

實驗發(fā)現(xiàn),在兩個數(shù)據(jù)集上,累積錯誤(即一個步驟的錯誤很可能直接導致所有后續(xù)步驟的錯誤)在所有錯誤類型中占到的比例最高。3QM28資訊網(wǎng)——每日最新資訊28at.com

不同數(shù)據(jù)集上的錯誤分布也有不同的特點,在相對簡單的 GSM8K 上,計算錯誤更多;在更困難的 MATH 數(shù)據(jù)集上,邏輯錯誤更多。3QM28資訊網(wǎng)——每日最新資訊28at.com

3QM28資訊網(wǎng)——每日最新資訊28at.com

通過構(gòu)建元評估集,研究團隊評估了驗證器在沒有生成器影響下,準確判斷最終答案的能力。3QM28資訊網(wǎng)——每日最新資訊28at.com

結(jié)果顯示,Math-Minos 在訓練過程中的元評估一致優(yōu)于傳統(tǒng)的 ORM,并且展現(xiàn)出更快的收斂速度和更精準的判斷能力。3QM28資訊網(wǎng)——每日最新資訊28at.com

3QM28資訊網(wǎng)——每日最新資訊28at.com

同時實驗結(jié)果也表明,Math-Minos 具有很強的 Scale Up 的潛力。3QM28資訊網(wǎng)——每日最新資訊28at.com

3QM28資訊網(wǎng)——每日最新資訊28at.com

總之,Math-Minos 的開發(fā)不僅提升了數(shù)學驗證器的性能,更為自然語言處理領(lǐng)域提供了一種新的訓練范式。3QM28資訊網(wǎng)——每日最新資訊28at.com

研究團隊希望這項工作能夠啟發(fā)未來研究,探索自然語言反饋與分類式驗證器的潛在整合,推動大型語言模型在復雜推理任務上的能力。3QM28資訊網(wǎng)——每日最新資訊28at.com

論文地址:3QM28資訊網(wǎng)——每日最新資訊28at.com

https://arxiv.org/abs/2406.140243QM28資訊網(wǎng)——每日最新資訊28at.com

GitHub:3QM28資訊網(wǎng)——每日最新資訊28at.com

https://github.com/KbsdJames/MATH-Minos3QM28資訊網(wǎng)——每日最新資訊28at.com

本文來自微信公眾號:量子位(ID:QbitAI),作者:關(guān)注前沿科技3QM28資訊網(wǎng)——每日最新資訊28at.com

本文鏈接:http://www.rrqrq.com/showinfo-45-5086-0.html北大千問團隊推出數(shù)學專用版 CriticGPT,“找茬”讓大模型進步更快

聲明:本網(wǎng)頁內(nèi)容旨在傳播知識,若有侵權(quán)等問題請及時與本網(wǎng)聯(lián)系,我們將在第一時間刪除處理。郵件:[email protected]

上一篇: 騰訊智影小程序上線 AI 視頻功能,限時免費一鍵生成風格化視頻

下一篇: 古爾曼:蘋果首款支持 Apple Intelligence 的智能家居設(shè)備將是一款桌面機器人

標簽:
  • 熱門焦點
Top 国产精品嫩草99av在线_一区在线视频观看_欧美高清一区_欧美 日韩 国产 一区_99精品欧美一区二区三区_久久大香伊蕉在人线观看热2_一色屋精品视频在线观看网站_在线亚洲国产精品网站_亚洲区一区二区三区_你懂的视频一区二区
欧美亚洲国产bt| 一区二区三区日韩| 欧美一区二区三区视频免费播放 | 另类调教123区 | 亚洲国产黄色| 亚洲午夜激情| 日韩亚洲视频在线| aa成人免费视频| 香蕉久久国产| 色哟哟精品一区| 欧美影院一区二区| 精品婷婷伊人一区三区三| 欧美三级电影精品| 91精品国产色综合久久久蜜香臀| 欧美日韩视频不卡| 日韩一区二区三区电影在线观看 | 欧美性大战xxxxx久久久| 91精品91久久久中77777| 欧美日韩一二三| 精品欧美一区二区三区精品久久| 欧美精品一区视频| 国产精品美女视频| 一区二区在线观看av| 午夜精品视频在线观看| 久久99精品一区二区三区三区| 国产一区二区三区| 波多野洁衣一区| 激情久久久久| 久久综合导航| 日韩免费高清视频| 自拍视频在线观看一区二区| 亚洲国产精品一区二区尤物区| 欧美a级一区二区| 国产精品中文有码| 欧美日韩免费观看一区| 亚洲一区二区三区午夜| 欧洲日韩一区二区三区| 欧美mv和日韩mv国产网站| 国产精品久久久久久久久免费桃花| 亚洲精品国产品国语在线app| 美国av一区二区| 91在线小视频| 色综合久久久久综合体| 日韩欧美自拍偷拍| 日韩毛片精品高清免费| 久久91精品久久久久久秒播| 欧美1区2区视频| 久久婷婷av| 久久精品视频在线免费观看| 午夜久久电影网| 97精品国产露脸对白| 香蕉av777xxx色综合一区| 日韩欧美一二区| 亚洲午夜电影在线观看| 成a人片亚洲日本久久| 午夜亚洲激情| 久久精品视频在线免费观看| 久久se精品一区精品二区| 国产综合欧美在线看| 欧美二区在线观看| 一区二区三区久久| 成人app网站| 欧美在线一二三| 一区二区三区中文在线观看| 99久久国产综合精品女不卡| 日本道色综合久久| 亚洲视频狠狠干| 93久久精品日日躁夜夜躁欧美| 色诱亚洲精品久久久久久| 国产亚洲精品久| 国产精品1024久久| 色偷偷久久一区二区三区| 中文字幕亚洲综合久久菠萝蜜| 国产精品一区在线观看乱码| 亚洲一区日韩| 亚洲欧美在线高清| 不卡高清视频专区| 欧美二区三区的天堂| 日韩二区三区四区| 国产精品久久久久毛片大屁完整版| 亚洲精品一区二区三区在线观看| 久久99精品国产麻豆不卡| 国产精品呻吟| 亚洲精品欧美在线| 欧美在线1区| 精品sm捆绑视频| 成人精品gif动图一区| 欧美人妇做爰xxxⅹ性高电影| 丝袜美腿高跟呻吟高潮一区| 一区二区激情| 亚洲精品一二三四区| 国产精品v欧美精品v日韩| 久久精品在这里| 色综合一区二区| 国产丝袜欧美中文另类| 91免费国产在线观看| 欧美va亚洲va在线观看蝴蝶网| 国产一区激情在线| 欧美精品欧美精品系列| 精品在线一区二区| 欧美日韩高清一区二区三区| 另类人妖一区二区av| 欧美性猛片aaaaaaa做受| 日本成人中文字幕| 日本韩国欧美在线| 美女诱惑一区二区| 在线观看www91| 国内成人免费视频| 欧美日韩精品一区二区三区四区 | 一区精品久久| 亚洲欧美日韩久久精品| 国产欧美短视频| 婷婷成人激情在线网| 久久综合精品一区| 美腿丝袜亚洲综合| 日韩久久久久久| 欧美精品综合| 亚洲高清视频中文字幕| 欧美最猛性xxxxx直播| 国产精品18久久久久久久网站| 日韩欧美一区中文| 欧美精品一卡| 亚洲成人一区二区| 欧美男男青年gay1069videost| 成人在线综合网站| 国产欧美一二三区| 国产模特精品视频久久久久| 日韩成人av影视| 欧美一卡2卡3卡4卡| 欧美福利专区| 五月天亚洲婷婷| 欧美一区二区视频网站| 欧美99久久| 天天色天天爱天天射综合| 欧美一区二区三区四区高清| 韩日成人在线| 老司机免费视频一区二区| 精品免费视频.| 国产九区一区在线| 国产精品123| 日韩理论片一区二区| 色狠狠色狠狠综合| 99国内精品久久| 久久久一区二区三区捆绑**| 欧美久久99| 欧美一区二区私人影院日本| eeuss鲁一区二区三区| 椎名由奈av一区二区三区| 91九色02白丝porn| 亚洲欧美在线网| 老汉av免费一区二区三区| 日本一区二区综合亚洲| 欧洲在线/亚洲| 亚洲第一黄网| 国产成人一区在线| 亚洲一二三四在线| 久久蜜臀精品av| 欧美性色黄大片| 国内精品嫩模av私拍在线观看| 免费成人美女在线观看| 国产精品萝li| 日韩一区二区在线看| 亚洲欧美清纯在线制服| 97se亚洲国产综合自在线| 日韩成人午夜电影| 亚洲欧洲99久久| 精品国产91九色蝌蚪| 欧美影院午夜播放| 亚洲作爱视频| 91亚洲资源网| 国产精品一区不卡| 午夜av电影一区| 1024国产精品| 国产午夜久久久久| 日韩三级视频中文字幕| 欧美日韩一区不卡| 一本大道久久精品懂色aⅴ| 狠狠综合久久| 欧美久久久久久久| 成人高清av在线| 国产精品夜夜嗨| 裸体在线国模精品偷拍| 亚洲精品乱码久久久久久| 国产午夜亚洲精品不卡| 日韩欧美国产午夜精品| 欧美日韩国产美女| 在线观看一区二区精品视频| 国产日韩三区| 亚洲日本欧美在线| 国产精品黄色| 激情久久久久久久| 欧美日韩国产不卡在线看| 91丨porny丨首页| www.亚洲色图.com| 成人的网站免费观看| 国产精品996| 国产69精品久久777的优势| 极品少妇一区二区三区精品视频| 亚洲第一电影网| 亚洲成av人综合在线观看|