国产精品嫩草99av在线_一区在线视频观看_欧美高清一区_欧美 日韩 国产 一区_99精品欧美一区二区三区_久久大香伊蕉在人线观看热2_一色屋精品视频在线观看网站_在线亚洲国产精品网站_亚洲区一区二区三区_你懂的视频一区二区

當前位置:首頁 > 元宇宙 > AI

開源大模型新王 Reflection 70B 超越 GPT-4o:新技術可糾正自己幻覺,數學 99.2 分刷爆測試集

來源: 責編: 時間:2024-09-11 16:25:24 169觀看
導讀 開源大模型王座突然易主,居然來自一家小創業團隊,瞬間引爆業界。新模型名為 Reflection 70B,使用一種全新訓練技術,讓 AI 學會在推理過程中糾正自己的錯誤和幻覺。比如最近流行的數 r 測試中,一開始它犯了和大多數

開源大模型王座突然易主,居然來自一家小創業團隊,瞬間引爆業界。TRL28資訊網——每日最新資訊28at.com

新模型名為 Reflection 70B,使用一種全新訓練技術,讓 AI 學會在推理過程中糾正自己的錯誤和幻覺。TRL28資訊網——每日最新資訊28at.com

TRL28資訊網——每日最新資訊28at.com

比如最近流行的數 r 測試中,一開始它犯了和大多數模型一樣的錯誤,但主動在 <反思> 標簽中糾正了自己。TRL28資訊網——每日最新資訊28at.com

TRL28資訊網——每日最新資訊28at.com

在官方評測中,70B 模型全面超越最強開源 Llama 3.1 405B、GPT-4o、Claude 3 Opus、Gemini 1.5 Pro,特別是數學基準 GSM8K 上直接刷爆,得分 99.2%。TRL28資訊網——每日最新資訊28at.com

這個結果也讓 OpenAI 科學家、德撲 AI 之父 Noam Brown 激情開麥:TRL28資訊網——每日最新資訊28at.com

GSM8K 得分 99%!是不是可以正式淘汰這個基準了?TRL28資訊網——每日最新資訊28at.com

TRL28資訊網——每日最新資訊28at.com

模型剛剛上線網友就把試玩擠爆了,對此 Meta 還主動支援了更多算力。TRL28資訊網——每日最新資訊28at.com

TRL28資訊網——每日最新資訊28at.com

TRL28資訊網——每日最新資訊28at.com

在網友測試中,Reflection 70B 能回答對 GSM8K 數據集中本身答案錯誤的問題:TRL28資訊網——每日最新資訊28at.com

我向模型提供了 GSM8K 中存在的 5 個“ground_truth”本身就不正確的問題。TRL28資訊網——每日最新資訊28at.com

模型沒有重復數據集中的錯誤答案,而是全部回答對了,這很令人印象深刻,表明那 99.2% 的準確率并非來自于記憶測試集!TRL28資訊網——每日最新資訊28at.com

TRL28資訊網——每日最新資訊28at.com

數各種 r 都不在話下,連生造詞“drirrrngrrrrrnnn”中有幾個 r 也能被正確數對。TRL28資訊網——每日最新資訊28at.com

TRL28資訊網——每日最新資訊28at.com

網友紛紛對小團隊做出的開源超越頂流閉源感到驚訝,現在最強開源模型可以在本地運行了。TRL28資訊網——每日最新資訊28at.com

TRL28資訊網——每日最新資訊28at.com

關鍵 70B 還只是個開始,官方表示下周還會發布更大的 Reflection 405B。TRL28資訊網——每日最新資訊28at.com

預計 405B 性能將大幅優于 Sonnet 和 GPT-4o。TRL28資訊網——每日最新資訊28at.com

TRL28資訊網——每日最新資訊28at.com

Reflection 70B 權重已公開,API 訪問將于今天晚些時候由 Hyperbolic Labs 提供。TRL28資訊網——每日最新資訊28at.com

模型能自我反思糾正錯誤

目前關于 Reflection 70B 的更多細節如下。TRL28資訊網——每日最新資訊28at.com

Reflection 70B 能力提升的關鍵,是采用了一種名為 Reflection-Tuning 的訓練方法,它能夠讓模型反思自己生成的文本,在最終確定回應前檢測并糾正自身推理中的錯誤。TRL28資訊網——每日最新資訊28at.com

TRL28資訊網——每日最新資訊28at.com

訓練中的數據來自使用 GlaiveAI 平臺生成的合成數據。TRL28資訊網——每日最新資訊28at.com

TRL28資訊網——每日最新資訊28at.com

Reflection 70B 基于 Llama 3.1 70B Instruct,可以使用與其它 Llama 模型相同的代碼、pipeline 等從 Reflection Llama-3.1 70B 進行采樣。TRL28資訊網——每日最新資訊28at.com

它甚至使用了標準的 Llama 3.1 聊天格式。TRL28資訊網——每日最新資訊28at.com

不過,Reflection 70B 引入了一些特殊 tokens,結構化輸出過程。TRL28資訊網——每日最新資訊28at.com

TRL28資訊網——每日最新資訊28at.com

如下面這個例子所展示的,規劃過程分為一個獨立的步驟,這樣做可以提高 CoT 效果,并保持輸出精煉:TRL28資訊網——每日最新資訊28at.com

TRL28資訊網——每日最新資訊28at.com

模型將從在 <thinking> 和 </thinking> 標簽內輸出推理開始,一旦對其推理感到滿意,就會在 <output> 和 </output > 標簽內輸出最終答案。TRL28資訊網——每日最新資訊28at.com

所以它能夠將其內部思考和推理與最終答案分離。TRL28資訊網——每日最新資訊28at.com

在 <thinking> 部分,模型可能會輸出一個或多個,這表明模型發現了其推理中的錯誤,并將在提供最終答案之前嘗試糾正該錯誤。TRL28資訊網——每日最新資訊28at.com

系統提示如下:TRL28資訊網——每日最新資訊28at.com

You are a world-class AI system, capable of complex reasoning and reflection. Reason through the query insidetags, and then provide your final response insidetags. If you detect that you made a mistake in your reasoning at any point, correct yourself insidetags.TRL28資訊網——每日最新資訊28at.com

(你是一個世界級人工智能系統,能夠進行復雜的推理和反思。在標簽內對查詢進行推理,然后在標簽內提供你的最終回應。如果你發現自己在任何時候推理出錯,請在標簽內糾正自己。)TRL28資訊網——每日最新資訊28at.com

TRL28資訊網——每日最新資訊28at.com

此外值得一提的是,基準測試中,所有基準都已通過 LMSys 的 LLM Decontaminator 檢查污染,隔離了 <output> 部分,并單獨對這一部分進行測試。TRL28資訊網——每日最新資訊28at.com

使用 Reflection 70B 的時候,官方還分享了小 tips:TRL28資訊網——每日最新資訊28at.com

初步建議參數 temperature 為.7 ,top_p 為.95TRL28資訊網——每日最新資訊28at.com

為提高準確性,最好附加“Think carefully.”在 Prompt 末尾TRL28資訊網——每日最新資訊28at.com

官方還表示,下周會發布一份報告,詳細介紹模型訓練過程和發現。TRL28資訊網——每日最新資訊28at.com

Agent 創業團隊打造

Reflection 70B 的背后是一支小團隊,由 HyperWriteAI 的 CEO Mutt Shumer 帶領。TRL28資訊網——每日最新資訊28at.com

TRL28資訊網——每日最新資訊28at.com

領英顯示,Mutt Shumer 是一位連續創業者,畢業于美國錫拉丘茲大學,現任 OthersideAI 的聯合創始人兼 CEO。TRL28資訊網——每日最新資訊28at.com

TRL28資訊網——每日最新資訊28at.com

OthersideAI 是一家 AI 應用公司,致力于通過大規模 AI 系統開發全球最先進的自動補全工具,也是 HyperWrite 的幕后公司。TRL28資訊網——每日最新資訊28at.com

HyperWrite 是一個瀏覽器操作 agent,可以像人一樣操作谷歌瀏覽器來完成一系列任務,比如訂披薩:TRL28資訊網——每日最新資訊28at.com

TRL28資訊網——每日最新資訊28at.com

和 gpt-llm-trainer 一樣,你只需要用文字描述目標,它就會一邊列步驟,一邊執行。TRL28資訊網——每日最新資訊28at.com

剛推出時號稱“比 AutoGPT 強”。TRL28資訊網——每日最新資訊28at.com

TRL28資訊網——每日最新資訊28at.com

HyperWrite 還可以在谷歌擴展程序中安裝。TRL28資訊網——每日最新資訊28at.com

另外,Mutt Shumer 高中時期就創立了 Visos,致力于開發用于醫療用途的下一代虛擬現實軟件。TRL28資訊網——每日最新資訊28at.com

還創立了 FURI,這是一家旨在通過創造高性能產品并以公平的價格銷售它們來顛覆體育用品行業的公司。TRL28資訊網——每日最新資訊28at.com

TRL28資訊網——每日最新資訊28at.com

雖然有 Meta 支持,但目前打開試玩,還是:暫時無法訪問。TRL28資訊網——每日最新資訊28at.com

TRL28資訊網——每日最新資訊28at.com

感興趣的童鞋可以先碼住了~TRL28資訊網——每日最新資訊28at.com

https://reflection-playground-production.up.railway.app/TRL28資訊網——每日最新資訊28at.com

參考鏈接:TRL28資訊網——每日最新資訊28at.com

[1]https://huggingface.co/mattshumer/Reflection-Llama-3.1-70BTRL28資訊網——每日最新資訊28at.com

[2]https://x.com/mattshumer_/status/1831767014341538166TRL28資訊網——每日最新資訊28at.com

[3]https://x.com/polynoamial/status/1831798985528635806TRL28資訊網——每日最新資訊28at.com

[4]https://x.com/degeneratoor/status/1831809610451448196TRL28資訊網——每日最新資訊28at.com

[5]https://x.com/kimmonismus/status/1831772661296345333TRL28資訊網——每日最新資訊28at.com

本文來自微信公眾號:量子位(ID:QbitAI),作者:西風,原標題:《開源大模型新王干翻 GPT-4o,新技術可糾正自己幻覺,數學 99.2 分刷爆測試集》TRL28資訊網——每日最新資訊28at.com

本文鏈接:http://www.rrqrq.com/showinfo-45-6971-0.html開源大模型新王 Reflection 70B 超越 GPT-4o:新技術可糾正自己幻覺,數學 99.2 分刷爆測試集

聲明:本網頁內容旨在傳播知識,若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。郵件:[email protected]

上一篇: 業內首個 AI 大模型供應鏈安全國際標準發布,螞蟻集團、微軟、谷歌、百度等數十家單位共同編制

下一篇: 重磅揭曉!中國企業500強全名單出爐,誰將登頂榜單引領風騷?

標簽:
  • 熱門焦點
Top 国产精品嫩草99av在线_一区在线视频观看_欧美高清一区_欧美 日韩 国产 一区_99精品欧美一区二区三区_久久大香伊蕉在人线观看热2_一色屋精品视频在线观看网站_在线亚洲国产精品网站_亚洲区一区二区三区_你懂的视频一区二区
色欧美日韩亚洲| 国产精品久久久久婷婷二区次| 亚洲国产一区二区三区高清| 午夜久久一区| 亚洲小说欧美另类社区| 国产精品yjizz| 亚洲高清在线观看一区| 黑人一区二区| 亚洲一区日韩| 色先锋资源久久综合| 欧美体内she精高潮| 欧美色图免费看| 欧美精品乱码久久久久久 | 日韩午夜精品电影| 欧美一区二区三区视频免费播放 | 免播放器亚洲一区| 黄色精品一二区| 成人一区在线观看| 午夜免费电影一区在线观看| 好吊日精品视频| 麻豆亚洲精品| 欧美一区二区在线播放| 26uuu色噜噜精品一区| 国产精品丝袜久久久久久app| 亚洲色大成网站www久久九九| 一区二区欧美在线观看| 日韩激情一区二区| 丰满白嫩尤物一区二区| 欧美视频成人| 一本大道av一区二区在线播放| 欧美视频第二页| 久久综合99re88久久爱| 亚洲日本青草视频在线怡红院 | 狠狠色丁香久久婷婷综合_中| 福利一区二区在线观看| 激情文学一区| 91成人免费电影| 26uuu精品一区二区| 亚洲精品国产品国语在线app| 日韩av一区二区在线影视| 国产suv一区二区三区88区| 欧美a级片网站| 久久久久99| 欧美xxxxxxxxx| 亚洲综合另类小说| 国产成人午夜电影网| 亚洲免费久久| 欧美一区2区视频在线观看| 国产精品家庭影院| 韩国v欧美v亚洲v日本v| 亚洲婷婷在线| 91精品国产91久久综合桃花| 亚洲四区在线观看| 国产传媒久久文化传媒| 在线亚洲免费| 久久伊人中文字幕| 午夜电影网亚洲视频| 91啪亚洲精品| 欧美日韩国产另类不卡| 亚洲人成人一区二区在线观看| 国产乱人伦精品一区二区在线观看| 欧美日韩免费高清| 欧美精品乱人伦久久久久久| 中文字幕在线观看一区| 国产裸体歌舞团一区二区| 国产精品日韩欧美一区| 久久久噜噜噜久久中文字幕色伊伊| 亚洲成人综合视频| 精品电影一区| 欧美成人猛片aaaaaaa| 免费一级欧美片在线观看| 亚洲国产精品www| 精品国产乱码久久久久久夜甘婷婷| 视频一区欧美日韩| 亚洲国产精品一区制服丝袜 | 91在线观看成人| 欧美日韩三级一区二区| 亚洲一卡二卡三卡四卡无卡久久| 91在线一区二区三区| 欧美一区二区黄| 黄色成人免费在线| 日本乱人伦一区| 婷婷综合五月天| 国产欧美另类| 亚洲男同1069视频| 在线观看的日韩av| 欧美国产乱子伦| 91丨九色丨蝌蚪丨老版| 日韩精品中午字幕| 国产成人自拍在线| 欧美夫妻性生活| 国产主播一区二区三区| 色婷婷精品久久二区二区蜜臂av| 亚洲一区免费观看| 亚洲国产精品日韩| 亚洲精品你懂的| 99在线精品免费视频九九视| 最新日韩av在线| 亚洲另类视频| 亚洲国产美女搞黄色| 国产亚洲一区在线播放| 亚洲综合av网| 久久久蜜桃一区二区人| 日韩高清不卡一区二区三区| 久久久久网站| 麻豆91免费观看| 欧美疯狂做受xxxx富婆| 国产麻豆9l精品三级站| 欧美大片在线观看一区| 99re成人精品视频| 亚洲国产精品国自产拍av| 国产精品高清一区二区三区| 亚洲婷婷在线视频| 国产欧美亚洲日本| 天天综合色天天综合| 在线观看成人免费视频| 国产成人h网站| 欧美国产97人人爽人人喊| 伊人久久综合| 视频一区二区欧美| 欧美一区二区三区人| 99精品在线免费| 亚洲色图另类专区| 久久国产欧美| 丰满少妇久久久久久久| 亚洲国产高清aⅴ视频| 国产视频亚洲| 精品一区二区三区视频| 久久久久国产精品麻豆| 亚洲国产精品日韩| 久久er精品视频| 久久久精品黄色| 久久精品人人做人人爽电影蜜月| 国产在线精品免费| 欧美激情资源网| 一本到三区不卡视频| www.久久久久久久久| 亚洲另类在线一区| 91精品在线免费观看| 国内精品久久久久久久果冻传媒| 偷拍亚洲欧洲综合| 精品日韩在线一区| 亚洲一区精彩视频| 丁香婷婷综合五月| 亚洲一区二区在线播放相泽| 欧美日本高清视频在线观看| 欧美体内she精视频在线观看| 午夜精品爽啪视频| 久久久久久久久一| 裸体一区二区| 牛牛国产精品| 老司机精品视频在线| 国产精品美女久久福利网站| 在线观看日韩一区| 欧美日韩一区二区高清| 久草这里只有精品视频| 亚洲日本在线观看| 日韩精品一区二区三区在线播放| 国产一区二区三区奇米久涩| 成人久久久精品乱码一区二区三区| 亚洲国产综合在线| 国产欧美一区二区精品忘忧草| 在线观看日韩国产| 日韩视频在线观看国产| www.亚洲色图.com| 麻豆精品久久精品色综合| 1024成人网| 精品国产污污免费网站入口 | 国产日韩视频| 亚洲欧美伊人| 国产尤物一区二区| 五月婷婷另类国产| 亚洲精品视频在线观看免费 | 亚洲成av人**亚洲成av**| 欧美国产精品一区二区| 日韩欧美国产一区二区三区| 一本色道久久综合亚洲91| 影音先锋亚洲精品| 欧美一区免费| 成人a级免费电影| 狠狠色狠狠色综合系列| 五月天丁香久久| 一区二区三区在线高清| 国产精品黄色在线观看| 精品国产第一区二区三区观看体验| 欧美色窝79yyyycom| 久久综合狠狠综合久久综青草| 99精品99| 韩国精品一区二区三区| 欧美激情在线| 欧美一区二视频在线免费观看| 国产不卡视频一区| 国产精品自拍毛片| 久久精品99国产精品日本| 日韩av一二三| 免费在线观看一区二区三区| 日韩电影一区二区三区四区| 日韩精品国产精品| 强制捆绑调教一区二区| 美女脱光内衣内裤视频久久网站|