国产精品嫩草99av在线_一区在线视频观看_欧美高清一区_欧美 日韩 国产 一区_99精品欧美一区二区三区_久久大香伊蕉在人线观看热2_一色屋精品视频在线观看网站_在线亚洲国产精品网站_亚洲区一区二区三区_你懂的视频一区二区

當前位置:首頁 > 元宇宙 > AI

OpenAI o1 全方位 SOTA 登頂 lmsys 排行榜:數學能力碾壓 Claude 和谷歌 Gemini 模型,o1-mini 并列第一

來源: 責編: 時間:2024-09-23 08:51:44 186觀看
導讀 o1 模型發布 1 周,lmsys 的 6k + 投票就將 o1-preview 送上了排行榜榜首。同時,為了滿足大家對模型「IOI 金牌水平」的好奇心,OpenAI 放出了 o1 測評時提交的所有代碼。萬眾矚目的最新模型 OpenAI o1,終于迎來了

o1 模型發布 1 周,lmsys 的 6k + 投票就將 o1-preview 送上了排行榜榜首。同時,為了滿足大家對模型「IOI 金牌水平」的好奇心,OpenAI 放出了 o1 測評時提交的所有代碼。Z3P28資訊網——每日最新資訊28at.com

Z3P28資訊網——每日最新資訊28at.com

萬眾矚目的最新模型 OpenAI o1,終于迎來了 lmsys 競技場的測評結果。不出意外,o1-preview 在各種領域絕對登頂,超過了最新版的 GPT-4o,在數學、困難提示和編碼領域表現出色;Z3P28資訊網——每日最新資訊28at.com

而 o1-mini 雖然名字中自帶「mini」,但也和最新版的 GPT-4o 并列綜合排名第二,困難提示、編碼、數學等領域和 o1-preview 同樣登頂第一。Z3P28資訊網——每日最新資訊28at.com

Z3P28資訊網——每日最新資訊28at.com

果然,o1 模型不愧是通用推理領域的新王。lmsys 社區官方發推表示,這項測試結果收集了 6k + 社區投票,并將 OpenAI 這次取得的進展描述為「令人難以置信的里程碑」。Z3P28資訊網——每日最新資訊28at.com

Z3P28資訊網——每日最新資訊28at.com

單純看排行榜的排名可能不夠具有說服力,于是 lmsys 特意統計了總榜上前 25 名模型的 1v1 勝率。Z3P28資訊網——每日最新資訊28at.com

可以看到,o1-preview 對所有模型的勝率都超過了 50%,對比 04-09 版 GPT-4-Turbo 的勝率最高,達到了 88%。Z3P28資訊網——每日最新資訊28at.com

o1-mini 如果對戰 o1-preview,勝率為 46%,對 09-03 版 GPT-4o 的勝率為 48%,可以說是大體平手、稍遜一籌的狀態。Z3P28資訊網——每日最新資訊28at.com

值得注意的是,雖然 Grok-2-mini 和 Claude 3.5 Sonnet 都排在比較靠后的位置,但 o1-preview 對這兩個模型的勝率并不高,分別是 58% 和 57%,大大小于排名第四的 Gemini 1.5 Pro 的 69%。Z3P28資訊網——每日最新資訊28at.com

Z3P28資訊網——每日最新資訊28at.com

如果看到細分領域的排行榜,尤其是數學 / 推理領域,效果則更加驚艷。o1-preview 和 o1-mini 不僅是登頂數學排行榜,而且是體現出了絕對的領先優勢。Z3P28資訊網——每日最新資訊28at.com

排在第三、第四的 Claude 3.5 Sonnet、Gemini 1.5 Pro 和 08-08 版 ChatGPT-4o 的均分都在 1275 左右,不相上下;o1-preview 和 o1-mini 則一騎絕塵,分數飆到 1360 附近,直接碾壓。Z3P28資訊網——每日最新資訊28at.com

Z3P28資訊網——每日最新資訊28at.com

o1 推理團隊的領導者之一 William Fedus 看到這張圖也是相當開心,他表示這張圖「很好地用視覺表達了范式轉換」。Z3P28資訊網——每日最新資訊28at.com

Z3P28資訊網——每日最新資訊28at.com

看來最新的 o1 模型在 STEM 學科和通用推理方面的確又達到了新高度,用實際測評結果回應了「AI 遇冷」、「OpenAI 碰壁」的質疑聲。Z3P28資訊網——每日最新資訊28at.com

Z3P28資訊網——每日最新資訊28at.com

「那就繼續期待 OpenAI 接下來的發布吧!」Z3P28資訊網——每日最新資訊28at.com

Z3P28資訊網——每日最新資訊28at.com

但一些人感嘆「未來可期」的同時,另一些人想到了自己不多的智商和頭發。Z3P28資訊網——每日最新資訊28at.com

Z3P28資訊網——每日最新資訊28at.com

「模型搞得這么好了,測試就不適合我這種蠢人了。」Z3P28資訊網——每日最新資訊28at.com

Z3P28資訊網——每日最新資訊28at.com

同時,也有一些人表達了對 lmsys 排行榜結果的質疑。Z3P28資訊網——每日最新資訊28at.com

比如,眾所周知的 o1 模型推理時間長,因而回答的延時也長,和其他模型都有明顯差別;而且不同于各類基準測試的客觀標準,lmsys 社區中完全基于用戶的主觀評分,難說這里面是否存在「安慰劑效應」。Z3P28資訊網——每日最新資訊28at.com

Z3P28資訊網——每日最新資訊28at.com

也有人不服 o1 在編碼排行榜上的第一,認為雖然 o1-mini 非常適合進行項目規劃,但在 Cursor 這類編碼助手中還是 Claude 模型的表現最佳。Z3P28資訊網——每日最新資訊28at.com

Z3P28資訊網——每日最新資訊28at.com

排行榜的結果當然不是全部,o1 模型能否繼續贏得口碑,同時保持住智力水平不變蠢,還要看接下來的一段時間。Z3P28資訊網——每日最新資訊28at.com

IOI 金牌代碼全公開

說到 o1 模型的編碼能力,不知道你還是否記得,剛發布時 OpenAI 提到了這樣一個指標:如果放寬提交約束到每個問題允許 1 萬次提交,o1 可以達到高于 IOI 金牌門檻的分數。Z3P28資訊網——每日最新資訊28at.com

在模擬進行的 Codeforces 編程競賽中,使用相同的規則進行評估,o1-preview 可以打敗 62% 的人類選手,正式版 o1 則上升到超越 89% 的對手。Z3P28資訊網——每日最新資訊28at.com

專門微調過的 o1-ioi 模型,表現優于 93% 的競爭對手。Z3P28資訊網——每日最新資訊28at.com

Z3P28資訊網——每日最新資訊28at.com

此外,前段時間有用戶在實時的 Codeforces 比賽中使用了 o1 模型,結果是超越了 99.8% 的人類選手。Z3P28資訊網——每日最新資訊28at.com

由于 o1 在編程競賽領域的表現如此突出,引起了 AI 社區強烈的興趣和好奇,OpenAI 于是選擇發布 o1 模型提交的代碼內容,包括 6 個問題的全部 C++ 代碼以及注釋。Z3P28資訊網——每日最新資訊28at.com

Z3P28資訊網——每日最新資訊28at.com

發文的 yummy 是 o1 模型的核心貢獻者 Alexander Wei

對于 o1 的驚艷表現,Alexander Wei 自己都很驚訝。Z3P28資訊網——每日最新資訊28at.com

他本人在 9 年前曾參加 IOI 競賽,但從未想到自己這么快就需要和 AI 競爭,模型展現出的推理過程的復雜程度令人印象深刻。Z3P28資訊網——每日最新資訊28at.com

Z3P28資訊網——每日最新資訊28at.com

博文表示,雖然 o1 模型距離人類的頂級表現還有很長的一段路要走,但我們期待有一天能實現這個目標。Z3P28資訊網——每日最新資訊28at.com

這個發展軌跡讓人想起了 AlphaGo—— 從水平高超,到能和人類頂級高手不分勝負,再到 5-0 完全碾壓李世石。Z3P28資訊網——每日最新資訊28at.com

OpenAI 想要達成的,估計就是究極進化的、能在編程上碾壓人類頂級高手的 AlphaZero。Z3P28資訊網——每日最新資訊28at.com

此處公布代碼的 6 個問題具體如下:Z3P28資訊網——每日最新資訊28at.com

Z3P28資訊網——每日最新資訊28at.com

有網友指出,其中最令人印象深刻的應該是象形文字(hieroglyphs)問題,o1 模型總共得到 44 分,在現場的所有選手中排名第四。這表明,模型或許可以破譯一些人類無法解決的子任務。Z3P28資訊網——每日最新資訊28at.com

前幾天,一位目前在 NASA 工作的天體物理學博士就嘗試讓 o1 復現自己論文中的代碼,結果一試嚇一跳 —— 自己讀博時花了 1 年寫出的代碼,o1 只用了一小時就寫完了。Z3P28資訊網——每日最新資訊28at.com

Z3P28資訊網——每日最新資訊28at.com

這還只是裸模型,如果加上代碼解釋器、網絡實時搜索等各種工具,效果想必更加驚艷。Z3P28資訊網——每日最新資訊28at.com

Z3P28資訊網——每日最新資訊28at.com

而且,Reddit 網友還送來了溫馨提示:這只是 o1 預覽版哦,可以狠狠期待一下不到一個月就即將問世的正式版 o1 了。Z3P28資訊網——每日最新資訊28at.com

Z3P28資訊網——每日最新資訊28at.com

此外,這位網友還表示,o1 基本沿用了 GPT-4 的架構;那你想,改換架構后的 GPT-5(也就是傳說中的獵戶座)能達到什么高度。Z3P28資訊網——每日最新資訊28at.com

參考資料:Z3P28資訊網——每日最新資訊28at.com

https://x.com/lmsysorg/status/1836443278033719631Z3P28資訊網——每日最新資訊28at.com

https://codeforces.com/blog/entry/134091Z3P28資訊網——每日最新資訊28at.com

本文鏈接:http://www.rrqrq.com/showinfo-45-7502-0.htmlOpenAI o1 全方位 SOTA 登頂 lmsys 排行榜:數學能力碾壓 Claude 和谷歌 Gemini 模型,o1-mini 并列第一

聲明:本網頁內容旨在傳播知識,若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。郵件:[email protected]

上一篇: YouTube 將推出 AI“一站式服務”:可生成創意、標題、完整視頻

下一篇: 研究稱生成式 AI 耗水量巨大:使用 GPT-4 生成 100 字文本需消耗 3 瓶水

標簽:
  • 熱門焦點
Top 国产精品嫩草99av在线_一区在线视频观看_欧美高清一区_欧美 日韩 国产 一区_99精品欧美一区二区三区_久久大香伊蕉在人线观看热2_一色屋精品视频在线观看网站_在线亚洲国产精品网站_亚洲区一区二区三区_你懂的视频一区二区
4438x亚洲最大成人网| 亚洲成人一区二区在线观看| 欧美人xxxx| 色婷婷av一区二区三区之一色屋| 亚洲伦伦在线| 国产精品免费在线| 日韩视频久久| 国产女主播一区二区| 六月婷婷久久| 色中色一区二区| 欧美日韩国产另类一区| 欧美日韩高清不卡| 日韩女优av电影在线观看| 欧美电影免费观看高清完整版在线 | 99热99精品| 欧美成人有码| 国内在线观看一区二区三区| 国产综合婷婷| 亚洲综合不卡| 欧美日韩中文国产| 91精品国产色综合久久不卡电影| 欧美精品视频www在线观看| 日韩精品在线看片z| 国产欧美一区二区精品久导航| 国产欧美日韩三级| 亚洲免费在线播放| 午夜av一区二区| 精品一区二区三区视频在线观看| 黄页网站大全一区二区| 成人一区二区三区中文字幕| 91麻豆精品视频| 99re热精品| 欧美日韩国产成人在线免费| 精品国产乱码久久久久久图片| 中文一区二区在线观看| 亚洲中国最大av网站| 国内成人免费视频| 亚洲欧美在线网| 久久久久高清| 精品久久一区二区三区| 亚洲伦在线观看| 久久99精品久久久久| 91在线看国产| 麻豆91精品| 欧美成人bangbros| 亚洲精品乱码久久久久久久久| 日韩黄色免费电影| www.欧美日韩| 男人的天堂亚洲在线| 欧美成人乱码一区二区三区| 亚洲精品免费在线| 国产激情精品久久久第一区二区 | 国产精品亚洲视频| 亚洲国产电影| 6080亚洲精品一区二区| 亚洲人成亚洲人成在线观看图片 | 老司机亚洲精品| 久久这里只精品最新地址| 亚洲自拍偷拍av| 成人高清视频在线| 色国产综合视频| 中文字幕成人av| 国产伦理精品不卡| 99精品免费视频| 日韩精品一区二区三区四区视频 | 成人动漫一区二区在线| 久久精彩视频| 国产精品久久福利| 国产精品2024| 久久亚洲视频| 亚洲欧美日韩国产一区二区三区| 国产精品77777| 色婷婷久久99综合精品jk白丝| 欧美激情一区二区三区不卡| 久久99在线观看| 亚洲影音一区| 中文子幕无线码一区tr| 成人少妇影院yyyy| 欧美日韩国产一级二级| 婷婷六月综合网| 狠狠色综合网站久久久久久久| 欧美一级艳片视频免费观看| 免费看精品久久片| 国产精品一区视频| 亚洲欧美日韩国产中文在线| 99精品偷自拍| 精品国产伦一区二区三区观看体验 | 久久精品99| 亚洲日本va午夜在线电影| 99re视频精品| 日韩欧美高清一区| 国产成人h网站| 91麻豆精品国产91久久久资源速度| 亚洲电影中文字幕在线观看| 亚洲精品乱码| 亚洲美女电影在线| 亚洲第一区色| 亚洲人午夜精品天堂一二香蕉| 欧美三级小说| 欧美激情一区二区| 国产在线欧美日韩| 国产精品美女久久久久久久久久久| 成人久久视频在线观看| 欧美zozozo| 91在线视频播放地址| 久久久久久久久久久久久女国产乱| 国产福利91精品一区| 欧美一区二区三区爱爱| 波多野结衣在线一区| 欧美电影免费观看高清完整版在线| 国产精品一级片在线观看| 日韩一级免费观看| 99精品久久久久久| 国产精品视频一二三区| 亚洲免费黄色| 婷婷国产v国产偷v亚洲高清| 在线精品视频免费观看| 国产乱码精品一区二区三| 欧美刺激午夜性久久久久久久| 粉嫩在线一区二区三区视频| 久久综合狠狠综合久久激情 | 欧美一区二区三区视频在线观看| 国产成人精品影院| 久久九九影视网| 亚洲精品视频啊美女在线直播| 亚洲国产毛片aaaaa无费看| 久久综合图片| 丁香另类激情小说| 国产精品国产三级国产aⅴ无密码| 一本色道久久综合亚洲精品不| 日日骚欧美日韩| 日韩精品在线一区二区| 亚洲第一黄网| 久久99国产精品麻豆| 精品国产乱码久久久久久免费 | 欧美色国产精品| 成人av网站免费| 亚洲精品视频观看| 欧美三级乱人伦电影| 99久久99精品久久久久久| 一区二区三区免费网站| 欧美精品欧美精品系列| 欧美精品一区二区三区久久久竹菊| 亚洲综合在线免费观看| 制服丝袜国产精品| 亚洲黄色免费| 国产自产高清不卡| 国产精品乱人伦| 欧美视频在线一区二区三区| 欧美va天堂在线| 理论片日本一区| 中文字幕视频一区二区三区久| 一本久久a久久精品亚洲| 波多野结衣中文字幕一区| 亚洲高清一区二区三区| 精品国产亚洲一区二区三区在线观看| 亚洲精品在线观看免费| 国产成人丝袜美腿| 亚洲成人三级小说| 欧美精品一区二区在线播放| 性色一区二区三区| av不卡在线观看| 久久精品免费观看| 亚洲女爱视频在线| 欧美v国产在线一区二区三区| 久久99伊人| 欧美色123| 国产精品白丝av| 日韩一区精品视频| 亚洲少妇中出一区| 久久久综合九色合综国产精品| 色88888久久久久久影院野外| 国内一区二区三区| 成人一区在线观看| 久久成人免费网站| 午夜伊人狠狠久久| 亚洲欧美激情插| 日本一区二区三区视频视频| 日韩一区二区三区四区 | 亚洲成人资源在线| 国产精品美女一区二区在线观看| 欧美一区二区网站| 欧美丝袜丝交足nylons| 国产伦理一区| 狠狠色丁香久久综合频道| 大白屁股一区二区视频| 黄页视频在线91| 九色|91porny| 免费观看在线色综合| 亚洲国产精品人人做人人爽| 亚洲婷婷在线视频| 国产精品家庭影院| 亚洲国产精品二十页| 久久久久久黄色| 精品国产伦一区二区三区观看方式| 欧美乱熟臀69xxxxxx| 欧美丝袜自拍制服另类| 欧美在线你懂得| 欧美三级日韩在线| 欧美日韩视频一区二区|