国产精品嫩草99av在线_一区在线视频观看_欧美高清一区_欧美 日韩 国产 一区_99精品欧美一区二区三区_久久大香伊蕉在人线观看热2_一色屋精品视频在线观看网站_在线亚洲国产精品网站_亚洲区一区二区三区_你懂的视频一区二区

當前位置:首頁 > 元宇宙 > AI

AI“推理”模型興起,基準測試成本飆升

來源: 責編: 時間:2025-04-15 07:12:14 157觀看
導讀 4 月 13 日消息,隨著人工智能(AI)技術的不斷發展,所謂的“推理”AI 模型成為了研究熱點。這些模型能夠像人類一樣逐步思考問題,在特定領域,如物理學中,被認為比非推理模型能力更強。然而,這種優勢卻伴隨著高昂的測試

4 月 13 日消息,隨著人工智能(AI)技術的不斷發展,所謂的“推理”AI 模型成為了研究熱點。這些模型能夠像人類一樣逐步思考問題,在特定領域,如物理學中,被認為比非推理模型能力更強。然而,這種優勢卻伴隨著高昂的測試成本,使得獨立驗證這些模型的能力變得困難重重。GSS28資訊網——每日最新資訊28at.com

GSS28資訊網——每日最新資訊28at.com

據第三方 AI 測試機構“人工智能分析”(Artificial Analysis)提供的數據顯示,評估 OpenAI 的 o1 推理模型在七個流行的 AI 基準測試(包括 MMLU-Pro、GPQA Diamond、Humanity's Last Exam、LiveCodeBench、SciCode、AIME 2024 和 MATH-500)中的表現,需要花費 2767.05 美元(注:現匯率約合 20191 元人民幣)。而評估 Anthropic 的 Claude 3.7 Sonnet 這一“混合”推理模型的成本為 1485.35 美元(現匯率約合 10839 元人民幣),相比之下,測試 OpenAI 的 o3-mini-high 則只需 344.59 美元(現匯率約合 2514 元人民幣)。盡管有些推理模型的測試成本相對較低,例如評估 OpenAI 的 o1-mini 只需 141.22 美元(現匯率約合 1030 元人民幣),但從整體來看,推理模型的測試成本仍然比較高昂。截至目前,“人工智能分析”已經花費了約 5200 美元(現匯率約合 37945 元人民幣)來評估大約十幾種推理模型,這一金額接近該公司分析超過 80 種非推理模型所花費的 2400 美元的兩倍。GSS28資訊網——每日最新資訊28at.com

OpenAI 在 2024 年 5 月發布的非推理 GPT-4o 模型,其評估成本僅為 108.85 美元,而 Claude 3.6 Sonnet(Claude 3.7 Sonnet 的非推理前身)的評估成本為 81.41 美元。“人工智能分析”聯合創始人喬治?卡梅倫(George Cameron)向 TechCrunch 表示,隨著越來越多的 AI 實驗室開發推理模型,該組織計劃增加其測試預算。“在‘人工智能分析’,我們每月進行數百次評估,并為此投入了相當可觀的預算,”卡梅倫說,“我們預計隨著模型的頻繁發布,這一支出將會增加。”GSS28資訊網——每日最新資訊28at.com

“人工智能分析”并非唯一面臨 AI 測試成本上升的機構。AI 初創公司“通用推理”(General Reasoning)的首席執行官羅斯?泰勒(Ross Taylor)表示,他最近花費了 580 美元用大約 3700 個獨特的提示詞評估了 Claude 3.7 Sonnet。泰勒估計,僅對 MMLU Pro(一套旨在評估模型語言理解能力的問題集)進行一次完整的測試,成本就會超過 1800 美元。“我們正在邁向一個世界,在這個世界里,一個實驗室在一項基準測試中報告 x% 的結果,而他們在其中花費了 y 數量的計算資源,但學者們的資源遠遠小于 y,”泰勒在 X 上最近的一篇帖子中寫道,“沒有人能夠復制這些結果。”GSS28資訊網——每日最新資訊28at.com

那么,為什么推理模型的測試成本如此之高呢?主要原因在于它們生成了大量的 token。token 代表原始文本的片段,例如將單詞“fantastic”拆分為音節“fan”、“tas”和“tic”。據“人工智能分析”稱,在該公司的基準測試中,OpenAI 的 o1 生成了超過 4400 萬個 token,大約是 GPT-4o 生成量的八倍。大多數 AI 公司都是按 token 收費的,因此成本很容易就會累積起來。GSS28資訊網——每日最新資訊28at.com

此外,現代基準測試通常會從模型中引出大量 token,因為它們包含涉及復雜、多步驟任務的問題。Epoch AI 的高級研究員讓-斯坦尼斯拉斯?德內恩(Jean-Stanislas Denain)表示,這是因為今天的基準測試更加復雜,盡管每個基準測試的問題數量總體有所減少。“它們通常試圖評估模型執行現實世界任務的能力,例如編寫和執行代碼、瀏覽互聯網以及使用計算機,”德內恩稱。德內恩還指出,最昂貴的模型隨著時間的推移,每個 token 的成本也在增加。例如,Anthropic 在 2024 年 5 月發布的 Claude 3 Opus 是當時最昂貴的模型,每百萬輸出 token 的成本為 75 美元。而 OpenAI 今年早些時候推出的 GPT-4.5 和 o1-pro,每百萬輸出 token 的成本分別為 150 美元和 600 美元。GSS28資訊網——每日最新資訊28at.com

“盡管隨著時間的推移,模型的性能有所提高,達到給定性能水平的成本也確實大幅下降,但如果你想在任何特定時間評估最大最好的模型,你仍然需要支付更多,”德內恩說。許多 AI 實驗室,包括 OpenAI,為測試目的向基準測試組織提供免費或補貼的模型訪問權限。但一些專家表示,這會影響測試結果的公正性 —— 即使沒有操縱的證據,AI 實驗室的參與本身就可能損害評估評分的完整性。GSS28資訊網——每日最新資訊28at.com

本文鏈接:http://www.rrqrq.com/showinfo-45-12237-0.htmlAI“推理”模型興起,基準測試成本飆升

聲明:本網頁內容旨在傳播知識,若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。郵件:[email protected]

上一篇: 蘋果AI發展滯后真相:預算削減與內部斗爭成主因

下一篇: 美國教育部長出席峰會鬧烏龍:多次將 AI 誤稱為 A1

標簽:
  • 熱門焦點
  • 人間誠實周鴻祎:360 All in 大模型的六個解讀

    主筆 / 村口有牛文章架構師 / 毛自聰出品 / 巨頭財經5月至今,人間躁動,各路大模型你方唱罷我登場,VC圈互聯網圈媒體圈已近癲狂。誰也沒想到,今日,360再度刷屏,老牌互聯網巨頭展現
  • 元宇宙是推動NFT發展的初始家園

    現在大家都知道了什么是NFT,但好像離自己的生活還有一定距離。隨著我們與NFT 接觸增加,該如何將這些數字資產帶入我們的日常生活?NFT還是主流嗎?如果我們將“主流
  • 傳統互聯網與區塊鏈場景下數據權利法律分析

    數據權益的復雜性在于數據涉及多環節多主體、內容不同質且與不同場景緊密聯系、對軟硬件技術環節緊密相關等方面的復雜性。在傳統互聯網與區塊鏈模式下,數據處
  • 費城藝術家使用區塊鏈,在數字藝術中狠狠撈一筆

    ?你也想賺錢發財走上人生巔峰嗎?老雅痞給你指條路,現在也許是時候創建或購買或出售 NFT的好時機。費城地區的許多企業家都在這樣做。但投資需謹慎,入行有風險,在
  • 元宇宙畫廊體驗報告:有點頭疼。

    2 月 10 日,Hrishi Rajasekar 在舊金山鑄幣廠的沉浸式 NFT 展覽 Verse 觀看增強現實藝術品。“我們現在在虛擬世界中嗎?時間好像變長了” 我問身后排隊的人。我
  • NFTs正迎來數十億美元的繁榮--NFT零工經濟從業者開始暴賺

    當Stefan Prodanovic在13歲時開始嘗試平面設計,與一位從事編程工作的學校朋友共同創作數字游戲時,他從未料到這個愛好會在他成年后變成一個相當有利可圖的生意。
  • 淺聊DAO圖景和未來

    DAO是什么?DAO (Decentralized Autonomous Organizations),去中心化自治組織,是基于區塊鏈技術,由社區通過透明的決策過程運行和管理的組織形態。DAO使得社區成為
  • 超級賬本Julian Gordon:聯盟鏈與公鏈的競爭不是非此即彼

    在2021年《福布斯》區塊鏈50強榜單中,29家企業使用Hyperledger超級賬本技術,占比近60%。同年,研究機構Blockdata發布了的調查報告顯示,訪問Top100上市公司中,有 81
  • 虛擬人行業研究報告

    最早的虛擬人出現于 20 世紀 80 年代,受限于技術,當時的虛擬人制作以手繪為主。21 世紀初,隨著動捕、渲染等技術的逐步發展,虛擬人相關技術開始在影視領域逐漸普及
Top 国产精品嫩草99av在线_一区在线视频观看_欧美高清一区_欧美 日韩 国产 一区_99精品欧美一区二区三区_久久大香伊蕉在人线观看热2_一色屋精品视频在线观看网站_在线亚洲国产精品网站_亚洲区一区二区三区_你懂的视频一区二区
91精品国产手机| 91精品国产综合久久久久| 午夜欧美精品| 91视频com| 99热这里都是精品| 91蜜桃免费观看视频| 不卡视频在线观看| 成人国产一区二区三区精品| 国产超碰在线一区| 成人av一区二区三区| av一区二区不卡| 欧美日韩在线精品| 欧美日韩久久| 日韩午夜免费| 国产九九精品| 在线视频你懂得一区| 欧美视频一区二区| 91精品国产色综合久久ai换脸 | 欧美片第1页综合| 亚洲乱亚洲高清| 色老综合老女人久久久| 在线播放91灌醉迷j高跟美女| 欧美一区二区三级| 国产网站一区二区三区| 亚洲综合一区在线| 久久99热这里只有精品| 成人网在线免费视频| 欧美日韩综合网| 亚洲一区二区成人| 7777精品久久久大香线蕉| 欧美精品一区二区三区蜜臀| 亚洲人妖av一区二区| 天堂va蜜桃一区二区三区| 国产精品亚洲人在线观看| 91一区二区在线| 免费亚洲网站| 日韩一级在线观看| 亚洲免费av网站| 国产一区二区三区在线观看精品| 97se亚洲国产综合在线| 国产精品久久777777毛茸茸| 欧美日韩亚洲丝袜制服| 国产亚洲短视频| 日本午夜一本久久久综合| 成人午夜私人影院| 日韩午夜免费| 欧美一区二区三区视频| 一区在线观看免费| 国模一区二区三区白浆 | 日韩一区二区三区四区五区六区| 国产精品久久久久久亚洲伦| 麻豆成人综合网| 亚洲欧美影院| 91麻豆精品国产| 亚洲一区在线视频| 99综合影院在线| 91国偷自产一区二区三区观看| 精品国产成人系列| 奇米精品一区二区三区四区| 91在线视频网址| 欧美日韩免费观看一区二区三区 | 中文字幕在线不卡| 久久99精品国产.久久久久| 欧美午夜不卡影院在线观看完整版免费| 久久一综合视频| 国产精品视频免费| 成人中文字幕在线| 在线视频国内一区二区| 国产精品蜜臀在线观看| 国产91精品免费| 色88888久久久久久影院野外| 国产区在线观看成人精品| 久草精品在线观看| 亚洲欧美日韩精品综合在线观看| 精品国产伦一区二区三区观看方式 | 亚洲码国产岛国毛片在线| 成人夜色视频网站在线观看| 久久综合久久久| 亚洲色大成网站www久久九九| 成a人片亚洲日本久久| 欧美午夜精品一区| 亚洲一区二区三区四区五区中文| 欧美在线日韩精品| 欧美一级免费大片| 久久精品国产77777蜜臀| 在线亚洲激情| 17c精品麻豆一区二区免费| 波多野结衣精品在线| 911精品国产一区二区在线| 日本不卡中文字幕| 色婷婷亚洲一区二区三区| 亚洲一区影音先锋| 99精品免费网| 亚洲精品视频在线观看网站| 亚洲午夜高清视频| 国产女同互慰高潮91漫画| 成人精品一区二区三区四区| 欧美人狂配大交3d怪物一区| 老汉av免费一区二区三区| 一本大道久久精品懂色aⅴ| 亚洲一二三级电影| 亚洲影院一区| 日韩一区精品视频| 免费看的黄色欧美网站| 午夜精品在线视频一区| 久久激情网站| 日本美女视频一区二区| 欧美日韩欧美一区二区| 黄色日韩网站视频| 日韩欧美亚洲另类制服综合在线| 国产一区啦啦啦在线观看| 91精品国产aⅴ一区二区| 国产成人免费视频精品含羞草妖精| 欧美三级日韩在线| 国产不卡视频一区二区三区| 精品av久久707| 欧美日韩在线播放一区二区| 亚洲欧洲精品一区二区三区 | 久久国产日本精品| 激情文学综合网| 精品久久人人做人人爰| 91一区二区三区在线观看| 中文字幕一区av| 久久婷婷麻豆| 国产精品系列在线观看| 亚洲国产高清不卡| 国产精品毛片在线看| 午夜成人免费视频| 欧美美女视频在线观看| 91免费观看在线| 亚洲精品欧美二区三区中文字幕| 免费在线亚洲欧美| 国产精品一区二区久久不卡| 国产欧美日韩精品在线| 蜜桃精品久久久久久久免费影院| 精品无人码麻豆乱码1区2区| 欧美变态tickling挠脚心| 精品9999| 精品在线观看视频| 国产精品人妖ts系列视频| 欧美资源在线| 不卡一二三区首页| 亚洲在线视频网站| 欧美一区二区三区免费观看视频 | 一区二区毛片| 国产精品1区2区3区在线观看| 国产人妖乱国产精品人妖| 每日更新成人在线视频| 丁香婷婷综合色啪| 一区二区理论电影在线观看| 日韩视频一区二区| 国产亚洲毛片| 成人av电影在线网| 亚洲一区二区三区爽爽爽爽爽| 7777精品伊人久久久大香线蕉最新版| 91亚洲精品乱码久久久久久蜜桃| 亚洲尤物视频在线| 久久免费精品国产久精品久久久久 | 91麻豆国产精品久久| 婷婷开心激情综合| 国产午夜精品在线观看| 欧美亚洲国产一区二区三区| 国产精品mm| 成人黄色小视频在线观看| 五月婷婷综合网| 国产精品美女久久久久久久久 | 亚洲一区在线观看视频| 国产欧美日韩精品一区| 欧美一区二区精品在线| 久久久久久穴| 亚洲国产高清视频| thepron国产精品| 麻豆精品精品国产自在97香蕉| 中文字幕一区二区三区在线不卡| 4438亚洲最大| 在线视频亚洲一区| 国产日韩高清一区二区三区在线| 91年精品国产| 成人性视频网站| 另类专区欧美蜜桃臀第一页| 亚洲人快播电影网| 国产欧美一区二区精品性| 91精品在线免费观看| 欧美这里有精品| 久久久久久久久一区二区| 99视频一区| 18成人免费观看视频| 色综合婷婷久久| 97久久精品人人做人人爽50路| 韩国欧美国产一区| 久久99精品久久久久| 日本在线不卡视频一二三区| 亚洲精品久久7777| 中文字幕一区二区视频| 国产精品日产欧美久久久久| 欧美国产在线观看| 国产欧美日产一区| 国产清纯白嫩初高生在线观看91| 欧美电视剧在线看免费| 精品国产成人在线影院|