當前位置：首頁 > 元宇宙 > AI

程序員自制開源 AI 評分工具，衡量大模型“愚蠢程度”

來源：責編：時間：2025-09-20 09:16:05 48觀看

導讀 9 月 18 日消息，程序員 ionutvi 今天發布了名為 AI Benchmark Tool 的 AI 評分工具，可衡量各大 AI 模型的“愚蠢程度”，幫助代碼工作者選擇最準確性最佳、更具性價比的 AI 工具。ionutvi 表示，他在使用 ChatGPT、

9 月 18 日消息，程序員 ionutvi 今天發布了名為 AI Benchmark Tool 的 AI 評分工具，可衡量各大 AI 模型的“愚蠢程度”，幫助代碼工作者選擇最準確性最佳、更具性價比的 AI 工具。

ionutvi 表示，他在使用 ChatGPT、Grok、Claude 等 AI 大模型時經常發現，有時候這些模型第一天工作正常，但第二天就會“降智”，做相同的任務時胡亂回答，有時候干脆拒絕回答相同問題，很多人認為這只是自己的問題，但這實際上官方有意降低了模型的性能，畢竟 Anthropic 官方就承認過這個問題。

因此他制作了這款 AI 評分工具，它可以自動在多款大模型運行 140 項編程、調試和優化任務，從準確性、拒絕回答率、回答時間、穩定性等方面衡量 AI 模型的“愚蠢程度”，并根據評分自動排名。

并且這名開發者還結合了各家的 AI 模型的價格綜合評比，讓用戶知道每款模型的使用成本，有的 AI 模型看起來很便宜，但可能需要迭代 10 次才能得到能用的答案；而有的模型雖然價格比較高，但只要迭代兩三次就能得到能用的版本，這種情況下稍貴的那款模型性價比就更高。

附該工具開源鏈接如下：

https://github-com.translate.goog/StudioPlatforms/aistupidmeter-api?_x_tr_sl=fr&_x_tr_tl=ro&_x_tr_hl=en&_x_tr_pto=wapp

本文鏈接：http://www.rrqrq.com/showinfo-45-27821-0.html程序員自制開源 AI 評分工具，衡量大模型“愚蠢程度”

聲明：本網頁內容旨在傳播知識，若有侵權等問題請及時與本網聯系，我們將在第一時間刪除處理。郵件：2376512515@qq.com

上一篇： DeepSeek 聲明：防范冒用“深度求索”名義實施詐騙

下一篇：可調節思考時長，ChatGPT 網頁端新增 GPT-5 Thinking 調整功能

標簽：

熱門焦點

ChatGPT訪問量增速下滑，AI真的是一場泡沫嗎？

來源：首席商業評論2023年，最火的莫過于ChatGPT，席卷全球的同時也引發了生成式AI（人工智能）的投資熱潮。在美股，ChatGPT相關概念股飆漲，以AI算力龍頭英偉達為例，其股價年內一度累計上
在數字世界再造世界杯，元宇宙體育正變得越來越豐滿

撰文/ 蔥鮪魚本屆世界杯可能不是最精彩的一屆，卻絕對是看點十足的一屆：后疫情時代的首屆世界杯、耗資2200億美元打造的“史上最貴”世界杯、足壇黃金
2022 區塊鏈 50 強榜單；垃圾NFT項目的十三個特性

本期關鍵字TerraZero在Decentraland完成元宇宙住房抵押貸款；騰訊發行齊白石畫作數字藏品；Ripple成為數字歐元協會成員；Gem上線稀有度排名功能；2022 區塊鏈 50 強榜
Meta證實Quest 2無法實現全身追蹤，未來將為虛擬化身配備“假腿”

上周，外媒UploadVR在Quest 2開發者文檔中發現了從未被公布過的“身體追蹤支持”選項，暗示Meta VR頭顯或支持全身追蹤。而在最近的Instagram問答環節中，Meta Reali
虛擬數字人：元宇宙的主角破圈而來

虛擬數字人市場逐步進入成熟期，商業化進程加速。1982年世界第一位虛擬歌姬林明美誕生，虛擬數字人行業經歷了萌芽、探索、初級和成長四個階段。隨技術逐年突破，制
DAO登上了歷史舞臺，但是主流準備好采用DAO了嗎？

Block-807DAO要么是定義虛擬未來、無領導組織的革命性概念，要么是充滿存在主義和自我毀滅挑戰的反烏托邦結構，取決于你在與誰交談。近幾個月來， DAO已經從Crypto
與元宇宙美少女藝術家的對話

我最近宣布了我自己的NFT項目，這是我已經工作了幾個月的事情。由于我之前只是一個收藏家，擁有自己的項目真的給了我一個新的視角來看待這個領域。我一直歡迎人們
NFT高玩必備：NFT分析工具大盤點

NFT市場的火熱讓越來越多的投資者投身其中，但當前的 NFT 生態系統存在幾個問題卻困擾了大多數人，如難以準確評估 NFT 項目的資產價格、缺乏 NFT 市場動態信息、
爆發在即的Layer2賽道百花齊放，誰將是領跑者？

還記得幾年前最早我們提起ETH擴容，首先想到就是Layer2，而Layer2里，首先想到的是閃電網絡，狀態通道，Plasma…然后折騰了幾年，發現并沒有什么用，許多項目方和資本也等不

国产精品嫩草99av在线_一区在线视频观看_欧美高清一区_欧美日韩国产一区_99精品欧美一区二区三区_久久大香伊蕉在人线观看热2_一色屋精品视频在线观看网站_在线亚洲国产精品网站_亚洲区一区二区三区_你懂的视频一区二区

首頁

元宇宙

NFT

區塊鏈

虛擬人

AR/VR

AI

元宇宙百科

程序員自制開源 AI 評分工具，衡量大模型“愚蠢程度”

ChatGPT訪問量增速下滑，AI真的是一場泡沫嗎？

在數字世界再造世界杯，元宇宙體育正變得越來越豐滿

2022 區塊鏈 50 強榜單；垃圾NFT項目的十三個特性

Meta證實Quest 2無法實現全身追蹤，未來將為虛擬化身配備“假腿”

虛擬數字人：元宇宙的主角破圈而來

DAO登上了歷史舞臺，但是主流準備好采用DAO了嗎？

與元宇宙美少女藝術家的對話

NFT高玩必備：NFT分析工具大盤點

爆發在即的Layer2賽道百花齊放，誰將是領跑者？

最新推薦

虛擬人再升級，企業可以解放雙手了？

超跑與NFT的首次結合，蘭博基尼能否破局？

江西將探索成立元宇宙聯盟，韓國將加強對NFT和元宇宙的監管

為什么元宇宙將永遠改變體育和你的生活？

HTC Vive推出元宇宙平臺Viverse；騰訊投資小米生態鏈AR眼鏡廠商

多位全國政協委員提交元宇宙提案，國金證券稱元宇宙仍處初期投資階段

猜你喜歡

熱門推薦

相關資訊