9 月 18 日消息,程序員 ionutvi 今天發布了名為 AI Benchmark Tool 的 AI 評分工具,可衡量各大 AI 模型的“愚蠢程度”,幫助代碼工作者選擇最準確性最佳、更具性價比的 AI 工具。
ionutvi 表示,他在使用 ChatGPT、Grok、Claude 等 AI 大模型時經常發現,有時候這些模型第一天工作正常,但第二天就會“降智”,做相同的任務時胡亂回答,有時候干脆拒絕回答相同問題,很多人認為這只是自己的問題,但這實際上官方有意降低了模型的性能,畢竟 Anthropic 官方就承認過這個問題。
因此他制作了這款 AI 評分工具,它可以自動在多款大模型運行 140 項編程、調試和優化任務,從準確性、拒絕回答率、回答時間、穩定性等方面衡量 AI 模型的“愚蠢程度”,并根據評分自動排名。
并且這名開發者還結合了各家的 AI 模型的價格綜合評比,讓用戶知道每款模型的使用成本,有的 AI 模型看起來很便宜,但可能需要迭代 10 次才能得到能用的答案;而有的模型雖然價格比較高,但只要迭代兩三次就能得到能用的版本,這種情況下稍貴的那款模型性價比就更高。
附該工具開源鏈接如下:
https://github-com.translate.goog/StudioPlatforms/aistupidmeter-api?_x_tr_sl=fr&_x_tr_tl=ro&_x_tr_hl=en&_x_tr_pto=wapp
本文鏈接:http://www.rrqrq.com/showinfo-45-27821-0.html程序員自制開源 AI 評分工具,衡量大模型“愚蠢程度”
聲明:本網頁內容旨在傳播知識,若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。郵件:2376512515@qq.com