5 月 30 日消息,Anthropic 昨日(5 月 29 日)發(fā)布博文,宣布推出“思維追蹤”(Circuit Tracer)開源工具,以圖形化方式,追蹤并展示 AI 大語言模型的內(nèi)部思維過程。
該工具通過構(gòu)建“歸因圖”(Attribution Graph),幫助研究者可視化模型內(nèi)部運作,并支持交互式探索。這一項目由 Anthropic Fellows 程序的參與者與專注 AI 解釋性研究的 Decode Research 團隊聯(lián)合推動,旨在提升 AI 安全性。

Circuit Tracer 已在 GitHub 平臺以開源庫形式發(fā)布,研究者可通過由 Decode Research 運營的 Neuronpedia 平臺,使用交互式前端查看“歸因圖”。

用戶使用該工具,不僅能生成自定義的歸因圖,追蹤支持模型的內(nèi)部邏輯,還能對圖形進行標注、分享,甚至通過調(diào)整特征值觀察模型輸出的變化,從而驗證研究假設。
Anthropic 表示,當前對 AI 內(nèi)部結(jié)構(gòu)的理解遠遠落后于其功能進步。開源這些工具將助力更廣泛的社區(qū)深入探究語言模型的內(nèi)部運作,理解模型行為,并為工具的改進和擴展提供可能。

附上參考地址
Open-sourcing circuit tracing tools
GitHub 頁面
gemma-2-2b Attribution Graph | Neuronpedia
本文鏈接:http://www.rrqrq.com/showinfo-45-13295-0.htmlAnthropic 開源“思維追蹤”工具,可視化揭秘 AI 內(nèi)部邏輯
聲明:本網(wǎng)頁內(nèi)容旨在傳播知識,若有侵權(quán)等問題請及時與本網(wǎng)聯(lián)系,我們將在第一時間刪除處理。郵件:[email protected]