當(dāng)前位置：首頁 > 元宇宙 > AI

阿里巴巴與港中大攜手：SCRIT系統(tǒng)賦能AI，開啟自我糾錯與進(jìn)化新篇章

來源：責(zé)編：時間：2025-09-19 18:00:20 51觀看

導(dǎo)讀在人工智能領(lǐng)域，一項(xiàng)突破性研究為AI大模型的自我改進(jìn)能力開辟了新路徑。這項(xiàng)由阿里巴巴Qwen團(tuán)隊(duì)與香港中文大學(xué)深圳分校、深圳大數(shù)據(jù)研究院聯(lián)合完成的研究，提出了一種名為SCRIT的創(chuàng)新框架，讓AI能夠像人類一樣具備自我反

在人工智能領(lǐng)域，一項(xiàng)突破性研究為AI大模型的自我改進(jìn)能力開辟了新路徑。這項(xiàng)由阿里巴巴Qwen團(tuán)隊(duì)與香港中文大學(xué)深圳分校、深圳大數(shù)據(jù)研究院聯(lián)合完成的研究，提出了一種名為SCRIT的創(chuàng)新框架，讓AI能夠像人類一樣具備自我反思和糾錯能力。該成果發(fā)表于2025年COLM會議，論文《Self-Evolving Critique Abilities in Large Language Models》詳細(xì)闡述了這一技術(shù)突破。

傳統(tǒng)AI大模型雖然能夠解決復(fù)雜問題，但在自我糾錯方面存在明顯短板。當(dāng)人類評判員也難以判斷答案質(zhì)量時，AI往往無法自主發(fā)現(xiàn)錯誤。研究團(tuán)隊(duì)將這一挑戰(zhàn)比喻為培養(yǎng)一個完全依賴外界指導(dǎo)的學(xué)生學(xué)會自我反思。此前的方法要么依賴昂貴的人工標(biāo)注，要么需要更強(qiáng)大的AI模型作為指導(dǎo)，但這些方案在AI能力接近人類水平時面臨瓶頸。

SCRIT系統(tǒng)的核心創(chuàng)新在于引入了對比學(xué)習(xí)機(jī)制。該系統(tǒng)通過分析標(biāo)準(zhǔn)答案與待評判答案的差異，使AI能夠像經(jīng)驗(yàn)豐富的教師一樣，先理解正確解題思路，再發(fā)現(xiàn)錯誤所在。實(shí)驗(yàn)數(shù)據(jù)顯示，采用這種方法的AI評判準(zhǔn)確率顯著提升：在明確錯誤答案的測試中，準(zhǔn)確率從39.7%提高到50.0%；在混合答案測試中，從57.7%提升至62.1%；即使面對自我生成的答案，準(zhǔn)確率也從61.7%穩(wěn)步增長到62.9%。

為了訓(xùn)練這一系統(tǒng)，研究團(tuán)隊(duì)構(gòu)建了龐大的數(shù)據(jù)工廠。他們從NuminaMath數(shù)據(jù)集出發(fā)，收集了45.2萬個涵蓋小學(xué)到奧林匹克競賽難度的數(shù)學(xué)問題。通過讓七個不同能力的AI模型生成解答，最終獲得了66.5萬個問題-解答對，其中正確與錯誤解答各占一半。這些數(shù)據(jù)經(jīng)過嚴(yán)格篩選，確保每個問題都包含可供對比學(xué)習(xí)的正確和錯誤范例。

SCRIT的評判生成過程分為四個關(guān)鍵階段：首先解析標(biāo)準(zhǔn)答案中的核心數(shù)學(xué)概念，然后逐步檢查待評判答案的每個步驟，接著給出整體評判結(jié)論，最后提供完整的修正方案。特別值得注意的是，系統(tǒng)還會讓不同正確解答相互學(xué)習(xí)，從而培養(yǎng)更靈活的評判思維。這種設(shè)計(jì)使AI能夠欣賞多樣化的解題方法，提高評判的全面性。

質(zhì)量把控是SCRIT系統(tǒng)的另一大亮點(diǎn)。研究團(tuán)隊(duì)引入了自我驗(yàn)證機(jī)制，要求AI按照提出的修改建議重新解題，只有能得到正確答案的評判才會被采用。這一機(jī)制顯著提高了評判質(zhì)量：在初始生成的評判結(jié)果中，僅有51.4%能通過質(zhì)量檢測。不同難度問題的通過率差異明顯，小學(xué)數(shù)學(xué)問題通過率達(dá)91.8%，而奧林匹克級別問題僅為27.1%。經(jīng)過篩選，最終獲得了34.2萬個高質(zhì)量的訓(xùn)練樣本。

在錯誤識別測試中，SCRIT的表現(xiàn)更加突出。在PRM800K數(shù)據(jù)集上，F(xiàn)1分?jǐn)?shù)從37.8%躍升至45.0%，提升幅度達(dá)19.0%。數(shù)學(xué)推理任務(wù)上的提升尤為顯著，GSM8K數(shù)據(jù)集提升11.3個百分點(diǎn)，MATH數(shù)據(jù)集提升9.1個百分點(diǎn)。這些數(shù)據(jù)證明，SCRIT不僅能夠判斷答案對錯，還能準(zhǔn)確定位第一個出錯步驟，就像醫(yī)生能夠精確找出病灶位置。

對比實(shí)驗(yàn)揭示了SCRIT成功的關(guān)鍵因素。研究發(fā)現(xiàn)，隨著訓(xùn)練數(shù)據(jù)增加，對比評判方法的效果持續(xù)提升，而傳統(tǒng)直接評判和錯誤注入方法很快遇到瓶頸。當(dāng)訓(xùn)練數(shù)據(jù)達(dá)到17萬個樣本時，對比方法準(zhǔn)確率達(dá)58.3%，遠(yuǎn)超直接方法的55.1%和錯誤注入方法的49.0%。模型規(guī)模對效果影響顯著：參數(shù)從15億擴(kuò)展到720億的過程中，評判準(zhǔn)確率從41.7%大幅提升至58.3%，錯誤識別能力從12.5%猛增至45.1%。

研究過程中的一個意外發(fā)現(xiàn)擴(kuò)展了SCRIT的應(yīng)用前景。用科學(xué)推理問題訓(xùn)練的SCRIT版本，不僅在科學(xué)任務(wù)上表現(xiàn)優(yōu)異，在數(shù)學(xué)任務(wù)上也保持競爭力。在ARC-C、GPQA、MMLU-STEM等科學(xué)推理基準(zhǔn)測試中，系統(tǒng)實(shí)現(xiàn)了顯著性能提升。特別是用科學(xué)數(shù)據(jù)訓(xùn)練的版本在平衡解答測試中取得67.4%的成績，比原始模型提升14.6個百分點(diǎn)，顯示出強(qiáng)大的跨領(lǐng)域?qū)W習(xí)能力。

系統(tǒng)設(shè)計(jì)的細(xì)節(jié)優(yōu)化同樣值得關(guān)注。自我驗(yàn)證機(jī)制雖然只帶來0.8%的準(zhǔn)確率提升，但在錯誤識別方面有3.0%的顯著改進(jìn)。使用多樣化問題領(lǐng)域訓(xùn)練的系統(tǒng)，性能比單一領(lǐng)域訓(xùn)練的系統(tǒng)高1.4個百分點(diǎn)。有趣的是，訓(xùn)練數(shù)據(jù)中錯誤解答比例更高時（25%正確：75%錯誤），系統(tǒng)表現(xiàn)反而更好，說明見過更多錯誤的AI更擅長發(fā)現(xiàn)問題。

這項(xiàng)研究為AI發(fā)展開辟了新方向。在教育領(lǐng)域，配備SCRIT能力的AI教師能夠像專業(yè)輔導(dǎo)員一樣，準(zhǔn)確識別學(xué)生思維中的錯誤并提供改進(jìn)建議。在科研領(lǐng)域，它為解決"可擴(kuò)展監(jiān)督"難題提供了新思路，使AI能夠在沒有更強(qiáng)監(jiān)督者的情況下持續(xù)改進(jìn)。更廣泛地說，這種自我對比和驗(yàn)證的機(jī)制可擴(kuò)展到代碼審查、文檔寫作、決策制定等多個需要質(zhì)量把控的領(lǐng)域。

盡管當(dāng)前版本主要適用于有明確正確答案的領(lǐng)域，如數(shù)學(xué)和科學(xué)推理，但其原理具有普遍適用性。研究團(tuán)隊(duì)指出，這項(xiàng)工作證明了AI可以通過內(nèi)在機(jī)制實(shí)現(xiàn)自我改進(jìn)，不再完全依賴外部指導(dǎo)。隨著技術(shù)發(fā)展，未來的AI系統(tǒng)可能具備更全面的自我反思能力，這不僅會改變我們使用AI的方式，更可能推動AI技術(shù)發(fā)展進(jìn)入新階段。

更多>同類資訊

可靈AI數(shù)字人正式登場：極簡操作實(shí)現(xiàn)高質(zhì)輸出，重塑數(shù)字人行業(yè)標(biāo)準(zhǔn)09-19

華為徐直軍：未來3年昇騰芯片將快速演進(jìn)，2027年超節(jié)點(diǎn)集群規(guī)模達(dá)百萬卡級09-19

莫斯科團(tuán)隊(duì)研發(fā)SRMT技術(shù)：共享記憶賦能機(jī)器人，開啟高效協(xié)作新篇章09-19

小紅書“利劍出鞘”：多維治理體系精準(zhǔn)打擊虛假營銷生態(tài)09-19DeepSeek-R1登《自然》封面：AI大模型邁向科學(xué)嚴(yán)謹(jǐn)，融入更廣科學(xué)交流圈09-19七年估值暴漲超70倍！80后博士領(lǐng)航國星宇航，商業(yè)航天征途盈利幾何？09-19

寒武紀(jì)2025半年業(yè)績會：辟謠百萬訂單傳聞，透露新一代芯片優(yōu)化進(jìn)展09-19

寒武紀(jì)業(yè)績會聚焦成長：AI算力需求激增，智能芯片迎發(fā)展新機(jī)遇09-19

英偉達(dá)50億美元注資英特爾，黃仁勛陳立武攜手共拓AI與PC新未來09-19

均勝電子新品亮相：AI頭部總成、全域控制器等完善機(jī)器人產(chǎn)品矩陣本報訊（記者吳奕萱）9月18日，寧波均勝電子股份有限公司（以下簡稱“均勝電子”）舉行機(jī)器人部件新產(chǎn)品發(fā)布會，正式公開機(jī)器人AI頭部總成、基于英偉達(dá)Jetson Thor芯片的全域控制器和新一代機(jī)器人能源管理…09-19

中科信息：引入腦機(jī)接口技術(shù)輔助智慧醫(yī)療，完成機(jī)器視覺全產(chǎn)業(yè)鏈布局9月18日晚間，中科信息（300678.SZ）披露投資者活動記錄表，稱公司目前未開展腦機(jī)接口業(yè)務(wù)，但根據(jù)智慧醫(yī)療業(yè)務(wù)的需要，引進(jìn)腦機(jī)接口技術(shù)及設(shè)備作為輔助工具，研發(fā)基于光遺傳調(diào)控的閉環(huán)腦機(jī)接口（BMI）系統(tǒng)…09-19

宇樹科技9年砥礪前行，上市在即，機(jī)器人賽道或迎新發(fā)展浪潮宇樹科技的團(tuán)隊(duì)成員們?nèi)找广@研，不斷嘗試新的技術(shù)和設(shè)計(jì)方案，經(jīng)過無數(shù)次的失敗與調(diào)整，2017 年，首款四足機(jī)器人 Laikago 問世，它的出現(xiàn)，雖然在性能上還有諸多不足，但對于宇樹科技來說，卻是邁出了堅(jiān)實(shí)的…09-19

?中文互聯(lián)網(wǎng)基礎(chǔ)語料3.0發(fā)布?：120GB高質(zhì)量數(shù)據(jù)助力AI訓(xùn)練與發(fā)展?9 月 18 日消息，今日上午，在昆明召開的 2025 年國家網(wǎng)絡(luò)安全宣傳周人工智能安全治理分論壇上，中文互聯(lián)網(wǎng)基礎(chǔ)語料 3.0正式向社會發(fā)布。在中央網(wǎng)信辦相關(guān)部門指導(dǎo)下，中國網(wǎng)絡(luò)空間安全協(xié)會會…09-19

數(shù)聯(lián)古今智繪文明 2025世界互聯(lián)網(wǎng)大會文化遺產(chǎn)數(shù)字化論壇啟幕開幕式后舉行了主論壇，與會嘉賓圍繞“保護(hù)·傳承”“技術(shù)·創(chuàng)新”“產(chǎn)業(yè)·賦能”“開放·共治”四個議題展開深入討論，著力探索數(shù)字化賦能文化遺產(chǎn)保護(hù)的新方法、新路徑，推動文明交流互鑒。論壇期間，還舉行了文化遺產(chǎn)數(shù)…09-19

華為全聯(lián)接大會2025發(fā)布全球最強(qiáng)算力超節(jié)點(diǎn)及集群引領(lǐng)AI基礎(chǔ)設(shè)施新方向[中國，上海，2025年9月18日] 今日，華為全聯(lián)接大會2025在上海啟幕，華為副董事長、輪值董事長徐直軍發(fā)表題為“以開創(chuàng)的超節(jié)點(diǎn)互聯(lián)技術(shù)，引領(lǐng)AI基礎(chǔ)設(shè)施新范式”的主題演講，正式發(fā)布全球最強(qiáng)算力超節(jié)點(diǎn)和集…09-19點(diǎn)擊查看更多 +全站最新

李榮浩意外“解鎖”新身份，成iOS更新后創(chuàng)意二創(chuàng)靈感源？

?蘋果或于2025年四季度量產(chǎn)低價MacBook，A系列芯片+多彩設(shè)計(jì)能否掀起新熱潮？?

OPPO K13s與K13x正式開售：滿級防水抗摔，799元起享超值體驗(yàn)

哈啰跨界Robotaxi，攜螞蟻寧德入局，兩年內(nèi)能否實(shí)現(xiàn)萬輛規(guī)模突圍？

大連推進(jìn)氫燃料電池汽車示范建設(shè)：聚焦產(chǎn)業(yè)鏈發(fā)展部署關(guān)鍵任務(wù)

AI助力混合動力技術(shù)升級 “十五五”協(xié)同創(chuàng)新開啟全能發(fā)展新篇章熱門內(nèi)容

熱度攀升！千億科技龍頭頻獲機(jī)構(gòu)調(diào)研，業(yè)務(wù)增長透露哪些行業(yè)新動向？
蘋果加速AI布局，或收購兩家法國AI初創(chuàng)企業(yè)
DeepSeek V3.1大模型升級，適配國產(chǎn)新芯片，性能顯著提升
蘋果秋季發(fā)布會亮相iPhone 17系列："史上最薄"Air登場，Pro Max 2TB版定價17999元
?小米16系列或提前登場，首發(fā)驍龍8 Elite Gen5，9月機(jī)圈大戰(zhàn)一觸即發(fā)?
國金證券：A股第三輪重估腳步臨近，三類資產(chǎn)投資方向值得關(guān)注
蘋果加速布局中國市場！Apple Intelligence和新版Siri或年底至明年上線
蘋果AI布局加速，或?qū)⒊饩拶Y收購歐洲兩大AI初創(chuàng)企業(yè)
紅米Note15系列前瞻：7s芯片、7000mAh大電池，防水新標(biāo)桿即將登場
WAVE SUMMIT大會新動態(tài)：文心大模型X1.1上線，多項(xiàng)能力顯著躍升
華為智能手表登頂全球，蘋果需直面挑戰(zhàn)求變革
科創(chuàng)板AI基金8月22日凈值飆升7.79%，重倉股表現(xiàn)搶眼
?字節(jié)跳動千人芯片團(tuán)隊(duì)架構(gòu)調(diào)整，轉(zhuǎn)至新加坡子公司Picoheart引關(guān)注?
vivo X300系列新機(jī)入網(wǎng)：首發(fā)LYT-828+2億像素，衛(wèi)通版支持北斗衛(wèi)星短信
華為云重組風(fēng)暴：多部門整合，聚焦AI領(lǐng)域引發(fā)關(guān)注

本欄最新

寒武紀(jì)2025半年業(yè)績會：辟謠百萬訂單傳聞，透露新一代芯片優(yōu)化進(jìn)展

寒武紀(jì)業(yè)績會聚焦成長：AI算力需求激增，智能芯片迎發(fā)展新機(jī)遇

英偉達(dá)50億美元注資英特爾，黃仁勛陳立武攜手共拓AI與PC新未來

均勝電子新品亮相：AI頭部總成、全域控制器等完善機(jī)器人產(chǎn)品矩陣

中科信息：引入腦機(jī)接口技術(shù)輔助智慧醫(yī)療，完成機(jī)器視覺全產(chǎn)業(yè)鏈布局

宇樹科技9年砥礪前行，上市在即，機(jī)器人賽道或迎新發(fā)展浪潮

本文鏈接：http://www.rrqrq.com/showinfo-45-27786-0.html阿里巴巴與港中大攜手：SCRIT系統(tǒng)賦能AI，開啟自我糾錯與進(jìn)化新篇章

聲明：本網(wǎng)頁內(nèi)容旨在傳播知識，若有侵權(quán)等問題請及時與本網(wǎng)聯(lián)系，我們將在第一時間刪除處理。郵件：2376512515@qq.com

上一篇：耶魯大學(xué)打造MMVU測試：AI專業(yè)視頻理解能力迎來“大考”

下一篇：可靈AI數(shù)字人正式登場極簡操作實(shí)現(xiàn)高質(zhì)輸出

標(biāo)簽：

熱門焦點(diǎn)

元宇宙終究沒火過兩年

來源：傳播體操在ChatGPT快速破圈的同時，元宇宙的熱度卻一瀉千里。雖然互聯(lián)網(wǎng)大廠們都沒有否認(rèn)元宇宙的長期想象力，但在行動上卻都紛紛表示了對元宇宙短期前景的悲觀。號稱改變
內(nèi)容行業(yè)大變天，爆款全靠AI？

出品 | 微果醬（wjam123456）作者 | 陳出木題圖 | 文心一格 AI的發(fā)展之快出乎所有人的預(yù)料，似乎一夜之間便呼嘯而來。無論是資本的風(fēng)向標(biāo)，抑或是生活工作的輔助、流量口，還是茶余飯
【申萬宏源】必然的碎片化AI落地，哪種路徑可能勝出？ | 元宇宙Meta洞見

大規(guī)模預(yù)訓(xùn)GPT(Generative PreTraining)是OpenAI在2018年提出的模型，大規(guī)模預(yù)訓(xùn)練模型（大模型）漸漸成為了AI算法領(lǐng)域的熱點(diǎn)。AI產(chǎn)業(yè)鏈：從算力到應(yīng)用工作流程視角?
完美世界被元宇宙“拒之門外”

春節(jié)期間，游戲是消磨時間最好的方式，完美世界的《幻塔》作為選擇的首要目標(biāo)，倒不是因?yàn)樗奈τ卸啻螅兇馐菑V大網(wǎng)友的吐槽。繼《原神》之后，進(jìn)擊元宇宙的游戲
從冰墩墩到無聊猿，解秘未來IP爆款的模因

打造IP，是建設(shè)元宇宙的剛需。NFT能直接讓IP的價值變現(xiàn)；虛擬人IP是元宇宙的第一入口，而元宇宙要搭建的，就是一個個品牌IP星球，考驗(yàn)的是IP世界觀的建設(shè)能力。如果說在
傳統(tǒng)互聯(lián)網(wǎng)與區(qū)塊鏈場景下數(shù)據(jù)權(quán)利法律分析

數(shù)據(jù)權(quán)益的復(fù)雜性在于數(shù)據(jù)涉及多環(huán)節(jié)多主體、內(nèi)容不同質(zhì)且與不同場景緊密聯(lián)系、對軟硬件技術(shù)環(huán)節(jié)緊密相關(guān)等方面的復(fù)雜性。在傳統(tǒng)互聯(lián)網(wǎng)與區(qū)塊鏈模式下，數(shù)據(jù)處
Interface正大光明的“跑路”，社區(qū)成員贊格局大

今日凌晨，一個廣泛受社區(qū)期待的潛力藍(lán)籌項(xiàng)目Interfaces突然發(fā)文宣布項(xiàng)目停止運(yùn)營，后續(xù)也不會有鑄造NFT系列的活動。這對社區(qū)來說就是一重磅炸彈，大多數(shù)人完全不明
這個好萊塢影視制作公司涉足NFT，讓持有者在制作中發(fā)揮作用

前米高梅首席執(zhí)行官Roger Birnbaum和AOL的接班人Mark Kimsey成立了一個新的好萊塢工作室，提供 NFT，讓持有者在制作中發(fā)揮作用Electromagnetic Productions 創(chuàng)始
在互聯(lián)網(wǎng)考古后，我被豆瓣上這座元宇宙古城征服了

最近一段時間，豆瓣可謂命途多舛：APP屢次下架，平臺也被相關(guān)部門約談、處罰，國家網(wǎng)信辦甚至派人入駐豆瓣以督促整改。有爆料稱豆瓣將陸續(xù)關(guān)閉“小組”功能：這個曾經(jīng)小

国产精品嫩草99av在线_一区在线视频观看_欧美高清一区_欧美日韩国产一区_99精品欧美一区二区三区_久久大香伊蕉在人线观看热2_一色屋精品视频在线观看网站_在线亚洲国产精品网站_亚洲区一区二区三区_你懂的视频一区二区

首頁

元宇宙

NFT

區(qū)塊鏈

虛擬人

AR/VR

AI

元宇宙百科

阿里巴巴與港中大攜手：SCRIT系統(tǒng)賦能AI，開啟自我糾錯與進(jìn)化新篇章

元宇宙終究沒火過兩年

內(nèi)容行業(yè)大變天，爆款全靠AI？

【申萬宏源】必然的碎片化AI落地，哪種路徑可能勝出？ | 元宇宙Meta洞見

完美世界被元宇宙“拒之門外”

從冰墩墩到無聊猿，解秘未來IP爆款的模因

傳統(tǒng)互聯(lián)網(wǎng)與區(qū)塊鏈場景下數(shù)據(jù)權(quán)利法律分析

Interface正大光明的“跑路”，社區(qū)成員贊格局大

這個好萊塢影視制作公司涉足NFT，讓持有者在制作中發(fā)揮作用

在互聯(lián)網(wǎng)考古后，我被豆瓣上這座元宇宙古城征服了

最新推薦

元宇宙終究沒火過兩年

人間誠實(shí)周鴻祎：360 All in 大模型的六個解讀

2022 區(qū)塊鏈 50 強(qiáng)榜單；垃圾NFT項(xiàng)目的十三個特性

避坑指南：遠(yuǎn)離具有這些特性的NFT

NFT盜竊案：為什么NFT市場被盜竊和黑客所困擾？

Meta 在衰落嗎？

猜你喜歡

熱門推薦

相關(guān)資訊