在人工智能領(lǐng)域,一項(xiàng)突破性研究為AI大模型的自我改進(jìn)能力開辟了新路徑。這項(xiàng)由阿里巴巴Qwen團(tuán)隊(duì)與香港中文大學(xué)深圳分校、深圳大數(shù)據(jù)研究院聯(lián)合完成的研究,提出了一種名為SCRIT的創(chuàng)新框架,讓AI能夠像人類一樣具備自我反思和糾錯(cuò)能力。該成果發(fā)表于2025年COLM會(huì)議,論文《Self-Evolving Critique Abilities in Large Language Models》詳細(xì)闡述了這一技術(shù)突破。
傳統(tǒng)AI大模型雖然能夠解決復(fù)雜問題,但在自我糾錯(cuò)方面存在明顯短板。當(dāng)人類評(píng)判員也難以判斷答案質(zhì)量時(shí),AI往往無法自主發(fā)現(xiàn)錯(cuò)誤。研究團(tuán)隊(duì)將這一挑戰(zhàn)比喻為培養(yǎng)一個(gè)完全依賴外界指導(dǎo)的學(xué)生學(xué)會(huì)自我反思。此前的方法要么依賴昂貴的人工標(biāo)注,要么需要更強(qiáng)大的AI模型作為指導(dǎo),但這些方案在AI能力接近人類水平時(shí)面臨瓶頸。
SCRIT系統(tǒng)的核心創(chuàng)新在于引入了對(duì)比學(xué)習(xí)機(jī)制。該系統(tǒng)通過分析標(biāo)準(zhǔn)答案與待評(píng)判答案的差異,使AI能夠像經(jīng)驗(yàn)豐富的教師一樣,先理解正確解題思路,再發(fā)現(xiàn)錯(cuò)誤所在。實(shí)驗(yàn)數(shù)據(jù)顯示,采用這種方法的AI評(píng)判準(zhǔn)確率顯著提升:在明確錯(cuò)誤答案的測(cè)試中,準(zhǔn)確率從39.7%提高到50.0%;在混合答案測(cè)試中,從57.7%提升至62.1%;即使面對(duì)自我生成的答案,準(zhǔn)確率也從61.7%穩(wěn)步增長(zhǎng)到62.9%。
為了訓(xùn)練這一系統(tǒng),研究團(tuán)隊(duì)構(gòu)建了龐大的數(shù)據(jù)工廠。他們從NuminaMath數(shù)據(jù)集出發(fā),收集了45.2萬個(gè)涵蓋小學(xué)到奧林匹克競(jìng)賽難度的數(shù)學(xué)問題。通過讓七個(gè)不同能力的AI模型生成解答,最終獲得了66.5萬個(gè)問題-解答對(duì),其中正確與錯(cuò)誤解答各占一半。這些數(shù)據(jù)經(jīng)過嚴(yán)格篩選,確保每個(gè)問題都包含可供對(duì)比學(xué)習(xí)的正確和錯(cuò)誤范例。
SCRIT的評(píng)判生成過程分為四個(gè)關(guān)鍵階段:首先解析標(biāo)準(zhǔn)答案中的核心數(shù)學(xué)概念,然后逐步檢查待評(píng)判答案的每個(gè)步驟,接著給出整體評(píng)判結(jié)論,最后提供完整的修正方案。特別值得注意的是,系統(tǒng)還會(huì)讓不同正確解答相互學(xué)習(xí),從而培養(yǎng)更靈活的評(píng)判思維。這種設(shè)計(jì)使AI能夠欣賞多樣化的解題方法,提高評(píng)判的全面性。
質(zhì)量把控是SCRIT系統(tǒng)的另一大亮點(diǎn)。研究團(tuán)隊(duì)引入了自我驗(yàn)證機(jī)制,要求AI按照提出的修改建議重新解題,只有能得到正確答案的評(píng)判才會(huì)被采用。這一機(jī)制顯著提高了評(píng)判質(zhì)量:在初始生成的評(píng)判結(jié)果中,僅有51.4%能通過質(zhì)量檢測(cè)。不同難度問題的通過率差異明顯,小學(xué)數(shù)學(xué)問題通過率達(dá)91.8%,而奧林匹克級(jí)別問題僅為27.1%。經(jīng)過篩選,最終獲得了34.2萬個(gè)高質(zhì)量的訓(xùn)練樣本。
在錯(cuò)誤識(shí)別測(cè)試中,SCRIT的表現(xiàn)更加突出。在PRM800K數(shù)據(jù)集上,F(xiàn)1分?jǐn)?shù)從37.8%躍升至45.0%,提升幅度達(dá)19.0%。數(shù)學(xué)推理任務(wù)上的提升尤為顯著,GSM8K數(shù)據(jù)集提升11.3個(gè)百分點(diǎn),MATH數(shù)據(jù)集提升9.1個(gè)百分點(diǎn)。這些數(shù)據(jù)證明,SCRIT不僅能夠判斷答案對(duì)錯(cuò),還能準(zhǔn)確定位第一個(gè)出錯(cuò)步驟,就像醫(yī)生能夠精確找出病灶位置。
對(duì)比實(shí)驗(yàn)揭示了SCRIT成功的關(guān)鍵因素。研究發(fā)現(xiàn),隨著訓(xùn)練數(shù)據(jù)增加,對(duì)比評(píng)判方法的效果持續(xù)提升,而傳統(tǒng)直接評(píng)判和錯(cuò)誤注入方法很快遇到瓶頸。當(dāng)訓(xùn)練數(shù)據(jù)達(dá)到17萬個(gè)樣本時(shí),對(duì)比方法準(zhǔn)確率達(dá)58.3%,遠(yuǎn)超直接方法的55.1%和錯(cuò)誤注入方法的49.0%。模型規(guī)模對(duì)效果影響顯著:參數(shù)從15億擴(kuò)展到720億的過程中,評(píng)判準(zhǔn)確率從41.7%大幅提升至58.3%,錯(cuò)誤識(shí)別能力從12.5%猛增至45.1%。
研究過程中的一個(gè)意外發(fā)現(xiàn)擴(kuò)展了SCRIT的應(yīng)用前景。用科學(xué)推理問題訓(xùn)練的SCRIT版本,不僅在科學(xué)任務(wù)上表現(xiàn)優(yōu)異,在數(shù)學(xué)任務(wù)上也保持競(jìng)爭(zhēng)力。在ARC-C、GPQA、MMLU-STEM等科學(xué)推理基準(zhǔn)測(cè)試中,系統(tǒng)實(shí)現(xiàn)了顯著性能提升。特別是用科學(xué)數(shù)據(jù)訓(xùn)練的版本在平衡解答測(cè)試中取得67.4%的成績(jī),比原始模型提升14.6個(gè)百分點(diǎn),顯示出強(qiáng)大的跨領(lǐng)域?qū)W習(xí)能力。
系統(tǒng)設(shè)計(jì)的細(xì)節(jié)優(yōu)化同樣值得關(guān)注。自我驗(yàn)證機(jī)制雖然只帶來0.8%的準(zhǔn)確率提升,但在錯(cuò)誤識(shí)別方面有3.0%的顯著改進(jìn)。使用多樣化問題領(lǐng)域訓(xùn)練的系統(tǒng),性能比單一領(lǐng)域訓(xùn)練的系統(tǒng)高1.4個(gè)百分點(diǎn)。有趣的是,訓(xùn)練數(shù)據(jù)中錯(cuò)誤解答比例更高時(shí)(25%正確:75%錯(cuò)誤),系統(tǒng)表現(xiàn)反而更好,說明見過更多錯(cuò)誤的AI更擅長(zhǎng)發(fā)現(xiàn)問題。
這項(xiàng)研究為AI發(fā)展開辟了新方向。在教育領(lǐng)域,配備SCRIT能力的AI教師能夠像專業(yè)輔導(dǎo)員一樣,準(zhǔn)確識(shí)別學(xué)生思維中的錯(cuò)誤并提供改進(jìn)建議。在科研領(lǐng)域,它為解決"可擴(kuò)展監(jiān)督"難題提供了新思路,使AI能夠在沒有更強(qiáng)監(jiān)督者的情況下持續(xù)改進(jìn)。更廣泛地說,這種自我對(duì)比和驗(yàn)證的機(jī)制可擴(kuò)展到代碼審查、文檔寫作、決策制定等多個(gè)需要質(zhì)量把控的領(lǐng)域。
盡管當(dāng)前版本主要適用于有明確正確答案的領(lǐng)域,如數(shù)學(xué)和科學(xué)推理,但其原理具有普遍適用性。研究團(tuán)隊(duì)指出,這項(xiàng)工作證明了AI可以通過內(nèi)在機(jī)制實(shí)現(xiàn)自我改進(jìn),不再完全依賴外部指導(dǎo)。隨著技術(shù)發(fā)展,未來的AI系統(tǒng)可能具備更全面的自我反思能力,這不僅會(huì)改變我們使用AI的方式,更可能推動(dòng)AI技術(shù)發(fā)展進(jìn)入新階段。
更多>同類資訊本文鏈接:http://www.rrqrq.com/showinfo-45-27786-0.html阿里巴巴與港中大攜手:SCRIT系統(tǒng)賦能AI,開啟自我糾錯(cuò)與進(jìn)化新篇章
聲明:本網(wǎng)頁(yè)內(nèi)容旨在傳播知識(shí),若有侵權(quán)等問題請(qǐng)及時(shí)與本網(wǎng)聯(lián)系,我們將在第一時(shí)間刪除處理。郵件:2376512515@qq.com
上一篇: 耶魯大學(xué)打造MMVU測(cè)試:AI專業(yè)視頻理解能力迎來“大考”
下一篇: 可靈AI數(shù)字人正式登場(chǎng) 極簡(jiǎn)操作實(shí)現(xiàn)高質(zhì)輸出