快科技8月5日消息,今日,國(guó)家安全部發(fā)文提醒,人工智能的訓(xùn)練數(shù)據(jù)存在良莠不齊的問(wèn)題,其中不乏虛假信息、虛構(gòu)內(nèi)容和偏見(jiàn)性觀點(diǎn),造成數(shù)據(jù)源污染,給人工智能安全帶來(lái)新的挑戰(zhàn)。
據(jù)了解,人工智能的三大核心要素是算法、算力和數(shù)據(jù),其中數(shù)據(jù)是訓(xùn)練AI模型的基礎(chǔ)要素,也是AI應(yīng)用的核心資源。
高質(zhì)量的數(shù)據(jù)能夠顯著提升模型的準(zhǔn)確性和可靠性,但數(shù)據(jù)一旦受到污染,可能導(dǎo)致模型決策失誤甚至AI系統(tǒng)失效,存在一定的安全隱患。
通過(guò)篡改、虛構(gòu)和重復(fù)等“數(shù)據(jù)投毒”行為產(chǎn)生的污染數(shù)據(jù),將干擾模型在訓(xùn)練階段的參數(shù)調(diào)整,削弱模型性能、降低其準(zhǔn)確性,甚至誘發(fā)有害輸出。
研究顯示,當(dāng)訓(xùn)練數(shù)據(jù)集中僅有0.01%的虛假文本時(shí),模型輸出的有害內(nèi)容會(huì)增加11.2%。
即使是0.001%的虛假文本,其有害輸出也會(huì)相應(yīng)上升7.2%。
受到數(shù)據(jù)污染的人工智能生成的虛假內(nèi)容,可能成為后續(xù)模型訓(xùn)練的數(shù)據(jù)源,形成具有延續(xù)性的“污染遺留效應(yīng)”。
當(dāng)前,互聯(lián)網(wǎng)AI生成內(nèi)容在數(shù)量上已遠(yuǎn)超人類(lèi)生產(chǎn)的真實(shí)內(nèi)容,大量低質(zhì)量及非客觀數(shù)據(jù)充斥其中,導(dǎo)致AI訓(xùn)練數(shù)據(jù)集中的錯(cuò)誤信息逐代累積,終扭曲模型本身的認(rèn)知能力。
官方表示,數(shù)據(jù)污染還可能引發(fā)一系列現(xiàn)實(shí)風(fēng)險(xiǎn),尤其在金融市場(chǎng)、公共安全和醫(yī)療健康等領(lǐng)域。
在金融領(lǐng)域,不法分子利用AI炮制虛假信息,造成數(shù)據(jù)污染,可能引發(fā)股價(jià)異常波動(dòng),構(gòu)成新型市場(chǎng)操縱風(fēng)險(xiǎn);
在公共安全領(lǐng)域,數(shù)據(jù)污染容易擾動(dòng)公眾認(rèn)知、誤導(dǎo)社會(huì)輿論,誘發(fā)社會(huì)恐慌情緒;
在醫(yī)療健康領(lǐng)域,數(shù)據(jù)污染可能致使模型生成錯(cuò)誤診療建議,不僅危及患者生命安全,也加劇偽科學(xué)的傳播。

本文鏈接:http://www.rrqrq.com/showinfo-17-175571-0.html官方提醒警惕AI“數(shù)據(jù)投毒” 0.01%虛假訓(xùn)練文本可致有害內(nèi)容增加11.2%
聲明:本網(wǎng)頁(yè)內(nèi)容旨在傳播知識(shí),若有侵權(quán)等問(wèn)題請(qǐng)及時(shí)與本網(wǎng)聯(lián)系,我們將在第一時(shí)間刪除處理。郵件:2376512515@qq.com
上一篇: 銀行存款利率進(jìn)入0時(shí)代:你還會(huì)存錢(qián)不消費(fèi)嗎!
下一篇: 首個(gè)圖像生成基礎(chǔ)模型 阿里通義千問(wèn)深夜開(kāi)源Qwen-Image 支持中英雙語(yǔ)