怎樣判定生成式語言大模型會(huì)否“一本正經(jīng)地胡說八道”?如何知道自動(dòng)駕駛系統(tǒng)能夠抵抗得住外界惡意攻擊?功能強(qiáng)大的AI(人工智能)大模型也需要“健康檢測(cè)”,以確保其準(zhǔn)確性、抗攻擊性及安全性。
近日,上海首家生成式人工智能(AIGC)質(zhì)量檢驗(yàn)檢測(cè)中心掛牌批籌,為AI大模型等智能軟件提供專業(yè)化“體檢”。掛牌兩個(gè)月來,這家AI質(zhì)檢中心已出具75份“體檢報(bào)告”。
在AI質(zhì)檢火爆的背后,折射出整個(gè)產(chǎn)業(yè)對(duì)于行業(yè)質(zhì)量規(guī)范的渴求。盡管目前AI檢測(cè)尚屬于企業(yè)自主行為,但未來對(duì)于大模型安全性、可解釋性、倫理風(fēng)險(xiǎn)的檢測(cè)檢驗(yàn),將會(huì)形成國(guó)家強(qiáng)制標(biāo)準(zhǔn)。上海這一探索將在檢測(cè)與標(biāo)準(zhǔn)同步發(fā)展的新模式下,對(duì)生成式AI產(chǎn)業(yè)的規(guī)范與引領(lǐng)產(chǎn)生積極影響。
給ChatGPT做測(cè)評(píng),為AI系統(tǒng)“質(zhì)量保障”探路
走進(jìn)上海市北高新區(qū)區(qū)塊鏈谷,籌建中的上海生成式人工智能質(zhì)檢中心里,一臺(tái)臺(tái)電腦中正奔跑著AI“體檢”軟件。
今年,ChatGPT帶動(dòng)了生成式人工智能應(yīng)用的火爆。我國(guó)迄今已推出上百個(gè)大模型,如何客觀地評(píng)價(jià)、比較大語言模型及其他AIGC模型的性能,成為大模型應(yīng)用的關(guān)鍵一環(huán)。
上海計(jì)算機(jī)軟件技術(shù)開發(fā)中心主任蔡立志介紹,軟件中心是上海科學(xué)院的直屬單位,作為一家長(zhǎng)期以為網(wǎng)絡(luò)安全保駕護(hù)航為使命的研究機(jī)構(gòu),從2016年起就關(guān)注人工智能的安全問題,迄今已開展了2000多項(xiàng)AI檢測(cè)業(yè)務(wù)。
在多年技術(shù)與行業(yè)經(jīng)驗(yàn)積累的基礎(chǔ)上,經(jīng)過近兩年的準(zhǔn)備,上海市生成式人工智能質(zhì)檢中心于兩個(gè)月前在軟件中心正式掛牌批籌。“掛牌后不久,我們就給ChatGPT做了一次測(cè)評(píng)。”上海計(jì)算機(jī)軟件技術(shù)開發(fā)中心軟件工程研究所副所長(zhǎng)陳敏剛博士透露,測(cè)評(píng)的確可以對(duì)生成式語言大模型的推理、抗幻覺、理解用戶意圖等能力,進(jìn)行客觀評(píng)價(jià)。
蔡立志介紹,質(zhì)檢中心主要面向生成式人工智能所涉及的計(jì)算機(jī)視覺、自然語言處理、內(nèi)容生成等領(lǐng)域,聚焦人工智能生成內(nèi)容語義表達(dá)能力、邏輯推理能力、合成內(nèi)容鑒別,以及功能、性能、安全性評(píng)估等,“通過提供全方位的測(cè)評(píng)服務(wù),以保障人工智能系統(tǒng)或應(yīng)用的質(zhì)量”。
AI“體檢”火爆,“守底線”更要引領(lǐng)產(chǎn)業(yè)
隨著大模型技術(shù)的快速進(jìn)步,在人工智能應(yīng)用不斷深入的同時(shí),利用AI換臉、合成語音進(jìn)行傳播虛假信息、行騙等危害社會(huì)的現(xiàn)象也不斷發(fā)生。
7月10日,國(guó)家網(wǎng)信辦等七部委聯(lián)合發(fā)文《生成式人工智能服務(wù)管理暫行辦法》,明確了AIGC服務(wù)提供者的責(zé)任,包括信息源可信責(zé)任、生成內(nèi)容合法合規(guī)責(zé)任、申報(bào)安全評(píng)估及算法備案責(zé)任。
“管理辦法的落地,需要專業(yè)的第三方機(jī)構(gòu)提供AI質(zhì)量檢驗(yàn)檢測(cè)服務(wù)。”蔡立志透露,質(zhì)檢中心去年籌建期間已完成300多個(gè)AI質(zhì)檢項(xiàng)目,“正式掛牌僅兩個(gè)月,就已出具75份相關(guān)檢測(cè)報(bào)告”。
由此可見,為AI做“體檢”的需求有多火爆。事實(shí)上,這項(xiàng)工作本身就是一項(xiàng)含金量極高的技術(shù)活兒。上海計(jì)算機(jī)軟件技術(shù)開發(fā)中心副主任宋俊典告訴記者,對(duì)于一些大型復(fù)雜AI系統(tǒng)的檢測(cè),甚至需要根據(jù)應(yīng)用場(chǎng)景專門搭建檢測(cè)檢驗(yàn)系統(tǒng),耗時(shí)可能長(zhǎng)達(dá)半年,同時(shí)還需要研發(fā)大量相關(guān)技術(shù)與標(biāo)準(zhǔn)。近三年來,上海軟件中心為上海乃至長(zhǎng)三角地區(qū)人工智能企業(yè)與應(yīng)用方提供專業(yè)的第三方測(cè)評(píng)服務(wù)數(shù)年均超過500項(xiàng),累計(jì)發(fā)布AI檢測(cè)相關(guān)標(biāo)準(zhǔn)30余項(xiàng)。
“對(duì)于AI的質(zhì)量檢測(cè),只有好與差之分,沒有對(duì)與錯(cuò)的判斷。”宋俊典解釋,通過質(zhì)檢,廠商能更清晰地了解AI軟件的性能,對(duì)產(chǎn)品的迭代與優(yōu)化更有針對(duì)性。
檢測(cè)檢驗(yàn)是行業(yè)話語權(quán)的重要標(biāo)志,檢測(cè)標(biāo)準(zhǔn)往往是一個(gè)行業(yè)的發(fā)展風(fēng)向標(biāo)。然而,對(duì)于人工智能這個(gè)飛速發(fā)展的領(lǐng)域,蔡立志認(rèn)為,不能簡(jiǎn)單套用傳統(tǒng)產(chǎn)業(yè)“先立標(biāo)準(zhǔn)后檢測(cè)”的“守底線”模式,而應(yīng)采用檢測(cè)與標(biāo)準(zhǔn)同步發(fā)展的新型模式,以起到規(guī)范、引領(lǐng)產(chǎn)業(yè)的作用。
據(jù)悉,目前AI檢測(cè)尚屬于企業(yè)自主行為,未來對(duì)于大模型的安全性、可解釋性、倫理風(fēng)險(xiǎn)的檢測(cè)檢驗(yàn),可能會(huì)形成國(guó)家強(qiáng)制標(biāo)準(zhǔn)。(記者 許琦敏)
本文鏈接:http://www.rrqrq.com/showinfo-16-4890-0.html防范“野蠻生長(zhǎng)”,規(guī)范引導(dǎo)AIGC向上向善
聲明:本網(wǎng)頁(yè)內(nèi)容旨在傳播知識(shí),若有侵權(quán)等問題請(qǐng)及時(shí)與本網(wǎng)聯(lián)系,我們將在第一時(shí)間刪除處理。郵件:2376512515@qq.com