短短幾個月內,幾乎每一家擁有智能語音技術能力的大廠都在采取行動布局虛擬數(shù)字人。
百度、華為、阿里等都紛紛引入AI數(shù)字人入職,擔任技術宣講員、形象代言人;OPPO、小米接連宣布其智能語音助手的虛擬形象;騰訊聯(lián)合搜狗一口氣推出了五款數(shù)智人,為企業(yè)定制智能客服、數(shù)字員工;科大訊飛、華為、OPPO、英偉達等都推出了虛擬人生成或交互平臺……
左圖為抖音網紅“阿喜”,右圖為虛擬女團“A-SOUL”
他們出現(xiàn)在手機APP里、帶屏智能音箱上,以活潑生動的形象充當用戶的智能助手,甚至讓喜歡的偶像對自己“言聽計從”,做信息搜索等語音識別服務;
在新華社上線的AI合成女主播
他們出現(xiàn)在各種服務場合里,在金融、醫(yī)療等APP的客服界面中,像真人一樣和需要答疑解惑的用戶進行互動,連續(xù)7×24小時提供服務……
除了國內,國外虛擬數(shù)字人也十分火熱,比如近日,韓國的創(chuàng)企DeepBrain AI正在用提供能代替群眾演員的虛擬數(shù)字演員;2019年,一位名為“安德魯”的美國作家在AI技術的幫助下有了首個孿生“數(shù)字人”,用以在百年之后依然在云端陪伴家人……
從實驗室到現(xiàn)實應用場景,從無智能交互能力到有智能交互,從2C端市場到2B市場……
據(jù)我們不完全統(tǒng)計,在過去2~3年里,國內以“數(shù)字人”、“虛擬人”、“數(shù)智人”等標簽出道并引起關注的虛擬數(shù)字人物眾多。目前,已經有眾多虛擬數(shù)字人具備智能驅動或交互功能,究其背后推手,有很多都是2017~2019年那場智能音箱大戰(zhàn)中的頭部選手,以及其他智能語音玩家。
“虛擬數(shù)字人”一詞最早源于1989年美國國立醫(yī)學圖書館發(fā)起的“可視人計劃”(Visible Human Project, YHP)。1982 年,日本動畫《超時空要塞》的女主角林明美被包裝成歌手,成為世界上第一位虛擬歌姬。2007年,“初音未來”在日本誕生于成本較高的CG(計算機動畫)技術,是第一個被廣泛認可的虛擬數(shù)字人 。近年來,隨著深度學習算法突破,智能驅動的虛擬數(shù)字人開始嶄露頭角。
從視覺發(fā)展角度來看,當下虛擬數(shù)字人在“捏臉”設計人形的環(huán)節(jié)門檻降低,往視覺形象上加智能驅動和交互能力成為新趨勢。當我們反過來從智能語音交互技術發(fā)展的角度來看,語音助手正在實現(xiàn)技術的變道和升維,進化為多模態(tài)的虛擬數(shù)字人。
虛擬數(shù)字人正在成為令智能語音玩家興奮的新故事。在這個故事中,語音助手更加具有人情味,但這與“元宇宙”中的虛擬人不同的是,它們更關注促進現(xiàn)實世界的產業(yè)數(shù)字化轉型。
正如騰訊智能產品副總裁李學朝在采訪中談到他的觀點:元宇宙很火,但騰訊現(xiàn)在主要是當成數(shù)字世界的打造的數(shù)字員工,它與“元宇宙”中的虛擬人有技術上的重疊,但騰訊打造數(shù)智人不是往元宇宙方向,而是從數(shù)字員工怎么更好的服務行業(yè)場景。
相比于元宇宙,虛擬數(shù)字人顯然是一個更加落到實處、更聚焦的技術應用領域,擁有從To C到To B的更廣大市場想象空間。
作為智能語音技術的主要落地方向,在前兩年還炙手可熱的“語音助手”故事,如今似乎已不再動聽?!安幌袢恕?、“缺乏人情味”是被廣為吐槽的點。
就拿各大玩家悉數(shù)入局的智能音箱來說,2018年出貨增長1051.8%,2019年繼續(xù)翻一番達4589萬臺(IDC咨詢數(shù)據(jù)),智能音箱一度成為百度、阿里、小米等玩家進行瘋狂技術和價格戰(zhàn)的大戰(zhàn)場。然而,市場行情卻在2020年以來陡轉直下——2020上半年同比下降14.8%,2021年最新數(shù)據(jù)顯示第三季度同比下降1.5%,智能音箱告別高速增長期,究其背后原因,離不開“傻瓜對話”、“難以理解深度含義”等技術上的發(fā)展瓶頸。
以“智能音箱”為代表的語音助手故事再難以引起市場和資本的太大興奮,但令一眾智能語音玩家欣慰的是,一個圍繞“虛擬數(shù)字人”新形態(tài)展開的新故事、新玩法已經雛形初顯。
這是一個池子更大、場景更豐富的市場,而各大智能語音助手早已入局,成為這一領域的龍頭玩家。根據(jù)調查機構頭豹研究所發(fā)布的預測,當前虛擬數(shù)字人市場規(guī)模已超2000億元,2030年有望達2703億元。
1、騰訊聯(lián)合搜狗VS百度,互聯(lián)網巨頭之戰(zhàn)打響
在互聯(lián)網玩家陣營中,騰訊和搜狗聯(lián)合組成的戰(zhàn)隊無疑是打頭陣的玩家。就在11月剛剛舉辦的騰訊數(shù)字生態(tài)大會上,騰訊一口氣推出五款不同能力的數(shù)智人,面向AI播報、手語播報、客服對話等場景有需求的客戶賦能;同時,騰訊推出一款“云小微”數(shù)智人平臺,這也成為整個騰訊云智能發(fā)力產業(yè)互聯(lián)網的三大平臺之一。
浦發(fā)銀行行長親手為小浦佩戴上了正式員工工牌
百度創(chuàng)始人李彥宏曾透露了自己做虛擬人的一大初衷:因為想在懷念時,與過世的父親溝通,他認為這種情感需求會促進虛擬人交互方式產生很大的市場。
百度早在2010年就率先成立了“自然語言處理部門”,據(jù)彭博報道,從自然語言處理到語音交互領域,百度過去十年中已投入了數(shù)十億美元。百度的虛擬數(shù)字人背后是實打實研發(fā)資金砸出來的,可以說可與騰訊+搜狗一敵高下。接下來,要看的就是誰能夠在這條賽道找到更加巧妙應用場景。
再看看其他曾經參團“智能語音助手”大戰(zhàn)的互聯(lián)網玩家,阿里、京東、網易都已迅速在一些垂直領域探索落地虛擬數(shù)字人。比如,阿里、京東近期紛紛將數(shù)字人引入電商,擔任代言人、賣貨人;網易也在教育、游戲等領域推出了文本驅動的虛擬講解員、虛擬講師等應用。
當然,更不能忽視字節(jié)跳動、快手這樣的新興移動互聯(lián)網玩家,它們原生具有人工智能基因。比如字節(jié)跳動與樂華娛樂合作打造的“A-SOUL”的虛擬二次元女團獲得了無數(shù)的粉絲。虛擬主播領域已經展現(xiàn)出商業(yè)化價值,視頻網站嗶哩嗶哩數(shù)據(jù)顯示,2020年6月~2021年5月已有32,412位主播在其上開播,同比增長40%。
作為當下最接近“元宇宙”代言人Facebook的公司,下一步字節(jié)是否會為“A-SOUL”嵌入AI交互能力取代背后扮演的真人?這想想就很“元宇宙”。
可以看到,新老互聯(lián)網巨頭正成為虛擬數(shù)字人的主要玩家,背后的深層次邏輯也不再僅僅是它們擅長的“2C故事”。
當下,互聯(lián)網行業(yè)高速增長時代已經遠去,百度、騰訊、阿里等互聯(lián)網巨頭們比之前任何時候都更需要考慮第二增長曲線。虛擬數(shù)字人雖然看起來只是一條很小、且還很初期的賽道,卻可能暗藏云與AI技術在未來產業(yè)互聯(lián)網中的諸多新機遇。
2、科大訊飛商湯等AI玩家,可與互聯(lián)網巨頭一戰(zhàn)?
除了互聯(lián)網巨頭,AI企業(yè)也是這場“造人”派對的主場玩家。
其中,智能語音龍頭企業(yè)科大訊飛無疑是這一玩家陣營的龍頭。科大訊飛早在2012年就上線語音智能助手,2015年與京東聯(lián)合發(fā)布了國內第一款智能音箱“叮咚智能音箱”,而到了虛擬數(shù)字人時代,對于科大訊飛這樣的玩家來說更多是技術的自然演變。
去年1024開發(fā)者節(jié)現(xiàn)場,科大訊飛就推出了AI虛擬人5G交互一體機硬件,其虛擬數(shù)字人“愛加”已陸需進入春節(jié)拜年、“兩會”播報等應用場景。在今年10月剛剛過去的1024開發(fā)者節(jié)上,科大訊飛更進一步,推出了賦能B端生態(tài)伙伴的虛擬人交互平臺1.0,虛擬人家族形象已經達到了54位,并且還支持自定義形象,未來將在多模感知、情感貫穿、多維表達和自主定制上持續(xù)升級。
在過去很長一段時間里,智能語音技術的研究主要解決兩大挑戰(zhàn),第一大挑戰(zhàn)是圍繞著“聽得清”做研究,“前言不搭后語”,尤其是出現(xiàn)指代不明的問題,這主要是因為需要的數(shù)據(jù)以指數(shù)函數(shù)增加,但實際可用的對話數(shù)據(jù)太少。
第二大挑戰(zhàn),則是多模態(tài)——即除了語音,還通過視覺、觸覺等多種感知來支持機器對話決策,比如眼神、唇語等。
在克服第一重挑戰(zhàn)中,很多企業(yè)仍然還有很長的路再走。而在克服第二重挑戰(zhàn)的過程中,很多玩家看到了“虛擬數(shù)字人”這一條新路。既然語音識別的瓶頸一時難以破除,何不轉個彎,從多模態(tài)的角度讓AI更加像人,實現(xiàn)服務升級?
為此,虛擬數(shù)字人應運而生。當下國內這些布局虛擬數(shù)字人的公司,正是率先掌握了唇語識別技術進而將語音識別的準確度大大提升,形成了技術壁壘。
一般來說,市面上的虛擬數(shù)字人主要包括人物形象、語音生成、動畫生成、音視頻合成顯示、交互等5個模塊構成,其中多個環(huán)節(jié)主要用到的就是智能語音技術,以及智能語音與視覺融合的多模態(tài)技術。
圖源《2020年虛擬數(shù)字人發(fā)展白皮書》
在語音生成方面,基于文本生成對應的人物語音,主要采用了TTS(從文本到語音)技術,比如很多人知道的明星語音包,早已不是由明星一句句錄制,而是只需要錄制幾句話,就可以合成明星的聲音。
在動畫生成方面,2D、3D數(shù)字人的嘴型動作,基本可以靠AI模型實現(xiàn)智能合成。這是對已采集到的文本到語音和嘴型視頻(2D)/嘴型動畫(3D)的數(shù)據(jù)進行模型訓練,得到一個輸入任意文本都可以驅動嘴型的模型,再通過模型智能合成。但對于一些肢體動作來說,大多采取錄播形式。
另外,動態(tài)實時捕捉也是一種方案,光學式和慣性式動作捕捉占據(jù)主導地位,此外,基于計算機視覺的動作捕捉成為聚焦熱點。
交互模塊使得數(shù)字人具備交互功能,比如通過語音語義識別能實時明白用戶的意圖,并據(jù)此對用戶進行語音、表情、動作的反饋。這其中需要用到的基礎技術包括智能語音識別、自然語言處理、圖文合成技術等。交互能力并不是當下虛擬數(shù)字人的標配,也是智能語音玩家的門檻所在。
當下,深度學習技術的進步使得虛擬數(shù)字人技術成本越來越低,效果更好。但與此同時,虛擬數(shù)字人的規(guī)?;渴鹑匀幻媾R難點。
騰訊智能產品副總裁李學朝在接受智東西等媒體的采訪中指出:“當通過虛擬數(shù)字人這一外形變得更加像人,這樣用戶對數(shù)字人的期待就會變得更高。這時,如果語音交互能力依然得不到提升,‘答非所問’,其實得到的落差會更大?!睋Q句話說,逼真好看的外貌對智能語音應用只是錦上添花,在“人人捏臉”的時代,過硬的AI交互能力成為一大更核心的競爭力。
可以看到,盡管虛擬數(shù)字人為智能語音賽道帶來了新故事,但這并不代表智能語音玩家就可以完全繞開先前的障礙。這一難點,即便是在虛擬數(shù)字人階段,依然是玩家們繞不過去的大石頭。
此外,除了智能語音技術發(fā)展的瓶頸無法真正繞開,還需要注意的是安全問題。當虛擬數(shù)字人變得更像人,更加容易地牽動人的心智,也意味著可能的風險越大。比如,如果虛擬數(shù)字人如果用來制作現(xiàn)實人的形象,沒有得到本人的同意,可能帶來非常恐怖的影響。
可以看到,盡管一陣“元宇宙”的風讓大家對虛擬數(shù)字人都興奮不已,但回到虛擬數(shù)字人技術本身,這個動聽故事其實更接近智能語音玩家推進企業(yè)將產品和服務進入一個新的階段——從智能語音階段到虛擬數(shù)字人階段,從單維的智能語音技術到多模態(tài)技術,從消費互聯(lián)網市場拓展到產業(yè)互聯(lián)網市場……
而在這一新階段,不論是騰訊(搜狗)、科大訊飛這樣的老牌智能語音龍頭,還是百度、阿里、華米OV這樣的智能音箱時代的收割者,亦或者商湯、智源研究院、字節(jié)這樣的跨界新玩家,都正在爭奪入場券。
我們從中國智能語音技術十年發(fā)展脈絡來看,對于虛擬數(shù)字人新玩法的探索,不僅是一場搜狗(騰訊)和科大訊飛兩大智能語音技術龍頭的對拼,更是一場將整個互聯(lián)網、消費電子、行業(yè)玩家圈入混戰(zhàn)的開始。
從語音助手進化到虛擬數(shù)字人,是人工智能技術與人類交互方式進化新的重要節(jié)點。當然,正如騰訊李學朝指出的,當下,虛擬數(shù)字人發(fā)展仍處于探索階段,還有很長的路要走。這很有可能是一場智能語音賽道的升維戰(zhàn),也是AI交互領域的未來新戰(zhàn)場。
本文鏈接:http://www.rrqrq.com/showinfo-40-325-0.html從33款虛擬數(shù)字人,淺析虛擬數(shù)字人的應用前景
聲明:本網頁內容旨在傳播知識,若有侵權等問題請及時與本網聯(lián)系,我們將在第一時間刪除處理。郵件:2376512515@qq.com
下一篇: 音樂NFT平臺的藝術家入駐策略研究