快科技9月13日消息,小米自研聲音識別算法在音頻標記(Audio Tagging)任務(wù)中取得重要進展。
以公開數(shù)據(jù)集AudioSet-2M的音頻數(shù)據(jù)作為訓練集的音頻標記模型,首次突破50 mAP的分數(shù),此項突破標志著小米聲音識別算法已在國際上性能排名第一。

據(jù)了解,Google將AudioSet數(shù)據(jù)集分為三個子集,前兩個子集用于訓練,被合并稱為 “AudioSet-2M”。正是在這個合并后的訓練集中,小米的聲音識別算法模型首次在業(yè)界突破了50 mAP,刷新了音頻標記技術(shù)指標,成為截至目前性能好的模型。
此外,小米還發(fā)布了一個Mini版模型,適合資源受限的場景。該模型的參數(shù)量被壓縮到了原模型的約九分之一,遠小于其他機構(gòu)的模型,但性能卻優(yōu)于其他所有機構(gòu)。

這項技術(shù)的突破意味著小米的聲音識別算法能力再次精進,小米的眾多智能硬件設(shè)備應用此項技術(shù)后,可以更敏銳地捕捉和識別環(huán)境聲音,大幅提升硬件的智能化程度,從而為用戶創(chuàng)造更加便捷的智能生活體驗。

小米此次精進后的聲音識別算法,具有極高的應用價值。它能夠廣泛應用于小米的智能設(shè)備中,大幅提升用戶的智能生活體驗。具體來說,音頻標記算法能夠識別廣泛的環(huán)境聲音,比如嬰兒的啼哭聲、動物叫聲、汽車引擎聲、爆炸聲、煙霧警報、門鈴聲、水流聲等,并讓環(huán)境中的聲音以文字等模態(tài)表達。
此外,這項算法技術(shù)還廣泛應用于小米機器人的研發(fā)中,大幅提升了機器人的感知能力。人形機器人CyberOne可以識別85種環(huán)境聲音,能夠通過聽覺感知6類、45種人類情緒。而小米第二代仿生四足機器人CyberDog 2則可以識別38種環(huán)境聲音,實現(xiàn)更強大的動態(tài)響應能力。

本文鏈接:http://www.rrqrq.com/showinfo-17-9300-0.html小米聲音識別算法性能新突破:國際排名第一
聲明:本網(wǎng)頁內(nèi)容旨在傳播知識,若有侵權(quán)等問題請及時與本網(wǎng)聯(lián)系,我們將在第一時間刪除處理。郵件:2376512515@qq.com