7 月 5 日消息,商湯科技發(fā)布“日日新 SenseNova 5.5”大模型體系,并發(fā)布國內(nèi)首個(gè)所見即所得模型“日日新 5o”,交互效果對(duì)標(biāo) GPT-4o。

通過整合跨模態(tài)信息,基于聲音、文本、圖像和視頻等多種形式,“日日新 5o”帶來全新的 AI 交互模式 —— 實(shí)時(shí)的流式多模態(tài)交互。
據(jù)介紹,“日日新 5o”能聽、會(huì)看、更會(huì)找話題,就如同“真人聊天一般”,這種交互模式適用于實(shí)時(shí)對(duì)話和語音識(shí)別等應(yīng)用,能夠在同一模型中自然處理多種任務(wù),且根據(jù)不同上下文自適應(yīng)調(diào)整行為和輸出。
日日新 5.5 是國內(nèi)首個(gè)正式發(fā)布的流式原生多模態(tài)交互模型,模型訓(xùn)練基于超過 10TB tokens 高質(zhì)量訓(xùn)練數(shù)據(jù),包括大量高質(zhì)量的人工合成數(shù)據(jù),構(gòu)建了高階思維鏈。模型采用混合端云協(xié)同架構(gòu),擁有 6000 億參數(shù),可最大限度發(fā)揮云邊端協(xié)同,達(dá)到 109.5 字 / 秒的推理速度。
據(jù)此前報(bào)道,商湯科技在世界人工智能大會(huì)上還發(fā)布了首個(gè)“可控”人物視頻生成大模型 Vimi,通過一張任意風(fēng)格的照片就能生成和目標(biāo)動(dòng)作一致的人物類視頻,并支持多種驅(qū)動(dòng)方式,可通過已有人物視頻、動(dòng)畫、聲音、文字等多種元素進(jìn)行驅(qū)動(dòng)。
本文鏈接:http://www.rrqrq.com/showinfo-45-4988-0.html交互效果對(duì)標(biāo) GPT-4o,商湯發(fā)布國內(nèi)首個(gè)所見即所得模型“日日新 5o”
聲明:本網(wǎng)頁內(nèi)容旨在傳播知識(shí),若有侵權(quán)等問題請(qǐng)及時(shí)與本網(wǎng)聯(lián)系,我們將在第一時(shí)間刪除處理。郵件:[email protected]
上一篇: 阿里通義 App 上線“追星星的 AI”:國內(nèi)首個(gè)關(guān)照孤獨(dú)癥兒童的 AI 繪本