當(dāng)前位置：首頁 > 元宇宙 > AI

百川智能上線開源全模態(tài)模型 Omni-1.5，號稱多項能力超越 GPT-4o mini

來源：責(zé)編：時間：2025-01-28 08:57:22 126觀看

導(dǎo)讀 1 月 26 日消息，百川智能今日宣布，Baichuan-Omni-1.5 開源全模態(tài)模型正式上線。該模型不僅支持文本、圖像、音頻和視頻的全模態(tài)理解，還具備文本和音頻的雙模態(tài)生成能力。官方宣稱，其在視覺、語音及多模態(tài)流式處理

1 月 26 日消息，百川智能今日宣布，Baichuan-Omni-1.5 開源全模態(tài)模型正式上線。該模型不僅支持文本、圖像、音頻和視頻的全模態(tài)理解，還具備文本和音頻的雙模態(tài)生成能力。

官方宣稱，其在視覺、語音及多模態(tài)流式處理等方面，Baichuan-Omni-1.5 的表現(xiàn)均優(yōu)于 GPT-4o mini；在多模態(tài)醫(yī)療應(yīng)用領(lǐng)域，其具備更突出的領(lǐng)先優(yōu)勢。

Baichuan-Omni-1.5 不僅能在輸入和輸出端實現(xiàn)多種交互操作，還擁有強大的多模態(tài)推理能力和跨模態(tài)遷移能力。

其在音頻技術(shù)領(lǐng)域采用了端到端解決方案，可支持多語言對話、端到端音頻合成，還可實現(xiàn)自動語音識別、文本轉(zhuǎn)語音等功能，且支持音視頻實時交互。

據(jù)介紹，在視頻理解能力方面，Baichuan-Omni-1.5 通過對編碼器、訓(xùn)練數(shù)據(jù)和訓(xùn)練方法等多個關(guān)鍵環(huán)節(jié)進行深入優(yōu)化，其整體性能大幅超越 GPT-4o-mini。

模型結(jié)構(gòu)方面，Baichuan-Omni-1.5 的模型輸入部分支持各種模態(tài)通過相應(yīng)的 Encoder / Tokenizer 輸入到大型語言模型中。

而在模型輸出部分，Baichuan-Omni-1.5 采用了文本-音頻交錯輸出的設(shè)計，通過 Text Tokenizer 和 Audio Decoder 同時生成文本和音頻。

百川智能構(gòu)建了一個包含 3.4 億條高質(zhì)量圖片 / 視頻-文本數(shù)據(jù)和近 100 萬小時音頻數(shù)據(jù)的龐大數(shù)據(jù)庫，且在 SFT 階段使用了 1700 萬條全模態(tài)數(shù)據(jù)。

附開源地址如下：

GitHub：

https://github.com/baichuan-inc/Baichuan-Omni-1.5

模型權(quán)重：

Baichuan-Omni-1.5：

https://huggingface.co/baichuan-inc/Baichuan-Omni-1d5

https://modelers.cn/models/Baichuan/Baichuan-Omni-1d5

Baichuan-Omni-1.5-Base：

https://huggingface.co/baichuan-inc/Baichuan-Omni-1d5-Base

https://modelers.cn/models/Baichuan/Baichuan-Omni-1d5-Base

技術(shù)報告：

https://github.com/baichuan-inc/Baichuan-Omni-1.5/blob/main/baichuan_omni_1_5.pdf

本文鏈接：http://www.rrqrq.com/showinfo-45-10216-0.html百川智能上線開源全模態(tài)模型 Omni-1.5，號稱多項能力超越 GPT-4o mini

聲明：本網(wǎng)頁內(nèi)容旨在傳播知識，若有侵權(quán)等問題請及時與本網(wǎng)聯(lián)系，我們將在第一時間刪除處理。郵件：[email protected]

上一篇： Hugging Face 推出號稱“世界上最小的視覺語言模型”SmolVLM-256M

下一篇：印度首富計劃建設(shè)“世界最大”數(shù)據(jù)中心，預(yù)計投資 200~300 億美元

標(biāo)簽：

熱門焦點

元宇宙這一年：技術(shù)加速落地，助傳統(tǒng)行業(yè)走向新階段

美國當(dāng)?shù)貢r間1月8日，2023年CES（消費電子展覽會）完美落幕。而在這項一年一度的科技圈盛事中，元宇宙仍是主角和焦點之一。索尼在1月6日發(fā)布了備受關(guān)注的PS VR 2頭顯
【東方證券】虛擬世界照進現(xiàn)實，元宇宙中有什么？ | 元宇宙Meta洞見

元宇宙的表現(xiàn)形式大多以游戲為起點，并逐漸整合互聯(lián)網(wǎng)、數(shù)字化娛樂、社交網(wǎng)絡(luò)等功能，長期來看甚至可以整合社會經(jīng)濟與商業(yè)活動。元宇宙的發(fā)展最關(guān)鍵的部分在于元
冰墩墩NFT遇冷，價格跌80%，日成交僅3筆。

“兩日上漲千倍”并不存在，且冰墩墩NFT的市場熱度遠不及社交媒體所稱的那樣高。2月11日，獲得國際奧委會授權(quán)的2022冬奧會吉祥物冰墩墩相關(guān)NFT產(chǎn)品在nWayPlay上線
高通成立歐洲XR實驗室；ICICB計劃進軍元宇宙......

擴展現(xiàn)實（XR）通過計算機將真實與虛擬相結(jié)合，打造了一個可人機交互的虛擬環(huán)境，將AR、VR、MR多種技術(shù)相融合，為體驗者帶來了虛擬世界與現(xiàn)實世界之間無縫轉(zhuǎn)換的“沉浸
餐桌上怎么變出元宇宙？

作者：星影“元宇宙讓餐飲業(yè)脫胎換骨。”實體的餐飲與虛擬的元宇宙，看起來風(fēng)馬牛不相及，但最近全世界的餐飲企業(yè)都掀起了一股注冊元宇宙商標(biāo)的熱潮。2月初，全球最大
虛擬數(shù)字人：元宇宙的主角破圈而來

虛擬數(shù)字人市場逐步進入成熟期，商業(yè)化進程加速。1982年世界第一位虛擬歌姬林明美誕生，虛擬數(shù)字人行業(yè)經(jīng)歷了萌芽、探索、初級和成長四個階段。隨技術(shù)逐年突破，制
Kitten Coup社區(qū)反轉(zhuǎn)Cool Kittens NFT騙局

當(dāng)狂熱的加密愛好者將金錢投入到NFT圖片時，渾水摸魚的騙局隨之而來，Cool Kittens NFT便是其中一個作惡者，該項目于去年11月在Sonala鏈上啟動小貓形象的NFT鑄造及
知名藝術(shù)家打造去中心化“好萊塢”：一部電影一個DAO

根據(jù)市場追蹤網(wǎng)站 DappRadar 的數(shù)據(jù)，隨著 NFT 的“出圈”與加密貨幣的普及，NFT 市場在 2021 年的銷售額達到約 250 億美元，而 2020 年僅為 9490 萬美元，同比增超 2
在互聯(lián)網(wǎng)考古后，我被豆瓣上這座元宇宙古城征服了

最近一段時間，豆瓣可謂命途多舛：APP屢次下架，平臺也被相關(guān)部門約談、處罰，國家網(wǎng)信辦甚至派人入駐豆瓣以督促整改。有爆料稱豆瓣將陸續(xù)關(guān)閉“小組”功能：這個曾經(jīng)小

国产精品嫩草99av在线_一区在线视频观看_欧美高清一区_欧美日韩国产一区_99精品欧美一区二区三区_久久大香伊蕉在人线观看热2_一色屋精品视频在线观看网站_在线亚洲国产精品网站_亚洲区一区二区三区_你懂的视频一区二区

首頁

元宇宙

NFT

區(qū)塊鏈

虛擬人

AR/VR

AI

元宇宙百科

百川智能上線開源全模態(tài)模型 Omni-1.5，號稱多項能力超越 GPT-4o mini

元宇宙這一年：技術(shù)加速落地，助傳統(tǒng)行業(yè)走向新階段

【東方證券】虛擬世界照進現(xiàn)實，元宇宙中有什么？ | 元宇宙Meta洞見

冰墩墩NFT遇冷，價格跌80%，日成交僅3筆。

高通成立歐洲XR實驗室；ICICB計劃進軍元宇宙......

餐桌上怎么變出元宇宙？

虛擬數(shù)字人：元宇宙的主角破圈而來

Kitten Coup社區(qū)反轉(zhuǎn)Cool Kittens NFT騙局

知名藝術(shù)家打造去中心化“好萊塢”：一部電影一個DAO

在互聯(lián)網(wǎng)考古后，我被豆瓣上這座元宇宙古城征服了

最新推薦

人間誠實周鴻祎：360 All in 大模型的六個解讀

保時捷推出虛擬超跑，車企元宇宙營銷這么香？

字節(jié)、騰訊、網(wǎng)易鏖戰(zhàn)元宇宙背后，大廠究竟在爭奪什么？

以太坊倫敦升級后，隨之生效的以太坊EIP-1559是什么？

大廠打造元宇宙平臺的業(yè)務(wù)重心是什么？

虛擬偶像行業(yè)的商用價值逐漸凸顯，IP生態(tài)圈也逐漸成型

猜你喜歡

熱門推薦

相關(guān)資訊