【ITBEAR】蘋果公司近期宣布,其多模態(tài)AI大模型MM1.5正式推出,該模型基于前代MM1架構(gòu)進(jìn)行升級,擁有高達(dá)300億的參數(shù)規(guī)模。
MM1.5模型繼續(xù)堅(jiān)持?jǐn)?shù)據(jù)驅(qū)動(dòng)的訓(xùn)練原則,深入探索了不同訓(xùn)練周期中混合數(shù)據(jù)對模型性能的影響,相關(guān)模型文檔已在Hugging Face平臺(tái)發(fā)布。
此次推出的MM1.5模型提供了從10億到300億的多種參數(shù)規(guī)模選擇,具備圖像識別與自然語言推理的能力。

在新版本中,蘋果研發(fā)團(tuán)隊(duì)對數(shù)據(jù)混合策略進(jìn)行了優(yōu)化,顯著提升了模型在多文本圖像理解、視覺引用與定位以及多圖像推理等方面的性能。
據(jù)相關(guān)論文介紹,MM1.5在持續(xù)預(yù)訓(xùn)練階段引入了高質(zhì)量的OCR數(shù)據(jù)和合成圖像描述,大幅提高了模型對包含大量文本的圖像的理解能力。
研究人員在監(jiān)督式微調(diào)階段對不同數(shù)據(jù)類型對模型表現(xiàn)的影響進(jìn)行了深入分析,優(yōu)化了視覺指令微調(diào)數(shù)據(jù)的混合方式,使得即便是小規(guī)模的模型版本也能展現(xiàn)出出色的性能,實(shí)現(xiàn)了更高的效率。
蘋果公司還推出了專門用于視頻理解的MM1.5-Video模型以及專門處理移動(dòng)設(shè)備用戶界面(UI)理解的MM1.5-UI模型。
MM1.5-UI模型未來有望成為iOS背后的核心AI技術(shù),能夠處理各種視覺引用與定位任務(wù),總結(jié)屏幕上的功能,甚至通過與用戶的對話進(jìn)行交互。
本文鏈接:http://www.rrqrq.com/showinfo-45-9292-0.html蘋果新突破!300億參數(shù)AI大模型MM1.5,能識圖懂語
聲明:本網(wǎng)頁內(nèi)容旨在傳播知識,若有侵權(quán)等問題請及時(shí)與本網(wǎng)聯(lián)系,我們將在第一時(shí)間刪除處理。郵件:[email protected]
上一篇: AI醫(yī)療建議靠譜嗎?22%的回答可能致命!
下一篇: 騰訊研發(fā)全球首個(gè)大熊貓模型:實(shí)時(shí)識別、統(tǒng)計(jì)、分析大熊貓行為并生成報(bào)告