1 月 28 日消息,阿里通義千問官方今日發(fā)文宣布,開源全新的視覺理解模型 Qwen2.5-VL——Qwen 模型家族的旗艦視覺語言模型,推出了 3B、7B 和 72B 三個(gè)尺寸版本。

附 Qwen2.5-VL 的主要特點(diǎn)如下:
視覺理解:Qwen2.5-VL 不僅擅長(zhǎng)識(shí)別常見物體,如花、鳥、魚和昆蟲,還能夠分析圖像中的文本、圖表、圖標(biāo)、圖形和布局。
代理:Qwen2.5-VL 直接作為一個(gè)視覺 Agent,可以推理并動(dòng)態(tài)地使用工具,初步具備了使用電腦和使用手機(jī)的能力。
理解長(zhǎng)視頻和捕捉事件:Qwen2.5-VL 能夠理解超過 1 小時(shí)的視頻,并且這次它具備了通過精準(zhǔn)定位相關(guān)視頻片段來捕捉事件的新能力。
視覺定位:Qwen2.5-VL 可以通過生成 bounding boxes 或者 points 來準(zhǔn)確定位圖像中的物體,并能夠?yàn)樽鴺?biāo)和屬性提供穩(wěn)定的 JSON 輸出。
結(jié)構(gòu)化輸出:對(duì)于發(fā)票、表單、表格等數(shù)據(jù),Qwen2.5-VL 支持其內(nèi)容的結(jié)構(gòu)化輸出,惠及金融、商業(yè)等領(lǐng)域的應(yīng)用。
據(jù)官方介紹,在旗艦?zāi)P?Qwen2.5-VL-72B-Instruct 的測(cè)試中,它在一系列涵蓋多個(gè)領(lǐng)域和任務(wù)的基準(zhǔn)測(cè)試中表現(xiàn)出色,包括大學(xué)水平的問題、數(shù)學(xué)、文檔理解、視覺問答、視頻理解和視覺 Agent。Qwen2.5-VL 在理解文檔和圖表方面具有優(yōu)勢(shì),并且能夠作為視覺 Agent 進(jìn)行操作,而無需特定任務(wù)的微調(diào)。

另外,在較小的模型方面,Qwen2.5-VL-7B-Instruct 在多個(gè)任務(wù)中超越了 GPT-4o-mini,而 Qwen2.5-VL-3B 作為端側(cè) AI 的潛力股,超越了之前版本 Qwen2-VL 的 7B 模型。


阿里通義千問官方表示,與 Qwen2-VL 相比,Qwen2.5-VL 增強(qiáng)了模型對(duì)時(shí)間和空間尺度的感知能力,并進(jìn)一步簡(jiǎn)化了網(wǎng)絡(luò)結(jié)構(gòu)以提高模型效率。后續(xù)將進(jìn)一步提升模型的問題解決和推理能力,同時(shí)整合更多模態(tài),使模型變得更加智能,并向能夠處理多種輸入類型和任務(wù)的綜合全能模型邁進(jìn)。
本文鏈接:http://www.rrqrq.com/showinfo-45-10327-0.html阿里通義千問全新視覺理解模型 Qwen2.5-VL 開源:三尺寸版本、支持理解長(zhǎng)視頻和捕捉事件等能力
聲明:本網(wǎng)頁內(nèi)容旨在傳播知識(shí),若有侵權(quán)等問題請(qǐng)及時(shí)與本網(wǎng)聯(lián)系,我們將在第一時(shí)間刪除處理。郵件:[email protected]
上一篇: DeepSeek 深夜再放大招:7B 參數(shù)人人可用的視覺多模態(tài)模型 Janus-Pro-7B 開源
下一篇: DeepSeek 應(yīng)用在意大利應(yīng)用商店下架,此前曾被該國隱私監(jiān)管機(jī)構(gòu)盯上