當(dāng)前位置：首頁 > 元宇宙 > AI

阿里通義千問全新視覺理解模型 Qwen2.5-VL 開源：三尺寸版本、支持理解長(zhǎng)視頻和捕捉事件等能力

來源：責(zé)編：時(shí)間：2025-01-31 10:30:12 151觀看

導(dǎo)讀 1 月 28 日消息，阿里通義千問官方今日發(fā)文宣布，開源全新的視覺理解模型 Qwen2.5-VL——Qwen 模型家族的旗艦視覺語言模型，推出了 3B、7B 和 72B 三個(gè)尺寸版本。附 Qwen2.5-VL 的主要特點(diǎn)如下：視覺理解：Qwen2.5-VL

1 月 28 日消息，阿里通義千問官方今日發(fā)文宣布，開源全新的視覺理解模型 Qwen2.5-VL——Qwen 模型家族的旗艦視覺語言模型，推出了 3B、7B 和 72B 三個(gè)尺寸版本。

附 Qwen2.5-VL 的主要特點(diǎn)如下：

視覺理解：Qwen2.5-VL 不僅擅長(zhǎng)識(shí)別常見物體，如花、鳥、魚和昆蟲，還能夠分析圖像中的文本、圖表、圖標(biāo)、圖形和布局。

代理：Qwen2.5-VL 直接作為一個(gè)視覺 Agent，可以推理并動(dòng)態(tài)地使用工具，初步具備了使用電腦和使用手機(jī)的能力。

理解長(zhǎng)視頻和捕捉事件：Qwen2.5-VL 能夠理解超過 1 小時(shí)的視頻，并且這次它具備了通過精準(zhǔn)定位相關(guān)視頻片段來捕捉事件的新能力。

視覺定位：Qwen2.5-VL 可以通過生成 bounding boxes 或者 points 來準(zhǔn)確定位圖像中的物體，并能夠?yàn)樽鴺?biāo)和屬性提供穩(wěn)定的 JSON 輸出。

結(jié)構(gòu)化輸出：對(duì)于發(fā)票、表單、表格等數(shù)據(jù)，Qwen2.5-VL 支持其內(nèi)容的結(jié)構(gòu)化輸出，惠及金融、商業(yè)等領(lǐng)域的應(yīng)用。

據(jù)官方介紹，在旗艦?zāi)Ｐ?Qwen2.5-VL-72B-Instruct 的測(cè)試中，它在一系列涵蓋多個(gè)領(lǐng)域和任務(wù)的基準(zhǔn)測(cè)試中表現(xiàn)出色，包括大學(xué)水平的問題、數(shù)學(xué)、文檔理解、視覺問答、視頻理解和視覺 Agent。Qwen2.5-VL 在理解文檔和圖表方面具有優(yōu)勢(shì)，并且能夠作為視覺 Agent 進(jìn)行操作，而無需特定任務(wù)的微調(diào)。

另外，在較小的模型方面，Qwen2.5-VL-7B-Instruct 在多個(gè)任務(wù)中超越了 GPT-4o-mini，而 Qwen2.5-VL-3B 作為端側(cè) AI 的潛力股，超越了之前版本 Qwen2-VL 的 7B 模型。

阿里通義千問官方表示，與 Qwen2-VL 相比，Qwen2.5-VL 增強(qiáng)了模型對(duì)時(shí)間和空間尺度的感知能力，并進(jìn)一步簡(jiǎn)化了網(wǎng)絡(luò)結(jié)構(gòu)以提高模型效率。后續(xù)將進(jìn)一步提升模型的問題解決和推理能力，同時(shí)整合更多模態(tài)，使模型變得更加智能，并向能夠處理多種輸入類型和任務(wù)的綜合全能模型邁進(jìn)。

本文鏈接：http://www.rrqrq.com/showinfo-45-10327-0.html阿里通義千問全新視覺理解模型 Qwen2.5-VL 開源：三尺寸版本、支持理解長(zhǎng)視頻和捕捉事件等能力

聲明：本網(wǎng)頁內(nèi)容旨在傳播知識(shí)，若有侵權(quán)等問題請(qǐng)及時(shí)與本網(wǎng)聯(lián)系，我們將在第一時(shí)間刪除處理。郵件：[email protected]

上一篇： DeepSeek 深夜再放大招：7B 參數(shù)人人可用的視覺多模態(tài)模型 Janus-Pro-7B 開源

下一篇： DeepSeek 應(yīng)用在意大利應(yīng)用商店下架，此前曾被該國隱私監(jiān)管機(jī)構(gòu)盯上

標(biāo)簽：

熱門焦點(diǎn)

大廠元宇宙，又菜又愛玩

撰文 | 吳先之編輯 | 王潘當(dāng)下所有大廠推出的元宇宙產(chǎn)品，所能帶來的沉浸式體驗(yàn)并不多，好在國內(nèi)外科技巨頭在bug方面都處在同一水平線。以Meta為例，由于VR頭顯設(shè)
游戲玩家才是最“元宇宙”的

01元宇宙的概念，最早由科幻作家尼爾·斯蒂芬森于1992年在其著作《雪崩》中提出。它指的是一個(gè)脫胎于現(xiàn)實(shí)世界，又與現(xiàn)實(shí)世界平行、相互影響，并且始終在線的虛擬世
Web3 去中心化身份管理系統(tǒng)的歷史、現(xiàn)狀與展望

身份、數(shù)字資產(chǎn)和在線資料的映射最近在區(qū)塊鏈行業(yè)獲得了極大的關(guān)注。新技術(shù)正在形成架構(gòu)，這將進(jìn)一步為去中心化和以用戶為中心的機(jī)制鋪平道路。本文將討論以下
冰墩墩的NFT暴漲千倍？真相則是價(jià)格暴跌、成交遇冷

《區(qū)塊鏈日?qǐng)?bào)》記者查證，近日來冰墩墩數(shù)字藏品交易數(shù)量出現(xiàn)大幅下滑，而所謂的暴漲千倍更是有價(jià)無市的自嗨。昨日，北京冬奧會(huì)正式閉幕。在這屆冬奧會(huì)上，吉祥物“冰
虛擬數(shù)字人：元宇宙的主角破圈而來

虛擬數(shù)字人市場(chǎng)逐步進(jìn)入成熟期，商業(yè)化進(jìn)程加速。1982年世界第一位虛擬歌姬林明美誕生，虛擬數(shù)字人行業(yè)經(jīng)歷了萌芽、探索、初級(jí)和成長(zhǎng)四個(gè)階段。隨技術(shù)逐年突破，制
Meta公布AI概念“Builder Bot”；銀保監(jiān)發(fā)布元宇宙相關(guān)風(fēng)險(xiǎn)提示

概述自從Meta在2月初公布財(cái)報(bào)后，其負(fù)責(zé)元宇宙的核心部門Reality Labs表現(xiàn)不佳，凈虧損超100億美元，隨后股價(jià)斷崖式下跌。如今，Meta開始繼續(xù)發(fā)力元宇宙，想要挽回頹勢(shì)，
Shiba Inu布局元宇宙走出Meme局限

以「狗狗幣殺手」成名的Shiba Inu（SHIB）在人們的印象中始終有著濃厚的Meme（模因惡搞）烙印，但它似乎一直在嘗試突破這種局限。建立起一個(gè)龐大的粉絲社區(qū)后，Shiba Inu
參加元宇宙里的招聘會(huì)是什么樣一種體驗(yàn)？

求職者可以在活動(dòng)中走動(dòng)，就像他們?cè)诂F(xiàn)實(shí)生活中一樣。長(zhǎng)話短說看亮點(diǎn)：招聘公司Hirect為Y-combinator支持的初創(chuàng)公司舉辦了一場(chǎng)元宇宙招聘會(huì)。這里有一個(gè)大廳、一
就業(yè)年齡歧視如何解決？來Web3看看

上周，我突然想到我的第一份工作實(shí)際上是在為一家失敗的航空公司制定破產(chǎn)退出計(jì)劃，那年我們的協(xié)議實(shí)習(xí)生剛出生。在一陣恐慌后，我又花了一點(diǎn)時(shí)間反思我這個(gè)擁有近1

国产精品嫩草99av在线_一区在线视频观看_欧美高清一区_欧美日韩国产一区_99精品欧美一区二区三区_久久大香伊蕉在人线观看热2_一色屋精品视频在线观看网站_在线亚洲国产精品网站_亚洲区一区二区三区_你懂的视频一区二区

首頁

元宇宙

NFT

區(qū)塊鏈

虛擬人

AR/VR

AI

元宇宙百科

阿里通義千問全新視覺理解模型 Qwen2.5-VL 開源：三尺寸版本、支持理解長(zhǎng)視頻和捕捉事件等能力

大廠元宇宙，又菜又愛玩

游戲玩家才是最“元宇宙”的

Web3 去中心化身份管理系統(tǒng)的歷史、現(xiàn)狀與展望

冰墩墩的NFT暴漲千倍？真相則是價(jià)格暴跌、成交遇冷

虛擬數(shù)字人：元宇宙的主角破圈而來

Meta公布AI概念“Builder Bot”；銀保監(jiān)發(fā)布元宇宙相關(guān)風(fēng)險(xiǎn)提示

Shiba Inu布局元宇宙走出Meme局限

參加元宇宙里的招聘會(huì)是什么樣一種體驗(yàn)？

就業(yè)年齡歧視如何解決？來Web3看看

最新推薦

FMIFAwards獎(jiǎng)項(xiàng)即將揭曉！

【東方證券】虛擬世界照進(jìn)現(xiàn)實(shí)，元宇宙中有什么？ | 元宇宙Meta洞見

上海虹口成立10億元元宇宙基金，香港首只元宇宙ETF擬上市

2021年中國智慧城市行業(yè)概覽：AI慧眼獨(dú)具，賦能“雙碳”目標(biāo)

Meta公布AI概念“Builder Bot”；銀保監(jiān)發(fā)布元宇宙相關(guān)風(fēng)險(xiǎn)提示

從NFT數(shù)字收藏，洞察數(shù)字音樂版權(quán)市場(chǎng)發(fā)展趨勢(shì)

猜你喜歡

熱門推薦

相關(guān)資訊

阿里通義千問全新視覺理解模型 Qwen2.5-VL 開源：三尺寸版本、支持理解長(zhǎng)視頻和捕捉事件等能力

最新推薦

猜你喜歡

熱門推薦

相關(guān)資訊

阿里通義千問全新視覺理解模型 Qwen2.5-VL 開源：三尺寸版本、支持理解長(zhǎng)視頻和捕捉事件等能力