近日,字節跳動旗下的Seed團隊在開源領域邁出了重要一步,正式推出了Seed-OSS系列模型。這一系列模型專為長上下文處理、推理任務、智能體交互及通用場景設計,其上下文窗口長度達到了前所未有的512k,這一數字是業界常規標準的四倍,甚至超越了GPT-5的兩倍,相當于能夠一次性處理約1600頁文本的信息量。GmW28資訊網——每日最新資訊28at.com
GmW28資訊網——每日最新資訊28at.com
Seed-OSS系列模型不僅針對推理任務進行了深度優化,還創新性地引入了思維預算功能,允許用戶根據實際需求靈活調整模型的推理成本。這一特性使得開發者能夠在保證模型性能的同時,有效控制資源消耗,提升用戶體驗。GmW28資訊網——每日最新資訊28at.com
此次開源的Seed-OSS系列包括三個版本:基礎模型Seed-OSS-36B-Base、無合成數據基礎模型Seed-OSS-36B-Base-woSyn,以及經過指令微調的Seed-OSS-36B-Instruct。其中,指令微調后的Seed-OSS-36B-Instruct在多個領域的基準測試中表現出色,取得了同量級開源模型中的七項最佳性能(SOTA),整體實力超越了Qwen3-32B、Gemma3-27B、gpt-oss-20B等模型,與Qwen3-30B-A3B-Thinking-2507在多數領域不相上下。GmW28資訊網——每日最新資訊28at.com
GmW28資訊網——每日最新資訊28at.com
值得注意的是,Seed團隊在發布這一系列模型時,采取了極為“研究友好”的策略。考慮到合成指令數據在預訓練中的潛在影響,團隊特別發布了無合成數據基礎模型,為科研工作者提供了更多樣化的研究選項。Seed-OSS系列模型還支持4位和8位格式的量化處理,進一步降低了內存需求,提升了模型的應用靈活性。GmW28資訊網——每日最新資訊28at.com
在技術上,Seed-OSS系列模型采用了12萬億個token的預訓練數據,并沿用了當前主流的因果語言模型架構。這一系列模型均為稠密模型,未采用MoE等復雜架構,而是結合了RoPE旋轉位置編碼、GQA注意力機制、RMSNorm歸一化及SwiGLU激活函數等高效組件,以提升訓練穩定性和推理性能。其512k的上下文窗口并非后續擴展而來,而是通過原生訓練實現,能夠一次性處理數十萬字的內容。GmW28資訊網——每日最新資訊28at.com
思維預算功能的引入,使得開發者可以根據任務復雜度靈活調整模型推理成本。對于簡單任務,模型思維鏈較短,分數波動不明顯;而對于復雜任務,隨著思維預算的增加,模型分數也會相應提升。若未設置思維預算,Seed-OSS將默認無思考長度限制;若指定預算,則建議優先考慮512的整數倍值,因為這些區間上的模型訓練更為充分。GmW28資訊網——每日最新資訊28at.com
Seed-OSS系列模型的發布,在開源社區內引起了廣泛關注。Hugging Face的華人工程師Tiezhen Wang評價稱,這一系列模型非常適合進行消融研究,能夠以較低成本探索不同組件對大模型性能的影響。網友們也紛紛表示,如此規模的基礎模型在開源界實屬罕見,長上下文能力對于實際應用具有重大意義。GmW28資訊網——每日最新資訊28at.com
近年來,開源已成為技術創新的重要推動力,連OpenAI等原本堅持閉源策略的廠商也開始逐步開源模型。字節跳動此次將核心語言模型貢獻給社區,無疑為開源社區的后續研究提供了更多基礎模型的選擇,進一步推動了人工智能技術的開放與發展。GmW28資訊網——每日最新資訊28at.com
舉報 0收藏 0打賞 0分享 0 更多>同類資訊
vivo三十周年:發布輕量MR頭顯,影像生態戰略全面革新正值企業三十周年之際,vivo不僅重磅發布了混合現實頭顯探索版,還宣布了影像技術戰略及影像文化生態的全新布局,并揭曉了2025 vivo影像加手機攝影大賽結果。作為國內首家同時布局手機與MR的科技企業,viv…08-22

vivo胡柏山:MR技術引領家庭機器人時代,共筑智能生活新愿景胡柏山在闡述vivo科技戰略藍圖時提到:“我們致力于通過手機AI、影像和MR能力,短期滿足用戶對大屏沉浸感的需求,長遠作為機器人的眼睛和大腦,攻克家庭這一非結構化場景下的‘感知-決策’難題,搭建未來家庭機器人…08-22

百度Q2財報:廣告業務下滑,AI新業務成業績增長新動力百度新任CFO何海建在此次電話會上稱,在過去的幾個季度里,百度加大了AI投資力度,但由于AI搜索的商業化仍處于非常早期的階段,尚未擴大規模,預計百度的收入和利潤率在短期內面臨相當大的壓力,第三季度將特別具有…08-22

文遠知行WePilot AiDrive:年內量產,引領L2級輔助駕駛新革命08-22

文遠知行WePilot AiDrive:年內量產,引領L2級輔助駕駛新紀元08-22

AI陪伴市場升溫,雷軍馬斯克等資本大佬入局,長期記憶痛點待解郭戈稱,資本追逐這一賽道并非偶然,因為陪伴本身就是玩具的核心價值,而AI的加入則賦予其“情緒價值”,擴大了市場蛋糕。 萬物時創始人萬一(Roy)也向時代周報記者強調,“情感陪伴一定是長期的本質需求,和文化消費…08-22

智匯教育未來:名校長共探基礎教育數字化變革新航向來自全國多地的名校長與專家學者齊聚一堂,圍繞基礎教育數字化變革、學校數字轉型與智能升級、校長數字化領導力等核心議題,深入交流聯盟內外部實踐經驗,共話智慧教育發展新路徑。 論壇由教育數字化行動百校聯盟聯合北京師…08-22生成式AI投資熱,但95%企業未見回報,AI價值何在?08-22DeepSeek-V3.1重磅升級:提升思考效率,強化Agent功能新體驗08-22AI數學新突破:GPT-5 Pro獨立推導數學結論,OpenAI總裁贊其為智能新里程碑08-22

DeepSeek-V3.1發布,專為下一代國產芯片設計,性能大幅提升08-22AI賦能旅行社:馬蜂窩繩志成詳解智能化轉型新策略08-22OpenAI員工完成60億美元股票出售,公司估值躍升至5000億美元08-22

Lumen強化400Gbps數據中心連接,賦能AI經濟,加速企業數字化轉型Lumen Technologies對其美國網絡的數據中心和云連接進行了重大升級,通過戰略性擴張為大都市區提供高速數據中心連接能力。 Lumen表示,這將使客戶能夠輕松連接到數據中心和云接入點,擴展企業應用…08-21

霄云科技銀河存儲:AI時代的高性能存儲中樞,引領存儲效率新革命這款專為人工智能模型訓練、高性能計算(HPC)、生命科學等場景設計的存儲系統,以“極速、高可用、全鏈路可視”為核心,重新定義企業級存儲的性能邊界。 ?支持百萬級IOPS與微秒級延遲,通過并行文件系統與IB高速…08-21點擊查看更多 +
全站最新
科創板成長ETF開盤微漲,重倉科技股多數上揚

機器人ETF嘉實微漲開盤,重倉股表現各異,匯川技術、科大訊飛領漲

中國載人登月倒計時:2030年前穩扎穩打,美國阿爾忒彌斯計劃再陷困境

吉利AI座艙:讓汽車變身“智慧管家”,重構人車交互新體驗

廣瀨電機全球首推:高電流抗振“FX31”板對板連接器,引領車載電子革新

百度蒸汽機2.0音視頻一體化模型升級,終結AIGC視頻“無聲時代”
熱門內容- 雷軍抖音賬號變動引熱議:武漢大學標簽悄然消失?
- 阿里開源480B參數編程模型Qwen3-Coder,超越Kimi K2,強化學習訓練細節公開
- 云計算新紀元:云智融合引領未來趨勢,安全與技術創新并行
- 阿里巴巴1688升級AI服務:新品App與查詢工具上線,賦能中小企業高效采購
- 華為Mate 80系列爆料:全新麒麟9030,eSIM與低軌衛星通訊技術加持
- 浙大發布“悟空”類腦計算機:神經元規模超20億,模擬獼猴大腦
- 2025年人工智能發展藍圖:趨勢、格局與行業應用深度剖析
- 光伏電站智能化管理:提升效率,降低成本,助力“雙碳”目標實現
- 雷軍抖音賬號母校標簽“武漢大學”消失,或涉平臺隱私調整
- 國家網信辦約談英偉達:要求闡釋H20算力芯片安全隱患及后門風險
- 字節跳動AI底層架構領跑2025:技術、組織與財務全面賦能AI時代
- 阿里自研旗艦AI眼鏡WAIC 2025首發,探索智能終端新未來
- 英偉達H20芯片安全風險引關注,網信辦約談要求說明“追蹤定位”等技術詳情
- 馬斯克將為Grok Heavy用戶帶來AI視頻生成器及虛擬男友“Valentine”測試版
- 清華系黑馬!MonkeyCode成Cursor最強平替,保障代碼安全
本欄最新
百度Q2財報:廣告業務下滑,AI新業務成業績增長新動力

文遠知行WePilot AiDrive:年內量產,引領L2級輔助駕駛新革命

文遠知行WePilot AiDrive:年內量產,引領L2級輔助駕駛新紀元

AI陪伴市場升溫,雷軍馬斯克等資本大佬入局,長期記憶痛點待解

智匯教育未來:名校長共探基礎教育數字化變革新航向

DeepSeek-V3.1發布,專為下一代國產芯片設計,性能大幅提升
本文鏈接:http://www.rrqrq.com/showinfo-45-26819-0.html字節跳動Seed團隊開源推理大模型,Seed-OSS系列斬獲7項SOTA成績
聲明:本網頁內容旨在傳播知識,若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。郵件:2376512515@qq.com
上一篇: 牛津大學揭秘大型語言模型“深度詛咒”,層歸一化縮放技術成破解關鍵
下一篇: vivo三十周年:發布輕量MR頭顯,影像生態戰略全面革新