當前位置：首頁 > 科技 > 互聯網

直追GPT-4 零一萬物Yi-34B-Chat躋身全球權威大模型榜單前列

來源：責編：時間：2023-12-11 17:19:59 448觀看

導讀 12月11日消息，繼11月初零一萬物發布Yi-34B 基座模型后，Yi-34B-Chat 微調模型在11月24日開源上線。開源兩周，Yi-34B-Chat即獲得全球開發者廣泛關注，并在全球多個英文、中文大模型權威榜單名列前茅

12月11日消息，繼11月初零一萬物發布Yi-34B 基座模型后，Yi-34B-Chat 微調模型在11月24日開源上線。開源兩周，Yi-34B-Chat即獲得全球開發者廣泛關注，并在全球多個英文、中文大模型權威榜單名列前茅。

Yi模型開源首月，在Hugging Face社區下載量為16.8萬，魔搭社區下載量1.2萬。在GitHub 獲得超過4900個Stars。

據介紹，截至目前，已有多家知名公司和機構推出了基于Yi模型基座的微調模型，比如獵豹旗下的獵戶星空公司推出的OrionStar-Yi-34B-Chat模型，南方科技大學和粵港澳大灣區數字經濟研究院（簡稱IDEA研究院）認知計算與自然語言研究中心（簡稱CCNL中心）聯合發布的SUS-Chat-34B；AMD和Hugging Face合作的GPU加速大模型的實驗中，也選擇了Yi-6B作為范例項目。

零一萬物宣布，邀請全球開發者共同測試使用 Yi-34B-Chat 模型能力，一起搭建 Yi 開源模型的應用生態系。

Yi-34B-Chat霸榜中英文大模型榜單

斯坦福大學研發的大語言模型評測 AlpacaEval Leaderboard 中，Yi-34B-Chat以94.08%的勝率，超越LLaMA2 Chat 70B、Claude 2、ChatGPT，成為世界范圍內僅次于GPT-4 英語能力的大語言模型。

AlpacaEval Leaderboard排行榜（發布于2023年12月7日）

在加州大學伯克利分校主導的LMSYS ORG排行榜中，Yi-34B-Chat也以1102的Elo評分，晉升最新開源SOTA開源模型之列，性能表現追平GPT-3.5。伯克利LMSYS ORG排行榜采用了一個最為接近用戶體感的 “聊天機器人競技場” 特殊測評模式，讓眾多大語言模型在評測平臺隨機進行一對一 battle，通過眾籌真實用戶來進行線上實時盲測和匿名投票。

LMSYS ORG 在12月8日官宣的最新的榜單中，經25000的真實用戶投票總數計算了20個大模型的總得分。在開源模型中，Yi-34B-Chat成為當之無愧的“最強王者” 之一（英語能力），榜單對評價：“Yi-34B-Chat 和 Tulu-2-DPO-70B 在開源界的進擊表現已經追平 GPT-3.5”。

LMSYS ORG榜單（發布于2023年12月8日）

中文能力方面，Yi-34B-Chat 微調模型同樣不遑多讓。SuperCLUE是一項針對中文能力的排行榜，從基礎能力、專業能力和中文特性能力三個不同的維度，評估模型的能力。根據11月底發布的《SuperCLUE中文大模型基準評測報告 2023》，11月下旬首度發布的 Yi-34B Chat，迅速晉升到和諸多國產優秀大模型齊平的 “卓越領導者” 象限，在多項基準評測中的 “SuperCLUE 大模型對戰勝率” 這項關鍵指標上，Yi-34B-Chat 取得31.82%的勝率，僅次于GPT4-Turbo。

中文SuperCLUE排行榜（發布于2023年11月28日）

對廣大開發社區來說特別值得一提的是，Yi-34B-Chat 微調模型還為開發者提供了 4bit/8bit 量化版模型。Yi-34B-Chat 4bit 量化版模型可以直接在消費級顯卡（如RTX3090）上使用，訓練成本友好。

實力源于Yi 強基座+創新對齊策略

今年11月6日，零一萬物正式開源發布首款預訓練大模型 Yi-34B。作為基座模型，Yi-34B能力表現突出，在Hugging Face Open LLM Leaderboard (pretrained) 大模型排行榜（2023年11月5日）、C-Eval中文權威榜單排行榜中Yi-34B均高居榜首；在MMLU、BBH等評測集上，Yi-34B在通用能力、知識推理、閱讀理解等多項指標評比中全部勝出。

據零一萬物介紹，除了 Yi 系列強基座的貢獻以外，Yi-34B-Chat 模型的效果還得益于其人工智能對齊（AI Alignment）團隊采用了一系列創新對齊策略。通過精心設計的指令微調流程，不僅強化了模型在理解和適應人類需求方面的能力，還使得模型與人類價值觀對齊，包括幫助性（Helpful），可靠性（Honest），無害性（Harmless）等。

在強基座設定下，該團隊采用了一種輕量化指令微調方案，該方案涵蓋了單項能力提升和多項能力融合兩個階段。

其中，單項能力包括通用指令跟隨、創意內容生成、數學、推理、編程、泛COT、對話交互等。通過大量的消融實驗，針對模型單能力構建和多能力融合總結了獨家認知經驗。

在數據的量和質方面，一方面，團隊在強基座模型上，實現僅需要少量數據（幾條到幾百條），就能激發模型特定單項能力；另一方面，數據質量比數量重要，少量高質量數據比大量低質量數據更好。通過關注超出模型能力的“低質量”數據，減少了模型“幻覺”。

在指令多樣性與難度方面，團隊通過在各能力項下構建任務體系，實現了訓練數據中的指令均衡分布，大幅提升了模型泛化性。通過復合指令構造和指令難度進化，不僅提升了模型效果，也顯著降低了對數據量的需求。

在風格一致性方面，團隊發現訓練數據的風格會影響模型收斂速度和能力上限的逼近程度，因此統一了回復風格，比如重點設計了CoT的回復風格，實現在輕量SFT情況下，避免了風格不一致加劇模型的“記憶”現象。

在多能力融合階段，團隊采用網格搜索的方法來決定數據配比和超參數的設置，通過基準測試和自建評測集的結果來指導搜索過程，成功實現模型的多能力融合。

“風波”過后 Eric Hartford已成Yi-34B的忠實擁躉

事實上，Yi-34B開源發布后，就獲得了極大關注，甚至還鬧出一場“風波”。

在11月初Yi-34B開源后，Hugging Face社區開發者Eric Hartford敏銳發現了模型存在的一個小問題。

于是，Eric Hartford在郵件中寫道，“感謝你們提供了一個優秀的模型。Yi模型使用了與LLaMA模型完全相同的架構，只是將兩個張量改了名字。由于圍繞LLaMA架構有很多投資和工具，保持張量名稱的一致性是有價值的。”Eric建議，在Yi被廣泛傳播前，及時恢復張量名稱。

零一萬物意識到命名問題的疏忽對開發者造成的不便，跟Eric和其他開發者提出說明，表達誠摯的歉意，并很快便在各開源平臺重新提交模型及代碼，完成了開源社區的版本更新。

然而Eric的這個建議，在國內被曲解、誤讀，進而引發了輿論關于Yi模型“抄襲”LLaMA的質疑。

事實上，一個模型核心技術護城河是在架構之上，通過數據訓練獲得的參數和代碼。

零一萬物團隊在回應Yi模型“抄襲”LLaMA的質疑時就明確表示，在沿用了開源社區普遍使用的LLaMA 架構之上，零一萬物團隊從零開始，用高質量的數據集、自研訓練科學和AI Infra打造了 Yi-34B 在內的系列模型。為了執行對比實驗的需要，對部分推理參數進行了重新命名。原始出發點是為了充分測試模型，而非刻意隱瞞來源。

身處這場輿論風暴的中心，Eric自發且不遺余力為Yi辯護。

他在X（twitter）上寫道：“他們沒有在任何事情上撒謊。所有的模型都是在相互借鑒架構。架構是學術研究的產物，已經發表在論文中，任何人都可以自由使用，這絲毫不減損Yi團隊的成就。他們從零開始使用自己創建的數據集訓練Yi，對開源領域的貢獻是值得贊揚的。”
緊接著，他又說，“使用Llama架構沒有任何問題。訓練才是關鍵。Yi給了我們目前可獲得的最佳模型，沒有任何可抱怨的。”

現在，Eric已經成為Yi-34B的忠實擁躉，會使用Yi-34b-200k數據集訓練其他的模型產品，并感嘆絲滑般的訓練體驗。

另外，魔搭swift框架技術開發人員黃錦濤認為，因為沿用了Llama架構，Yi-34B的生態對開發者非常友好，部署方便輕盈，而且Llama生態中有很多加速技術工具，比如對推理加速的支持，均顯著降低了成本。Yi還為開發者提供了4bit/8bit 量化版模型。Yi-34B-Chat 4bit 量化版模型可以直接在消費級顯卡（如3090、4090）上使用，這就大大降低了基礎模型運行的算力需求。對很多沒有高效能顯卡的個人開發者來說，顯著降低了使用門檻。

Yi-34B-Chat中文理解能力演示

最后，看看Yi-34B-Chat 模型實力在不同的對話場景中實力如何，直接上幾個直觀的問題演示。

首先，來一段繞口令式的【中文理解】：小王給領導送了一份禮物后。領導說：“小王，你這是什么意思？”小王：“一點心意，意思意思。”領導：“你這就不夠意思了。”小王：“小意思，小意思。”領導：“小王，你這人真有意思。”小王：“也沒什么別的意思。”領導：“那我多不好意思。”小王：“是我不好意思。”這個意思到底是什么意思？

Yi-34B-Chat 給出了準確回復。

在看看Yi-34B-Chat生成文案的能力。“給我生成一個小紅書文案，給大家安利一只豆沙色的口紅。”

本文鏈接：http://www.rrqrq.com/showinfo-21-42198-0.html直追GPT-4 零一萬物Yi-34B-Chat躋身全球權威大模型榜單前列

聲明：本網頁內容旨在傳播知識，若有侵權等問題請及時與本網聯系，我們將在第一時間刪除處理。郵件：[email protected]

上一篇：高德打車聯合多地消協升級車費保鏢服務

下一篇：友達光電11月合并營收新臺幣202億元較去年同期增加15.5%

標簽：

熱門焦點

7月安卓手機性能榜：紅魔8S Pro再奪榜首

7月份的手機市場風平浪靜，除了紅魔和努比亞帶來了兩款搭載驍龍8Gen2領先版處理器的新機之外，別的也想不到有什么新品了，這也正常，通常6月7月都是手機廠商修整的時間，進入8月份之
5月安卓手機好評榜：魅族20 Pro奪冠

性能榜和性價比榜之后，我們來看最后的安卓手機好評榜，數據來源安兔兔評測，收集時間2023年5月1日至5月31日，僅限國內市場。第一名：魅族20 Pro好評率：97.50%不得不感慨魅族老品牌還
印度登月最關鍵一步！月船三號今晚進入環月軌道

8月5日消息，據印度官方消息，月船三號將于北京時間今晚21時30分左右開始近月制動進入環月軌道。這是該探測器能夠成功的最關鍵步驟之一，如果成功將開始圍
這款新興工具平臺，讓你的電腦效率翻倍

隨著信息技術的發展,我們獲取信息的渠道越來越多,但是處理信息的效率卻成為一個瓶頸。于是各種工具應運而生,都在爭相解決我們的工作效率問題。今天我要給大家介紹一款效率
雅柏威士忌多款單品價格大跌，泥煤頂流也不香了？

來源 | 烈酒商業觀察編 | 肖海林今年以來，威士忌市場開始出現了降溫跡象，越來越多不斷暴漲的網紅威士忌也開始悄然回歸市場理性。近日，LVMH集團旗下蘇格蘭威士忌品牌雅柏（Ardbeg
疑似小米14外觀設計圖曝光：后置相機模組變化不大

下半年的大幕已經開啟，而誰將成為下半年手機圈的主角就成為了大家關注的焦點，其中被傳有望拿下新一代驍龍8 Gen3旗艦芯片的小米14系列更是備受大家矚
華為Mate 60保護殼曝光：碩大后置相機模組凸起程度有驚喜

這段時間以來，關于華為新旗艦的爆料日漸密集。據此前多方爆料，今年華為將開始恢復一年雙旗艦戰略，除上半年推出的P60系列外，往年下半年的Mate系列也將
DRAM存儲器10月價格下跌，NAND閃存本月價格與上月持平

10月30日，據韓國媒體消息，自今年年初以來一直在上漲的 DRAM 存儲器的交易價格僅在本月就下跌了近 10％，此次是全年首次降價，而NAND 閃存本月價格與上月持平。市
微軟發布Windows 11新版引入全新任務欄狀態

近日，微軟發布了Windows 11新版，而Build 22563更新主要引入了幾周前曝光的平板模式任務欄等，系統更流暢了。更新中，Windows 11加入了專門針對平板優化的任務欄

国产精品嫩草99av在线_一区在线视频观看_欧美高清一区_欧美日韩国产一区_99精品欧美一区二区三区_久久大香伊蕉在人线观看热2_一色屋精品视频在线观看网站_在线亚洲国产精品网站_亚洲区一区二区三区_你懂的视频一区二区

直追GPT-4 零一萬物Yi-34B-Chat躋身全球權威大模型榜單前列

7月安卓手機性能榜：紅魔8S Pro再奪榜首

5月安卓手機好評榜：魅族20 Pro奪冠

印度登月最關鍵一步！月船三號今晚進入環月軌道

這款新興工具平臺，讓你的電腦效率翻倍

雅柏威士忌多款單品價格大跌，泥煤頂流也不香了？

疑似小米14外觀設計圖曝光：后置相機模組變化不大

華為Mate 60保護殼曝光：碩大后置相機模組凸起程度有驚喜

DRAM存儲器10月價格下跌，NAND閃存本月價格與上月持平

微軟發布Windows 11新版引入全新任務欄狀態

最新推薦

猜你喜歡

熱門推薦

相關資訊