快科技2月15日消息,清華團(tuán)隊(duì)突破大模型算力難題,這讓英偉達(dá)情何以堪。
據(jù)國(guó)內(nèi)媒體報(bào)道稱,清華大學(xué)KVCache.AI團(tuán)隊(duì)聯(lián)合趨境科技發(fā)布的KTransformers開(kāi)源項(xiàng)目迎來(lái)重大更新,成功打破大模型推理算力門檻。
此次KTransformers項(xiàng)目更新帶來(lái)重大突破,支持在24G顯存(4090D)的設(shè)備上本地運(yùn)行DeepSeek-R1、V3的671B滿血版。
KTransformers項(xiàng)目的核心在于異構(gòu)計(jì)算策略:稀疏性利用:MoE架構(gòu)每次僅激活部分專家模塊,團(tuán)隊(duì)將非共享的稀疏矩陣卸載至CPU內(nèi)存,結(jié)合高速算子處理,顯存占用壓縮至24GB。
量化與算子優(yōu)化:采用4bit量化技術(shù),配合Marlin GPU算子,效率提升3.87倍;CPU端通過(guò)llamafile實(shí)現(xiàn)多線程并行,預(yù)處理速度高達(dá)286 tokens/s。
CUDA Graph加速:減少CPU/GPU通信開(kāi)銷,單次解碼僅需一次完整的CUDA Graph調(diào)用,生成速度達(dá)14 tokens/s。
這帶來(lái)了怎樣的后果呢?傳統(tǒng)方案:8卡A100服務(wù)器成本超百萬(wàn),按需計(jì)費(fèi)每小時(shí)數(shù)千元。
現(xiàn)在,單卡RTX 4090方案:整機(jī)成本約2萬(wàn)元,功耗80W,適合中小團(tuán)隊(duì)與個(gè)人開(kāi)發(fā)者。
NVIDIA RTX 4090運(yùn)行DeepSeek-R1滿血版的案例,不僅是技術(shù)奇跡,更是開(kāi)源精神與硬件潛能結(jié)合的典范。它證明:在AI狂飆的時(shí)代,創(chuàng)新往往源于對(duì)“不可能”的挑戰(zhàn)。

本文鏈接:http://www.rrqrq.com/showinfo-17-130630-0.html技術(shù)奇跡!清華突破大模型算力難題 RTX 4090單槍匹馬就能跑滿血版DeepSeek
聲明:本網(wǎng)頁(yè)內(nèi)容旨在傳播知識(shí),若有侵權(quán)等問(wèn)題請(qǐng)及時(shí)與本網(wǎng)聯(lián)系,我們將在第一時(shí)間刪除處理。郵件:2376512515@qq.com
上一篇: 外交部發(fā)言人發(fā)布高燃視頻:60秒內(nèi)六代機(jī)、機(jī)器狗、DeepSeek齊聚
下一篇: 唏噓!大米均價(jià)上漲80% 日本政府繃不住了開(kāi)倉(cāng)放糧:網(wǎng)友感慨都2025年了