大模型訓(xùn)練成本,再砍一刀!
3月10日,字節(jié)豆包大模型團(tuán)隊(duì)在國(guó)際知名開(kāi)源社區(qū)平臺(tái)GitHub上開(kāi)源了一項(xiàng)針對(duì) MoE(混合專家模型)架構(gòu)的關(guān)鍵優(yōu)化技術(shù)COMET。據(jù)悉,該技術(shù)可將大模型訓(xùn)練效率提升1.7倍,成本節(jié)省40%。目前,COMET已實(shí)際應(yīng)用于字節(jié)的萬(wàn)卡集群訓(xùn)練,累計(jì)幫助節(jié)省了數(shù)百萬(wàn)GPU小時(shí)訓(xùn)練算力。
MoE是當(dāng)前大模型的主流架構(gòu),最近大火的國(guó)產(chǎn)大模型DeepSeek采用的就是MoE架構(gòu)。DeepSeek自研的DeepSeekMoE作為一種創(chuàng)新的大規(guī)模語(yǔ)言模型架構(gòu),通過(guò)整合專家混合系統(tǒng)、改進(jìn)的注意力機(jī)制和優(yōu)化的歸一化策略,在模型效率與計(jì)算能力之間實(shí)現(xiàn)了新的平衡。
字節(jié)豆包大模型團(tuán)隊(duì)表示,MoE在分布式訓(xùn)練中存在大量跨設(shè)備通信開(kāi)銷,嚴(yán)重制約了大模型訓(xùn)練效率和成本。針對(duì)這一難題,字節(jié)在內(nèi)部研發(fā)了COMET計(jì)算-通信重疊技術(shù),通過(guò)多項(xiàng)創(chuàng)新,大幅壓縮了MoE專家通信空轉(zhuǎn)時(shí)間。
在此前的“開(kāi)源周”活動(dòng)中,DeepSeek也曾開(kāi)源了團(tuán)隊(duì)為解決MoE通信瓶頸而采取的DualPipe+DeepEP方案。不過(guò),與之不同的是,COMET可以像插件一樣直接接入已有的MoE訓(xùn)練框架,支持業(yè)界絕大部分主流大模型,無(wú)需對(duì)訓(xùn)練框架進(jìn)行侵入式改動(dòng),更加方便、靈活、通用。這一方法,還因其簡(jiǎn)潔性與通用性而高分入選全球機(jī)器學(xué)習(xí)系統(tǒng)頂級(jí)會(huì)議 MLSys 2025,被認(rèn)為“在大規(guī)模生產(chǎn)環(huán)境中極具應(yīng)用潛力”。
不僅如此,由于在降低MoE通信開(kāi)銷上,COMET采用了計(jì)算-通信融合算子的優(yōu)化方式,DeepSeek研發(fā)的DualPipe則通過(guò)排布算子來(lái)掩蓋通信,兩種方案并不沖突。因此,COMET還可以與DualPipe方案結(jié)合使用,以更大程度壓縮訓(xùn)練成本。
值得注意的是,就在一個(gè)月前的2月12日,字節(jié)跳動(dòng)豆包大模型團(tuán)隊(duì)發(fā)布消息稱,團(tuán)隊(duì)提出了全新的稀疏模型架構(gòu)UltraMem,可有效解決MoE推理時(shí)高額的訪存問(wèn)題,推理速度較MoE架構(gòu)提升2—6倍,推理成本最高可降低83%。
業(yè)內(nèi)人士分析,此次開(kāi)源的COMET可與此前提出的UltraMem結(jié)合使用,將大模型訓(xùn)練成本進(jìn)一步“砍”得更低。
當(dāng)前,隨著技術(shù)的不斷進(jìn)步迭代,以及頭部廠商逐漸加入開(kāi)源大軍,大模型訓(xùn)練成本正不斷下降。啟明創(chuàng)投主管合伙人周志峰曾表示,大模型每百萬(wàn)Token調(diào)用成本已經(jīng)從2023年120美元(約人民幣800元)降到2024年不到人民幣1元,下降了99.9%,根據(jù)估算,未來(lái)成本很有可能再下降99.9%。
DeepSeek、字節(jié)跳動(dòng)等國(guó)產(chǎn)大模型通過(guò)提高架構(gòu)創(chuàng)新、算法優(yōu)化,提升了訓(xùn)練效率,降低訓(xùn)練成本,看似減少了算力的需求,但中國(guó)銀河證券研報(bào)指出,大模型成本縮減意味著降低了企業(yè)的訓(xùn)練與推理門檻,即每單位成本所能提供的訓(xùn)練和推理服務(wù)更多了,算力效率提升有望激活更廣泛的用戶與應(yīng)用場(chǎng)景,從而引發(fā)對(duì)更大參數(shù)以及更復(fù)雜的大模型迭代需求。
研報(bào)進(jìn)一步表示,算法優(yōu)化(如模型壓縮、蒸餾)確實(shí)能提升單次任務(wù)效率,但AI能力的邊界擴(kuò)展(如多模態(tài)、復(fù)雜推理、通用人工智能)仍依賴更大規(guī)模模型和更復(fù)雜計(jì)算。這可能會(huì)對(duì)均衡下的算力需求產(chǎn)生正面影響,整體算力需求不會(huì)減少而是更加旺盛,從而形成對(duì)硬件需求的新一輪推升,即步入“算法進(jìn)步→模型復(fù)雜化→硬件升級(jí)”的正循環(huán)。
在通過(guò)技術(shù)創(chuàng)新持續(xù)降低模型訓(xùn)練成本的同時(shí),字節(jié)跳動(dòng)也在擴(kuò)大AI資本開(kāi)支,招募更多頂尖AI人才,研發(fā)投入顯著領(lǐng)先同行。浙商證券研報(bào)分析,字節(jié)跳動(dòng)在AI上投入巨大,2024年資本開(kāi)支達(dá)到800億元,接近百度、阿里、騰訊三家的總和(約1000億元)。市場(chǎng)人士分析,2025年字節(jié)跳動(dòng)或進(jìn)一步上調(diào)AI資本開(kāi)支,擴(kuò)大算力投資規(guī)模。
一方面加大資本投入,另一方面增強(qiáng)人才隊(duì)伍,字節(jié)跳動(dòng)正積極地“招兵買馬”。記者注意到,字節(jié)跳動(dòng)近日還首次啟動(dòng)了“筋斗云人才計(jì)劃實(shí)習(xí)專項(xiàng)”。據(jù)內(nèi)部人士介紹,該計(jì)劃是字節(jié)跳動(dòng)面向優(yōu)秀校園技術(shù)人才推出的專項(xiàng)招聘,意在全球范圍內(nèi),吸引和招募有志于用技術(shù)創(chuàng)造突破性價(jià)值的頂尖學(xué)生。
此外,字節(jié)跳動(dòng)另一招聘計(jì)劃“Top Seed人才計(jì)劃(含研究實(shí)習(xí)專項(xiàng))”全年開(kāi)放招募,這是國(guó)內(nèi)唯一的專門針對(duì)大模型領(lǐng)域的人才計(jì)劃,旨在全球范圍內(nèi)持續(xù)尋找有志于投身 AI 研究的頂尖人才。字節(jié)跳動(dòng)校招負(fù)責(zé)人表示:“公司十分重視人才、關(guān)注人才成長(zhǎng),相信優(yōu)秀的校園人才能發(fā)揮自身潛力,不斷超越現(xiàn)狀,創(chuàng)造出突破性的價(jià)值。”
校對(duì):王蔚