MLPerf揭榜:拆解“黃金標(biāo)準(zhǔn)”背后的AI存儲新姿勢互聯(lián)網(wǎng)+

萬億參數(shù)時代前夜,我們究竟需要什么樣的AI存儲?
文 | 智能相對論(aixdlun)
作者 | 葉遠(yuǎn)風(fēng)
大模型正在進(jìn)入普遍萬億參數(shù)時代。
一方面,算力的重要性近一步提升;另一方面,萬億參數(shù)的壓力同樣給到了存儲——如果說過去AI計(jì)算對存儲性能的需求似乎還不那么急迫,那么現(xiàn)在存儲性能能否跟上,正在很大程度上決定AI創(chuàng)新的成敗。
企業(yè)如何選擇最能契合需要的存儲產(chǎn)品方案?
不久前,全球權(quán)威AI性能評測組織公布最新MLPerf? Storage v2.0基準(zhǔn)測試結(jié)果,這份權(quán)威榜單,除了直接給出企業(yè)如何選擇供應(yīng)商的參考,更給出了一份存儲面向萬億參數(shù)時代如何演進(jìn)的答案。
與真實(shí)場景需求共舞,MLPerf“黃金標(biāo)準(zhǔn)”再進(jìn)化
2018年,早在大模型還沒起勢時,谷歌、英偉達(dá)、英特爾、哈佛大學(xué)等 70余家頂尖科技企業(yè)和學(xué)術(shù)機(jī)構(gòu)就聯(lián)合推動發(fā)起了MLPerf,要通過統(tǒng)一框架避免廠商自測的片面性,覆蓋訓(xùn)練、推理、存儲、HPC等全場景測試,為用戶提供客觀采購依據(jù)。
到目前為止,MLPerf已經(jīng)被公認(rèn)為AI硬件性能的“黃金標(biāo)準(zhǔn)”,全球頭部企業(yè)(英偉達(dá)、谷歌、AMD、華為等)均定期提交測試結(jié)果。
可以看到,無論發(fā)起者還是參與者都是當(dāng)下最前沿的科技企業(yè),有著對AI計(jì)算發(fā)展最深度的理解,這使得MLPerf并非AI時代很多榜單那樣的“奧數(shù)競賽”(只為了刷分?jǐn)?shù)而與現(xiàn)實(shí)需要脫節(jié)),而是一直來源于現(xiàn)實(shí),并且指導(dǎo)現(xiàn)實(shí)技術(shù)進(jìn)化。
因此,看待MLPerf榜單,絕不能僅僅從參數(shù)排行來看,而更應(yīng)該關(guān)注它背后的規(guī)則邏輯,這些規(guī)則邏輯代表著AI計(jì)算實(shí)踐過程中最符合企業(yè)實(shí)際需要的現(xiàn)實(shí)。
典型如,MLPerf存儲基準(zhǔn)測試在規(guī)則上的變化過程,去年該測試進(jìn)行了一次適應(yīng)性升級到了V1.0版本(這次是2.0版本,規(guī)則沿用),最大的不同是核心指標(biāo)發(fā)生變化,即在給定的訓(xùn)練模型和GPU型號下,存儲系統(tǒng)能支持的GPU數(shù)量,而非每GPU帶寬值或每計(jì)算節(jié)點(diǎn)帶寬值——這次的MLPerf存儲基準(zhǔn)測試,其目標(biāo)就是滿足一定加速器利用率的前提下,測試出存儲系統(tǒng)能夠支持的最大加速器數(shù)量以及能夠提供的最大帶寬。
規(guī)則變更的背景,是萬億參數(shù)時代到來,訓(xùn)練數(shù)據(jù)集的規(guī)模正從TB級別上升至PB級,存儲系統(tǒng)必須具備強(qiáng)大的擴(kuò)展能力和對大規(guī)模AI集群的支持能力,畢竟,支持更多的GPU數(shù)量將會決定系統(tǒng)性能的“上限”(固定資產(chǎn)投資方面也更能攤薄邊際成本),只糾結(jié)單個GPU性能數(shù)據(jù)的參考意義并不大。
華為OceanStor A系列存儲聯(lián)合濟(jì)南超級計(jì)算技術(shù)研究院(JNIST)的合作解決方案,在此次MLPerf測試中獲得單存儲設(shè)備、每U存儲設(shè)備及單客戶端性能等榜單上的全球第一,原因就在于此。
從直接的參數(shù)性能來看,在Training場景中,單臺8U雙節(jié)點(diǎn)架構(gòu)的OceanStor A800獲得單存儲設(shè)備性能第一,持續(xù)提供698 GiB/s的穩(wěn)定帶寬:
單臺2U雙節(jié)點(diǎn)架構(gòu)的OceanStor A600獲得每U設(shè)備及單客戶端性能第一,其中每U帶寬穩(wěn)定達(dá)108 GiB/s,單客戶端帶寬達(dá)104 GiB/s:
同樣的命題,顯著的領(lǐng)先,離不開華為OceanStor A800以單臺8U雙節(jié)點(diǎn)架構(gòu)可支撐255張H100 GPU訓(xùn)練數(shù)據(jù)吞吐需求,而OceanStor A600以單臺2U雙節(jié)點(diǎn)架構(gòu)的可支撐76張H100 GPU訓(xùn)練場景的吞吐需求。
不是有人“打榜”到了第一,而是一貫來源于實(shí)際需求的MLPerf在告訴業(yè)界什么才是最符合需要的,這才是“黃金標(biāo)準(zhǔn)”的內(nèi)涵。
如此,MLPerf也才能反過來引導(dǎo)和推進(jìn)技術(shù)創(chuàng)新,帶來英偉達(dá)Blackwell的FP4精度、TensorRT-LLM框架優(yōu)化、Untether AI芯片能效提升等“榜單測試反哺技術(shù)創(chuàng)新”的經(jīng)典案例。
值得一提的是,多加速器支持并不是所有場景的AI存儲需求都十分迫切,那些足夠有實(shí)力的廠商要想充分體現(xiàn)自己在新需求下的能力,必須選擇更能壓榨性能的用例。因此可以看到華為存儲在MLPerf Storage Traning場景下3D U-Net、Resnet50、cosmoflow三個用例中,選擇了(在H100算力卡下)3D U-Net這個對存儲帶寬壓力最大的訓(xùn)練用例,這樣才能將其多加速器支持進(jìn)行最極致的展現(xiàn),充分表達(dá)存儲產(chǎn)品的性能。
“強(qiáng)化協(xié)同下的資源池化”——AI計(jì)算、存儲發(fā)展趨勢殊途同歸
不久前的世界人工智能大會上,384塊昇騰910C組合在一起昇騰384超節(jié)點(diǎn)成為全場焦點(diǎn):
以更多的芯片數(shù)量進(jìn)行AI計(jì)算,資源“池化”集群獲得高算力(昇騰384超節(jié)點(diǎn)總算力高達(dá)300 PFLOPS),類似的還有英偉達(dá)的NVIDIA GB200 NVL72集群系統(tǒng),72個GPU實(shí)現(xiàn)180 PFLOPS算力。
MLPerf在存儲方面評測規(guī)則及勝出廠商的玩法,其實(shí)與這種AI計(jì)算性能的發(fā)展邏輯同向而行。當(dāng)多芯片資源的池化整合大大拉升AI計(jì)算的能力上限,對應(yīng)地,存儲去支持更多的GPU數(shù)量、實(shí)現(xiàn)總帶寬突破而不糾結(jié)對單個GPU支撐能力數(shù)據(jù),也是大勢所趨。
在這個過程中,協(xié)同能力是關(guān)鍵——不能“無腦堆砌”,“強(qiáng)化協(xié)同下的資源池化”才有意義。英偉達(dá)用于卡間互聯(lián)的NVLink技術(shù)以及傳統(tǒng)銅纜傳遞數(shù)據(jù)支撐不起更龐大的集群,其集群算力比不過有光通信支持的昇騰超節(jié)點(diǎn)。
在AI存儲對多GPU的支持這里,也存在類似的現(xiàn)象。
由于多GPU計(jì)算存在“木桶效應(yīng)”,在一個計(jì)算Step中,某一個GPU數(shù)據(jù)延遲會造成其他加速器“等待”,最終拖慢整個Step使得利用率降低、無法獲得預(yù)期的帶寬,存儲必須做到在高帶寬壓力下(意味著更多GPU),也能夠給訓(xùn)練系統(tǒng)提供穩(wěn)定的低時延(提升利用效率),華為OceanStor A系列存儲正是與合作伙伴JNIST一起解決了這一“既要又要”難題才最終登頂榜首。
換句話說,在AI存儲這里,不是你想要支撐更多GPU就能支撐起來的,做好協(xié)同才能不斷提升帶寬上限,否則“加法”的效率會越來越低。
“屏蔽復(fù)雜性”,存儲創(chuàng)新回歸IT服務(wù)本質(zhì)
“強(qiáng)化協(xié)同下的資源池化”對企業(yè)而言究竟意味著什么?
答案是IT供應(yīng)商的本質(zhì)任務(wù)——屏蔽復(fù)雜性,無論是AI計(jì)算還是AI存儲,企業(yè)只需要索求一個最終的結(jié)果,有限預(yù)算下更強(qiáng)大的算力或者更高的帶寬,各種復(fù)雜技術(shù)協(xié)同都由供應(yīng)商來解決。
這個底層邏輯推動著那些優(yōu)質(zhì)存儲廠商的發(fā)展,登頂MLPerf的華為OceanStor A系列產(chǎn)品,在更體系化的層面是華為AI存儲解決方案的一部分,后者在更整體上幫助企業(yè)全面屏蔽復(fù)雜性,才有了前者的“出街”。
具體來看,數(shù)據(jù)在當(dāng)下已經(jīng)成為企業(yè)的重要資產(chǎn),但過去普遍的基礎(chǔ)設(shè)施分開建設(shè)的做法,讓企業(yè)們形成了“煙囪式”數(shù)據(jù)孤島,這是數(shù)字化時代留給智能化時代的負(fù)面遺產(chǎn),它很“復(fù)雜”,嚴(yán)重影響到企業(yè)的AI創(chuàng)新。
而華為存儲站了出來,基于過去長期服務(wù)企業(yè)的經(jīng)驗(yàn),幫助企業(yè)“屏蔽復(fù)雜性”,構(gòu)建起了統(tǒng)一的AI數(shù)據(jù)湖解決方案。不管企業(yè)數(shù)據(jù)再亂、再復(fù)雜,需要支撐AI計(jì)算的時候,華為的方案創(chuàng)新都能幫助企業(yè)“抹平”數(shù)據(jù)到計(jì)算的鴻溝,智能分級流動,打破數(shù)據(jù)孤島,保證AI數(shù)據(jù)高效供給,大幅提升AI集群算力利用率,節(jié)省大模型訓(xùn)練時間。
這是一種“瞌睡遇枕頭”式的創(chuàng)新,在這個創(chuàng)新體系中,除了OceanStor A系列,華為存儲還提供大容量存儲池,滿足企業(yè)多模態(tài)、萬億參數(shù)大模型容量訴求,以及數(shù)據(jù)保護(hù)全面保障數(shù)據(jù)安全。
順著這個思路往下看,很多存儲創(chuàng)新都更能夠被理解,例如當(dāng)企業(yè)需要不同類型的數(shù)據(jù)范式時,華為存儲構(gòu)建PB級KV Cache全局共享資源池,不僅10倍提升推理吞吐,還內(nèi)置RAG知識庫,各種“雜七雜八”的數(shù)據(jù)形式都被支持,企業(yè)不需要直面這些“復(fù)雜性”,只需要放手發(fā)展自己的AI能力即可。
總而言之,MLPerf榜單的“登頂”者,向業(yè)界展現(xiàn)的是一系列圍繞市場最真實(shí)需要的存儲創(chuàng)新進(jìn)化過程,這不是一次簡單的“打榜”,而是創(chuàng)新風(fēng)向的指南針。
*本文圖片均來源于網(wǎng)絡(luò)
此內(nèi)容為【智能相對論】原創(chuàng),
僅代表個人觀點(diǎn),未經(jīng)授權(quán),任何人不得以任何方式使用,包括轉(zhuǎn)載、摘編、復(fù)制或建立鏡像。
部分圖片來自網(wǎng)絡(luò),且未核實(shí)版權(quán)歸屬,不作為商業(yè)用途,如有侵犯,請作者與我們聯(lián)系。
?AI產(chǎn)業(yè)新媒體;
?澎湃新聞科技榜單月度top5;
?文章長期“霸占”鈦媒體熱門文章排行榜TOP10;
?著有《人工智能 十萬個為什么》
?【重點(diǎn)關(guān)注領(lǐng)域】智能家電(含白電、黑電、智能手機(jī)、無人機(jī)等AIoT設(shè)備)、智能駕駛、AI+醫(yī)療、機(jī)器人、物聯(lián)網(wǎng)、AI+金融、AI+教育、AR/VR、云計(jì)算、開發(fā)者以及背后的芯片、算法等。
1.TMT觀察網(wǎng)遵循行業(yè)規(guī)范,任何轉(zhuǎn)載的稿件都會明確標(biāo)注作者和來源;
2.TMT觀察網(wǎng)的原創(chuàng)文章,請轉(zhuǎn)載時務(wù)必注明文章作者和"來源:TMT觀察網(wǎng)",不尊重原創(chuàng)的行為TMT觀察網(wǎng)或?qū)⒆肪控?zé)任;
3.作者投稿可能會經(jīng)TMT觀察網(wǎng)編輯修改或補(bǔ)充。