阿里云磐久AI Infra 2.0服務(wù)器與UALink聯(lián)盟共啟AI新紀(jì)元
在2024年10月15日至17日,全球矚目的開放計(jì)算全球峰會(huì)(OCP Global Summit)在美國(guó)加州圣何塞盛大召開。本屆峰會(huì)以“創(chuàng)新的力量”為主題,吸引了全球超過(guò)7000名來(lái)自基礎(chǔ)設(shè)施軟硬件技術(shù)和應(yīng)用領(lǐng)域的專家。峰會(huì)聚焦于AI基礎(chǔ)設(shè)施技術(shù)生態(tài)的建設(shè),尤其是OCP基金會(huì)宣布的人工智能開放系統(tǒng)戰(zhàn)略計(jì)劃,為AI領(lǐng)域的發(fā)展注入了新的活力。
在這一重要時(shí)刻,阿里云服務(wù)器研發(fā)資深總監(jiān)文芳志與UALink聯(lián)盟主席Kurtis Bowman聯(lián)合發(fā)表了題為《UALink:加速AI的未來(lái)》的演講,共同探討了AI服務(wù)器Scale UP互連技術(shù)的最新發(fā)展,UALink標(biāo)準(zhǔn)的演進(jìn)路徑,以及UALink聯(lián)盟與ALink System產(chǎn)業(yè)生態(tài)的協(xié)同合作潛力。
UALink協(xié)議,由AI芯片、服務(wù)器和云服務(wù)提供商等行業(yè)領(lǐng)導(dǎo)者共同發(fā)起,旨在成為AI服務(wù)器Scale UP互連技術(shù)的新標(biāo)準(zhǔn)。它不僅支持高性能內(nèi)存語(yǔ)義訪問(wèn)和顯存共享,還具備超高帶寬和超低時(shí)延的特性,為AI服務(wù)器Scale UP互連技術(shù)的發(fā)展提供了新的動(dòng)力。UALink聯(lián)盟計(jì)劃于10月底正式成立,并在年底發(fā)布第一版UALink spec,這標(biāo)志著AI服務(wù)器互連技術(shù)將進(jìn)入一個(gè)新的發(fā)展階段。
面對(duì)全球尤其是中國(guó)市場(chǎng)的挑戰(zhàn),ALink System(ALS)產(chǎn)業(yè)生態(tài)應(yīng)運(yùn)而生,旨在推動(dòng)UALink標(biāo)準(zhǔn)的落地實(shí)施。ALS提供了統(tǒng)一標(biāo)準(zhǔn)的互連系統(tǒng),包括ALS-D數(shù)據(jù)面和ALS-M管控面,為AI訓(xùn)練和推理場(chǎng)景提供全面的解決方案。
ALS-D支持UALink國(guó)際標(biāo)準(zhǔn),形成了具有競(jìng)爭(zhēng)力的數(shù)據(jù)面方案。它不僅支持高性能內(nèi)存語(yǔ)義訪問(wèn)和顯存共享,還具備超高帶寬和超低時(shí)延,同時(shí)增加了網(wǎng)內(nèi)計(jì)算等特性。ALS-M則為不同芯片方案提供標(biāo)準(zhǔn)化的接入方案,支持開放生態(tài)和廠商專有互連協(xié)議的統(tǒng)一軟件接口,為云計(jì)算等集群管理場(chǎng)景提供靈活和彈性的配置能力。
遵循ALink System規(guī)范,阿里云設(shè)計(jì)了面向下一代超大規(guī)模AI集群的磐久AI Infra 2.0服務(wù)器。該服務(wù)器體現(xiàn)了開放生態(tài)、高能效、高性能和高可用的設(shè)計(jì)理念,定義了AI計(jì)算節(jié)點(diǎn)和Scale Up/Scale Out互連系統(tǒng),支持業(yè)界主流AI方案,推動(dòng)了AI領(lǐng)域的“一云多芯”發(fā)展。
互連系統(tǒng)ALink System全面兼容UALink生態(tài),與行業(yè)伙伴共同構(gòu)建超高性能、超大規(guī)模的Scale UP集群互連能力。一級(jí)互連支持64-80個(gè)節(jié)點(diǎn),二級(jí)互連可達(dá)2000個(gè)以上節(jié)點(diǎn),提供了PB級(jí)共享顯存和TB級(jí)互連帶寬,為AI的發(fā)展提供了強(qiáng)大的支持。
AI Infra 2.0服務(wù)器集成了阿里自研的CIPU 3.0芯片,支持高帶寬大規(guī)模AI服務(wù)器的Scale Out網(wǎng)絡(luò)擴(kuò)展,同時(shí)滿足云網(wǎng)絡(luò)的彈性和安全需求。在硬件工程方面,AI Infra 2.0服務(wù)器單機(jī)柜支持最大80個(gè)AI計(jì)算節(jié)點(diǎn),業(yè)界密度最高;采用400V PSU,單體供電效率可達(dá)98%,整體供電效率提高2%。散熱設(shè)計(jì)上,機(jī)柜級(jí)液冷方案可以根據(jù)實(shí)際負(fù)載動(dòng)態(tài)調(diào)整CDU冷卻能力來(lái)降低能耗,單柜冷卻系統(tǒng)節(jié)能30%。在運(yùn)維管理上,全新的CableCartridge后維護(hù)設(shè)計(jì),支持全盲插,零理線易運(yùn)維、零誤操作,維護(hù)效率提升50%。
在可靠性方面,AI Infra 2.0服務(wù)器支持彈性節(jié)點(diǎn)、智能路由、高可靠供電、分布式CDU等技術(shù),可以實(shí)時(shí)監(jiān)控、探測(cè)各種硬件故障并自愈,硬件的故障域也縮減到節(jié)點(diǎn)級(jí)。
阿里云在ALink System產(chǎn)業(yè)生態(tài)建設(shè)上,秉持開放合作的策略,推動(dòng)互連技術(shù)領(lǐng)域的發(fā)展和繁榮。自ALink System產(chǎn)業(yè)生態(tài)在開放數(shù)據(jù)中心大會(huì)上正式發(fā)布以來(lái),已有20多家AI芯片、互連芯片、服務(wù)器整機(jī)硬件和IP設(shè)計(jì)廠商加入,成員單位已就相關(guān)協(xié)議標(biāo)準(zhǔn)制定和實(shí)行路徑選擇展開交流。
阿里云不僅是UALink的積極支持者和ALink System產(chǎn)業(yè)生態(tài)的牽頭者,還是OCP、CXL、UCIe和UEC等多個(gè)互連技術(shù)行業(yè)組織的創(chuàng)始成員或技術(shù)委員會(huì)成員,并用實(shí)際行動(dòng)支持相關(guān)開放互連技術(shù)標(biāo)準(zhǔn)的制定和落地。
通過(guò)這些合作和努力,阿里云磐久AI Infra 2.0服務(wù)器與UALink聯(lián)盟的攜手,不僅展示了阿里云在AI基礎(chǔ)設(shè)施領(lǐng)域的技術(shù)實(shí)力和創(chuàng)新能力,也體現(xiàn)了阿里云在推動(dòng)開放計(jì)算和AI技術(shù)發(fā)展中的領(lǐng)導(dǎo)地位。阿里云將繼續(xù)引領(lǐng)AI技術(shù)的未來(lái)發(fā)展,為全球客戶提供更加強(qiáng)大、靈活和高效的AI基礎(chǔ)設(shè)施解決方案。