随著(zhe)全球智算集群規模跨入“萬卡時代”並(bìng)向“十萬卡”巅峰演進,傳統單機八卡服務器在應對超萬億參數模型時,因集群通信開銷過大導緻算力線性增長受阻,技術重心正加速向具備強互聯能力的超節點架構轉移。
近日,依托OISA協同創新平台,摩爾線程、中國移動研究院、之江實驗室等産業夥伴正式發布《OISA高密超節點參(cān)考設計技術規範》。該規範針對當前智算中心面臨的互聯瓶頸、供電壓力及散熱極限,提出瞭(le)全棧式解決方案,爲構建自主可控、高性能的智算集群奠定瞭(le)關鍵技術基石。
深度重構互聯架構,實現算力密度的跨越式升級
在智算中心的物理布局與邏輯拓撲中,OISA高密超節點通過空間密度與擴展維度的深度重構,打破傳統架構的算力增長壁壘。技術規範大膽引入大尺寸高密線纜方案,在主流32卡至64卡互聯的基礎上,實現瞭(le)标準單寬機櫃内128卡的全互聯,並(bìng)支持通過並(bìng)櫃擴展實現256卡部署,極大優化瞭(le)單位土地面積的算力産出。核心協議層面,基於OISA 2.0版本的原生内存語義支持,該設計實現瞭(le)跨節點的無障礙數據訪問,配合創新報文重構技術,将卡間帶寬推向TB/s級别,時延縮短至數百納秒。這種“高密度物理空間+高帶寬邏輯互聯”的雙重革新,不僅支撐瞭(le)多廠商國産芯片的兼容互通,更爲大規模模型訓練提供瞭(le)近似單機性能的協同計算環境。

OISA高密超節點(diǎn)參(cān)考設計
供電與冷卻雙引擎革新,鍛造極簡綠色的基礎設施
面對單顆GPU功耗攀升至700W以上、機櫃功率向350kW甚至更高量級演進的嚴峻挑戰,OISA參(cān)考設計從櫃級供電及散熱管理兩方面完成瞭(le)底座式革命。供電側,該方案引入高壓直流系統與櫃内集中供電、盲插技術,通過減少中間電力轉換層級,顯著降低能耗損耗,爲超級AI數據中心提供瞭(le)穩定的動力支撐。
散熱側,液冷技術在超節點架構中從“選項”轉變爲“原生标配”,針對單GPU 2kW以上的散熱需求進行深度優化,将PUE值從風冷時代的1.4降至1.05~1.15。通過全量監測流量、壓力、溫度的智能診斷系統,這種導熱效率提升數千倍的技術方案,在確(què)保系統高負載可靠性的同時,也開辟瞭(le)智算産業綠色可持續發展的必然路徑。
共築自主協同生态,引領智算産業高質量演進
OISA高密超節點(diǎn)參(cān)考設計的發布,是産業各方凝聚共識、深化協同創新的重要裏程碑,标志著智算基礎設施從零散探索邁向瞭體系化、标準化的合作新階段。該規範通過整合産業鏈上下遊資源,構建一個更加包容、普惠的算力生态,通過芯片、設備、應用等環節的深度聯動,爲行業提供瞭更多元、更具韌性的技術路徑選擇。
展望未來,OISA協同創新平台将繼續秉持開放、合作、共赢的原則,持續融合Chiplet、光互連、内存池等前沿技術,緻力於(yú)與合作夥伴共同探索計算極限。以中國移動、之江實驗室等爲代表的産業夥伴,将不斷擴大合作朋友圈,邀請更多開發者參(cān)與定制化方案設計,在開放中尋求突破,在合作中實現增益,共同繪就高效、綠色、可持續的智算未來藍圖。 |