數驅未來:宏杉科技智算中心AI存儲解決方案 智慧應用 影音
D Book
231
DFORUM
世平

數驅未來:宏杉科技智算中心AI存儲解決方案

  • 林稼弘台北

預計未來兩年,AI大模型將落地50%+行業場景,引領廣泛的智慧化革命。資料作為AI產業鏈的基礎要素,其規模與品質直接決定了AI智算的廣度與深度。宏杉科技
預計未來兩年,AI大模型將落地50%+行業場景,引領廣泛的智慧化革命。資料作為AI產業鏈的基礎要素,其規模與品質直接決定了AI智算的廣度與深度。宏杉科技

AI作為引領新一輪科技革命和產業變革的戰略性技術,正成為發展新質生產力的重要引擎。預計未來兩年,AI大模型將落地50%+產業場景,引領廣泛的智慧化革命。資料作為AI產業鏈的基礎要素,其規模與品質直接決定了AI智算的廣度與深度。在AI大模型的全生命週期中,包含4個關鍵環節。

數據存取

資料獲取方式多樣,需相容NFS、SMB、S3等多種存儲協定,構建超大容量、靈活適應的“資料倉儲”。

數據預處理

針對資料在此階段的複雜性與無序性,需構建可靈活應對混合IO負載與多變讀寫模式的存儲架構。

模型訓練

高效載入資料至GPU進行計算,對存儲效能有嚴格要求(高IOPS、高頻寬、低延遲),以確保訓練過程的流暢與高效。

推論應用

快速載入海量模型檔,單個檔大小在幾十GB至上百GB不等。若同時啟動數十個推論業務,整體資料量將達幾十至上百TB,對讀取效率提出較高要求。

在整個流程中,模型訓練是最重要的一環,對存儲系統效能要求極高。為確保訓練任務如期完成,實現訓練資料快速載入、GPU無等待、Checkpoint(AI大模型訓練過程中定期保存的模型狀態快照)快速保存與恢復的目標,通常需要存儲系統提供數百GB/s的頻寬,以及千萬級的IOPS處理能力。

以自然語言處理(NLP)在大型預訓練語言模型GPT3中的Checkpoint保存場景為例,175B的參數規模,其Checkpoint檔達3TB左右,若要在30s內完成Checkpoint檔的保存,其寫頻寬需達到100GB/s。為此,急需構建高效能、高可擴展性的資料存儲底座,以支撐AI大模型的核心業務流程。

憑藉在資料存儲領域十餘年的創新與積澱,宏杉科技精耕細作,以MC27000-MOFS高效能分散式並行存儲系統與MacroDisk智慧盤櫃為核心,打造智算中心AI存儲解決方案,為AI大模型的精研之路奠定堅實基礎。該產品採用INTEL Xeon 6430處理器,以滿足客戶的高性價比要求。它們為最終客戶提供高級功能,例如“熱資料和冷資料的分層存儲”和災難恢復等資料中心服務。

MC27000-MOFS高效能分散式並行存儲提供高效運行引擎

資料歸集和預處理階段,MOFS系統可構建基於傳統HDD硬碟的海量資料資源池,支援NFS/CIFS/HDFS協定互訪與多節點併發讀寫,極大地加速了資料的導入與處理。其單集群單檔案系統容量可達1000PB,檔數量達千億級,充分滿足AI智算對海量資料的處理需求。

在模型訓練和推論階段,MOFS系統可提供全NVMe介質的高效能資源池,通過部署增強型用戶端,並融合用戶端切片、MPI-IO、RDMA網路、小檔聚合等先進技術,系統單節點混合讀寫效能可達30GB/s以上,實現了資料的高效處理與流暢傳輸。

MacroDisk智慧盤櫃打造穩定存儲底座

當前,Lustre/GPFS等並行檔案系統已被廣泛應用於AI訓練流程之中,成為驅動AI智算發展的關鍵力量。然而,Lustre的多個資料存儲單元(OSS)並未自帶資料保護功能,當一個用戶端或節點發生故障時,其中的資料在重新開機前將不可瀏覽。因此,存算分離是此架構下提升系統整體可靠性的關鍵路徑。

在Lustre/GPFS並行檔案系統+集中式存儲的整體架構下,宏杉科技以MacroDisk智慧盤櫃為關鍵硬體支撐,面向HPC、AI等場景,無縫對接客戶Lustre/GPFS等原有並行檔案系統,為AI訓練構建了極致效能、極致可靠的存儲資源池。

MacroDisk支援NVMe over ROCE+INOF、NVMe over FC兩種高速資料傳輸方式,單套設備即可提供200W  IOPS、80GB/s頻寬;採用雙控制器Active-Active架構,確保資料的高效讀寫及瀏覽;集成磁片監測、慢盤檢測、磁片診斷等功能,實現對磁片健康狀況的即時監控與精准維護;引入CRAID3.0技術,採用22+3或者23+2的比例進行資料硬碟和校驗硬碟的配置,在保障資料安全的同時,實現高達92%的空間利用率,為AI智算中心的穩定運行與未來發展提供了強有力的支撐。

隨著國家政策的持續推動與技術趨勢的加速演進,AI智算正邁向更加高效、智慧、安全的新紀元。作為一站式資料存儲專家,巨集杉科技將緊跟產業發展脈搏,以數賦智,用更多前瞻創新方案助力AI產業新藍海的開拓。

關鍵字