LLM推理驅動Scale-up規模擴張 單層Switch全互連架構漸成巿場共識

目前巿場對LLM的焦點已多轉向應用面,而推理型的推論因其深度思考能得到較佳答案而大受歡迎,DIGITIMES認為,推理與推論需求大幅成長,將成為大型雲端業者採用或自...

目錄
  • 當代大型語言模型有5種主要平行運算方式
  • All-to-All、All-Reduce型集合通訊常見於LLM訓練與推論的平行運算中
  • All-to-All與All-Reduce頻寬為Scale-up關鍵指標 NVIDIA數年來已提升百倍以上
  • LLM推論中的平行運算對延遲容忍度更低 大多需在Scale-up網路中處理
  • LLM推論中的Prefill為運算瓶頸 Decode為記憶體瓶頸
  • 以不同加速器處理Prefill與Decode為目前分工趨勢
  • 動態單層全連接與靜態環形網路為主流Scale-up拓撲型態
  • NVIDIA採單層全互連網路 以取得最佳All-to-All、All-Reduce表現
  • Google以3D環形網路建構TPU Scale-up網路 透過OCS可將Scale-up擴張至9216顆TPU
  • 亞馬遜Trainium 2/3將從環形網路轉向單層全互連  將採PCIe 6並與Astera Labs合作
  • 結語:LLM推論Scale-up互連發展三大重點
相關報告
關鍵字
購物車
0件商品
智慧應用 影音