LLM推理驅動Scale-up規模擴張 單層Switch全互連架構漸成巿場共識
目前巿場對LLM的焦點已多轉向應用面,而推理型的推論因其深度思考能得到較佳答案而大受歡迎,DIGITIMES認為,推理與推論需求大幅成長,將成為大型雲端業者採用或自...
- 當代大型語言模型有5種主要平行運算方式
- All-to-All、All-Reduce型集合通訊常見於LLM訓練與推論的平行運算中
- All-to-All與All-Reduce頻寬為Scale-up關鍵指標 NVIDIA數年來已提升百倍以上
- LLM推論中的平行運算對延遲容忍度更低 大多需在Scale-up網路中處理
- LLM推論中的Prefill為運算瓶頸 Decode為記憶體瓶頸
- 以不同加速器處理Prefill與Decode為目前分工趨勢
- 動態單層全連接與靜態環形網路為主流Scale-up拓撲型態
- NVIDIA採單層全互連網路 以取得最佳All-to-All、All-Reduce表現
- Google以3D環形網路建構TPU Scale-up網路 透過OCS可將Scale-up擴張至9216顆TPU
- 亞馬遜Trainium 2/3將從環形網路轉向單層全互連 將採PCIe 6並與Astera Labs合作
- 結語:LLM推論Scale-up互連發展三大重點
若想立刻加入付費"Research"會員,請洽詢
客服專線:
+886-02-87125398。(週一至週五工作日9:00~18:00)
客服信箱:
member@digitimes.com (一個工作日內將回覆您的來信)
- 追溯至2000年,洞察產業脈動
- 優質報告,助攻精準決策
- 八大主題,23產業頻道涵蓋
- 七大全球數據庫,掌握市場趨勢