AI世代的半導體技術發展 智慧應用 影音
工研院
Event

AI世代的半導體技術發展

  • 陳婉潔DIGITIMES企劃

人工智慧的發展為半導體產業帶來諸多衝擊與變革。其運算需求的爆炸式成長直接催生出高效能的AI晶片;對特定模型的客製需求啟發了創新架構的產生;極端的速度要求推動了半導體封裝技術的飛躍。

可以說,AI為半導體產業注入了全新的活水,也給業者提供了重大的技術契機。本文將解析AI如何從多個層面推動半導體技術發展更上一層樓的飛躍。

激增運算需求催生新型AI晶片

隨著語音辨識、自然語言處理等AI模型的數據量和結構愈發複雜,其運算需求呈現爆炸式成長。尤其是語音辨識需要分析語音訊號並提取語音特徵,進行語音識別需要大量的矩阵運算。自然語言處理需要分析人類語言的語法和語義特徵,進行機器翻譯、情感分析等任務也需要海量運算。

僅僅一個大規模語言模型的運算需求,就已经可以匹配當前全球數萬臺大型資料中心級別的伺服器總和。這給半導體產業帶來了巨大的壓力。為了滿足這種天文數字的運算需求,半導體公司紛紛推出專門為AI模型和算法進行硬體最佳化設計的新型晶片。

Google的TPU為機器學習最佳化,號稱性能可挑戰目前AI運算的龍頭NVIDIA。Google

Google的TPU為機器學習最佳化,號稱性能可挑戰目前AI運算的龍頭NVIDIA。Google

以Google的Tensor Processing Unit(TPU)晶片為例,它直接針對機器學習模型進行客製化設計,採用了表徵文法神經網路架構,並使用模擬記憶體進行並列化運算,效率相比當時最先進的GPU提升了30-80倍。NVIDIA的Hyperscale GPU則採用多晶片互連技術,可以組成巨大GPU集群進行運算。

可以說,正是AI模型運算需求的爆炸式成長,直接促成並加速了這些專門為AI工作負載設計的新型高效能晶片的誕生。它為半導體產業帶來了強勁的發展勢頭,也開闢了蓬勃的新市場。

客製設計思維催生創新架構

相對於過去追求通用計算的半導體設計思路,AI模型和算法的運算具有獨特的模式,為了發揮最佳運算效率,需要針對特定模型和算法進行整體最佳化的客製化設計。

由於不同的AI模型和算法有不同的運算模式,例如CNN網路強調並行計算,RNN網路注重記憶性計算等。為適應這些差異,半導體公司紛紛構建從軟硬體、IP核心到晶片封裝的全方位客製化設計平台,通過軟硬體的協同設計,持續最佳化整個晶片以適配AI模型的演化。

以NVIDIA為例,其首先基於CUDA開發了針對AI演算法的軟體架構,再對其GPU架構進行重新設計,添加了Tensor Core等專為AI而設的硬體單元。同時它還自主設計了NVLink連接技術,連接多個GPU進行並列加速。從軟體到硬體IP,再到封裝互連,全面實現了AI客製化設計。

此外,海量的AI運算資料也為架構設計的最佳化提供了可能。總體上,AI的客製化設計思維推動並催生了創新架構的產生,開啟了半導體設計的新篇章。隨著AI模型的快速演進,客製化設計將持續促進創新架構的產生,驅動半導體技術的新突破。

多晶片封裝突破單晶片速度瓶頸

隨著半導體製程節點的不斷縮小,單個晶片內部訊號傳輸速度已經難以滿足AI模型運算的需求。主要原因在於,過度縮小製程會使晶片互連的寄生電容和電阻效應加劇,進而降低訊號傳輸速率。舉例來說,當製程節點從28nm縮小到7nm時,晶片內訊號延遲會增加2.5倍。

這種單晶片速度瓶頸已然成為限制AI模型訓練和推論速度的主要障礙。以訓練大規模語言模型為例,它需要反覆讀取巨大的模型參數,如果受限於單晶片內記憶體的存取速度,將直接減緩模型的訓練效率。此外,在AI模型推論階段,如果無法快速將輸入數據存入晶片內部記憶體,也會拖慢整個推論流程。

為了提高訊號傳輸速率,業界紛紛發展多晶片封裝技術以實現晶片間的高速互聯。以英特爾的EMIB技術為例,它利用矽橋進行晶片間的高密度微博尺寸互聯,可以將HBM等堆疊記憶體與邏輯晶片進行垂直堆疊,實現記憶體帶寬的大幅提升。這樣就可以突破單晶片內部訊號速度的瓶頸,滿足AI模型訓練和推論對數據傳輸速度的嚴苛要求。

台積電的CoWoS封裝技術成為AI晶片設計業者的最愛,目前產能面臨極度緊俏,正在積極闊產,日月光等封裝業者也在積極趕上。台積電

台積電的CoWoS封裝技術成為AI晶片設計業者的最愛,目前產能面臨極度緊俏,正在積極闊產,日月光等封裝業者也在積極趕上。台積電

台積電的CoWoS技術也是相似的原理,它可以在晶圓級基板上封裝多顆晶片,並使用超高密度的柱狀互連件連接晶片間訊號,實現更快速的並列計算。這種多晶片封裝架構能夠突破單晶片速度限制,滿足AI模型對運算能力的渴求。

總體而言,多晶片封裝技術透過突破單晶片內部訊號傳輸瓶頸,使之成為實現更強AI運算的關鍵途徑之一。它也將推動半導體封裝技術的革新與進步。

AI也推動了運算架構的演化

為滿足AI模型運算需求日益成長的趨勢,半導體公司紛紛投入前瞻技術的研發,以期實現計算架構的重大突破。

以光子計算為例,它利用光子而非電子來編碼、處理和傳輸信息。理論上,光子的傳播速度可以達到電子的100倍,且光子處理信息時幾乎零耗能。如果能夠商業化,光子計算將可能在計算速度和能耗利用率上實現數量級的飛躍。目前研究主要集中在光子計算的基礎單元與邏輯閘構建,以及與電子計算系統的界面技術等。預計在未來5-10年內,可實現小規模光子計算原型的驗證。一旦成熟,它將可能提供遠超傳統電子計算的運算速度與能效。

此外,模仿生物神經網路的神經模擬計算架構也展現出強大的平行處理能力。例如Graphcore的IPU晶片採用數千個處理單元組成記憶體為中心的網格結構,在AI模型訓練速度上遠超傳統GPU,代表了新型計算架構的可能性。類似構想也被應用到以神經網路為基礎的神經網路處理器上。這種生物啟發式計算將可大幅提高AI系統的智能化程度。

還有以記憶體為中心的處理架構等其他前瞻技術也在嘗試突破傳統數位計算的侷限。總之,這些技術代表了半導體計算能力、效率、節能等方面的可能突破。它們的成熟將為半導體產業的新發展階段提供強大動能,也將滿足AI模型運算需求在可預見未來的持續高速成長。

人工智慧的發展激發了半導體產業的新思維,也加速推動了多個層面的技術變革和創新突破。在激烈的市場競爭中,要持續站穩陣腳,半導體公司必須緊跟AI的發展,以技術創新來實現超越。


關鍵字
商情專輯-2023 SEMICON Taiwan