Arm 2023全面運算解決方案與新一代GPU架構 推動行動運算視覺體驗升級 智慧應用 影音
DForum0522
DForum0515

Arm 2023全面運算解決方案與新一代GPU架構 推動行動運算視覺體驗升級

  • 李佳玲台北

由左到右分別為:Arm終端產品事業部產品管理總監Andy Craigen、Arm資深副總裁暨終端產品事業部總經理Chris Bergey、Arm CPU產品管理資深總監Stefan Rosinger。Arm
由左到右分別為:Arm終端產品事業部產品管理總監Andy Craigen、Arm資深副總裁暨終端產品事業部總經理Chris Bergey、Arm CPU產品管理資深總監Stefan Rosinger。Arm

隨著智慧型手機已成為串流媒體的主要裝置,加上包括AR、3D手遊、以及愈來愈多生成式AI智慧技術的興起,消費者對沉浸式體驗的追求為行動運算平台催生了比以往更高、更複雜的運算需求。為了滿足各式應用需求,Arm日前推出2023全面運算解決方案(TCS23),藉由效能與效率的進一步提升,再度突破了Arm運算平台的能力極限。

全面運算解決方案(Total Compute Solutions;TCS)是Arm專為適用於行動裝置的SoC設計打造的系統級解決方案,其中涵蓋了CPU、GPU硬體IP、互連與系統IP技術,以及軟體和開發工具等。在新發布的2023全面運算解決方案(TCS23) 中,最主要的亮點包括:推出基於全新第五代GPU架構的旗艦級Immortalis-G720 GPU、效能最強大的Armv9 Cortex運算叢集系統,以及增強的系統最佳化技術,將持續驅動行動裝置的創新應用。

TCS23是Arm專為適用於行動裝置SoC設計打造的系統級解決方案。Arm

TCS23是Arm專為適用於行動裝置SoC設計打造的系統級解決方案。Arm

Cortex-X4可提供比Coretex-X3更佳的效能與效率。。Arm

Cortex-X4可提供比Coretex-X3更佳的效能與效率。。Arm

DSU--120新增了不同的電源模式,可進一步降低漏電流。。Arm

DSU--120新增了不同的電源模式,可進一步降低漏電流。。Arm

推升數位體驗 GPU扮演日益重要的角色

Arm專注於GPU開發已有多年時間,從現今已被廣泛運用的Mali GPU,到2022年首度推出支援硬體光線追蹤技術的Immortalis-G715旗艦級GPU,把行動GPU的效能推升到新的層次。

Arm資深副總裁暨終端產品事業部總經理Chris Bergey表示,對手機設計來說,GPU扮演著日益關鍵的角色,不管是提供出色的視覺體驗與提升機器學習(ML) 運算,都需要更兼具效能與效率的GPU。

Arm終端產品事業部產品管理總監Andy Craigen補充說,提升繪圖效能對手機設計非常重要,Arm已投入大量資源建構繪圖平台。大家都知道繪圖功能非常耗能,即使對桌上型電腦和遊戲機來說也是如此。所以,Arm的重要任務是要吸引開發社群,讓他們相信在手機上也能實現近似在複雜的PC上的視覺體驗,進而願意將其遊戲移植至Android行動繪圖平台。

把光線追蹤技術導入行動裝置

Chris Bergey指出,自2022年推出Immortalis-G715以來,不管在效能、功耗、面積(PPA)各方面都獲得了業界的正面迴響,開發社群對於光線追蹤技術在手機上的應用也展現出高度興趣。

要在手機上實現真實3D影像,如何兼顧效能與功耗需求是一大挑戰。Andy Craigen表示,「由於把PC用的光線追蹤技術直接搬到行動平台上不可行,因此Arm花了很多時間分析光線追蹤技術,了解那些功能可帶來最佳效果,並滿足手機的功耗與晶片面積要求。從2022年首度推出Immortalis-G715以來,我們就展開這個過程,也將會持續發展。」

在2023年初舉行的GDC大會上,Arm與聯發科技、騰訊遊戲共同展示了應用光線追蹤技術的解決方案。此外,Arm亦積極推動生態系統對此技術的了解,協助他們利用各種資源來開發遊戲,包括Unity等遊戲引擎的支援就緒,及其免費提供的Arm Mobile Studio開發工具。

為了展示如何建構光線追蹤技術,Arm台灣團隊也嘗試自行開發遊戲。「我們希望藉此展現出Immortalis平台支援3D繪圖的可行性與出色的視覺效果,以及如何能在手機的功耗預算內實現」,Chris Bergey說。

推出全新第五代Arm GPU架構

為了進一步推升GPU效能,實現更加沉浸的視覺體驗,Arm日前宣布推出第五代GPU架構,以及基於此架構的全新Immortalis-G720。這是 Arm 歷來效能與效率最高的GPU,與前一代產品相比,效能與效率提升了 15%,而面積僅增加2%,同時記憶體頻寬使用量更大幅降低了40%。

第五代GPU架構的主要特點是導入了延遲頂點著色技術 (Deferred Vertex Shading;DVS),透過重新定義GPU中的數據流,擴展GPU核心數量,最高可達16顆核心,以實現更高效能。

Chris Bergey解釋說,記憶體存取與數據移動是影響GPU耗能的主要原因。行動繪圖平台與桌上型電腦的根本差異是在頻寬使用效率。因此,藉由導入DVS技術,能顯著降低頻寬使用以及對外部DRAM的存取,提高每秒顯示畫面張數(幀率),使手機也能支援更複雜的繪圖工作負載。

「遊戲只是第五代GPU架構的其中一個應用市場,3D視覺還可為行動裝置帶來更多的應用商機,像是AR、電腦輔助繪圖(CAD)設計等。」

推動AI與機器學習應用於智慧手機上

GPU效能的提升對於增強手機的AI處理能力也至關重要。Chris Bergey表示,對行動裝置來說,Arm透過TCS23提供強大、必要的基本運算架構,而客戶能自行在其SoC中針對NPU進行差異化設計。而Arm也會透過與夥伴緊密的合作關係,持續提供相關的支援。

他強調,AI需求透過異質運算來提高運算效能,其中涉及了ML任務、推論任務、功耗敏感任務等不同的運算需求。其設計挑戰在於,需協助開發人員對AI進行最佳的編程,利用最適切的處理器來執行特定任務。對Arm來說,不只是硬體架構的提升與就緒,也需要提供豐富的軟體、應用程式支援,並協助客戶最具效率地把AI編程在通用Arm行動運算平台上,才能真正解決問題。

隨著近來生成式AI等全新的智慧應用快速興起,Arm亦積極推升手機的AI處理能力,每兩年增加一倍。此外,透過其開源軟體程式庫,不斷提升Arm IP的機器學習能力,以便支援開發人員充分運用AI與ML工作負載的優勢。Android平台的Google應用程式已在使用Arm NN與Arm Compute Library,目前擁有超過一億的每日活躍用戶,讓開發人員得以運用Armv9 Cortex-A CPU與Arm GPU,將其在ML工作負載的執行最佳化。

兼顧效能與效率的Cortex-X4核心

在CPU方面,Arm推出第四代Cortex-X 核心Cortex-X4,這是Arm歷來速度最快的CPU,與Cortex-X3相比,效能提高了15%,同時,在相同的製程下,與Cortex-X3相比,全新的省電微架構可降低功耗達40%,而面積僅增加10%,是Cortex-X系列中每毫米效能最高的。

Arm CPU產品管理資深總監Stefan Rosinger表示,從圖中可以看出,Cortex-X4與Cortex-X3的功耗對應效能曲線,明顯地向右移動。這意味著,在相同的效能下,Cortex-X4可比Cortex-X3帶來顯著的功耗減省。或是換句話說,在相同的功耗下,可提供更高的效能。

「Cortex-X系列核心雖然是基於『效能優先 』(performance-first)』的理念來設計的,但對手機有限的功率預算來說,推升效能的同時,仍須兼顧效率,才能為客戶帶來真正的價值。不只功耗,Cortex-X4也提升了面積效率,所以能以相同的面積,提供更高的效能,這是Cortex-X4核心設計上的重要考量。」

Chris Bergey補充說,手機有一定的功率預算,因此必須在兼顧功耗的情況下,來推升效能。藉由高效率的Cortex-X4,客戶能夠把相同功耗下帶來的效能增益,運用在AI等其他的更多運算上。另外,此曲線是在iso-process同頻比較條件下的結果,若採用N4或N3製程,取得的效率將更顯著。

此外,Cortex-X4可支援2MB的L2快取,最多可擴展至14個核心叢集,以及32MB的L3快取,可提供絕佳效能與多種彈性配置來滿足客戶不同應用市場的需求。除了旗艦級智慧型手機之外,更高的效能與效率也將能幫助Windows-on-Arm筆電市場的進一步擴展。

系統最佳化技術實現強大的運算叢集系統

除了推出新款CPU與GPU之外,TCS23的另一個重點是提供增強的系統最佳化技術,以提升整體效能。

Chris Bergey表示,開發GPU時,Arm也把CPU以及系統的運作效能納入考慮。以新推出的Immortalis-G720為例,可與CPU共同使用最高達32MB的系統級快取,根據工作負載來進行最佳配置。目的是使數據都在局部取得,僅量不使用外部DRAM,以降低GPU功耗。

在CPU叢集方面,Arm已將其 DSU(DynamIQ Shared Unit)升級至DSU-120。除了上面提到的14核心擴展性與32MB系統快取之外,另一個重點是可提供更多不同的電源模式。

Stefan Rosinger表示,在手機中,會有Cortex-X、Cortex-A不同的核心,因此可根據不同的工作負載,開啟或關閉特定核心的電源。若以核心電源全開啟為基準,可以看到不同使用情境下,電源節省的效益。DSU-120新增的電源模式,可以有效節省晶片的漏電流。

「由於SRAM的微縮腳步跟不上邏輯元件,儘管為了提升效能我們增加了L3快取的容量,但相對的,對功耗也帶來的新的要求。因此,漏電流的節省也成為不可忽視的議題。」

展望未來 邁向異質整合時代

在未來幾年內,Arm將繼續開發下一代包括Krake GPU和Blackhawk CPU等關鍵IP,以滿足合作夥伴對於運算與繪圖效能不斷成長的要求。

然而,隨著晶片即將面臨2奈米製程的微縮極限,朝向3D堆疊與先進封裝技術來延續半導體技術發展,已成必然趨勢。對於針對SoC設計者提供IP的Arm來說,會帶來那些影響與轉變呢?

Chris Bergey表示,當製程微縮趨近極限時,必須對效能、功耗與面積的權衡有更仔細的考量,才能順應製程推進,協助客戶取得最大效益。隨著半導體產業進入3D堆疊與先進封裝技術世代,就要以系統角度來思考並區隔設計,為客戶提供最佳的解決方案,例如把SRAM停留在成熟製程,運算核心採用先進製程等。在這過程中,與台積電的密切配合至關重要。藉由深入了解他們的製程技術,才能就此開發出更適切的解決方案。

他指出,採用異質整合的先進封裝元件未來也將進入行動市場。Arm將順應此趨勢,持續在「超越摩爾定律(More than Moore)」世代勝出。市場對於運算的需求時無止境的,而以Arm為基礎的未來仍將充滿無限可能性!