邊緣生成式AI推論運算以70億個參數量語言模型為主流
DIGITIMES Research觀察,邊緣AI推論運算應用產品朝三大方向發展,一為x86架構的PC、NB,二為Arm架構的手機、平板,三為Arm/ RISC-V架構的物聯網裝置。另外,ChatGPT帶動生成式AI的熱潮,生成式AI發展亦朝邊緣裝置延伸,而邊緣生成式AI推論關鍵為晶片運算力與大型語言模型(Large Language Model;LLM),目前主流AI PC與手機規格為具備運算力大於15 TOPS(運行生成式AI模型)晶片與70億個參數量語言模型。
邊緣AI推論晶片為運算力重要關鍵之一,為提升晶片AI運算力,目前以整合神經網路處理單元(Neural Network Processing Unit;NPU)加速器為主流,PC、NB晶片包括英特爾(Intel)的Core Ultra系列、超微(AMD)的Ryzen 8040 Hawk Point系列與Ryzen 8000G系列等,手機、平板晶片包括高通(Qualcomm)的Snapdragon 8 Gen 3、聯發科的Dimensity 9300等,物聯網裝置晶片包括意法半導體(STMicroelectronics)的STM32MP2、恩智浦(NXP)的MCX N94X、奇景光電的WiseEye 2等。
為符合邊緣裝置較低運算力限制,各業者積極發展縮減參數量技術,主流的小型語言模型(Small Language Model;SLM)包含Meta的Llama2 13B與7B、Google的Gemini Nano 1 (1.8B)與Nano 2 (3.25B)、微軟(Microsoft)的Phi-2 (2.7B)等,目前邊緣SLM推論運算以70億個參數量為主流語言模型。
品牌業者於CES 2024同時展出搭載GPU加速器AI NB 布局邊緣AI推論運算市場
2023年AI模型的訓練與推論工作皆依賴雲端伺服器運作,而硬體市場集中開發伺服器專用的加速晶片包括GPU (Graphics Processing Unit)、TPU (Tensor Processing Unit)、VPU (Vision Processing Units)等,DIGITIMES Research觀察,CES 2024期間多家業者推出AI PC,且英特爾預估2024~2025年將出貨約1億顆AI-capable的處理器,由此可見2024年AI雲端推論工作逐漸延伸至邊緣裝置運作。
品牌業者宏碁、華碩、Dell、HP等,同時於2024年第1季展出具AI推論功能的NB,為提升AI推論的運算力,NB皆配備NVIDIA GeForce RTX 40 Series Laptop GPU及RTX 40 Series GPU。

NVIDIA GeForce RTX 40 系列加速器運算力為194~686 TOPS,藉由GPU的高運算力加速AI圖像生成、3D渲染、圖/影像編輯的工作效率,其中,以加速AI圖像生成提升運算效率最高,為使用Apple M2 Ultra晶片運算效率的8倍,可有效達成降低AI運算的時間與功耗。

AI推論運算延伸至邊緣PC、NB、手機、物聯網裝置運作
邊緣AI推論運算應用產品朝三大方向發展,一為x86架構的PC與NB、二為Arm架構的手機與平板、三為Arm/ RISC-V架構的物聯網裝置。
PC、NB領域邊緣運算晶片架構以小晶片(Chiplet) CPU或獨立GPU為主,為提升晶片AI推論運算力,CPU需整合GPU或NPU,最合適的架構為Chiplet,優點為可整合不同製程與功能的單元、降低晶片設計成本、縮短開發時間、提高設計彈性與良率等。另外,獨立GPU架構可藉由快速週邊組件互連(Peripheral Component Interconnect Express;PCIe)介面與CPU整合,提升PC、NB的AI推論運算力。
手機、平板領域邊緣運算晶片架構以系統單晶片(System on a Chip;SoC)為主,受手機、平板硬體空間小與電量有限,NPU以重新佈局與線路設計方式,整合在單一晶片上,相較於Chiplet架構晶片尺寸更小、功耗更低,因此SoC成為手機、平板提升AI推論運算力的主流架構。
物聯網裝置運算晶片以微控制器(Micro Controller Unit;MCU)架構為主,為提升晶片AI推論運算力,目前以模組系統(System on Module;SoM)與系統級封裝(System in Package;SiP)方式與NPU整合,SoM的優點可降低硬體平台和低階軟體開發成本,而SiP的優點為簡化複雜電路系統的設計。

資料來源:DIGITIMES Research,2024/2
晶片運算力提升可加速邊緣AI推論應用落地
邊緣AI推論運算目前可區分為 x86、Arm、RISC-V三大系統,不同系統產品應用的特性與限制,需搭配的邊緣AI推論運算晶片各有差異,x86系統可搭載較高運算力的晶片,而RISC-V系統因受電量限制,搭載較低運算力的晶片,為加速邊緣AI推論運算應用落地,指標業者紛推出AI推論運算晶片。

資料來源:DIGITIMES Research整理,2024/2
NB與PC的AI推論運算方面,英特爾於2023年12月14日發布Core Ultra系列晶片,以Chiplet架構整合Arc/ Graphics GPU與AI Boost NPU加速器,可提高AI推論工作效率,同時可於邊緣裝置進行AI推論運算,並保持隱私與資料安全,而運算力部分,Meteor Lake架構達34 TOPS;2024年底英特爾將推出Lunar Lake架構,運算力可提升至40 TOPS。另外,超微同時間發布NB專用Ryzen 8040 Hawk Point系列與PC專用Ryzen 8000G系列晶片(2024年1月31日上市),整合GPU (Radeon 780M/ 760M)與XDNA NPU加速器,單獨NPU運算力達16 TOPS,總和運算力達39 TOPS。
DIGITIMES Research觀察,微軟可能於2024年下半推出Windows 12系統,系統功能增加許多邊緣生成式AI推論應用,可提高商務的工作效率,因此預測AI推論運算第一波市場成長的產品為NB與PC。

資料來源:各業者,DIGITIMES Research整理,2024/2
手機與平板AI推論運算方面,高通於2023年10月24日發布Snapdragon 8 Gen 3晶片,以SoC架構整合GPU Adreno 750與AI加速器Hexagon NPU,運算力達15 TOPS,功能可支援LLM、大型視覺模型(Large Vision Model;LVM) 、 語音辨識(Automatic Speech Recognition;ASR)。另外,聯發科於2023年11月6日發布Dimensity 9300晶片,相同以SoC架構整合GPU Mali-G720與AI加速器APU 790,運算力達20 TOPS,可支援130億個參數LLM(最高支援330億個),另外,文字生成圖像部分,可使用穩定擴散(stable diffusion)與低秩適應(Low-Rank Adaptation;LoRA)模型生成GIF格式的圖像。
DIGITIMES Research觀察,目前已有許多手機品牌業者推出具生成式AI推論運算功能的產品,其中,使用高通 Snapdragon 8 Gen 3晶片的手機包含三星Galaxy S24 Ultra、小米14系列、榮耀Magic 6系列等;另外,使用聯發科Dimensity 9300晶片手機包含Vivo X100系列、Oppo Find X7系列等。由於手機專用AI推論晶片成本較高,因此,目前手機業者僅導入旗艦系列使用,試圖測試邊緣AI推論運算的市場接受度,DIGITIMES Research預估,2025年AI推論晶片有機會導入到所有系列手機。

物聯網裝置AI推論運算方面,應用領域包含智慧製造、醫療、零售、家電等,多數物聯網裝置採用電池為供電來源,另外,體積要求輕薄短小,電池的容量更為受限,因此,目前多數裝置使用低功耗的MCU晶片,物聯網裝置為提升AI推論運算,以附加NPU AI加速器為主,因物聯網裝置電量的限制,搭配較低的AI運算力(小於2 TOPS)。
意法半導體於2023年5月推出STM32MP2晶片,並開發Cube.AI機器學習庫工具免費提供用戶使用,另外,該晶片支援8、16bit格式資料運算,且可提高卷積神經網絡(Convolutional Neural Network;CNN)與遞迴神經網路(Recurrent Neural Network;RNN)的運算效率,目前大部分應用為結合製造設備感測器,進行如設備異常預測、環境資料的數據分析等。
恩智浦於2022年11月推出MCX N94X系列晶片,並開發提供eIQ Neutron NPU軟體工具包,功能包含模型的訓練、建模、微調與增強數據等,另外,可輸出至TensorFlow Lite、ONNX、Arm NN系統,運行即時推論引擎,也可作為用戶現有模型的推論引擎使用。邊緣AI運算應用情境為電腦視覺的目標檢測與圖像分類,適用於智慧製造、醫療等領域等。
奇景光電2023年9月推出WiseEye2 AI HX6538晶片,具備高效率AI運算的Arm Ethos-U55 microNPU,可加速卷積神經網路(Convolutional Neural Network;CNN)運算,亦支援AI模型權重壓縮減小模型大小,利於邊緣裝置執行複雜的 CNN 推論工作,例如人臉、人體姿勢辨識等,另外,安全與隱私功能,包含物理不可仿製功能(Physically Unclonable Function;PUF)與信任區(TrustZone)安全性技術,可防止裝置資料與AI模型被複製。

指標業者積極發展邊緣生成式AI推論運算專用SLM
LLM技術朝多模態大型語言模型(Multimodal Large Language Model;MLLM)與SLM方向發展,MLLM與一般LLM差異在於MLLM可理解和處理多類型資料的輸入模式(如文字、圖像、音訊等),進而處理較複雜推理任務與問答,而SLM的發展為符合邊緣裝置低運算力的限制,各業者積極發展縮減參數量技術,目前邊緣生成式AI推論運算以70億個參數量為主流模型。

註2:( )內數字表示參數量。
資料來源:各業者,DIGITIMES Research整理,2024/2
多模態大型語言模型指標業者目前以OpenAI與Google為主,OpenAI於2023年10月推出GPT-4多模態版本,模型架構以8個預訓練專業模型整合而成,每個模型具有2,220億個參數量,整體模型總合為1.776兆個參數量,GPT-4與ChatGPT (GPT-3.5)差異除文字對話外,還能輸入圖像由AI解讀,且回覆能力和正確率超越ChatGPT,另外,GPT-4的API輸入Token上限,提高至32K,達32,768個Token,為ChatGPT (4K)的8倍。
Google於2023年12月推出Gemini多模態大型語言模型,模型分為Ultra、Pro、Nano三個版本,Ultra與Pro為大參數量的模型,Ultra參數量達1.56兆個、Pro達6,000億個,Ultra為理解、邏輯能力最強的模型,適用於高複雜的多模式任務,而Pro為可用於各種廣泛任務的模型,Google Bard聊天機器人則使用此模型。
另外,Gemini多模態大型語言模型已於2024年2月9日開始收費,Ultra每月新台幣650元,並提供2TB雲端儲存空間、模型可應用於Gmail、Google space等,Pro每月新台幣330元,最多可與5位使用者共用、適用於多台裝置虛擬私人網路(Virtual Private Network;VPN)使用。

SLM指標業者包含Meta、Google、微軟等,Meta於2023年7月19日發表Llama2模型,模型參數量有130億、70億、30億個三種版本,Llama2與前一版Llama的差異包含訓練資料和上下文長度增加40%、使用人類意見回饋強化學習(Reinforcement Learning from Human Feedback;RLHF)、可離線使用、高隱私性等;另外,Meta於2023年7月與微軟合作,將Llama2以開源方式,放上微軟的公有雲Azure,使企業、新創公司、研究人員可免費使用。
Google Gemini Nano模型包含32.5億、18億個參數量兩種版本,模型功能如摘要文字、根據上下文回覆問題與語法糾錯等,目前Google Pixel 8 Pro手機已可運行Gemini Nano模型,即使無網路的離線狀態下,也可對錄製的音檔、簡報等內容生成摘要,另外,Google於2024年2月與聯發科合作,兩款新晶片(Dimensity 8300、9300)支援Gemini Nano模型,Gemini Nano在新晶片上運行可發揮最高效能。
微軟於2023年12月發表Phi-2模型,以深度學習Transformer演算法為基礎的模型,另外,模型訓練資料包含科學、日常活動與心理學等,具備高推理與語言理解能力,可應用開發NB與手機生成AI軟體的核心技術使用。

結語
DIGITIMES Research觀察,邊緣生成式AI推論運算發展關鍵,受「運算力」、「LLM技術」、「應用與服務」因素所影響,目前「運算力」、「LLM技術」初期發展成熟度已完備,惟「應用與服務」市場發展仍處於探索期,未有殺手級應用與可商業化模式。
「運算力」層面,指標晶片業者與PC、NB、手機品牌業者皆推出可運行邊緣生成式AI推論的新產品,目前NB以商務機型為主,DIGITIMES Research認為,邊緣生成式AI推論運算可有效提升工作效率,商務用戶換購新產品意願相對高於消費型用戶,而手機則先以旗艦機型導入邊緣AI推論晶片,功能以文字摘要與圖片生成為主。
「LLM技術」層面,為符合邊緣裝置較低運算力的限制,各業者積極發展縮減參數量技術,目前邊緣AI推論以70億個參數量的SLM為主流,另外,SLM多數為開源方式提供用戶使用,其中,Meta開源LLM目的為結合更多人的智慧、降低LLM開發門檻、降低調校訓練成本等。
「應用與服務」層面,邊緣生成式AI處於探索期,各指標業者針對用戶的需求、習慣、偏好、價格接受度等因素持續進行市場調查研究,以利推出殺手級應用與可商業化模式,而微軟為市場的先行者(first mover),已於2023年11月推出企業版Windows Copilot,微軟在具備LLM技術與Windows系統資源的優勢下,引領定義AI PC市場規格與發展方向。
若想立刻加入付費"Research"會員,請洽詢
客服專線:
+886-02-87125398。(週一至週五工作日9:00~18:00)
客服信箱:
member@digitimes.com (一個工作日內將回覆您的來信)
- 追溯至2000年,洞察產業脈動
- 優質報告,助攻精準決策
- 八大主題,23產業頻道涵蓋
- 七大全球數據庫,掌握市場趨勢