Meta版ChatGPT帶動AI晶片市場需求

劉慧蘭／綜合外電
2023-03-08
分享

Meta AI推出小而美的LLaMA語言模型，聲稱效能優於GPT-3。符世旻攝

大型語言模型（LLM）是人工智慧（AI）的基礎模型，近年來此類模型可以處理的參數量及所需的運算和記憶體頻寬容量，一直呈現指數成長，對銷售AI訓練用加速器的公司來說是個好消息，尤其是市場主導者NVIDIA。同樣受惠的還有超微（AMD）Instinct GPU以及Cerebras Systems、SambaNova Systems、Graphcore、Groq等AI新創。即使英特爾（Intel）也不遑多讓，推出Max系列資料中心GPU。

根據The Next Platform報導，在OpenAI推出ChatGPT並掀起熱潮後，Facebook母公司Meta Platforms也於日前推出新的AI工具LLaMA（Large Language Model Meta AI）。這個規模較小的模型可以在單一GPU上有效執行適度工作負載，並得到與OpenAI GPT-3模型相同或更好的結果。

與OpenAI一樣，使用者需要向Meta Platforms申請才能存取LLaMA。Meta AI表示，為維護模型的完整並防止濫用，將會以非商業授權方式釋出模型，並根據具體情況授權給政府、社區和學術界的研究人員存取該模型的權限。此外，LLaMA將提供底層代碼給用戶使用，可以自行調整模型並用於研究相關的使用案例。

LLaMA模型是根據全球20種最流行的拉丁語和西里爾字母（Cyrillic）語言的內容進行訓練。LLaMA主要是以各類公開客用的資料集（如Common Crawl、維基百科）進行訓練，因此儘管本身尚未將原始碼對外開放，但與開源原則相容。

2022年3月發表的《Training Compute-Optimal Large Language Models》論文，透過加州大學柏克萊分校、哥倫比亞大學、芝加哥和伊利諾大學在2021年1月發布的大規模多任務語言理解（MMLU）基準測試，探討了模型大小、運算預算、Token數量、訓練時間、推論延遲和效能的相互影響。

這是第一篇提出AI訓練和推論最佳效能未必由參數量大的模型所驅動、而是透過縮小模型並增加訓練資料達成的論點。這種訓練方式可能需要更長的時間，但也會有意外收穫，那就是在新資料的邏輯推論方面，小模型的速度更快。

LLaMA模型分別使用67億、130億、320億和652億個不同參數組合進行訓練，其中兩個參數較小的模型使用1兆個Token，參數較大的兩個模型使用1.4兆個Token。Meta Platforms在配置2,048個NVIDIA Ampere A100 GPU加速器和80 GB HBM2e記憶體的系統上，使用1.4兆個Token來測試最大的LLaMA-65.2B模型，共花費21天完成模型訓練（每GPU每秒380個Token的速度）。

Meta AI研究人員表示，LLaMA-13B模型在大多數的基準測試中都優於GPT-3。Meta相信該模型將有助推動大型語言模型存取及研究的普及化，因為它可以在單個GPU上執行。在規模更高階的模型方面，LLaMA 65B參數模型與Chinchilla或PaLM-540B等最佳大型語言模型也同樣具有競爭力。

責任編輯：毛履兆

加入已選取到「關鍵字追蹤」什麼是「關鍵字追蹤」

議題精選－哪些大廠搭上了ChatGPT列車