Meta版ChatGPT帶動AI晶片市場需求 智慧應用 影音
台灣帆軟
Event

Meta版ChatGPT帶動AI晶片市場需求

  • 劉慧蘭綜合外電

Meta AI推出小而美的LLaMA語言模型,聲稱效能優於GPT-3。符世旻攝
Meta AI推出小而美的LLaMA語言模型,聲稱效能優於GPT-3。符世旻攝

大型語言模型(LLM)是人工智慧(AI)的基礎模型,近年來此類模型可以處理的參數量及所需的運算和記憶體頻寬容量,一直呈現指數成長,對銷售AI訓練用加速器的公司來說是個好消息,尤其是市場主導者NVIDIA。同樣受惠的還有超微(AMD)Instinct GPU以及Cerebras Systems、SambaNova Systems、Graphcore、Groq等AI新創。即使英特爾(Intel)也不遑多讓,推出Max系列資料中心GPU。

根據The Next Platform報導,在OpenAI推出ChatGPT並掀起熱潮後,Facebook母公司Meta Platforms也於日前推出新的AI工具LLaMA(Large Language Model Meta AI)。這個規模較小的模型可以在單一GPU上有效執行適度工作負載,並得到與OpenAI GPT-3模型相同或更好的結果。

與OpenAI一樣,使用者需要向Meta Platforms申請才能存取LLaMA。Meta AI表示,為維護模型的完整並防止濫用,將會以非商業授權方式釋出模型,並根據具體情況授權給政府、社區和學術界的研究人員存取該模型的權限。此外,LLaMA將提供底層代碼給用戶使用,可以自行調整模型並用於研究相關的使用案例。

LLaMA模型是根據全球20種最流行的拉丁語和西里爾字母(Cyrillic)語言的內容進行訓練。LLaMA主要是以各類公開客用的資料集(如Common Crawl、維基百科)進行訓練,因此儘管本身尚未將原始碼對外開放,但與開源原則相容。

2022年3月發表的《Training Compute-Optimal Large Language Models》論文,透過加州大學柏克萊分校、哥倫比亞大學、芝加哥和伊利諾大學在2021年1月發布的大規模多任務語言理解(MMLU)基準測試,探討了模型大小、運算預算、Token數量、訓練時間、推論延遲和效能的相互影響。

這是第一篇提出AI訓練和推論最佳效能未必由參數量大的模型所驅動、而是透過縮小模型並增加訓練資料達成的論點。這種訓練方式可能需要更長的時間,但也會有意外收穫,那就是在新資料的邏輯推論方面,小模型的速度更快。

LLaMA模型分別使用67億、130億、320億和652億個不同參數組合進行訓練,其中兩個參數較小的模型使用1兆個Token,參數較大的兩個模型使用1.4兆個Token。Meta Platforms在配置2,048個NVIDIA Ampere A100 GPU加速器和80 GB HBM2e記憶體的系統上,使用1.4兆個Token來測試最大的LLaMA-65.2B模型,共花費21天完成模型訓練(每GPU每秒380個Token的速度)。

Meta AI研究人員表示,LLaMA-13B模型在大多數的基準測試中都優於GPT-3。Meta相信該模型將有助推動大型語言模型存取及研究的普及化,因為它可以在單個GPU上執行。在規模更高階的模型方面,LLaMA 65B參數模型與Chinchilla或PaLM-540B等最佳大型語言模型也同樣具有競爭力。


責任編輯:毛履兆


關鍵字