首創增強式學習AI影像壓縮陽明交大研究成績亮眼

林佩瑩／台北
2021-11-08
分享

增強式學習編碼優化壓縮技術(右圖)與HEVC(左圖)國際標準壓縮的主觀品質比較。彭文孝教授

在GPU運算能力大幅飆升、演算法成熟之後，AI技術被應用在許多智慧應用服務中，唯一例外是發展超過20多年的影像/視訊壓縮技術。此技術在過去20年沒有重大演進，卻是多媒體領域中扮演影響經濟發展的重要關鍵，無論是時下流行的YouTube、Netflix等，又或者疫情時間使用量大爆發的視訊會議服務，都非常仰賴該技術協助。

目前影像/視訊等使用的壓縮技術，是採用人類開發的數學演算法，因此有團隊嘗試以AI技術取代，期盼能創造更好的效果。獲得科技部贊助、由陽明交大資訊工程學系教授彭文孝領軍，與杭學鳴、蕭旭峰、黃敬群、邱維辰等教授合作的「基於生成模型的視訊壓縮」計畫，已連續4年參與Google舉辦的學習式影像壓縮競賽(CLIC) ，且在 JPEG AI CfE 競賽中獲第二名的佳績，而國研院國網中心的台灣杉超級電腦則扮演幕後功臣的角色。

陽明交大資訊工程學系教授彭文孝。陽明交大

彭文孝教授指出，在影像辨識等眾多領域中，AI技術都有非常出色的表現，唯獨在影像/視訊壓縮技術，至今仍然無法超越最新一代的壓縮技術。從2018年 Google舉辦學習式影像壓縮競賽後，也帶動全球團隊投入此領域的風潮，不僅每年研究論文數量開始暴增，JEPG 組織更預定2024年要完成學習式影像標準化的工作。

研究成果出色國際競賽成績卓越

目前全球將AI應用於影像/視訊壓縮領域的發展趨勢，分成AI-based、AI-assisted、Hybrid-based三大面向。在AI-assisted影像/視訊壓縮，彭文孝教授帶領的團隊，首創採用增強式學習進行編碼優化壓縮技術，可在不更改既有的編解碼器前提下，實踐提高壓縮效能的目標。此技術已發表在 2021年Data Compression Conference，且分別在台灣及美國申請專利。

此外，彭教授團隊也在AI-based端對端學習式影像與視訊壓縮，有所突破。利用最新的Normalizing Flow生成模型，可在相同位元率下，擁有最佳品質，效能超越傳統的壓縮標準HEVC，並接近 2020 年最新制定的壓縮標準 VVC。在主觀視覺效果上，則大幅超越傳統技術。

台灣杉服務加持論文受國際關注

過去，團隊在投入開發增強式學習進行編碼優化壓縮技術時，都是透過平行運算將研究室內20多台的電腦串連起來，才能免強滿足專案所需。只是在此狀況下，每當需要調整專案中的AI參數，都得花費數個小時之後才知道結果，若是AI模型建置更需長達數個月之久，嚴重影響到專案進度。2018年國網中心開始打造台灣杉一號時，團隊獲得參與測試機會，自此開始也加快增強式學習進行編碼優化壓縮技術的研發成果。

彭文孝教授表示，自行維護運算架構不僅耗時，電腦設備也難以定時更新。當團隊改成租用國網中心的台灣杉一號服務後，由於該平台支援多種深度學習框架容器，環境建置時間自數小時縮短到數秒鐘即可完成。其次，台灣杉一號擁有眾多GPU、大量VRAM以及運算單元，也讓模型訓練時間從以往數個月縮短到一兩週即可完成。

在國網中心台灣杉一號全力支援下，目前團隊已在國際期刊發表7篇論文，另有1篇已被接受。至於在頂級研討會及重要國際研討會發表的論文數量，則共達到56篇之多，也吸引眾多國際團隊合作，未來可望在國際市場佔有一席之地。

關鍵字

國網中心 AI 陽明交大

加入已選取到「關鍵字追蹤」什麼是「關鍵字追蹤」

首創增強式學習AI影像壓縮 陽明交大研究成績亮眼

首創增強式學習AI影像壓縮陽明交大研究成績亮眼