數位科技快速匯流大數據角色日益重要

洪千惠
2018-03-15
分享

大約半年前，美國在台協會與美國創新中心共同舉辦一項論壇，意在探討未來應用趨勢；其間有專家特別點明大數據應用發展的重要性，綜觀當今炙手可熱的議題，包括物聯網(IoT)、智慧城市、擴增/虛擬實境(AR/VR)、區塊鏈、語音辨識，以及人工智慧(AI)等等項目，可望透過大數據(Big Data)技術產生數位匯流效果，將人類社會帶向一場巨大的變革。

前述提及的重大科技趨勢，彼此環環相扣、相輔相成。比方說，初估目前全球連網裝置來到84億台，這些裝置可借助區塊鏈技術以強化安全性；再者透過物聯網，將使智慧城市應用場景持續產生巨量資料，這些數據亟待AI進行分析；此外，語音辨識與AR/VR則需借重AI不斷進行學習。

大數據市場規模預測。

大數據使用案例。

大數據框架。

換言之，伴隨資料驅動時代來臨，各式數位科技議題應運而生，都可望為大數據市場持續挹注推升動能。

大數據市場後勢看漲

根據Statista.com所揭露的大數據市場規模預測顯示，該市場總營收可望從2011年的76億美元、2012年的122.5億美元，一路挺升至2026年的922億美元，前後15年下來，足足增長了1,113%(11倍)之多。深究大數據市場之所以持續看漲，乃在於大多數企業皆深刻體認傳統的數據應用處理，確實有所不足，然而一旦有效運用大數據，便能做出更明快睿智的決策，大幅優化短、中、長期的商業戰略規畫。

若就市場營收結構來細分，目前最大區塊係為專業服務，現今年產值約百億美元，約佔整個市場餅圖的5分之2強。惟專家預期，今後十年期間，專業服務的總體佔比將逐步下滑，取而代之的新主流，將落在大數據軟體之上。

至於當前企業在推展大數據應用的過程中，依然面臨一些共通難題，例如安全性、建置成本，乃至缺乏大數據專業知識等環節，今後持續改善的空間仍相當大；此外基於企業決策高層主管的角度，在持續收集大數據的同時，又得兼顧數據品質的維護，堪稱為重大挑戰。

大數據首要使用場景，為資料倉儲優化

根據Dresner Advisory Services產出的大數據分析市場研究報告顯示，截至2017年，有53%企業已經導入大數據技術，即使現在還未導入的另外47%企業中，也有高達4分之3比例表示未來會加以採用。若以垂直產業來細分，採用大數據的比例已突破50%大關的4個行業領域，由高而低依序是電信、金融、高科技、醫療。

針對大數據的使用案例(Use Case)部份，高達七成企業認為最關鍵的項目為資料倉儲優化，另外兩項獲得逾五成企業認同的Use Case項目，則包括了客戶/社群分析，以及預測性維護；其餘項目如點擊流(clickstream)分析、詐欺偵測、物聯網，則分別獲致30%~40%企業的青睞。

以現今持續發燒的AI話題而論，多數企業皆心知肚明，資料就是AI的養分，如果缺乏資料，便不必奢望能產生任何AI應用成果。持平而論，資料早已存在於企業之中，且一直都在，但長期以來皆側重於ERP、CRM、SCM、EIP...等等結構化的系統記錄資料，反觀帶有知識、Know-how等導向的資料素材，數位化的整備度相對較低，有的被留在員工的個人電腦、甚至大腦當中，有的則散見於Google Analytics、Facebook或LINE等外部系統。

想當然爾，急欲建立大數據文化的企業，不可能見容於數據資源四處散落，因為這將導致決策高層無從看清公司營運的全貌，故而需要設法提升資料能力，使得不管是分析、討論、規劃等等需要用到的資料，都變得垂手可得；在此前提下，過去僅擅長處理結構化資料、且處理速度不夠快的資料倉儲系統，自然不敷使用，當然需要被優先、補強。比較常見的強化方式是，建立一套植基於Hadoop的資料湖泊，藉此擷取各式大量資料，提升資料分析彈性，妥善因應非結構化資料、及全新的資料探索及挖掘需求，繼而與傳統資料倉儲互補，共同撐起大數據分析應用的架構藍圖。

Spark後發先至，躍居主流框架

接著談及大數據的軟體框架。依照Dresner Advisory Services的報告顯示，Spark、MapReduce與Yarn三者，是比較受到企業用戶倚重的項目；如果以「關鍵」與「非常重要」的合計比例來看，唯獨Spark超過五成關卡，顯示該項技術在多數企業的大數據分析架構裡頭，已然扮演吃重角色。

Spark的問市時間，比起前輩Hadoop晚上4年，現今聲勢與老大哥相比毫不遜色，但Spark並非意在取代Hadoop，因為兩者的存在目的不盡相同，Hadoop代表分散式的數據基礎設施，並具有索引與追蹤數據的能力，Spark則明顯偏向分散式數據的處理工作，因此Spark能夠取代的部份，僅止於Hadoop裡頭的MapReduce運算引擎；所以經常見到有企業在Hadoop環境中安裝Spark，藉由HDFS儲存資料，再透過Spark進行分析。

為何愈來愈多企業捨Hadoop自身的MapReduce不用，轉而採用Spark？道理很簡單，因為兩者採用的數據處理方式不同，導致處理速度方面有莫大落差，握有「RDD(最小邏輯單位)」、「記憶體運算」及「大幅減少磁碟I/O」等架構優勢的Spark，數據分析速度甚至可比MapReduce快上百倍，無怪乎備受不少用戶青睞。

有關大數據的存取方式，前身為Shark的SparkSQL技術拔得頭籌，獲得最多企業的普遍採用，略優於知名度甚至更高的HDFS與Hive；除了前三大技術外，Amazon S3也獲得逾四成用戶點明是重要的大數據存取方法。

掌握更多新時代決策者的商業智慧，歡迎參加3/27的巨量資料論壇--當AI遇上BI，數據時代的企業決策大躍進，活動完全免費，掌握趨勢，請速報名！

關鍵字

大數據巨量資料

加入已選取到「關鍵字追蹤」什麼是「關鍵字追蹤」

議題精選－資料驅動營運決策專輯

數位科技快速匯流 大數據角色日益重要

數位科技快速匯流大數據角色日益重要