整合巨量資料的奧秘

吳馥羽
2014-04-07
分享

亦思科技股份有限公司處長江孟峰

巨量資料已經成為十分熱門的議題，關於巨量資料分析的特性，包括從隨機抽取樣本演變為分析全體資料形成的「巨量性」，從結構化資料進化為非結構化資料的「多樣性」，反應時間縮短且即時擷取資料的「即時性」，到資料來源的控管與確認的「真實性」，許多人都早已耳熟能詳。

江孟峰認為，企業若要掌握整合巨量資料的奧秘，第一步要關心的是什麼時候要用巨量資訊？如許多企業納入巨量資料分析的非結構化資料（Unstructured Data），包括e-mail、機器記錄、社交媒體貼文、文件、電子書、醫療紀錄等，其實只是「還未結構化的資料」，江孟峰認為，必須要想辦法先結構化，才能進行處理。

事實上，巨量資料可能遭遇的問題還很多，除了原本無法存入資料的資料，要如何處理外，隨著資料量的成長，原有應用的關聯式資料庫勢必會開始不堪負荷，當資料庫中的某個欄位達到數百萬筆以上的記錄時，效能就會開始下降，甚至嚴重下降到企業主難以忍受的程度，就需要將這種成長迅速的資料，盡快移轉到巨量資料庫。

江孟峰指出，以製造業為例，機台所產生的資料愈來愈快，如果想要分析這些資料，可能就得購買許多伺服器來分析，如Hadoop就可以串聯很多台伺服器來分析，但Hadoop只提供了檔案系統的分析，如果想要分析結構化資料，就得安裝HBase。

此外，巨量資料分析的系統架構技術及相關費用，也必須加以考量。江孟峰指出，Hadoop的系統特性為可組成可伸縮的的叢集，提昇運算能量，自動備援；從古至今，資料分析的對象都是結構化資料，但分析需要meta data，HBase不用直接使用Map Reduce，且HareDB HBase Client則是比較容易理解欄位的型式，適合喜歡SQL查詢，並能夠快速匯入巨量資料的需求。

至於費用方面，Hadoop是用一般的伺服器連結成叢集，且依據需求調整數量，並可自動備援；HBase的優點則是不用訓練一批工程師學習新的程式技術，也不用重新開發所有系統；HareDB HBase Client則是可以讓已經熟悉SQL的工程師，可以很快的上手，並在最短的時間內，開始進行巨量資料分析。

江孟峰指出，HBase Client操作工具支援HQL，與SQL類似，可快速查詢，而其具備的Meta Data管理能力，可用View清楚了解資料呈現，易於管理，而快速上載巨量資料的能力，更可解決巨量資料處理難題，且可管理多個叢集。

但如果企業的思維，以為巨量資料庫是要用來取代原有的關聯式資料庫，其實是有問題的。因為原有的資料庫所遭遇的問題，可能只需要在軟硬體方面做適當的投資就能解決。

江孟峰認為，巨量資料庫的價值，應該是可以將許多商業行為如半導體產品的製造良率，以前都只能從製造過程所產生的資料來蒐集分析，但上下游的供應鏈會有一些行為，如果供貨不及，調整良率的急迫性就沒那麼高。更重要的是，企業現在的製造思維，已經開始轉向終端客戶需求，而不是下游客戶而已，因此需要蒐集更多未結構化的資料進行分析。

至於要如何把還未結構化的資料結構化，江孟峰指出，已有明確分析的目標，仍然是多數企業的選擇，否則也可先看看資料再想如何分析。而在應用推廣方面，目前在建立巨量資料處理平台方面，江孟峰表示，目前已可針對結構或非結構的資料進行蒐集、過濾、儲存、查詢、分類等分析功能，數值類型資料部分也可整合到傳統BI工具，文字類型資料進行視覺化呈現。

此外，在建立與分析工具連結的方式方面，目前也可善用主流技術，整合現有系統，達到降低成本、擴增資料量、分析關鍵因素的目標。導入相關技術的產業包括半導體製造、IC設計、影像處理、供應鏈分析、客戶資料管理等。

江孟峰最後指出，企業現有的資料庫一旦不堪負荷，可以先嘗試提升硬體及資料庫軟體，但如果想要不限維度的分析資料，或是已將資料壓縮成一大堆檔案，需要好好整理時，就需要巨量資料庫及相關分析工具。

企業若有有建立巨量資料庫的需求，江孟峰建議，企業應先瞭解產品的特性與建議，而且要看到模擬的成果驗證，並有認證服務團隊的支援，才是可靠的巨量分析工具。

關鍵字

巨量資料

加入已選取到「關鍵字追蹤」什麼是「關鍵字追蹤」

議題精選－巨量資料論壇專輯