元鼎音訊
訂報優惠

日立數據借助Pentaho 打通資料整合任督二脈

  • 魏淑芳
日立數據系統顧問陳建瑋。

DIGITIMES企劃

現今企業蒐集到的資料,多經由人工程序(如Key-in)產生,展望未來隨著物聯網、工業4.0之發展,分分秒秒都將湧入由機器產生的資料,且數量愈趨龐大,使資料來源益發繁雜,若企業未能建立有效混合不同資料,唯恐阻礙大數據分析應用進程。

日立數據系統(HDS)顧問陳建瑋指出,當前企業普遍存在兩個資料世界,一是以交易資料、客戶基本資料為主的結構化數據,企業通常運用現有ETL(萃取/轉換/載入)工具,將這些數據匯入資料倉儲,再進行商業分析,整段歷程耗時且辛苦。

另一世界是基於網路、社群媒體或地理位置的非結構化數據,企業往往利用現有工具,將數據整理後匯入NoSQL或Hadoop Cluster,再經由ETL程序進入Analytic DB執行分析。

麻煩的是,前述兩個世界之間,向來存在著不易跨越的隔閡,因此無法混合運用彼此分析結果,導致企業難以從中洞察出真正富含價值的資訊。

著眼於此,日立集團在兩年前決定購併一向擅於資料整合與分析的Pentaho,如今已能協助企業透過Pentaho Data Integration(PDI)介接各種資料來源,不論結構化或非結構化數據、乃至Hadoop皆可納入介接範圍,從而快速建立深具資料一致性、完整性等關鍵特質的資料庫湖泊(Data Lake)。

此外,企業還可借助Pentaho Business Analytics(BA)產出分析報表,藉由視覺化且動態的呈現畫面,迅速擷取到有價值的資訊。

陳建瑋提出6點Checklist,只要符合這些條件,都亟需執行資料整合,它們分別是「需混用不同來源數據」、「資料不夠乾淨」、「需要不時加入新的資料來源」、「已準備好要彙集所需完整資料」、「每隔一段週期資料來源可能異動」、「需要做Ad-hoc與Drill-down分析」。