雲容器x資料湖 打造並蓄兼容的企業營運雲架構 智慧應用 影音
DForum0515
hotspot

雲容器x資料湖 打造並蓄兼容的企業營運雲架構

  • 陳毅斌台北

零接觸經濟加速了各界對於FinTech金融科技、新零售的應用。根據主計處資料指出,2021年6月底全台電子支付使用人數已達到1,389萬人,年增 53.8%,而2020年的數據也顯示,全台行動支付交易額已突破新台幣4,230億,年增132%、非實體零售產業年營收也達到3,293億,民眾的日常早已在不知不覺中的上演了「數位轉型」,越趨成熟的雲端服務,加上即至科技(the next tech)賦能,人類將進入更新的數位生活模式。

迎接新常態!資料驅動其實來自  數位服務互動

事實上,無論是上述的FinTech、新零售或是近來火紅的行銷5.0,都強調了以使用者為中心、以資料為驅動的發展基礎,這也提醒各家企業,如要持續提供新的數位服務、善用新型態的資料,就必須具備「敏捷營運、資料匯聚」的核心能力:在「2021國泰金控技術年會:跨界雲端新常態」中,AWS就分別針對「敏捷營運」與「資料匯聚」給予相關「數位深轉型」的實施建議。AWS也強調,「並蓄、兼容」的思維才能讓企業在數位轉型時代下持續領先。

深轉型1:從容彈性的服務運行環境 ── 虛擬機器到『混合雲容器』的並蓄

「『協調式容器混合雲服務』就是並蓄的概念」AWS解決方案架構師指出,企業都希望能快速開發出新服務來對應市場,然而這背後需要「從容彈性的運行環境」來作為靠山,因此容器(Container)就了近年企業紛紛投入的運行模式,因其具備「降低維運風險、優化成本效能、增加開發速度、縮短測試時程」等特點。

然而,企業在轉換使用容器上,多數企業對虛擬機器或實體設備的長期投入,將成為數位轉型時的挑戰,因而企業都會希望當進行轉移時,容器必須也同時具備四個條件:一、只需開發應用程式,不用費心底層建置。二、底層架構可以服合營運需要。三、能快速建置、無縫轉換。四、安全性與隔離效能被規畫設計。

企業可以透過Amazon ECS(Elastic Container Service)來執行容器化應用程式或建立微型服務,就能滿足這些需求。若企業希望能整合既有的設備,則可以使用ECS Anywhere,將Container建置在虛擬機器或地端設備上。

此外,若客戶需要「開源」的容器解決方案,也可採用Amazon EKS(Elastic Kubernetes Service),也能夠利用EKS Anywhere來進行容器的自由佈建。

AWS也針對每個企業不同的底層場景需求,提供了「虛擬機器上的EC2、邊緣裝置上AWS Local Zones/AWS Wavelength,以及地端設備的AWS Outposts」三種模式,讓客戶可以依照營運與發展需要,簡單的進行底層架構。

AWS解決方案架構師也透露,Running Container Anywhere是一種打破現行業界的部署策略,讓企業面臨數位轉行時不再痛苦,而能夠並蓄部署,因此ECS也授到各界企業客戶青睞,廣泛使用在「應用程式開發、共享服務介接、企業程式遷移、機器學習訓練」等方面。

深轉型2:有效治理的資料儲存模式 ── 從資料倉儲到『資料湖』

當「容器」帶來從容彈性的服務運行環境,意味著數位服務的開發與推出將更快更多,企業每天所產生的資料也將大量增加,並延伸出新的資料型態,從結構化資料進展與大量非結構化資料並存的時代,因此在既有的資料倉儲(Data warehouse),也必須部署能儲存各式資料的「資料湖(Data Lake)」,打造「適應變化成長、能夠獨立擴展、易於存取共享」的現代化資料架構。

AWS解決方案架構師認為,以金融業的為例,就需要有「更多的資料(交易記錄、信用評分)、更佳的分析(經濟/風險/現金流預測、風險模型優化)、更具意義的影響關鍵(審核效率、客戶新信用賦予)」以及「更多的用戶」才能維持資料驅動的分析與洞察。

「因此,資料已非一堆數字或躺在資料庫中,而是一個能被活用的資料平台」,企業應要視資料為資產,也需讓員工具備資料素養與使用權,並且讓各個資料分析的結果回饋、集中管理,成為一個循環,為企業最出更好的決策,這就是「資料湖」的概念,資料湖是現代化的資料管理型態,因其具備「資料匯流、原樣儲存、多元分析」的基礎,所以能打造成「兼容」各種資料、各種人員、各種分新的資料平台。

AWS解決方案架構師舉例,美國金融業監管局FINRA需要一個平台,能夠每天平均採集、處理、存儲360億個市場事件,並可以在高峰日時動態擴展到處理1,000億個事件。為此FINRA做了以下配置:資料匯存:一、Amazon S3(資料湖)。二、資料分析:Amazon EMR(圖形化洞察)、Amazon Athena(資料查詢)。三、機器學習:Amazon SageMaker

FINRA因而可以從容應對來自3,700個證券經紀商、12個交易所的資料,做滴水不漏的儲存與分析,必且提供分析師查詢與分析資料所需的工具。而在導入AWS解決方後,FINRA的互動式查詢效率共提升了近400倍,大幅提升調查能力。

不僅如此,如Mastercard購併NuData後,希望採用生物識驗證帳戶所有人的身分,以防詐騙,只要在加上Amazon Kinesis(處理及分析串流資料)、Amazon Redshift(雲端資料倉儲與分析),就能同時針對數百個資料進入點收集和分析資料,順利達成用戶進行身分驗證。

深轉型之鑰:打造「敏捷營運、資料匯聚」的雲端生態系

「金融服務數位化的浪潮興起,讓客戶可以無時無刻、無縫地使用多元的線上金融服務,而這也讓金融機構內的資料從傳統的靜態倉儲,逐漸轉變為快速流動的資料流」國泰金控資料科學實驗室技術經理魏家祥指出,近年來即時串流資料成為重要的資料來源,舉例來說,當客戶交易出現異常行為,就屬於非結構化資料,已非傳統靜態資料庫可以應付,這時就需要開發即時串流資料處理工具,透過動態資料湖結構來處理高速即時的資料。

目前國泰也已將此工具導入至銀行客服系統中,讓國泰能快速解決客戶的問題。

談到資料湖,魏家祥強調,金融業的資料大多仍是以結構化資料為主,所以在選擇資料湖時須考量幾件事,包括資料湖必須能夠結合結構化資料的資料倉儲,還要能支援SQL查詢語法,並具備強大的運算力、擴充力與豐富的分析函式庫,進行資料處理、資料分析、結構應用,來開發出更好的數位服務給客戶。

目前即是選用Hadoop作為資料湖平台的核心,讓國泰各子公司將靜態資料集中在這個平台上,並應用各種Hadoop生態系的服務來分析其中的資料。

KKStream也回應,KKStream必須同時面對用戶行為資料與影像串流資料的處理,如前者資料量龐大,並隨著服務範疇與使用人數而持續成長,每多一項新功能,資料就會多出一批;而後者資料量較少,但如影音、圖片每一筆的資料大小卻大很多,因此在做分析或機器學習上會使用不一樣的工具。在用戶行為資料的處理上,使用的是基於Amazon S3而建置的資料湖,搭配AWS Data Pipeline做資料轉移與轉換。

若是針對影像串流資料,則使用NoSQL的Amazon DynamoDB來儲存非結構化資料,如若是存在Amazon S3上則會搭配AWS Athena互動式查詢服務,只要定義結構描述,就能使用標準SQL開始查詢。

此外,KKStream也採用AWS EMR做為大數據平台,並利用其中的Spark服務來做串流處理、互動SQL、機器學習。 「雲端技術正在逐步讓機器科學的『民主化』(Democratization)加速。這個現象不是未來式,而是進行式!當被重複套用的資料科學與技術被一一民主化,越來越普及,所以企業對於資料科學的投入,相信會要往更進一步的『專業化』邁進。

當未來影音全面進入4K時代,會有更多的資料可以被分析,來做精準推薦,你可想像有一天人工智慧剪出某個片段,推薦給你,就像看摘要精華一樣」KKStream說。

對於雲端服務,魏家祥也表示,採用雲端服務後,讓團隊能更快速地取得開發資源並獲得相對應的工具,讓很多研究及想法可以快速地開展,因此,不可否認,雲端技術確實是推進資料科學快速發展的重要推手,也期待未來能持續在法遵與資料保護的前提下,研究探索先進雲端技術。

AWS解決方案架構部經理也呼籲,雲端生態系已非未來式,AWS將以「敏捷營運、資料匯聚」為概念,為企業夥伴打造最堅強的雲端生態系,實現企業中人人都是資料科學家的願景。


關鍵字