AWS宣布全新營運服務Amazon DevOps Guru 智慧應用 影音
工研院
Event

AWS宣布全新營運服務Amazon DevOps Guru

  • 黎思慧台北

日前在Amazon Web Services(AWS)舉辦的年度盛會—AWS re:Invent上,AWS宣布完全託管的營運服務Amazon DevOps Guru。利用機器學習協助開發人員透過自動化檢測操作問題和建議補救措施來提高應用程式可用性。

Amazon DevOps Guru機器學習技術應用了Amazon.com和AWS多年的營運資料,透過自動收集和分析應用程式指標、日誌、事件和追蹤等資料,識別偏離正常的程式運作模式(例如,運算能力配置不足、資料庫I/O過度使用、記憶體漏失memory leak等)。

當Amazon DevOps Guru識別出潛在風險如延遲、錯誤率和資源限制增加時導致應用程式異常服務中斷,向開發人員發出問題詳細資訊(涉及的資源、問題時間表和相關事件等),並透過Amazon Simple Notification Service(Amazon SNS)以及Atlassian Opsgenie和PagerDuty等合作夥伴整合服務,協助開發人員快速瞭解問題的潛在影響和可能原因,並提出具體的修復建議。

開發人員可以使用Amazon DevOps Guru的建議來減少問題修復時間,無需手動設置或機器學習專業知識即可提高應用程式的可用性和可靠性。Amazon DevOps Guru不用預付費用或預先承諾,客戶只需為Amazon DevOps Guru分析的資料付費。

Amazon DevOps Guru的機器學習模型採用了AWS過去20多年為Amazon.com建構、擴展和維護高可用應用程式的營運專業知識。這使Amazon DevOps Guru能夠自動檢測營運故障(如警報漏失或配置錯誤、資源耗盡的早期警告,可能導致停機的配置更改等),提供有關資源和相關事件的背景,並建議補救措施,而無需開發人員具備任何機器學習經驗。

開發人員只需在Amazon DevOps Guru控制台簡單操作,即可自動提取和分析所有應用程式的歷史資源和延遲、錯誤率、請求率等基礎架構指標,以建立操作基準線。Amazon DevOps Guru就可透過預先訓練的機器學習模型識別與既定基準線的偏差。

當Amazon DevOps Guru分析系統和應用程式資料自動檢測異常時,能將這些資料產生營運洞察包括異常指標、隨著時間的推移對應用程式列為視覺化、以及相關補救措施的建議。

Amazon DevOps Guru還將相關的應用程式和基礎架構指標做關聯(Web應用程式延遲峰值、磁碟空間用盡、錯誤的程式碼部署、記憶體漏失等),以減少無效警報並幫助用戶關注高嚴重性問題。客戶可以透過查看更改配置的歷史紀錄、部署事件以及系統和使用者活動,在Amazon DevOps Guru控制台中產生需要優先注意的潛在操作問題事件列表。

為了協助客戶快速解決問題,Amazon DevOps Guru提供智慧的補救建議,並與AWS Systems Manager整合執行手冊(runbook)和協作工具,使客戶能夠更有效地維護應用程式並管理其部署的基礎架構。Amazon DevOps Guru與Amazon CodeGuru(機器學習支援的開發人員工具,可提供智慧建議以提高程式碼品質並識別應用程式中最昂貴的程式碼行)一起,使客戶可以透過自動化的機器學習針對其維運資料,幫助開發人員輕鬆提高應用程式的可用性和可靠性。

負責亞馬遜機器學習的AWS副總裁Swami Sivasubramanian表示:「客戶希望AWS運用專業知識持續提供新服務以增進應用程式可用性,同時學習Amazon.com的多年營運經驗。藉助Amazon DevOps Guru,我們透過AWS過往的經驗建立專門的機器學習模型,協助客戶檢測、排除故障並預防操作問題,在出現問題時提供智慧化建議。使客戶立即受益於營運Amazon.com中學到的最佳操作實踐,節省配置和管理多個監測系統上所花費的時間和精力。」