解決方案架構:利用機器學習服務進行異常偵測

現代 IT 部門所使用的服務會產生大量遙測資料,以追蹤操作健康狀態、系統效能、使用情況的深入解析、商務指標、警示等等各種層面。不過,監視及收集上述所有資料的深入解析通常不是完全自動的,而且可能很容易發生錯誤,因此很難有效且正確地判斷系統在任何指定時間點的健康狀態。

這個可自訂的異常偵測解決方案使用機器學習服務來確保 IT 系統的高可用性,它還提供內嵌內部部署和雲端資料來源中資料的端對端管線,並向下游監控和票證系統回報異常事件。

透過此解決方案,您將能夠根據基礎健康狀態計量,快速偵測並修正問題,這些計量包括 IT基礎結構 (CPU、記憶體等)、服務 (逾時、SLA 變化、限制用電等),以及其他關鍵效能指標 (未完成訂單、登入和付款失敗等)。

部署到 Azure

使用下列預先建置的範本,將此架構部署到 Azure

部署到 Azure

瀏覽 GitHub

Machine Learning(Anomaly Detection) Service Bus topics(Publish/subscribe capabilities) Visual Studio Application Insights(Monitoring and telemetry) Event Hub(Event queue) Table Storage(Big Data store) Stream Analytics(Realtime analytics) Metadata Save ML output Score each dataset Publish anomalies detected Power BI Azure SQL DB(Anomaly detection results) Data Factory Time series data

實作指南

產品 文件

Event Hubs

這是管線的進入點,其中會內嵌未經處理的時間序列資料。

Stream Analytics

串流分析會每隔 5 分鐘執行彙總,並依計量名稱彙總未經處理資料點。

Storage

Azure 儲存體可儲存串流分析工作所彙總的資料。

Data Factory

Data Factory 會對 Azure 儲存體中的資料定期 (預設每 15 分鐘) 呼叫異常偵測 API,並將結果儲存在 SQL Database 中。

SQL Database

SQL Database 可儲存異常偵測 API 的結果,包括二進位檔偵測和偵測分數。它也可儲存使用未經處理資料點傳送的選擇性中繼資料,以便進行更複雜的報告。

Machine Learning Studio

這會裝載異常偵測 API。請注意,此 API 本身無狀態,並需要在每個 API 呼叫中傳送歷程記錄資料點。

Service Bus

偵測到的異常會發佈到服務匯流排主題,以供外部監視服務取用。

Application Insights

Application Insights 可監視管線。

Power BI

Power BI 提供儀表板,顯示未經處理資料及偵測到的異常。

深入了解

Related solution architectures