使用深度學習建議具有 NLP 的內容標籤

Azure Container Registry
Azure AI 搜尋
Azure Kubernetes Service (AKS)
Azure Machine Learning

解決方案構想

本文是解決方案概念。 如果您想要使用詳細資訊來擴充內容,例如潛在的使用案例、替代服務、實作考慮或定價指引,請提供 GitHub 意見反應讓我們知道。

本文說明如何使用 Microsoft AI,藉由結合深度學習和自然語言處理 (NLP) 與網站特定搜尋字詞上的數據,來改善網站內容標記精確度。

架構

架構圖表:使用 Azure 機器學習 來協助建議網站的內容標籤的概觀。

下載此架構的 Visio 檔案

資料流程

  1. 數據會以各種格式儲存,視其原始來源而定。 數據可以儲存為 Azure Data Lake 儲存體 中的檔案,或以 Azure Synapse 或 Azure SQL 資料庫 的表格式形式儲存。

  2. Azure 機器學習 (ML) 可以從這類來源連線和讀取,以將數據內嵌至 NLP 管線,以進行前置處理、模型定型和後續處理。

  3. NLP 前置處理包含數個步驟來取用數據,目的是要進行文字一般化。 一旦文字分成句子之後,NLP 技術,例如詞幹化或詞幹分析,即可以一般形式標記語言。

  4. 由於 NLP 模型已預先定型,因此傳輸學習方法建議您下載特定語言的內嵌,並使用業界標準模型進行多類別文字分類,例如 BERT 的變化

  5. NLP 後置處理建議將模型儲存在 Azure ML 中的模型快取器中,以追蹤模型計量。 此外,文字可以透過根據商務目標確定性定義的特定商務規則進行後續處理。 Microsoft 建議使用道德 AI 工具來偵測有偏差的語言,以確保語言模型的公平訓練。

  6. 模型可以透過 Azure Kubernetes Service 進行部署,同時執行 Kubernetes 受控叢集,其中容器會從儲存在 Azure Container Registry 中的映像進行部署。 端點可以提供給前端應用程式。 模型可以透過 Azure Kubernetes Service 部署為即時端點。

  7. 模型結果可以寫入檔案或表格式的記憶體選項,然後依 Azure 認知搜尋 正確編製索引。 模型會以批次推斷的形式執行,並將結果儲存在個別的數據存放區中。

元件

案例詳細資料

社交網站、論壇和其他大量文字的問答服務嚴重依賴內容標記,這可讓您進行良好的索引編製和用戶搜尋。 不過,內容標記通常留給使用者的自由裁量權。 因為用戶沒有常用搜尋字詞的清單,或對網站結構有深入的瞭解,所以他們經常錯誤標記內容。 錯誤標記的內容在稍後需要時很難或無法找到。

潛在的使用案例

藉由使用自然語言處理 (NLP) 與深度學習進行內容標記,您可以啟用可調整的解決方案,以跨內容建立標記。 當使用者依關鍵詞搜尋內容時,這個多類別分類程式會使用標籤的內容,讓您搜尋大量文字,進而改善資訊擷取程式。 執行 NLP 推斷,即可適當標記新的傳入內容。

參與者

本文由 Microsoft 維護。 原始投稿人如下。

主體作者:

下一步

請參閱產品檔案:

請嘗試下列 Microsoft Learn 課程模組:

請參閱下列相關的架構文章: