解決方案架構:以深度學習和自然語言處理進行資訊探索

社交網站、論壇及其他包含大量文字的問與答服務十分需要標記,以方便編製索引和進行使用者搜尋。若未經適當的標記,這些網站的效果會相當低。不過,標記與否通常是由使用者來決定。由於使用者沒有經常搜尋的字詞清單,對網站分類或資訊架構的了解也不深,因此貼文的標記經常有誤。這會導致稍後需要時很難或無法找到該內容。

此解決方案結合了深度學習和自然語言處理 (NLP) 以及網站特定搜尋字詞的相關資料,因此可大幅改善您網站標記的正確性。當您的使用者鍵入其貼文時,它會提供高度使用的字詞作為建議的標籤,以便其他人更容易找到所提供的資訊。

實作指南

產品/描述 文件

Microsoft SQL Server

您可以使用 Microsoft SQL Server 來儲存、結構化資料並對其編製索引。

以 GPU 為架構的 Azure 資料科學虛擬機器

核心開發環境是 Microsoft Windows Server 2016 GPU DSVM NC24。

Azure Machine Learning Workbench

此 Workbench 會用來清除和轉換資料,並作為測試和模型管理服務的主要介面。

Azure Machine Learning 測試服務

測試服務可用來定型模型,包括超參數調整。

Azure Machine Learning 模型管理服務

模型管理服務可用來部署最終模型,包括擴充到 Kubernetes 所管理的 Azure 叢集。

Azure 資料科學 VM 上的 Jupyter Notebook

Jupyter Notebook 可作為以 Python 開發之模型的基底 IDE。

Azure Container Registry

模型管理服務會建立即時 Web 服務並將它封裝成 Docker 容器。這些容器會透過 Azure Container Registry 上傳並註冊。

Azure Container Service 叢集

此解決方案的部署使用執行 Kubernetes 所管理之叢集的 Azure Container Service。這些容器會透過儲存在 Azure Container Registry 中的映像來部署。