딥 러닝을 사용하여 NLP로 콘텐츠 태그 제안

Azure Container Registry
Azure AI Search
AKS(Azure Kubernetes Service)
Azure Machine Learning

솔루션 아이디어

이 문서는 솔루션 아이디어입니다. 잠재적인 사용 사례, 대체 서비스, 구현 고려 사항 또는 가격 책정 지침과 같은 추가 정보를 사용하여 콘텐츠를 확장하려면 GitHub 피드백을 제공하여 알려주세요.

이 문서에서는 Microsoft AI를 사용하여 딥 러닝 및 NLP(자연어 처리)와 사이트별 검색어에 대한 데이터를 결합하여 웹 사이트 콘텐츠 태그 지정 정확도를 개선하는 방법을 설명합니다.

아키텍처

아키텍처 다이어그램: Azure Machine Learning을 사용하여 웹 사이트에 대한 콘텐츠 태그를 제안하는 방법에 대한 개요

이 아키텍처의 Visio 파일을 다운로드합니다.

데이터 흐름

  1. 데이터는 원래 원본에 따라 다양한 형식으로 저장됩니다. 데이터는 Azure Data Lake Storage 내에 파일로 저장하거나 Azure Synapse 또는 Azure SQL Database의 테이블 형식으로 저장할 수 있습니다.

  2. Azure ML(Machine Learning)은 이러한 원본에 연결하고 읽을 수 있으며 사전 처리, 모델 학습, 사후 처리를 위해 데이터를 NLP 파이프라인으로 수집합니다.

  3. NLP 사전 처리에는 텍스트 일반화를 목적으로 데이터를 사용하는 여러 단계가 포함됩니다. 텍스트가 문장으로 나뉘면 표제어 추출 또는 형태소 분석과 같은 NLP 기술을 통해 언어를 일반적인 형식으로 토큰화할 수 있습니다.

  4. NLP 모델은 이미 사전 학습된 상태로 제공되므로 전이 학습 접근 방식에서는 BERT 변형과 같은 다중 클래스 텍스트 분류를 위해 언어별 임베딩을 다운로드하고 업계 표준 모델을 사용할 것을 권장합니다.

  5. NLP 사후 처리는 모델 메트릭을 추적하기 위해 Azure ML의 모델 레지스터에 모델을 저장할 것을 권장합니다. 또한 비즈니스 목표에 따라 결정적으로 정의된 특정 비즈니스 규칙을 사용하여 텍스트를 사후 처리할 수 있습니다. Microsoft는 언어 모델의 공정한 학습을 보장하고 편향된 언어를 감지하기 위해 윤리적 AI 도구를 사용할 것을 권장합니다.

  6. 이 모델은 Azure Container Registry에 저장된 이미지에서 컨테이너가 배포되는 Kubernetes 관리 클러스터를 실행하는 동안 Azure Kubernetes Service를 통해 배포할 수 있습니다. 프런트 엔드 애플리케이션에서 엔드포인트를 사용할 수 있습니다. 이 모델은 Azure Kubernetes Service를 통해 실시간 엔드포인트로 배포할 수 있습니다.

  7. 모델 결과를 파일 또는 테이블 형식으로 스토리지 옵션에 쓴 다음 Azure Cognitive Search에서 적절하게 인덱싱할 수 있습니다. 모델은 일괄 처리 추론으로 실행되고 결과를 각 데이터 저장소에 저장합니다.

구성 요소

시나리오 정보

소셜 사이트, 포럼 및 기타 텍스트가 많은 Q&A 서비스는 콘텐츠 태그 지정에 크게 의존하므로 좋은 인덱싱 및 사용자 검색이 가능합니다. 그러나 콘텐츠 태그 지정은 사용자의 재량에 달려 있는 경우가 많습니다. 사용자는 일반적으로 검색되는 용어 목록이 없거나 사이트 구조에 대해 깊이 이해하지 못하여 콘텐츠에 레이블을 잘못 지정하는 경우가 많습니다. 레이블이 잘못 지정된 콘텐츠는 나중에 필요할 때 찾기가 어렵거나 불가능합니다.

잠재적인 사용 사례

콘텐츠 태그 지정에 대한 딥 러닝과 함께 NLP(자연어 처리)를 사용하면 스케일링 가능한 솔루션을 사용하여 콘텐츠 전체에 태그를 만들 수 있습니다. 사용자가 키워드로 콘텐츠를 검색할 때 이 다중 클래스 분류 프로세스는 텍스트의 상당 부분을 검색할 수 있는 레이블로 태그가 지정되지 않은 콘텐츠를 풍부하게 하여 정보 검색 프로세스를 개선합니다. 새 들어오는 콘텐츠는 NLP 추론을 실행하여 적절하게 태그가 지정됩니다.

참가자

Microsoft에서 이 문서를 유지 관리합니다. 원래 다음 기여자가 작성했습니다.

보안 주체 작성자:

다음 단계

제품 설명서를 참조하세요.

다음 Microsoft Learn 모듈을 사용하세요.

다음 관련 아키텍처 문서를 참조하세요.