Bearbeiten

Vorschlagen von Inhaltstags mit Deep Learning und NLP

Azure Container Registry
Azure KI Search
Azure Kubernetes Service (AKS)
Azure Machine Learning

Lösungsmöglichkeiten

Dieser Artikel ist ein Lösungsvorschlag. Wenn Sie möchten, dass wir diesen Artikel um weitere Informationen ergänzen, z. B. potenzielle Anwendungsfälle, alternative Dienste, Überlegungen zur Implementierung oder Preisempfehlungen, lassen Sie es uns über Feedback auf GitHub wissen.

In diesem Artikel wird beschrieben, wie Sie Microsoft KI verwenden, um die Genauigkeit des Inhaltstaggings auf Websites zu verbessern, indem Sie Deep Learning und die Verarbeitung natürlicher Sprache (NLP) mit Daten zu websitespezifischen Suchbegriffen kombinieren.

Aufbau

Architekturdiagramm: Übersicht über die Verwendung von Azure Machine Learning zum Vorschlagen von Inhaltstags für Websites

Laden Sie eine Visio-Datei dieser Architektur herunter.

Datenfluss

  1. Daten werden abhängig von der ursprünglichen Quelle in verschiedenen Formaten gespeichert. Daten können als Dateien in Azure Data Lake Storage oder in tabellarischer Form in Azure Synapse oder Azure SQL-Datenbank gespeichert werden.

  2. Azure Machine Learning (ML) kann eine Verbindung mit solchen Quellen herstellen und daraus lesen, um die Daten für die Vorverarbeitung, das Modelltraining und die Nachverarbeitung in der NLP-Pipeline zu erfassen.

  3. Die NLP-Vorverarbeitung umfasst mehrere Schritte zum Nutzen von Daten zum Zwecke der Textgeneralisierung. Sobald der Text in Sätze unterteilt ist, ermöglichen NLP-Techniken wie Lemmatisierung oder Wortstammerkennung, dass die Sprache in allgemeiner Form tokenisiert wird.

  4. Da NLP-Modelle bereits vortrainiert verfügbar sind, empfiehlt der Lerntransfer-Ansatz, sprachspezifische Einbettungen herunterzuladen und ein Branchenstandardmodell für die mehrklassige Textklassifizierung zu verwenden, z. B. Variationen von BERT.

  5. Die NLP-Nachverarbeitung empfiehlt, das Modell in einem Modellregister in Azure ML zu speichern, um Modellmetriken nachzuverfolgen. Darüber hinaus kann Text mit spezifischen Geschäftsregeln, die deterministisch definiert sind, basierend auf den Geschäftszielen nachverarbeitet werden. Microsoft empfiehlt die Verwendung ethischer KI-Tools, um voreingenommene Sprache zu erkennen, wodurch das faire Training eines Sprachmodells sichergestellt werden kann.

  6. Das Modell kann über Azure Kubernetes Service bereitgestellt werden, während ein von Kubernetes verwalteter Cluster ausgeführt wird, in dem die Container aus Images bereitgestellt werden, die in Azure Container Registry gespeichert sind. Endpunkte können für eine Front-End-Anwendung verfügbar gemacht werden. Das Modell kann über Azure Kubernetes Service als Echtzeitendpunkte bereitgestellt werden.

  7. Modellergebnisse können in eine Speicheroption im Datei- oder Tabellenformat geschrieben und dann ordnungsgemäß von Azure Cognitive Search indiziert werden. Das Modell würde als Batchrückschluss ausgeführt, und die Ergebnisse würden im jeweiligen Datenspeicher gespeichert.

Komponenten

Szenariodetails

Websites in sozialen Netzwerken, Foren und andere textlastige Frage- und Antwortdienste sind in hohem Maß auf Inhaltstagging angewiesen, das eine gute Indizierung und Benutzersuche ermöglicht. Häufig wird das Inhaltstagging aber den Benutzern überlassen. Da Benutzer allerdings nicht über Listen mit häufig gesuchten Begriffen oder über ein fundiertes Verständnis der Websitestruktur verfügen, wird Inhalt häufig falsch beschriftet. Falsch beschriftete Inhalte sind schwer oder unmöglich zu finden, wenn sie später benötigt werden.

Mögliche Anwendungsfälle

Durch die Verwendung der Verarbeitung natürlicher Sprache (Natural Language Processing, NLP) mit Deep Learning für das Tagging von Inhalten ermöglichen Sie eine skalierbare Lösung, um Tags inhaltsübergreifend zu erstellen. Wenn Benutzer anhand von Schlüsselwörtern nach Inhalten suchen, reichert dieser mehrklassige Klassifizierungsprozess nicht gekennzeichnete Inhalte mit Bezeichnungen an, die Ihnen die Suche nach beträchtlichen Textabschnitten erlauben, wodurch die Prozesse zum Abrufen von Informationen verbessert werden. Neue eingehende Inhalte werden durch Ausführen des NLP-Rückschließens entsprechend gekennzeichnet.

Beitragende

Dieser Artikel wird von Microsoft gepflegt. Er wurde ursprünglich von folgenden Mitwirkenden geschrieben:

Hauptautor:

Nächste Schritte

Lesen Sie die Produktdokumentation:

Probieren Sie die folgenden Microsoft Learn-Module aus:

Weitere Informationen finden Sie in den folgenden Artikeln zur Architektur: