Spracherkennung

Konvertieren Sie Sprache schnell in Text für eine natürliche Reaktionsfähigkeit.

Die Spracherkennung von Cognitive Services bietet eine ganze Reihe von Funktionen, die Sie in Ihre Apps einbetten können und die verschiedenste Transkriptionsszenarien unterstützen, z. B. Unterhaltungstranskription, Sprachtranskription und benutzerdefinierte Sprachtranskription.

Unterhaltungstranskription

Erstellen Sie Transkripte persönlicher Besprechungen. Bei der Unterhaltungstranskription wird Sprache in Echtzeit erfasst, sodass alle Teilnehmer einer Besprechung die gesamte Unterhaltung nachverfolgen können und wissen, wer was wann gesagt hat, um die nächsten Schritte schneller nachverfolgen zu können.

Einsatzmöglichkeiten für die Unterhaltungstranskription:

  • Erfassen von Sprache im gesamten Besprechungsraum
  • Schutz der Daten mit branchenführenden Sicherheits- und Compliancezertifizierungen
  • Unterstützung für Besprechungs- und Konferenzumgebungen mit Mikrofonen und Videokameras über die Kopplung mit dem Speech-Geräte-SDK

Demo anzeigen

Beim Laden dieser Demo ist ein Fehler aufgetreten. Warten Sie einen Moment, und versuchen Sie es nochmal.

Sprecher Transkript

Die Demo ist nicht mit Ihrem Browser kompatibel. Verwenden Sie einen anderen Browser, um die Demo optimal nutzen zu können.

Möchten Sie dies erstellen?

Sprachtranskription

Konvertieren Sie Sprache in Text. Rufen Sie die API auf, um Sprache vom Mikrofon, anderen Echtzeitstreaming-Audioquellen oder einer aufgezeichneten Audiodatei zu erkennen. Da Audioinhalte an den Server gesendet werden, werden auf Anfrage Teilergebnisse zurückgegeben.

Sie können die API verwenden, um sprachgesteuerte Apps zu erstellen. Testen Sie die Demo, und sehen Sie selbst, wie es funktioniert. Wählen Sie Ihre Zielsprache aus, klicken Sie dann auf das Mikrofon, und sagen Sie etwas. Oder klicken Sie einfach auf eine der Beispielphrasen.*

Demo anzeigen

Um die Demo mit einem Mikrofon und Ihrer eigenen Stimme auszuprobieren, wechseln Sie in einen anderen Browser mit WebRTC-Unterstützung, z.B. eine aktuelle Version von Microsoft Edge, Firefox oder Chrome.

Möchten Sie dies erstellen?

Custom Speech-Dienst: Transkription von Sprache mithilfe eines benutzerdefinierten Modells

Überwinden Sie Grenzen der Spracherkennung wie z.B. Sprachstil, Vokabular und Hintergrundgeräusche. Unsere Spracherkennungstechnologien kombinieren mehrere APIs, um die Textausgabe zu erstellen. Kunden können die APIs nach Bedarf und Ihren verfügbaren Daten anpassen.

Demo anzeigen

Beispielsätze

Baseline

Benutzerdefinierte Spracherkennung

Erstellen von benutzerdefinierten Sprachmodellen für den Sprachstil des Benutzers

Lassen Sie nicht zu, dass vielseitige Vokabulare und Sprachstile das Verständnis behindern. Passen Sie das Sprachmodell der Spracherkennung Ihrer App an, indem Sie es auf die Ausdrücke Ihrer Branche, die technische, geografische oder marktspezifische Terminologie und den Sprachstil zuschneiden.

Nutzen Sie benutzerdefinierte Akustikmodelle zum Anpassen an Benutzerumgebungen

Stellen Sie sicher, dass die Spracherkennung Ihrer App in allen Umgebungen funktioniert. Mit benutzerdefinierten Akustikmodellen können Sie Hintergrundgeräusche berücksichtigen und Anpassungen an die erwartete Umgebung Ihrer Benutzer durchführen.

Verwenden Sie die zuverlässigen Sprachmodelle von Microsoft

Ermöglichen Sie leistungsstarke und personalisierte Spracherkennung, indem Sie Ihre eigenen benutzerdefinierten Spracherkennungsmodelle auf Basis der vorhandenen modernen Modelle von Microsoft erstellen.

Möchten Sie dies erstellen?

Sprachszenario erkunden

Callcenter

SprachdiensteMit Speech Services können Sie jeden Anruf ganz einfach transkribieren. Sie können das Transkript ganz einfach für die Volltextsuche indizieren oder Textanalysen anwenden, um die Stimmung, die Sprache und Schlüsselausdrücke zu erkennen. Wenn Ihre Callcenteraufzeichnungen spezielle Terminologie (beispielsweise Produktnamen oder IT-Jargon) enthalten, können Sie ein Sprachmodell erstellen, um Speech Services dieses Vokabular beizubringen. Mithilfe eines benutzerdefinierten Akustikmodells kann Speech Services die Sprecher besser verstehen – selbst bei Hintergrundgeräuschen oder schlechten Telefonverbindungen. Lesen Sie auch die Informationen zur Funktionsweise von Batchtranskriptionen in Speech Services.
  1. Übersicht
  2. Ablauf

Sprachdienste

Übersicht

Mit Speech Services können Sie jeden Anruf ganz einfach transkribieren. Sie können das Transkript ganz einfach für die Volltextsuche indizieren oder Textanalysen anwenden, um die Stimmung, die Sprache und Schlüsselausdrücke zu erkennen. Wenn Ihre Callcenteraufzeichnungen spezielle Terminologie (beispielsweise Produktnamen oder IT-Jargon) enthalten, können Sie ein Sprachmodell erstellen, um Speech Services dieses Vokabular beizubringen. Mithilfe eines benutzerdefinierten Akustikmodells kann Speech Services die Sprecher besser verstehen – selbst bei Hintergrundgeräuschen oder schlechten Telefonverbindungen.

Lesen Sie auch die Informationen zur Funktionsweise von Batchtranskriptionen in Speech Services.

Ablauf

  1. 1 Ein Modell an Ihre Domäne anpassen und bereitstellen
  2. 2 Aufzeichnungen in einen Blobcontainer hochladen
  3. 3 POST-Anforderung für Batchtranskription erstellen
  4. 4 Transkriptionsauftrag durch Speech Services planen
  5. 5 Dateien in Stereo in zwei Kanäle aufteilen
  6. 6 Dateien in Mono segmentieren, um die Sprecher unterscheiden zu können
  7. 7 Download der Transkription anhand der Transkriptions-ID

Cognitive Services-APIs erkunden

Maschinelles Sehen

Nützliche Informationen aus Bildern herausfiltern

Gesichtserkennung

Gesichter auf Fotos erkennen, analysieren, organisieren und markieren

Freihanderkennung VORSCHAU

Ein KI-Dienst zur Erkennung digitaler Freihandinhalte wie handschriftlicher Texte, Formen und Layouts geschriebener Dokumente

Videoindizierung

Informationen aus Videos erschließen

Custom Vision

Passen Sie Ihre eigenen hochmodernen Modelle für maschinelles Sehen ganz einfach an Ihre speziellen Anforderungen an.

Formularerkennung VORSCHAU

Ein KI-basierter Dienst zur Dokumentextraktion, der Ihre Formulare auch wirklich versteht

Textanalysen

Werten Sie ganz einfach Stimmungen und Themen aus, um zu verstehen, was sich Ihre Benutzer wünschen

Translator Text

Einfach durchzuführende maschinelle Übersetzung mit einem einfachen REST-API-Aufruf

QnA Maker

Verwandeln Sie Informationen in einfach zu findende Antworten.

Language Understanding

Bringen Sie Ihren Apps bei, Befehle Ihrer Benutzer zu verstehen

Plastischer Reader VORSCHAU

Ermöglichen Sie Benutzern unabhängig von Alter und Fähigkeiten das Lesen und Verstehen von Texten

Sprachdienste

Vereinheitlichter Sprachdienst für Sprache-zu-Text, Text-zu-Sprache und Sprachübersetzung

Sprechererkennung VORSCHAU

Sprecher anhand ihrer Stimme Identifizieren und überprüfen

Content Moderator

Automatisierte Bild-, Text- und Videomoderation

Anomalieerkennung VORSCHAU

Fügen Sie Ihren Apps ganz einfach Funktionen zur Anomalieerkennung hinzu.

Personalisierung VORSCHAU

Ein KI-Dienst für eine personalisierte Benutzeroberfläche

Verwenden Sie das SDK für sprachaktivierte Geräte zum Erstellen von Ambient Devices und zum Festlegen eines benutzerdefinierten Codeworts.

Weitere Informationen