Spracherkennung

Konvertieren Sie Sprache schnell in Text für eine natürliche Reaktionsfähigkeit.

Die Spracherkennung von Cognitive Services bietet eine ganze Reihe von Funktionen, die Sie in Ihre Apps einbetten können und die verschiedenste Transkriptionsszenarien unterstützen, z. B. Unterhaltungstranskription, Sprachtranskription und benutzerdefinierte Sprachtranskription.

Unterhaltungstranskription

Erstellen Sie Transkripte persönlicher Besprechungen. Bei der Unterhaltungstranskription wird Sprache in Echtzeit erfasst, sodass alle Teilnehmer einer Besprechung die gesamte Unterhaltung nachverfolgen können und wissen, wer was wann gesagt hat, um die nächsten Schritte schneller nachverfolgen zu können.

Einsatzmöglichkeiten für die Unterhaltungstranskription:

  • Erfassen von Sprache im gesamten Besprechungsraum
  • Schutz der Daten mit branchenführenden Sicherheits- und Compliancezertifizierungen
  • Unterstützung für Besprechungs- und Konferenzumgebungen mit Mikrofonen und Videokameras über die Kopplung mit dem Speech-Geräte-SDK

Demo anzeigen

Beim Laden dieser Demo ist ein Fehler aufgetreten. Warten Sie einen Moment, und versuchen Sie es nochmal.

Speaker Transcript

This demo is incompatible with your browser. For best experience, please use a different browser.

Möchten Sie dies erstellen?

Sprachtranskription

Konvertieren Sie Sprache in Text. Rufen Sie die API auf, um Sprache vom Mikrofon, anderen Echtzeitstreaming-Audioquellen oder einer aufgezeichneten Audiodatei zu erkennen. Da Audioinhalte an den Server gesendet werden, werden auf Anfrage Teilergebnisse zurückgegeben.

Sie können die API verwenden, um sprachgesteuerte Apps zu erstellen. Testen Sie die Demo, und sehen Sie selbst, wie es funktioniert. Wählen Sie Ihre Zielsprache aus, klicken Sie dann auf das Mikrofon, und sagen Sie etwas. Oder klicken Sie einfach auf eine der Beispielphrasen.*

Demo anzeigen

Um die Demo mit einem Mikrofon und Ihrer eigenen Stimme auszuprobieren, wechseln Sie in einen anderen Browser mit WebRTC-Unterstützung, z.B. eine aktuelle Version von Microsoft Edge, Firefox oder Chrome.

Möchten Sie dies erstellen?

Custom Speech-Dienst: Transkription von Sprache mithilfe eines benutzerdefinierten Modells

Überwinden Sie Grenzen der Spracherkennung wie z.B. Sprachstil, Vokabular und Hintergrundgeräusche. Unsere Spracherkennungstechnologien kombinieren mehrere APIs, um die Textausgabe zu erstellen. Kunden können die APIs nach Bedarf und Ihren verfügbaren Daten anpassen.

Demo anzeigen

Beispielsätze

Baseline

Benutzerdefinierte Spracherkennung

Erstellen von benutzerdefinierten Sprachmodellen für den Sprachstil des Benutzers

Lassen Sie nicht zu, dass vielseitige Vokabulare und Sprachstile das Verständnis behindern. Passen Sie das Sprachmodell der Spracherkennung Ihrer App an, indem Sie es auf die Ausdrücke Ihrer Branche, die technische, geografische oder marktspezifische Terminologie und den Sprachstil zuschneiden.

Nutzen Sie benutzerdefinierte Akustikmodelle zum Anpassen an Benutzerumgebungen

Stellen Sie sicher, dass die Spracherkennung Ihrer App in allen Umgebungen funktioniert. Mit benutzerdefinierten Akustikmodellen können Sie Hintergrundgeräusche berücksichtigen und Anpassungen an die erwartete Umgebung Ihrer Benutzer durchführen.

Verwenden Sie die zuverlässigen Sprachmodelle von Microsoft

Ermöglichen Sie leistungsstarke und personalisierte Spracherkennung, indem Sie Ihre eigenen benutzerdefinierten Spracherkennungsmodelle auf Basis der vorhandenen modernen Modelle von Microsoft erstellen.

Möchten Sie dies erstellen?

Sprachszenario erkunden

Callcenter

Speech ServicesSpeech Service を使用すると、すべての通話を簡単に文字起こしすることができます。全文検索のために文字起こしにインデックスを付けたり、分析情報を得るために Text Analytics を適用してセンチメント、言語、キー フレーズを検出したりします。コール センターの録音に専門用語 (製品名や IT 用語など) が含まれることが多い場合は、カスタム言語モデルを作成して Speech Service にそのボキャブラリを学習させます。カスタム音響モデルを使用すると、背景ノイズがある場合や、電話の接続品質が良くない場合でも、話者の発言内容を解釈しやすくなります。詳細については、Speech Services を使用したバッチ文字起こしのしくみをご確認ください。
  1. Übersicht
  2. Ablauf

Sprachdienste

Übersicht

Mit Speech Services können Sie jeden Anruf ganz einfach transkribieren. Sie können das Transkript ganz einfach für die Volltextsuche indizieren oder Textanalysen anwenden, um die Stimmung, die Sprache und Schlüsselausdrücke zu erkennen. Wenn Ihre Callcenteraufzeichnungen spezielle Terminologie (beispielsweise Produktnamen oder IT-Jargon) enthalten, können Sie ein Sprachmodell erstellen, um Speech Services dieses Vokabular beizubringen. Mithilfe eines benutzerdefinierten Akustikmodells kann Speech Services die Sprecher besser verstehen – selbst bei Hintergrundgeräuschen oder schlechten Telefonverbindungen.

Lesen Sie auch die Informationen zur Funktionsweise von Batchtranskriptionen in Speech Services.

Ablauf

  1. 1 Ein Modell an Ihre Domäne anpassen und bereitstellen
  2. 2 Aufzeichnungen in einen Blobcontainer hochladen
  3. 3 POST-Anforderung für Batchtranskription erstellen
  4. 4 Transkriptionsauftrag durch Speech Services planen
  5. 5 Dateien in Stereo in zwei Kanäle aufteilen
  6. 6 Dateien in Mono segmentieren, um die Sprecher unterscheiden zu können
  7. 7 Download der Transkription anhand der Transkriptions-ID

Cognitive Services-APIs erkunden

Maschinelles Sehen

Nützliche Informationen aus Bildern herausfiltern

Gesichtserkennung

Gesichter auf Fotos erkennen, analysieren, organisieren und markieren

Freihanderkennung VORSCHAU

An AI service that recognizes digital ink content, such as handwriting, shapes, and ink document layout

Videoindizierung

Informationen aus Videos erschließen

Custom Vision

Passen Sie Ihre eigenen hochmodernen Modelle für maschinelles Sehen ganz einfach an Ihre speziellen Anforderungen an.

Formularerkennung VORSCHAU

The AI-powered document extraction service that understands your forms

Textanalysen

Werten Sie ganz einfach Stimmungen und Themen aus, um zu verstehen, was sich Ihre Benutzer wünschen

Translator Text

Einfach durchzuführende maschinelle Übersetzung mit einem einfachen REST-API-Aufruf

Bing-Rechtschreibprüfung

Ermitteln und korrigieren Sie Rechtschreibfehler in Ihrer App

QnA Maker

Verwandeln Sie Informationen in einfach zu findende Antworten.

Content Moderator

Automatisierte Bild-, Text- und Videomoderation

Language Understanding

Bringen Sie Ihren Apps bei, Befehle Ihrer Benutzer zu verstehen

Sprachdienste

Vereinheitlichter Sprachdienst für Sprache-zu-Text, Text-zu-Sprache und Sprachübersetzung

Sprechererkennung VORSCHAU

Sprecher anhand ihrer Stimme Identifizieren und überprüfen

Content Moderator

Automatisierte Bild-, Text- und Videomoderation

Anomalieerkennung VORSCHAU

Fügen Sie Ihren Apps ganz einfach Funktionen zur Anomalieerkennung hinzu.

Personalisierung VORSCHAU

An AI service that delivers a personalized user experience

Verwenden Sie das SDK für sprachaktivierte Geräte zum Erstellen von Ambient Devices und zum Festlegen eines benutzerdefinierten Codeworts.

Weitere Informationen