Navigation überspringen

Spracherkennung

Ein Speech-Dienst-Feature, das gesprochene Sprache präzise in Text transkribiert

Gesprochene Audioinhalte umsetzen lassen

Transkribieren Sie Audioaufnahmen in Text in mehr als 100 Sprachen und Varianten. Passen Sie Modelle an, um die Genauigkeit für domänenspezifische Terminologie zu verbessern. Ziehen Sie einen größeren Nutzen aus gesprochenen Audioinhalten, indem Sie die Suche nach oder Analyse von transkribiertem Text aktivieren oder Aktionen vereinfachen – alles in Ihrer bevorzugten Programmiersprache.

Qualitativ hochwertige Transkriptionen

Die hochmoderne Spracherkennung liefert präzise Transkriptionen von Audiodaten in Text.

Anpassbare Modelle

Fügen Sie Ihrem Basisvokabular bestimmte Wörter hinzu, oder erstellen Sie Ihre eigenen Spracherkennungsmodelle.

Flexible Bereitstellung

Ob in der Cloud oder am Edge in Containern – Sie können die Spracherkennung überall ausführen.

Bereit für die Produktion

Profitieren Sie von derselben zuverlässigen Technologie, die die Spracherkennung in allen Microsoft-Produkten unterstützt.

Testen Sie die Spracherkennung in dieser Demo-App, die auf unserem JavaScript SDK basiert

Um die Demo mit einem Mikrofon und Ihrer eigenen Stimme auszuprobieren, wechseln Sie in einen anderen Browser mit WebRTC-Unterstützung, z.B. eine aktuelle Version von Microsoft Edge, Firefox oder Chrome.

Ihre Sprachdaten werden nicht gespeichert.

Präzises Transkribieren von Sprache aus verschiedenen Quellen

Wandeln Sie Audioinhalte von verschiedenen Quellen, wie Mikrofonen, Audiodateien und Blob Storage, in Text um. Verwenden Sie die Sprecherdiarisierung, um zu ermitteln, wer wann was gesagt hat. Erhalten Sie lesbare Transkriptionen mit automatischer Formatierung und Zeichensetzung.

Sprachmodelle an spezifische Bedürfnisse anpassen

Passen Sie Ihre Sprachmodelle an, um unternehmens- und branchenspezifische Terminologie zu verstehen. Überwinden Sie Grenzen der Spracherkennung wie z. B. Hintergrundgeräusche, Akzente oder eindeutiges Vokabular. Passen Sie Ihre Modelle an, indem Sie Audiodaten und Transkriptionen hochladen. Generieren Sie benutzerdefinierte Modelle mithilfe von Office 365-Daten, um die Genauigkeit der Spracherkennung für Ihr Unternehmen zu optimieren.

Überall bereitstellen

Führen Sie die Spracherkennung aus, ganz gleich, wo sich Ihre Daten befinden. Entwickeln Sie mithilfe von Containern Sprachanwendungen, die für stabile Cloudfunktionen und die lokale Nutzung optimiert sind.

App-Innovationen mit cloudbasierten KI-Diensten fördern

Lernen Sie fünf wichtige Möglichkeiten kennen, wie Ihre Organisation mit KI beginnen kann, um schnell einen Mehrwert zu erzielen.

Umfassende Datenschutz- und Sicherheitsfunktionen

  • Der Speech-Dienst ist Teil von Azure Cognitive Services und SOC-, FedRAMP-, PCI DSS-, HIPAA-, HITECH- und ISO-zertifiziert.
  • Sie behalten die Kontrolle über Ihre Daten. Ihre Audioeingabe- und Transkriptionsdaten werden während der Audioverarbeitung nicht protokolliert.
  • Sie können Ihre benutzerdefinierten Sprachdaten und -modelle jederzeit anzeigen und löschen. Ihre Daten werden im Speicher verschlüsselt.
  • Der Speech-Dienst basiert auf der Azure-Infrastruktur und überzeugt durch Sicherheit, Verfügbarkeit, Compliance und Verwaltbarkeit auf Unternehmensniveau.

Flexible Preise für die gewünschte Kontrolle

Bei der Spracherkennung werden die Kosten nutzungsbasiert auf Grundlage der Länge des transkribierten Audiomaterials in Stunden abgerechnet. Es fallen keine Vorabkosten an.

Dokumentation und Ressourcen

Erste Schritte

Browse the documentation

Create a speech service with the Microsoft Learn course

Codebeispiele erkunden

Beispielcode

Anpassungsressourcen

Erkunden und Anpassen Ihrer Sprache-zu-Text-Lösung mit Speech Studio. Kein Code erforderlich.

Unternehmen, die auf die Spracherkennung vertrauen

KPMG optimiert die Transkription von Anrufen

KPMG nutzt die Spracherkennung, um Tausende Anrufe zu transkribieren und zu katalogisieren. So können die Compliancekosten für Kunden um bis zu 80 % reduziert werden.

KPMG

Motorola macht wichtige Daten mithilfe von Spracherkennung für Rettungskräfte zugänglich

Dank Motorola Solutions können Polizeibeamte und Rettungskräfte schneller auf wichtige Informationen zugreifen, indem sie den sprachgesteuerten virtuellen Assistenten nutzen.

Motorola Solutions

Universal Electronics bietet sprachgesteuerte Smart-Home-Funktionen

Universal Electronics unterstützt andere Unternehmen bei der Bereitstellung von sprachgesteuerten Navigations- und Steuerungsfunktionen für Haushaltsgeräte und trägt somit zur Benutzerfreundlichkeit der Geräte bei.

Universal Electronics

Hochtief dokumentiert Konstruktionsfehler mit Sprache

Hochtief unterstützt Projektmanager mit einem sprachfähigen virtuellen Assistenten dabei, Baumängel zu erkennen und zu dokumentieren.

Cheetah Mobile

NTT DATA beschleunigt die Entscheidungsfindung mithilfe von Meeting Insights

NTT DATA gewinnt Erkenntnisse aus Sprachdaten, indem Meetings in Echtzeit transkribiert werden. Mit Custom Speech kann das Unternehmen Spracherkennungsmodelle so anpassen, dass diese organisationsspezifische Begriffe verstehen.

NTTDATA

Einblicke ins Conversational Banking

Insight Enterprise unterstützt Banken mit einer auf Conversational-AI basierten Bankinglösung dabei, die Digitalisierung in ihren Filialen voranzubringen und die Prozesse zu vereinfachen. Die Spracherkennung konvertiert die Aussagen von Kunden in Daten, die verarbeitet und analysiert werden können, um zeitnah passende Antworten zu finden.

Insight Enterprise, Inc.

Häufig gestellte Fragen zur Spracherkennung

  • Hierbei handelt es sich um ein Feature des Speech-Diensts, das Audiodaten präzise und schnell in Text transkribiert.
  • Cognitive Services ist eine Sammlung anpassbarer vorgefertigter KI-Modelle, mit denen Anwendungen KI hinzugefügt werden kann. Sie decken viele verschiedene Bereiche ab, z. B. gesprochene Sprache, Entscheidungen, Sprachen und Sehen. Die Spracherkennung ist ein Feature des Speech-Diensts. Weitere Speech-Features sind beispielsweise Text-to-Speech, die Sprachübersetzung und die Sprechererkennung. Ein Beispiel für einen Entscheidungsdienst ist die Personalisierung, mit der Sie personalisierte relevante Lösungen bereitstellen können. Beispiele für Sprachdienste sind Language Understanding und die Textanalyse für die Verarbeitung natürlicher Sprache, der QnA Maker für FAQ und der Übersetzer für die Übersetzung zwischen verschiedenen Sprachen.

Erste Schritte mit Speech

Können wir Ihnen helfen?