Navigation überspringen

Beschleunigte Digitalisierung in Fahrzeugen dank Azure Cognitive Services

Veröffentlicht am 5 Januar, 2022

Vice President Strategy and Commercialization, Azure AI Platform

Hero-Bild

Microsoft trägt durch Infotainmentsysteme für Fahrer*innen zur Neugestaltung der Automobilbranche bei. Azure ist beispielsweise eine Partnerschaft mit Xpeng eingegangen, um KI-Sprachfeatures für Automobilmarken und Kund*innen zu realisieren. Diese Lösung liefert der Branche einen neuen Ansatz für Sprachsynthese, ausdrucksstarke Stimmungen, weltweit gesprochene Sprachen, die Sprechergenauigkeit und die Self-Service-Anpassung. Xpeng schließt sich wie viele andere Automobilhersteller dem wachsenden Trend an, die Investitionen in die Fahrzeugstimme zu überdenken.

„Das ist ein Meilenstein für die Interaktion mit der Fahrzeugstimme in unserer Branche“, sagt Hao Chao, Product Senior Expert für Automotive AI bei Xpeng. „Diese Lösung ermöglicht natürliche Sprache auf völlig neuem Niveau. Wir nutzen unser umfassendes Fachwissen zu urbaner Mobilität, um viele weitere Anwendungsfälle für diese KI-Technologie zu finden und die Fahrerintuition noch weiter zu stärken.“

Xpeng nutzt jetzt die Microsoft-Technologie für neuronale Sprachsynthese für die Sprachfeatures in Fahrzeugen. Durch die Verwendung der neuronalen Sprachsynthese von Microsoft mit verschiedenen Emotionen schafft Xpeng ein angenehmeres Hörerlebnis für Kund*innen und beugt Hörermüdung vor. Die neuronale Sprachsynthese von Microsoft weist einen Sprachfluss und eine Natürlichkeit auf, die mit der menschlichen Stimme vergleichbar ist. Die Microsoft-Sprachsynthese bietet mehrere Emotionen und ist daher eine erfrischende Abwechslung zur monotonen Stimme vieler Fahrzeug-Assistenten.

„Wir freuen uns, das Fahrerlebnis durch Sprachfeatures zu revolutionieren“, sagt Binggong Ding, Product Lead bei Azure AI Speech. „Aus technischer Sicht möchten wir ein Modell entwickeln, das für alle Automarken und -hersteller geeignet ist. Wie können wir den Einsatz synthetischer Sprache also bestmöglich optimieren, um eine Sprachausgabe mit hoher Genauigkeit zu schaffen, ohne die Soundqualität zu beeinträchtigen? Xpeng stellt sich dieser Herausforderung, um genau den Sprach-Assistenten zu liefern, den unsere Kund*innen sich wünschen.“

Das langfristige Ziel von Microsoft besteht darin, fortschrittliche Sprachfeatures mit verschiedenen Emotionen und Sprachen zum weltweiten Standard für Automobilmarken und Kund*innen zu machen. Diese neu bei Xpeng eingeführte Technologie bietet Dutzende neue Sprechstile, eine konfigurierbare Emotionsintensität und eine Deduktionsfähigkeit. Sie deckt 90 Zertifizierungen weltweit ab, darunter innenpolitische Vorschriften, gesetzliche Anforderungen an Rechenzentren, die DSGVO der EU und noch strengere Datenschutzrichtlinien. Microsoft entwickelt zusammen mit Automobilherstellern neue sprachgestützte Fahrzeugfeatures, die auf der Sprachsynthese und Spracherkennung in Azure Cognitive Services for Speech basieren.

Beschleunigte Sprachinnovation

Die Sprache ist zur neuen Schnittstelle in der Ambient-Computing-Technologie geworden. Die Qualität der Sprachsynthese und Spracherkennung hat sich in den letzten Jahren aufgrund von Forschung und technologischen Fortschritten verbessert, die auf der Entwicklung neuronaler Netze basieren. Durch Sprachsynthese und Spracherkennung auf hohem Niveau können Automobilhersteller die nächste Generation moderner Sprachfeatures für Fahrzeuge in die Wege leiten. Die Microsoft-Spracherkennung funktioniert stabil und sprecherunabhängig. Sie ist sogar in der Lage, Umgebungsgeräusche beim Fahren zu ignorieren. Die Microsoft-Sprachsynthese generiert jetzt eine flüssigere, natürlicher klingende Stimme, die für Automobilhersteller und Kund*innen einen großen Unterschied machen kann. Die Spracherkennung und die Sprachsynthese verbessern die Freihandbedienung des Infotainmentsystems im Fahrzeug. Die Microsoft-Sprachsynthese unterstützt verschiedene Sprechstile wie Smalltalk, Nachrichten oder Kundendienst. Diese Fortschritte verbessern das Fahrerlebnis. Weitere Informationen zu den neuesten Fortschritten in den Bereichen Spracherkennung und Sprachsynthese finden Sie in der Dokumentation zur Spracherkennung (einschließlich Forschungsergebnissen), unter Menschliche Parität in der Switchboard-Forschungsbenchmark erreicht und unter Neuronale Sprachsynthese erreicht beinahe menschliche Parität.

Globales Sprachangebot

Microsoft unterstützt Automobilhersteller bei ihren weltweiten Geschäften. Erst vor Kurzem wurde der Meilenstein von 100 Sprachen erreicht, und mittlerweile werden standardmäßig 119 Sprachen und Varianten mit 278 Stimmen angeboten. Das entspricht auch unserem Unternehmensziel, alle Menschen und Organisationen auf der Welt dazu zu befähigen, mehr zu erreichen. „Einhundert Sprachen sind ein guter Meilenstein auf dem Weg zu unserem Ziel, allen Menschen unabhängig von der Sprache eine reibungslose Kommunikation zu ermöglichen“, sagt Microsoft Technical Fellow und Azure AI Chief Technology Officer Xuedong Huang. Durch die Abdeckung weiterer Sprachen und Varianten können wir natürliche und intuitive Sprachfeatures für Automobilhersteller anbieten.

Anpassbarkeit macht den Unterschied

Mithilfe der neuronalen Sprachfeatures von Microsoft können Automobilhersteller eine realistische Markenstimme für natürlichere Konversationsschnittstellen entwickeln. Basierend auf der neuronalen Sprachsynthese-Technologie und dem mehrsprachigen universellen Modell mit mehreren Sprechern können Sie mit „Benutzerdefinierte neuronale Stimme“ synthetische Stimmen erstellen, die eine Vielzahl von Sprechweisen aufweisen und mit nur 30 Minuten Audiomaterial sprachübergreifend angepasst werden können. Die realistische und natürlich klingende Sprechweise der benutzerdefinierten neuronalen Stimme kann Marken und Personas repräsentieren und es Benutzer*innen ermöglichen, auf natürliche Weise mit Anwendungen zu kommunizieren. In diesem Blogbeitrag finden Sie eine ausführliche Anleitung zum Erstellen einer benutzerdefinierten neuronalen Stimme.

Compliance und Responsible AI

Microsoft setzt alles daran, die gesetzlichen Standards auf der ganzen Welt zu erfüllen, damit auch die Complianceanforderungen der Automobilhersteller erfüllt werden. Der Speech-Dienst ist Teil von Azure Cognitive Services und SOC-, FedRAMP-, PCI-DSS-, HIPAA-, HITECH- und ISO-zertifiziert. Der Speech-Dienst basiert auf der Azure-Infrastruktur und überzeugt durch Sicherheit, Verfügbarkeit, Compliance und Verwaltbarkeit auf Unternehmensniveau.
 
Microsoft hat sich der verantwortungsbewussten Entwicklung von KI-Technologie verschrieben. Wir setzen verschiedene technische Maßnahmen und Richtlinien ein, um den Missbrauch der Technologie zu verhindern. Beispielsweise entwickeln und veröffentlichen wir das Feature „Benutzerdefinierte neuronale Stimme“ mit der Absicht, die Rechte des Einzelnen und der Gesellschaft zu schützen, eine transparente Interaktion zwischen Mensch und Computer zu fördern und der Verbreitung von schädlichen Deepfakes und irreführenden Inhalten entgegenzuwirken. Dieser Ansatz entspricht unserer selbstauferlegten Verpflichtung für Responsible AI. Microsoft hat hierfür auch Transparenzhinweise erarbeitet, die den Zweck, die Funktionen und die Einschränkungen eines KI-Systems vermitteln.

Weitere Informationen

Mit Azure Cognitive Services ist KI zum Greifen nah. Erfahren Sie, wie Sie Innovationen mithilfe der bahnbrechenden Erfolge aus der KI-Forschung befeuern.