Speech to Text

A hanganyagok gyors szöveggé alakításával természetes válaszadást érhet el.

A Cognitive Services Speech to Text számos olyan funkciót kínál, amelyeket beépíthet az alkalmazásaiba különféle átírási helyzetek kezeléséhez, többek között beszélgetés átírásához, beszédátíráshoz és egyéni beszéd átírásához.

Beszédátírás

Lehetővé teszi a személyes találkozók átírását. A beszédátírás valós időben rögzíti a természetes nyelvi beszédet, így mindenki teljes mértékben részt vehet a beszélgetésben, azonosítható lesz, hogy ki mit és mikor mondott, és ez alapján gyorsan megtehetők a megbeszélés következő lépései is.

A beszédátírás az alábbi célokra kiválóan alkalmas:

  • Beszéd rögzítése a teljes tárgyalóteremre kiterjedően.
  • Adatok védelme iparágvezető biztonsági és megfelelőségi tanúsítványokkal.
  • A Speech Devices SDK párosításával támogatás a mikrofonokat és videókamerákat alkalmazó konferenciákhoz is.

Nézze meg működés közben

Hiba történt a bemutató betöltése során. Várjon, majd próbálkozzon újra.

Beszélő Átirat

Ez a demó nem kompatibilis ezzel a böngészővel. A legjobb eredmény érdekében használjon másik böngészőt.

Szeretné ezt elkészíteni?

Beszédátírás

Hanganyagot alakíthat át szöveggé. Az API hívásával felismerheti a hanganyagot, akár mikrofonból, akár egyéb valós idejű folyamatos hangforrásból, vagy rögzített hangfájlból érkezik. Miután a hanganyag a kiszolgálóra került, a rendszer igény szerint visszaadja a részleges felismerési eredményeket.

Az API segítségével beszéd által aktivált okos alkalmazásokat hozhat létre. Próbálja ki a bemutatót, hogy megismerje a működését. Válassza ki a célnyelvet, majd kattintson a mikrofonra, és kezdjen el beszélni. Vagy egyszerűen csak kattintson az egyik beszédmintára.*

Nézze meg működés közben

Ha szeretné kipróbálni a demót a saját hangjával és egy mikrofonnal, váltson olyan böngészőre, amely támogatja a WebRTC-t – ilyen böngésző például a Microsoft Edge, a Firefox vagy a Chrome legújabb verziója.

Szeretné ezt elkészíteni?

Egyéni beszédszolgáltatás: Beszéd átírása egyéni modellel

Kiküszöbölheti a beszédfelismerést akadályozó tényezőket, például a különféle beszédstílusok, a háttérzaj vagy a szókincs által okozott problémákat. Beszédfelismerési technológiáink több API kombinálásával hozzák létre a szöveges kimenetet. Az ügyfelek az igényeik és az elérhető adatok szerint szabhatják testre az API-kat.

Nézze meg működés közben

Példamondatok

Alapterv

Egyéni beszéd

Egyéni nyelvi modellek létrehozása a felhasználói beszédstílusokhoz igazodva

Ne hagyja, hogy az eltérő szókincsek és beszédstílusok gátolják a megértést. A saját szakmai területén használt kifejezésekhez, műszaki, földrajzi vagy piaci terminusokhoz, sőt beszédstílusokhoz igazodva szabhatja testre az alkalmazásba épített beszédfelismerési nyelvi modellt.

Igazodás a felhasználói környezethez egyéni akusztikai modellek segítségével

Gondoskodhat róla, hogy az alkalmazásba épített beszédfelismerési funkció minden környezetben működjön. Az egyéni akusztikus modellek segítségével megoldást találhat a háttérzajokra, és igazodhat a felhasználók által elvárt környezethez.

Robusztus beszédmodellek a Microsofttól

Hatékony, személyre szabott beszédfelismerést tehet lehetővé, ha a Microsoft legmodernebb meglévő modelljei fölé építi saját egyéni beszédfelismerési modelljeit.

Szeretné ezt elkészíteni?

Ismerkedés a beszédfeldolgozással

Ügyfélszolgálat

Servicios de vozCon Speech Services, es fácil transcribir cada llamada. Indexe la transcripción para realizar búsquedas de texto completo o aplique Text Analytics para detectar opiniones, idiomas y frases clave para las conclusiones. Si las grabaciones del centro de llamadas contienen terminología especializada (como nombres de producto o jerga de TI), cree un modelo de lenguaje personalizado para enseñar el vocabulario a Speech Services. Un modelo acústico personalizado ayuda a Speech Services a entender a los hablantes incluso con ruido de fondo o con conexiones telefónicas de mala calidad. Para más información, consulte cómo funciona la transcripción por lotes con Speech Services.
  1. Áttekintés
  2. Flow

Beszédszolgáltatások

Áttekintés

A Speech Services használatával egyszerűen átírható minden hanghívás. A szöveget ezután könnyedén indexelheti teljes szöveges kereséshez, vagy szövegelemzést végezhet a hangulat, a nyelv vagy a kulcsszavak meghatározásához. Ha a telefonos ügyfélszolgálati felvételeiben speciális terminológia is előfordul (például terméknevek vagy informatikai szakzsargon), létrehozhat egy nyelvi modellt, amellyel megtaníthatja a Speech Servicesnek ezt a szókészletet. A Speech Servicest egy egyéni akusztikai modell segíti abban, hogy a beszélőket és háttérzaj vagy rossz minőségű telefonos kapcsolat mellett is megértse.

További információért olvassa el, hogyan működik a Speech Services kötegelt átírása.

Flow

  1. 1 Modell alkalmazása saját tartományra és a modell üzembe helyezése
  2. 2 Felvételek feltöltése blobtárolóba
  3. 3 POST-kérelem létrehozása kötegelt átíráshoz
  4. 4 A Speech Services ütemezi az átírási feladatot
  5. 5 A sztereó fájlok két csatornára vannak felosztva
  6. 6 A monó fájlok diarizálva lesznek a beszélők elkülönítése érdekében
  7. 7 Az átirat letöltése az átírási azonosító használatával

Ismerje meg a Cognitive Services API-kat

Computer Vision

Hasznos információkhoz juthat a képekből

Face

Arcok felismerése, azonosítása, elemzése, rendszerezése és megjelölése a képeken

Ink Recognizer ELŐZETES VERZIÓ

AI-szolgáltatás, amely felismeri a szabadkézi digitális tartalmakat, például a kézírást, az alakzatokat és a szabadkézi dokumentumok elrendezést

Video Indexer

Tárja fel a videókban rejlő információkat

Custom Vision

Könnyedén testre szabhatja a saját legkorszerűbb számítógépes látástechnológiai modelljeit az egyedi használati esetekhez

Form Recognizer ELŐZETES VERZIÓ

A mesterséges intelligencián alapuló dokumentumkinyerési szolgáltatás, amely önállóan értelmezi űrlapjait

Text Analytics

Érzelmek és témakörök egyszerű kiértékelése a felhasználók szándékainak megértésére

Translator Text

Gépi fordítás egy egyszerű REST API-hívással

QnA Maker

Az információkból közérthető, könnyen átlátható válaszokat nyerhet ki

Language Understanding

Megtaníthatja alkalmazásait a felhasználói parancsok értelmezésére

Immersive Reader ELŐZETES VERZIÓ

A felhasználók hatékonyságát növeli életkorra és képességekre való tekintet nélkül

Beszédszolgáltatások

Egységes beszédszolgáltatások diktáláshoz, szövegfelolvasáshoz és tolmácsoláshoz

Speaker Recognition ELŐZETES VERZIÓ

Beszéd használata az egyes beszélők azonosításához és ellenőrzéséhez

Content Moderator

Automatizált kép-, szöveg- és videomoderálás

Anomáliadetektor ELŐZETES VERZIÓ

Egyszerűen építhet be alkalmazásaiba anomáliadetektálást.

Personalizer ELŐZETES VERZIÓ

Személyre szabott felhasználói felületet nyújtó AI-szolgáltatás

Hozzon létre egyéni ébresztési szót használó környezetfigyelő eszközt a Speech Devices SDK segítségével

Részletek