Spraak naar tekst

Zet geluid snel om naar tekst voor een natuurlijke overgang.

De functionaliteit van spraak-naar-tekst van Cognitive Services biedt een reeks mogelijkheden die u in uw apps kunt opnemen voor de ondersteuning van verschillende transcriptiescenario's, zoals gesprekstranscriptie, spraaktranscriptie en aangepaste spraaktranscriptie.

Gesprekstranscriptie

Schakel persoonlijke transcriptie voor vergaderingen in. Bij de gesprekstranscriptie wordt spraak in realtime vastgelegd, zodat alle deelnemers aan de vergadering volledig kunnen deelnemen aan de discussie, kunnen vaststellen wie wat wanneer heeft gezegd en snel volgende stappen kunnen opvolgen.

Gebruik gesprekstranscriptie voor het volgende:

  • Het opnemen van spraak in de gehele vergaderruimte.
  • Het beveiligen van gegevens met toonaangevende beveiliging en nalevingscertificeringen.
  • Het ondersteunen van installaties voor vergaderingen en conferenties die gebruikmaken van microfoons en videocamera's door de koppeling met de Speech Devices SDK.

Zie het in actie

Er is een fout opgetreden tijdens het laden van deze demo. Wacht even en probeer het later opnieuw.

Spreker Transcript

Deze demo is niet compatibel met uw browser. Voor de beste ervaring kunt u beter een andere browser gebruiken.

Wilt u dit maken?

Spraaktranscriptie

Converteer gesproken audio naar tekst. Roep de API aan om audio te herkennen die afkomstig is van de microfoon, van andere realtime audiobronnen die worden gestreamd of van een bestand met opgenomen audio. Wanneer audio naar de server wordt verzonden, worden gedeeltelijke herkenningsresultaten op aanvraag geretourneerd.

U kunt de API gebruiken om slimme apps te ontwikkelen die reageren op stemmen. Bekijk de demo om te zien hoe het werkt. Selecteer uw doeltaal, klik vervolgens op de microfoon en begin te praten. Of klik gewoonweg op een van de voorbeeldspraakzinnen.*

Zie het in actie

Als u de demo wilt uitproberen met uw eigen stem via een microfoon, gebruik dan een andere browser met WebRTC-ondersteuning (bijvoorbeeld een recente versie van Microsoft Edge, Firefox of Chrome).

Wilt u dit maken?

Aangepaste spraakservice: Spraaktranscriptie met een aangepast model

Elimineer hindernissen bij spraakherkenning, zoals spreekstijl, vocabulaire en achtergrondgeluiden. In onze spraakherkenningstechnologieën worden meerdere API's gecombineerd om de tekstuitvoer te produceren. Klanten kunnen de API's aanpassen aan hun behoeften en de beschikbare gegevens.

Zie het in actie

Voorbeeldzinnen

Basislijn

Custom Speech

Aangepaste taalmodellen maken die zijn afgestemd op de spraakstijlen van de gebruikers

Zorg ervoor dat teksten ondanks verschillende woordenschatten en spreekstijlen begrijpbaar blijven. Pas het taalmodel van de spraakherkenning van uw app aan door deze af te stemmen op het jargon van de bedrijfstak, technische of geografische termen, terminologie van de markt en zelfs de stijl van de spreker.

Aan de gebruikersomgeving aanpassen met aangepaste akoestische modellen

Zorg ervoor dat de spraakherkenning van uw app in alle omgevingen werkt. Met aangepaste akoestische modellen kunt u achtergrondgeluiden incalculeren en een afspiegeling vinden van de verwachte omgevingen van de gebruikers.

Robuuste spraakmodellen van Microsoft gebruiken

Maak gebruik van effectieve, gepersonaliseerde spraakherkenning door naast de bestaande geavanceerde modellen van Microsoft uw eigen aangepaste modellen voor spraakherkenning te ontwikkelen.

Wilt u dit maken?

Een spraakscenario verkennen

Callcenter

Speech ServicesWith Speech Services, it is easy to transcribe every call. Index the transcription for full-text search or apply Text Analytics to detect sentiment, language and key phrases for insights. If your call center recordings involve specialized terminology, such as product names or IT jargon, create a custom language model to teach Speech Services the vocabulary. A custom acoustic model helps Speech Services understand speakers even with background noise or poor phone connections. For more information, read how batch transcription works with Speech Services.
  1. Overzicht
  2. Stroom

Spraakservices

Overzicht

Met Speech Services kunt u gemakkelijk elk gesprek transcriberen. Indexeer de transcriptie voor zoekopdrachten in volledige tekst of pas Text Analytics toe om gevoel, taal en belangrijke woordgroepen te detecteren voor inzichten. Als uw callcenteropnamen speciale terminologie, zoals productnamen of IT-jargon bevatten, maakt u een aangepast taalmodel om Speech Services dat vocabulaire aan te leren. Een aangepast akoestisch model helpt Speech Services sprekers zelfs bij achtergrondgeluiden of slechte telefoonverbindingen te begrijpen.

Lees hoe batchtranscriptie werkt met Speech Services voor meer informatie.

Stroom

  1. 1 Een model aanpassen voor uw domein en dat model implementeren
  2. 2 Uw opnamen uploaden naar een blobcontainer
  3. 3 Een POST-aanvraag voor een batchtranscriptie maken
  4. 4 Speech Services plant de transcriptietaak
  5. 5 Stereobestanden worden in twee kanalen gesplitst
  6. 6 Monobestanden ondergaan diarisatie om onderscheid te maken tussen sprekers
  7. 7 De transcriptie downloaden met de transcriptie-id

Ontdek de Cognitive Services-API's

Computer Vision

Distilleer actiegegevens uit afbeeldingen

Face

Herken, identificeer, analyseer, organiseer en tag gezichten in foto's

Ink Recognizer PREVIEW

Een AI-service die digitale handgeschreven inhoud herkent, zoals handschriften, vormen en de opmaak van handgeschreven inhoud

Video Indexer

Meer inzichten dankzij video

Custom Vision

U kunt uw eigen geavanceerde Vision-modellen aanpassen met het oog op uw specifieke situatie

Form Recognizer PREVIEW

De documentextractieservice met AI die uw formulieren begrijpt

Tekstanalyse

Gevoelens en onderwerpen evalueren om te begrijpen wat gebruikers willen

Translator Text

Gemakkelijk machinevertaling uitvoeren door eenvoudig een REST API aan te roepen

Bing Spellingcontrole

Detecteer en corrigeer spelfouten in uw app

QnA Maker

Distilleer informatie in beschrijvende, gemakkelijk te navigeren antwoorden

Content Moderator

Geautomatiseerd afbeeldings-, tekst- en videotoezicht

Language Understanding

Leer uw apps opdrachten van uw gebruikers te begrijpen

Spraakservices

Samengevoegde spraakservices voor spraak-naar-tekst en spraakomzetting

Sprekerherkenning PREVIEW

Gebruik spraak voor het identificeren en verifiëren van individuele sprekers

Content Moderator

Geautomatiseerd afbeeldings-, tekst- en videotoezicht

Anomaly Detector PREVIEW

Eenvoudig mogelijkheden voor het detecteren van afwijkingen aan uw toepassingen toevoegen.

Personalizer PREVIEW

Een AI-service die een gepersonaliseerde gebruikerservaring biedt

Gebruik de Speech Devices-SDK om een ambient apparaat te bouwen en een aangepast ontwaakwoord te maken

Meer informatie