Priser på Cognitive Services – Speech Services

Brug intelligens-API'er til at aktivere egenskaber som vision, sprog og søgning.

De samlede taletjenester giver en bred vifte af funktioner til talegenkendelse og generering, herunder transskribering af tale, tekst til tale og taleoversættelse.

Prisoplysninger

Taleobjektbeholderen er i offentlig prøveversion.

Instans Kategori Funktioner Pris
Gratis - Web/Container
1 samtidig anmodning1
Tale til tekst Standard 5 gratis lydtimer pr. måned
Brugerdefineret 5 gratis lydtimer pr. måned
Slutpunktshosting: 1 gratis model pr. måned 2
Lyd via flere kanaler til samtaletransskription PRØVEVERSION 3 5 gratis lydtimer pr. måned
Tekst-til-tale Standard 5 mio. gratis tegn pr. måned
Neural 0.5 mio. gratis tegn pr. måned
Brugerdefineret 5 mio. gratis tegn pr. måned
Slutpunktshosting: 1 gratis model pr. måned
Taleoversættelse Standard 5 gratis lydtimer pr. måned
Standard - Web/Container
20 samtidig anmodning 1
Tale til tekst Standard $- pr. lydtime
Brugerdefineret $- pr. lydtime
Slutpunktshosting: $- pr. model pr. time
Lyd via flere kanaler til samtaletransskription PRØVEVERSION 3 $- pr. lydtime 4
Tekst-til-tale Standard $- pr. 1 mio. tegn
Neural $- pr. 1 mio. tegn 5
Brugerdefineret $- pr. 1 mio. tegn
Slutpunktshosting: $- pr. model pr. måned
Brugerdefineret neural PRØVEVERSION 6 Stemmeopbygning: kontakt os
Syntese i realtid: $- pr. 1 mio. tegn
Slutpunktshosting: $- pr. model pr. time
Oprettelse af langvarig lyd: $- pr. 1 mio. tegn
Taleoversættelse Standard $- pr. lydtime

1De samtidige anmodninger er kun anvendt på webslutpunkter.

2Ubrugte modeller tages automatisk ud af drift efter 7 dage.

3Samtaletransskription via flere kanaler anbefaler en mikrofonenhed med cirkulært matrix. Du kan få flere oplysninger i Microsoft Speech Device SDK.

4Dette afspejler prisfastsættelsen for den offentlige prøveversion. Priserne for den generelt tilgængelige version vil blive meddelt senere.

5Se i dokumentationen til Neural for de områder, hvor Neural tekst til tale er tilgængelig.

6Funktionaliteten Brugerdefineret neural stemme er en beskyttet prøveversion. Få mere at vide om beskyttelsesprocessen.

Support og SLA 

  • Gratis support til administration af fakturering og abonnement er inkluderet.
  • Vi garanterer, at Cognitive Services, der kører på standardniveauet, er tilgængelige i mindst 99,9 % af tiden. Der er ingen SLA for den gratis prøveversion. Læs SLA'en.

Ofte stillede spørgsmål

    • Til Taleoversættelse, Tale til tekst og Tale til tekst med brugerdefineret talemodel: forbruget faktureres efter sekundintervaller
    • For Tekst til tale og Tekst til tale med brugerdefineret stemmetype: forbruget faktureres pr. tegn
    • For hosting af brugerdefineret talemodel: Forbruget faktureres pr. time. For hosting af brugerdefineret stemmetype: Forbruget faktureres dagligt.
  • Speech Service giver brugerne mulighed for at tilpasse grundlæggende modeller på baggrund af deres egne akustiske data og sprogdata. Det giver brugerdefinerede talemodeller, som kan bruges til både Tale til tekst og Taleoversættelse.

  • Sprogmodellen er en sandsynlighedsdistribution baseret på ordsekvenser. Sprogmodellen hjælper systemet med at fastlægge ordsekvenser, der lyder ens, på baggrund af sandsynligheden for selve ordsekvenserne. "Genkend tale" og "gentænd svale" lyder f.eks. ens, men den første hypotese er meget mere sandsynlig og vil derfor blive tildelt en meget højere score af sprogmodellen. Hvis du har en forventning om, at stemmeanmodninger til dit program indeholder særlige elementer af ordforråd, såsom produktnavne eller jargon, der er ikke opstår ofte i almindelig tale, kan du sandsynligvis opnå en forbedre ydeevne ved at tilpasse sprogmodellen. Hvis du f.eks. bygger en app til at søge MSDN med tale, er det sandsynligt, at termer såsom "objektorienteret" eller "navneområde" eller "dot.net" forekommer hyppigere end i almindelige stemmeprogrammer. En tilpasning af sprogmodellen gør det muligt for systemet at lære dette.

  • Den akustiske model er en klassificering, der markerer korte fragmenter af lyd i adskillige fonemer eller lydenheder på hvert sprog. Disse fonemer kan derefter sættes sammen og forme ord. Ordet "tale" indeholder f.eks. fire fonemer, "t a l e". Disse klassificeringer er lavet 100 gange i sekundet efter ordre. Tilpasning af den akustiske model gør det muligt for systemet bedre at lære at genkende tale i atypiske miljøer. Hvis du f.eks. har en app, der er designet til at blive brugt af en medarbejder på et lager eller en fabrik, kan en tilpasset akustisk model genkende tale i disse lydmiljøer mere præcist.

  • Microsoft Speech Services indeholder mere end 70 stemmer som standard (kaldes også stemmetyper) på mere end 40 sprog, så du kan konvertere din tekst til lyd. Med virtuelle assistenter og forskellige taleunderstøttede apps vil mange virksomheder dog gerne have deres egne unikke stemmer, som repræsenterer deres virksomhed, og som er skræddersyet til deres eget brand. Hvis du for eksempel udvikler en chatbot til din kundeservice, kan du knytte den til virksomhedens unikke brandstemme for at styrke kundernes tilknytning. På samme måde kan udviklere af navigationssoftware til biler aktivere Tale til tekst med forskellige brugerdefinerede stemmer for at forbedre kundeoplevelsen.

    Det gøres nemt ved hjælp af Voice Studio, som er en portal til at bygge brugerdefinerede stemmer. Du kan bruge dine egne lyddata (optaget tale med tilknyttede scripts) til at generere en brugerdefineret stemmetype, som derefter udrulles til Microsofts Tekst til tale-tjeneste, hvorefter du nemt kan tilknytte den til dine apps via et API-slutpunkt.

Ressourcer

Beregn dine månedlige udgifter til Azure-tjenester

Se ofte stillede spørgsmål vedr. prissætning på Azure

Få mere at vide om Cognitive Services

Se tekniske vejledninger, videoer og anden dokumentation

Tilføjet for at beregne. Tryk på 'v' for at få vist på beregner

Få mere at vide og byg med $200 i kredit, og fortsæt gratis