Visão geral de preços do Serviço OpenAI do Azure
Para ajudar os clientes na jornada, oferecemos soluções de gerenciamento de custos e preços para atender às suas necessidades. incluindo:
- Standard (Sob Demanda): Pago conforme o uso para tokens de entrada e saída.
- Provisionado (PTUs): Aloque a taxa de transferência com custos previsíveis, com reservas mensais e anuais disponíveis para reduzir os gastos gerais.
- A API de bloqueio:Os modelos de linguagem também agora estão disponíveis na APIdo Lote para implantações globais e três regiões, que retornam conclusões dentro de 24 horas por um desconto de 50% no Preço Padrão Global.
- Implantação global – SKU Global
- Implantação de Zona de Dados – Com base geográfica (UE ou EUA)
- Implantação Regional – Região Local (até 27 regiões)
Explorar as opções de preços
Aplique filtros para personalizar as opções de preço conforme as suas necessidades.
Os preços são apenas estimativas e não pretendem ser cotações de preços reais. O preço real pode variar dependendo do tipo de contrato celebrado com a Microsoft, data de compra e taxa de câmbio. Os preços são calculados com base em dólares americanos e convertidos usando as taxas spot de fechamento de Londres capturadas nos dois dias úteis anteriores ao último dia útil do final do mês anterior. Se os dois dias úteis anteriores ao final do mês caírem em um feriado bancário nos principais mercados, o dia de definição da taxa geralmente é o dia imediatamente anterior aos dois dias úteis. Esta taxa se aplica a todas as transações durante o próximo mês. Entre na calculadora de preços do Azure para ver os preços com base em seu programa/oferta atual com a Microsoft. Entre em contato com um especialista de vendas do Azure para obter mais informações sobre preços ou para solicitar uma cotação. Veja as perguntas frequentes sobre os preços do Azure.
Instituições governamentais dos EUA podem comprar serviços do Azure Governamental de um provedor de soluções de licenciamento sem assumir nenhum compromisso financeiro inicial ou, então, podem adquiri-los diretamente por meio de uma assinatura online paga conforme o uso.
Importante: o preço em reais (R$) é apenas uma referência. Esta é uma transação internacional e, como tal, seu preço final está sujeito a taxas de câmbio e à inclusão de IOF. Não será emitida uma NFe.
Instituições governamentais dos EUA podem comprar serviços do Azure Governamental de um provedor de soluções de licenciamento sem assumir nenhum compromisso financeiro inicial ou, então, podem adquiri-los diretamente por meio de uma assinatura online paga conforme o uso.
Importante: o preço em reais (R$) é apenas uma referência. Esta é uma transação internacional e, como tal, seu preço final está sujeito a taxas de câmbio e à inclusão de IOF. Não será emitida uma NFe.
o1
o1 is the new reasoning model series for complex tasks. The model has 200K context and an October 2023 knowledge cutoff.
Modelo | Preço (1 milhão de Tokens) |
---|---|
o1 1217 Global |
Entrada: $- Entrada armazenada em cache: $- Saída: $- |
o1 1217 US/EU – Data Zones |
Entrada: $- Entrada armazenada em cache: $- Saída: $- |
o1 1217 Regional |
Entrada: $- Entrada armazenada em cache: $- Saída: $- |
o1 preview Global |
Entrada: $- Entrada armazenada em cache: $- Saída: $- |
o1 preview US/EU – Data Zones |
Entrada: $- Entrada armazenada em cache: $- Saída: $- |
o1 preview Regional |
Entrada: $- Entrada armazenada em cache: $- Saída: $- |
Planejar com a Calculadora de Preços
o1 Mini
O o1-mini é um modelo de raciocínio rápido e econômico adaptado a casos de uso de codificação, matemática e ciência. O modelo tem um contexto de 128 mil e um corte de conhecimento de outubro de 2023.
Modelo | Preço (1 milhão de Tokens) |
---|---|
Global |
Entrada: $- Entrada armazenada em cache: $- Saída: $- |
EUA/UE – Zonas de Dados |
Entrada: $- Entrada armazenada em cache: $- Saída: $- |
Regional |
Entrada: $- Entrada armazenada em cache: $- Saída: $- |
Planejar com a Calculadora de Preços
Realtime API
Featured in the Realtime API, the GPT-4o-Realtime-Preview supports multilingual speech-to-speech capabilities. Optimized for real-time, low-latency conversations, it enables natural interactions with minimal delay, ideal for chatbots and conversational AI.
Modelo | Preço (1 milhão de Tokens) |
---|---|
GPT-4o-Realtime-Preview-Global |
Texto Entrada: $- Entrada armazenada em cache: $- Saída: $- Áudio Entrada: $- Entrada armazenada em cache: $- Saída: $- |
GPT-4o-Realtime-Preview-US/EU – Data Zones |
Texto Entrada: $- Entrada armazenada em cache: $- Saída: $- Áudio Entrada: $- Entrada armazenada em cache: $- Saída: $- |
GPT-4o-Realtime-Preview-Regional |
Texto Entrada: $- Entrada armazenada em cache: $- Saída: $- Áudio Entrada: $- Entrada armazenada em cache: $- Saída: $- |
Chat Completions API - Coming soon
Featured in the Chat Completions API, the GPT 4o-Audio-Preview model processes and generates audio content. It supports advanced features like speech recognition and audio synthesis, ideal for asynchronous speech interactions and sentiment analysis. Cached input is coming soon.
Modelo | Preço (1 milhão de Tokens) |
---|---|
GPT-4o-Audio-Prévia-Global |
Texto Entrada: $- Entrada armazenada em cache: N/A Saída: $- Áudio Entrada: $- Entrada armazenada em cache: N/A Saída: $- |
GPT-4o
O GPT-4o é o modelo multimodal mais avançado que é mais rápido e mais barato do que o GPT-4 Turbo com recursos de visão mais fortes. O modelo tem um contexto de 128 mil e um corte de conhecimento de outubro de 2023.
Modelo | Preço (1 milhão de Tokens) | Preços com API em lote (1 milhão de Tokens) |
---|---|---|
GPT-4o-2024-1120 Global |
Entrada: $- Entrada armazenada em cache: $- Saída: $- |
Entrada: $- Saída: $- |
GPT-4o-2024-1120 US/EU – Data Zones |
Entrada: $- Entrada armazenada em cache: $- Saída: $- |
Entrada: $- Saída: $- |
GPT-4o-2024-1120 Regional |
Entrada: $- Entrada armazenada em cache: $- Saída: $- |
N/A |
GPT-4o-2024-08-06 Global |
Entrada: $- Entrada armazenada em cache: $- Saída: $- |
Entrada: $- Saída: $- |
GPT-4o-2024-08-06 US/EU – Data Zones |
Entrada: $- Entrada armazenada em cache: $- Saída: $- |
N/A |
GPT-4o-2024-08-06 Regional |
Entrada: $- Entrada armazenada em cache: $- Saída: $- |
N/A |
GPT-4o-2024-0513 Global |
Entrada: $- Saída: $- |
Entrada: $- Saída: $- |
GPT-4o-2024-0513 US/EU – Data Zones |
Entrada: $- Saída: $- |
N/A |
GPT-4o-2024-0513 Regional |
Entrada: $- Saída: $- |
N/A |
Planejar com a Calculadora de Preços
GPT-4o mini
GPT-4o mini é o modelo pequeno mais econômico e tem funcionalidades de visão. O modelo tem um contexto de 128 mil e um corte de conhecimento de outubro de 2023.
Modelo | Preço (1 milhão de Tokens) | Preços com API em lote (1 milhão de Tokens) |
---|---|---|
Global |
Entrada: $- Entrada armazenada em cache: $- Saída: $- |
Entrada: $- Saída: $- |
EUA/UE – Zonas de Dados |
Entrada: $- Entrada armazenada em cache: $- Saída: $- |
N/A |
Regional |
Entrada: $- Entrada armazenada em cache: $- Saída: $- |
N/A |
Planejar com a Calculadora de Preços
Provisionado
You can allocate and manage throughput for deployments, ensuring predictable performance and stable capacity. You are charged an hourly rate per model regardless of usage, but you can also secure additional savings through monthly and annual reservations. Discover how to transition your regional deployments and provisioned reservations to global and data zones on this Learn page.
Modelo | PTUs mínimo | Preço de PTU por hora | Preço da Reserva Mensal PTU | Preço da Reserva Anual PTU |
---|---|---|---|---|
GPT-4o Global | 15 | $- | $- | $- |
Zonas de Dados GPT-4o EUA/UE | 15 | $- | $- | $- |
GPT-4o Regional | 50 | $- | $- | $- |
GPT-4o Mini Global | 15 | $- | $- | $- |
GPT-4 Mini Zonas de dados dos EUA/UE | 15 | $- | $- | $- |
GPT-4o Mini Regional | 25 | $- | $- | $- |
Planejar com a Calculadora de Preços
Modelos base
Modelos | Uso por 1.000 tokens |
---|---|
Babbage-002 | $- |
Davinci-002 | $- |
Modelos de ajuste fino
Modelo | Pricing | |
---|---|---|
GPT-4o-2024-08-06 | Regional |
Entrada: $- / 1M tokens Entrada armazenada em cache: $- / 1M tokens Saída: $- / 1M tokens Training: $- / 1M tokens Hosting: $- / hour |
Global |
Entrada: $- / 1M tokens Entrada armazenada em cache: $- / 1M tokens Saída: $- / 1M tokens Training: use regional Hosting: $- / hour |
|
GPT-4o-mini | Regional |
Entrada: $- / 1M tokens Entrada armazenada em cache: $- / 1M tokens Saída: $- / 1M tokens Training: $- / 1M tokens Hosting: $- / hour |
Global |
Entrada: $- / 1M tokens Entrada armazenada em cache: $- / 1M tokens Saída: $- / 1M tokens Training: use regional Hosting: $- / hour |
|
GPT-4-0613 (8K) | Regional |
Entrada: $- / 1M tokens Saída: $- / 1M tokens Training: $- / 1M tokens Hosting: $- / hour |
GPT-3.5-Turbo (16K) | Regional |
Entrada: $- / 1M tokens Saída: $- / 1M tokens Training: $- / 1M tokens Hosting: $- / hour |
GPT-3.5-Turbo (4K) | Regional |
Entrada: $- / 1M tokens Saída: $- / 1M tokens Training: $- / 1M tokens Hosting: $- / hour |
Babbage-002 |
Entrada: $- / 1M tokens Saída: $- / 1M tokens Training: $- / 1M tokens Hosting: $- / hour |
|
Davinci-002 |
Entrada: $- / 1M tokens Saída: $- / 1M tokens Training: $- / 1M tokens Hosting: $- / hour |
API de Assistentes
A API de Assistentes e suas ferramentas facilitam para os desenvolvedores a criação de assistentes de IA em seus aplicativos.
Os tokens usados pela API dos Assistentes são cobrados de acordo com as taxas por token de entrada/saída do modelo de linguagem escolhido usado com cada Assistente. Além disso, cobramos os seguintes preços pelo uso da ferramenta:
Ferramenta | Entrada |
---|---|
Pesquisa de Arquivos* | $-/GB de armazenamento de vetores por dia (1 GB livre) |
Interpretador de código** | $-/sessão |
*GB refere-se a gigabytes binários, em que 1 GB é 2^30 bytes.
**Se o seu assistente chamar o Interpretador de Código simultaneamente em dois threads diferentes, isso criaria duas sessões do Interpretador de Código (2 * $-). Cada sessão fica ativa por padrão por uma hora, o que significa que você só pagaria esse valor uma vez se o seu usuário continuasse dando instruções ao Code Interpreter no mesmo thread por até uma hora.
O custo de inferência (entrada e saída) varia de acordo com o modelo GPT usado com cada Assistente. Se o seu assistente chamar o Intérprete de código simultaneamente em dois threads diferentes, isso criaria duas sessões do Intérprete de código (2 * $-). Cada sessão fica ativa por padrão por uma hora, o que significa que o preço é de até uma hora de instruções ao Intérprete de código no mesmo thread.
Modelos de imagem
Modelos | Qualidade | Resolução | Preço (por 100 imagens) |
---|---|---|---|
Dall-E-3 | Standard | 1024 * 1024 | $- |
Standard | 1024 * 1792, 1792 * 1024 |
$- | |
Dall-E-3 | HD | 1024 * 1024 | $- |
HD | 1024 * 1792, 1792 * 1024 |
$- | |
Dall-E-2 | Standard | 1024 * 1024 | $- |
Inserindo modelos
Modelos | Por 1.000 tokens |
---|---|
Ada | $- |
text-embedding-3-large | $- |
text-embedding-3-small | $- |
Modelos de Fala
Modelos | Preço |
---|---|
Whisper | $-/hora |
TTS (Conversão de Texto em Fala) | $-/1M caracteres |
TTS HD | $-/1M caracteres |
Modelos de linguagem herdados
Modelos | Contexto | Entrada (por 1 milhão de Tokens) | Saída (por 1 milhão de Tokens) |
---|---|---|---|
GPT-3.5-Turbo-0301 | 4K | $- | $- |
GPT-3.5-Turbo-0613 | 4K | $- | $- |
GPT-3.5-Turbo-0613 | 16K | $- | $- |
GPT-3.5-Turbo-1106 | 16K | $- | $- |
GPT-3.5-Turbo-0125 | 16K | $- | $- |
GPT-3.5-Turbo-Instruct | 4K | $- | $- |
GPT-4-Turbo | 128K | $- | $- |
GPT-4-Turbo-Visão | 128K | $- | $- |
GPT-4 | 8K | $- | $- |
GPT-4 | 32K | $- | $- |
Opções de compra e preços do Azure
Conecte-se diretamente conosco
Obtenha uma explicação detalhada sobre os preços do Azure. Entenda os preços da sua solução de nuvem, aprenda sobre a otimização de custos e solicite uma proposta personalizada.
Converse com um especialista de vendasConfira maneiras de comprar
Compre os serviços do Azure por meio do site do Azure, de um representante da Microsoft ou de um parceiro do Azure.
Explore suas opçõesRecursos adicionais
Serviço OpenAI Azure
Saiba mais sobre os recursos e as funcionalidades do Serviço OpenAI Azure.
Calculadora de preço
Estime seus custos mensais esperados para usar qualquer combinação de produtos do Azure.
SLA
Revise o Contrato de Nível de Serviço para Serviço OpenAI Azure.
Documentação
Consulte tutoriais técnicos, vídeos e outros recursos do Serviço OpenAI Azure.
Perguntas frequentes
-
O Serviço OpenAI do Azure oferece preços com base em Pagamento Conforme o Uso ou nas PTUS (Unidades de Produtividade Provisionadas) O Pagamento Conforme o Uso permite que você pague pelos recursos consumidos, tornando-o flexível para cargas de trabalho variáveis. As PTUs oferecem um modelo de preços previsível no qual você reserva e implanta uma quantidade específica de capacidade de processamento de modelo. Esse modelo é ideal para cargas de trabalho com padrões de uso consistentes ou previsíveis, fornecendo estabilidade e controle de custos.
-
Para saber mais sobre as PTUs e os preços de IA aberta do Azure, leia a documentação da PTU ou entre em contato com nosso especialista em vendas
Converse com um especialista em vendas para saber mais sobre os preços do Azure. Entenda os preços da sua solução de nuvem.
Obtenha serviços de nuvem gratuitos e um crédito de $200 para explorar o Azure por 30 dias.