Pular para o conteúdo principal
Azure

Preços do Serviço OpenAI Azure

Visão geral de preços do Serviço OpenAI do Azure

O Serviço OpenAI do Azure oferece IA generativa pronta para empresas com modelos poderosos da OpenAI, permitindo que as organizações inovem com funcionalidades de texto, áudio e visão. Além dos modelos de ponta, as empresas escolhem o Serviço OpenAI do Azure para obter privacidade de dados interna, flexibilidade regional/de área/global e integração perfeita ao ecossistema do Azure, incluindo Fabric, Cosmos DB e Pesquisa de IA do Azure. Empresas de todos os tamanhos podem dimensionar com confiança soluções de IA para aprimorar a experiência do cliente, automatizar fluxos de trabalho e desbloquear o potencial criativo, gerando impacto mensurável e diferenciação competitiva.

Para ajudar os clientes no percurso, oferecemos soluções de gerenciamento de custos e preços para atender às suas necessidades. incluindo:
  • Standard (sob demanda): Pagamento Conforme o Uso para tokens de entrada e saída.
  • Provisionado (PTUs): Aloque taxa de transferência com custos previsíveis, com reservas mensais e anuais disponíveis para reduzir os gastos gerais.
  • API do Lote: Os modelos de linguagem também estão disponíveis na API de Lote para implantações globais e três regiões, que retornam conclusões em 24 horas com 50% de desconto no Preço Padrão Global.
Você pode escolher entre os seguintes tipos de implantação para Standard e Provisionado, que oferecem maior flexibilidade e controle de preço e desempenho. Essa flexibilidade ajuda quando há limites de processamento de dados cada vez mais restritivos e necessidade de maior taxa de transferência e menor preço.
  • Implantação Global – SKU Global
  • Implantação da Zona de Dados – Baseado em Geografia (Europa ou EUA)
  • Implantação Regional – Região Local (até 27 regiões)

Explorar as opções de preços

Aplique filtros para personalizar as opções de preço conforme as suas necessidades.

Os preços são apenas estimativas e não pretendem ser cotações de preços reais. O preço real pode variar dependendo do tipo de contrato celebrado com a Microsoft, data de compra e taxa de câmbio. Os preços são calculados com base em dólares americanos e convertidos usando as taxas spot de fechamento de Londres capturadas nos dois dias úteis anteriores ao último dia útil do final do mês anterior. Se os dois dias úteis anteriores ao final do mês caírem em um feriado bancário nos principais mercados, o dia de definição da taxa geralmente é o dia imediatamente anterior aos dois dias úteis. Esta taxa se aplica a todas as transações durante o próximo mês. Entre na calculadora de preços do Azure para ver os preços com base em seu programa/oferta atual com a Microsoft. Entre em contato com um especialista de vendas do Azure para obter mais informações sobre preços ou para solicitar uma cotação. Veja as perguntas frequentes sobre os preços do Azure.

GPT-4.5

GPT-4.5-preview é o modelo mais recente de uso geral com amplo conhecimento do mundo e melhor entendimento da intenção do usuário, o que o torna bom em tarefas criativas e planejamento agêntico. O modelo tem 128K de contexto e um limite de conhecimento de outubro de 2023.

Modelo Preço (1 milhão de Tokens) Preços com API em lote (1 milhão de Tokens)
Visualização do GPT-4.5-2025-02-27 Global Entrada: $-
Entrada armazenada em cache: $-
Saída: $-
N/A

o1

o1 é a nova série de modelos de raciocínio para tarefas complexas. O modelo tem 200 mil contextos e um limite de conhecimento de outubro de 2023.

Modelo Preço (1 milhão de Tokens) Preços com API em lote (1 milhão de Tokens)
o1 2024-12-17 Global Entrada: $-
Entrada armazenada em cache: $-
Saída: $-
N/A
o1 2024-12-17 — Zonas de Dados EUA/UE Entrada: $-
Entrada armazenada em cache: $-
Saída: $-
N/A
o1 2024-12-17 Regional Entrada: $-
Entrada armazenada em cache: $-
Saída: $-
N/A
o1 preview 2024-09-12 Global Entrada: $-
Entrada armazenada em cache: $-
Saída: $-
N/A
o1 preview 2024-09-12 — Zonas de Dados EUA/UE Entrada: $-
Entrada armazenada em cache: $-
Saída: $-
N/A
o1 preview 2024-09-12 Regional Entrada: $-
Entrada armazenada em cache: $-
Saída: $-
N/A

Planejar com a Calculadora de Preços

o3 Mini

O o3 mini é a versão atualizada do modelo o1 mini. O o3-mini é um modelo de raciocínio rápido e econômico adaptado aos casos de uso de codificação, matemática e ciência.

O modelo o3-mini agora ostenta uma janela de entrada de contexto expandida de 200 mil tokens e uma saída máxima de 100 mil tokens, fornecendo espaço suficiente para respostas complexas e detalhadas. O modelo o1 mini tem uma entrada de contexto de 128 mil. Ambos os modelos o3 e o1 têm um limite de conhecimento datado de outubro de 2023.

Modelo Preço (1 milhão de Tokens) Preços com API em lote (1 milhão de Tokens)
o3 mini 2025-01-31 Global Entrada: $-
Entrada armazenada em cache: $-
Saída: $-
Entrada: $-
Saída: $-
o3 mini 2025-01-31 — Zonas de Dados EUA/UE Entrada: $-
Entrada armazenada em cache: $-
Saída: $-
Entrada: $-
Saída: $-
o3 mini 2025-01-31 Regional Entrada: $-
Entrada armazenada em cache: $-
Saída: $-
N/A
o1-mini 2024-09-12 Global Entrada: $-
Entrada armazenada em cache: $-
Saída: $-
N/A
o1-mini 2024-09-12 — Zonas de Dados EUA/UE Entrada: $-
Entrada armazenada em cache: $-
Saída: $-
N/A
o1-mini 2024-09-12 Regional Entrada: $-
Entrada armazenada em cache: $-
Saída: $-
N/A

Planejar com a Calculadora de Preços

Computer-Using Agent (CUA)

The Computer-Using Agent (CUA) is a specialized AI model that allows AI to interact with graphical user interfaces (GUIs), navigate applications, and automate multi-step tasks—all through natural language instructions. The CUA model can be used as a tool in the Responses API.

Modelo Preços
computer-use-preview Global Entrada: $-/1 milhão de tokens
Saída: $-/1 milhão de tokens

Built-in tools

The Responses API and the Assistants API enable seamless interaction with tools like computer use, code interpreter, function calling, and file search, making it easy for developers to build AI agents.

Ferramenta Entrada
Computer Use (Responses API only) Entrada: $-/1 milhão de tokens
Saída: $-/1 milhão de tokens
File Search Tool Call (Responses API only) $-/1K tool calls
Pesquisa de Arquivos* $-/GB de armazenamento de vetores por dia (1 GB livre)
Interpretador de código** $-/sessão

*GB refere-se a gigabytes binários, em que 1 GB é 2^30 bytes.

**Se o seu assistente chamar o Interpretador de Código simultaneamente em dois threads diferentes, isso criaria duas sessões do Interpretador de Código (2 * $-). Cada sessão fica ativa por padrão por uma hora, o que significa que você só pagaria esse valor uma vez se o seu usuário continuasse dando instruções ao Code Interpreter no mesmo thread por até uma hora.

O custo de inferência (entrada e saída) varia de acordo com o modelo GPT usado com cada Assistente. Se o seu assistente chamar o Intérprete de código simultaneamente em dois threads diferentes, isso criaria duas sessões do Intérprete de código (2 * $-). Cada sessão fica ativa por padrão por uma hora, o que significa que o preço é de até uma hora de instruções ao Intérprete de código no mesmo thread.

API em tempo real

Em destaque na API em tempo real, o GPT-4o-Realtime-Preview dá suporte a recursos multilíngues de conversão de fala em fala. Otimizado para conversas em tempo real e de baixa latência, ele permite interações naturais com atraso mínimo, ideal para chatbots e IA conversacional. O GPT-4o é a versão abrangente e mais potente projetada para tarefas complexas, enquanto o GPT-4o Mini é uma opção menor e mais econômica, ideal para aplicações mais simples em que a economia e a velocidade são prioridades.

Modelo Preço (1 milhão de Tokens)
GPT-4o-Realtime-Preview-2024-12-17-Global Texto
Entrada: $-
Entrada armazenada em cache: $-
Saída: $-

Áudio
Entrada: $-
Entrada armazenada em cache: $-
Saída: $-
GPT-4o-Realtime-Preview-2024-12-17-US/EU – Zonas de Dados Texto
Entrada: $-
Entrada armazenada em cache: $-
Saída: $-

Áudio
Entrada: $-
Entrada armazenada em cache: $-
Saída: $-
GPT-4o-Realtime-Preview-2024-12-17-Regional Texto
Entrada: $-
Entrada armazenada em cache: $-
Saída: $-

Áudio
Entrada: $-
Entrada armazenada em cache: $-
Saída: $-
GPT-4o-Mini-Realtime-Preview-2024-12-17-Global Texto
Entrada: $-
Entrada armazenada em cache: $-
Saída: $-

Áudio
Entrada: $-
Entrada armazenada em cache: $-
Saída: $-
GPT-4o-Mini-Realtime-Preview-2024-12-17-US/UE – Zonas de Dados Texto
Entrada: $-
Entrada armazenada em cache: $-
Saída: $-

Áudio
Entrada: $-
Entrada armazenada em cache: $-
Saída: $-
GPT-4o-Mini-Realtime-Preview-2024-12-17-Regional Texto
Entrada: $-
Entrada armazenada em cache: $-
Saída: $-

Áudio
Entrada: $-
Entrada armazenada em cache: $-
Saída: $-
GPT-4o-Realtime-Preview-2024-10-01-Global Texto
Entrada: $-
Entrada armazenada em cache: $-
Saída: $-

Áudio
Entrada: $-
Entrada armazenada em cache: $-
Saída: $-
GPT-4o-Realtime-Preview-2024-10-01-US/EU – Zonas de Dados Texto
Entrada: $-
Entrada armazenada em cache: $-
Saída: $-

Áudio
Entrada: $-
Entrada armazenada em cache: $-
Saída: $-
GPT-4o-Realtime-Preview-2024-10-01-Regional Texto
Entrada: $-
Entrada armazenada em cache: $-
Saída: $-

Áudio
Entrada: $-
Entrada armazenada em cache: $-
Saída: $-

API de Conclusões de Chat

Em destaque na API de Conclusões de Chat, o modelo GPT 4o-Audio-Preview processa e gera conteúdo de áudio. Ele oferece suporte a recursos avançados, como reconhecimento de fala e síntese de áudio, ideais para interações assíncronas de fala e análise de sentimento. O GPT-4o é a versão abrangente e mais potente projetada para tarefas complexas, enquanto o GPT-4o Mini é uma opção menor e mais econômica, ideal para aplicações mais simples em que a economia e a velocidade são prioridades.

Modelo Preço (1 milhão de Tokens)
GPT-4o-Audio-Preview-2024-12-17-Global Texto
Entrada: $-
Saída: $-

Áudio
Entrada: $-
Saída: $-
GPT-4o-Audio-Preview-2024-12-17-US/UE – Zonas de Dados Texto
Entrada: $-
Saída: $-

Áudio
Entrada: $-
Saída: $-
GPT-4o-Audio-Preview-2024-12-17-Regional Texto
Entrada: $-
Saída: $-

Áudio
Entrada: $-
Saída: $-
GPT-4o-Mini-Audio-Preview-2024-12-17-Global Texto
Entrada: $-
Saída: $-

Áudio
Entrada: $-
Saída: $-
GPT-4o-Mini-Audio-Preview-2024-12-17-US/UE – Zonas de Dados Texto
Entrada: $-
Saída: $-

Áudio
Entrada: $-
Saída: $-
GPT-4o-Mini-Audio-Preview-2024-12-17-Regional Texto
Entrada: $-
Saída: $-

Áudio
Entrada: $-
Saída: $-

GPT-4o

O GPT-4o é o modelo multimodal mais avançado que é mais rápido e mais barato do que o GPT-4 Turbo com recursos de visão mais fortes. O modelo tem um contexto de 128 mil e um corte de conhecimento de outubro de 2023.

Modelo Preço (1 milhão de Tokens) Preços com API em lote (1 milhão de Tokens)
GPT-4o-2024-1120 Global Entrada: $-
Entrada armazenada em cache: $-
Saída: $-
Entrada: $-
Saída: $-
GPT-4o-2024-1120 EUA/Europa – Zonas de Dados Entrada: $-
Entrada armazenada em cache: $-
Saída: $-
Entrada: $-
Saída: $-
GPT-4o-2024-1120 Regional Entrada: $-
Entrada armazenada em cache: $-
Saída: $-
N/A
GPT-4o-2024-08-06 Global Entrada: $-
Entrada armazenada em cache: $-
Saída: $-
Entrada: $-
Saída: $-
GPT-4o-2024-08-06 EUA/UE – Zonas de Dados Entrada: $-
Entrada armazenada em cache: $-
Saída: $-
Entrada: $-
Saída: $-
GPT-4o-2024-08-06 Regional Entrada: $-
Entrada armazenada em cache: $-
Saída: $-
N/A
GPT-4o-2024-0513 Global Entrada: $-
Saída: $-
Entrada: $-
Saída: $-
GPT-4o-2024-0513 EUA/Europa – Zonas de Dados Entrada: $-
Saída: $-
N/A
GPT-4o-2024-0513 Regional Entrada: $-
Saída: $-
N/A

Planejar com a Calculadora de Preços

GPT-4o mini

GPT-4o mini é o modelo pequeno mais econômico e tem funcionalidades de visão. O modelo tem um contexto de 128 mil e um corte de conhecimento de outubro de 2023.

Modelo Preço (1 milhão de Tokens) Preços com API em lote (1 milhão de Tokens)
GPT-4o-mini-0718 Global Entrada: $-
Entrada armazenada em cache: $-
Saída: $-
Entrada: $-
Saída: $-
GPT-4o-mini-0718 US/EU – Zonas de Dados Entrada: $-
Entrada armazenada em cache: $-
Saída: $-
Entrada: $-
Saída: $-
GPT-4o-mini-0718 Regional Entrada: $-
Entrada armazenada em cache: $-
Saída: $-
N/A

Planejar com a Calculadora de Preços

Provisionado

Você pode alocar e gerenciar a taxa de transferência para implantações, garantindo o desempenho previsível e a capacidade estável. Você é cobrado por uma taxa por hora por modelo, independentemente do uso, mas também pode proteger economias adicionais por meio de reservas mensais e anuais. Descubra como fazer a transição de suas implantações regionais e reservas provisionadas para zonas globais e de dados nesta página do Learn.

Modelo PTUs mínimo Preço de PTU por hora Preço da Reserva Mensal PTU Preço da Reserva Anual PTU
GPT-4o Global 15 $- $- $-
Zonas de Dados GPT-4o EUA/UE 15 $- $- $-
GPT-4o Regional 50 $- $- $-
GPT-4o-Regional com Ajuste Fino 50 $- $- $-
GPT-4o Mini Global 15 $- $- $-
GPT-4 Mini Zonas de dados dos EUA/UE 15 $- $- $-
GPT-4o Mini Regional 25 $- $- $-
GPT-4o-Mini Regional com Ajuste Fino 25 $- $- $-

Planejar com a Calculadora de Preços

Modelos base

Modelos Uso por 1.000 tokens
Babbage-002 $-
Davinci-002 $-

Modelos de ajuste fino

Modelo Preços
GPT-4o-2024-08-06 Regional Entrada: $-/1 milhão de tokens
Entrada armazenada em cache: $-/1 milhão de tokens
Saída: $-/1 milhão de tokens
Treinamento: $-/1 milhão de tokens
Hosting: $-/hora
Global Entrada: $-/1 milhão de tokens
Entrada armazenada em cache: $-/1 milhão de tokens
Saída: $-/1 milhão de tokens
Treinamento: usar regional
Hosting: $-/hora
GPT-4o-mini Regional Entrada: $-/1 milhão de tokens
Entrada armazenada em cache: $-/1 milhão de tokens
Saída: $-/1 milhão de tokens
Treinamento: $-/1 milhão de tokens
Hosting: $-/hora
Global Entrada: $-/1 milhão de tokens
Entrada armazenada em cache: $-/1 milhão de tokens
Saída: $-/1 milhão de tokens
Treinamento: usar regional
Hosting: $-/hora
GPT-4-0613 (8K) Regional Entrada: $-/1 milhão de tokens
Saída: $-/1 milhão de tokens
Treinamento: $-/1 milhão de tokens
Hosting: $-/hora
GPT-3.5-Turbo (16K) Regional Entrada: $-/1 milhão de tokens
Saída: $-/1 milhão de tokens
Treinamento: $-/1 milhão de tokens
Hosting: $-/hora
GPT-3.5-Turbo (4K) Regional Entrada: $-/1 milhão de tokens
Saída: $-/1 milhão de tokens
Treinamento: $-/1 milhão de tokens
Hosting: $-/hora
Babbage-002 Entrada: $-/1 milhão de tokens
Saída: $-/1 milhão de tokens
Treinamento: $-/1 milhão de tokens
Hosting: $-/hora
Davinci-002 Entrada: $-/1 milhão de tokens
Saída: $-/1 milhão de tokens
Treinamento: $-/1 milhão de tokens
Hosting: $-/hora

Modelos de imagem

Modelos Qualidade Resolução Preço (por 100 imagens)
Dall-E-3 Standard 1024 * 1024 $-
Standard 1024 * 1792,
1792 * 1024
$-
Dall-E-3 HD 1024 * 1024 $-
HD 1024 * 1792,
1792 * 1024
$-
Dall-E-2 Standard 1024 * 1024 $-

Inserindo modelos

Modelos Por 1.000 tokens
Ada $-
text-embedding-3-large $-
text-embedding-3-small $-

Modelos de Fala

Modelos Preço
Whisper $-/hora
TTS (Conversão de Texto em Fala) $-/1M caracteres
TTS HD $-/1M caracteres

Modelos de linguagem herdados

Modelos Contexto Entrada (por 1 milhão de Tokens) Saída (por 1 milhão de Tokens)
GPT-3.5-Turbo-0301 4K $- $-
GPT-3.5-Turbo-0613 4K $- $-
GPT-3.5-Turbo-0613 16K $- $-
GPT-3.5-Turbo-1106 16K $- $-
GPT-3.5-Turbo-0125 16K $- $-
GPT-3.5-Turbo-Instruct 4K $- $-
GPT-4-Turbo 128K $- $-
GPT-4-Turbo-Visão 128K $- $-
GPT-4 8K $- $-
GPT-4 32K $- $-

Opções de compra e preços do Azure

Conecte-se diretamente conosco

Obtenha uma explicação detalhada sobre os preços do Azure. Entenda os preços da sua solução de nuvem, aprenda sobre a otimização de custos e solicite uma proposta personalizada.

Converse com um especialista de vendas

Confira maneiras de comprar

Compre os serviços do Azure por meio do site do Azure, de um representante da Microsoft ou de um parceiro do Azure.

Explore suas opções

Recursos adicionais

Serviço OpenAI Azure

Saiba mais sobre os recursos e as funcionalidades do Serviço OpenAI Azure.

Calculadora de preço

Estime seus custos mensais esperados para usar qualquer combinação de produtos do Azure.

SLA

Revise o Contrato de Nível de Serviço para Serviço OpenAI Azure.

Documentação

Consulte tutoriais técnicos, vídeos e outros recursos do Serviço OpenAI Azure.

  • O Serviço OpenAI do Azure oferece preços com base em Pagamento Conforme o Uso ou nas PTUS (Unidades de Produtividade Provisionadas) O Pagamento Conforme o Uso permite que você pague pelos recursos consumidos, tornando-o flexível para cargas de trabalho variáveis. As PTUs oferecem um modelo de preços previsível no qual você reserva e implanta uma quantidade específica de capacidade de processamento de modelo. Esse modelo é ideal para cargas de trabalho com padrões de uso consistentes ou previsíveis, fornecendo estabilidade e controle de custos.
  • Para saber mais sobre as PTUs e os preços do OpenAI do Azure, leia a documentação da PTU ou entre em contato com nosso especialista em vendas.

Converse com um especialista em vendas para saber mais sobre os preços do Azure. Entenda os preços da sua solução de nuvem.

Obtenha serviços de nuvem gratuitos e um crédito de $200 para explorar o Azure por 30 dias.

Adicionado à estimativa. Pressione ‘v’ para exibir na calculadora
Podemos ajudar você?