MÓDULO 2.5

💰 Preços e custo

Tabela completa de preços, estratégias de cache, batch e fast mode. Como orçar seu uso do Opus 4.8 sem surpresas na fatura.

6
Tópicos
30
Minutos
Básico
Nível
Prático
Tipo
1

🏷️ Preço regular — igual ao 4.7 e 4.6

A Anthropic manteve o preço de lista inalterado na transição do 4.7 para o 4.8: US$5/M tokens de entrada e US$25/M tokens de saída. Você recebe mais capacidade pelo mesmo preço.

💵 Tabela de preço regular (por milhão de tokens)

Modelo Entrada Saída Status
Claude Opus 4.8 US$5 US$25 Atual
Claude Opus 4.7 US$5 US$25 16/04/2026
Claude Opus 4.6 US$5 US$25 Anterior

💡 O que isso significa

Se você já usa 4.7 ou 4.6, a migração para 4.8 é custo-neutro. Você só precisa atualizar o model_id na sua chamada de API.

2

⚡ Prompt caching — até 90% de economia

O prompt caching armazena prefixos de contexto no servidor. Nas chamadas subsequentes, você paga apenas o preço de hit de cache, que é 10× menor que a entrada regular.

🗄️ Preços de cache (por milhão de tokens)

Operação Preço / M tokens Detalhe
Cache write (TTL 5 min) US$6,25 Gravação com TTL curto
Cache write (TTL 1 hora) US$10 Gravação com TTL longo
Cache hit (leitura) US$0,50 10× mais barato que entrada

✓ Quando usar cache

  • System prompt longo e repetitivo
  • Contexto de repositório que não muda
  • >10 chamadas/dia com mesmo prefixo

✗ Não vale o cache quando

  • Contexto muda a cada chamada
  • Volume baixo (menos de 5 hits por write)
  • Prefixo muito curto (<1k tokens)
3

📦 Batch — 50% de desconto

A API de Batch processa requisições de forma assíncrona com SLA de 24 horas. O desconto é de 50% sobre o preço regular: US$2,50/M entrada e US$12,50/M saída.

1

Quando usar Batch

Processamentos que não precisam de resposta imediata: geração de relatórios nocturnos, indexação de documentos, análise de logs, treinamento de datasets.

2

Combinação com cache

Batch + cache simultâneos se acumulam: você pode economizar até ~70% num workload com contexto repetitivo processado em lote.

3

SLA e garantias

O SLA é de processamento em até 24 horas. Para uso em produção com latência crítica, prefira o modo síncrono regular.

4

🚀 Fast mode — 2,5× mais rápido, 3× mais barato que o 4.7 fast

O Fast mode do 4.8 custa US$10/M entrada e US$50/M saída, mas entrega aproximadamente 2,5× mais velocidade que o modo regular — e é ~3× mais barato que o fast mode do 4.7 para a mesma qualidade entregue.

Fast mode — comparativo

Modelo / Modo Entrada /M Saída /M Velocidade
Opus 4.8 fast US$10 US$50 ~2,5× regular
Opus 4.8 regular US$5 US$25 Referência
Opus 4.7 fast ~US$30 ~US$150 ~3× mais caro pelo mesmo

💡 Quando usar fast mode

Interfaces interativas onde latência é perceptível pelo usuário: chat ao vivo, autocompletar, respostas em menos de 2 segundos. O custo 2× maior pode ser justificado pela experiência do produto.

5

📊 Tabela completa — 4.8 vs 4.7 vs 4.6

Visão unificada de todos os preços para facilitar decisões de migração e comparação cross-geração.

💹 Comparativo completo de preços (US$ / M tokens)

Modelo Entrada Cache write 5m Cache write 1h Cache hit Saída Batch (-50%)
Opus 4.8 regular $5 $6,25 $10 $0,50 $25 $2,50 / $12,50
Opus 4.8 fast $10 $50
Opus 4.7 regular $5 $6,25 $10 $0,50 $25 $2,50 / $12,50
Opus 4.6 regular $5 $6,25 $10 $0,50 $25 $2,50 / $12,50

Preços em dólares americanos por milhão de tokens. Fonte: Anthropic pricing page, maio 2026.

6

🧮 Como orçar seu uso

Saber calcular o custo antes de produção evita surpresas. A fórmula é simples: tokens × preço por modo.

🔢 Exemplo de orçamento

Cenário: 1.000 chamadas/dia, 10k tokens entrada + 2k saída cada

  • Entrada: 1.000 × 10.000 = 10M tokens → 10M × US$5/M = US$50/dia
  • Saída: 1.000 × 2.000 = 2M tokens → 2M × US$25/M = US$50/dia
  • Total regular: US$100/dia

Com cache (sistema de 9k fixos + 1k variável)

  • Write (1x/dia, TTL 1h): 9k × US$10/M = US$0,09/dia
  • Cache hits (999×): 9M × US$0,50/M = US$4,50/dia
  • Variável + saída: mesmo que antes = US$55/dia
  • Total com cache: ~US$60/dia (40% de economia)

✓ Estratégia de economia

  • 1Identifique contexto repetitivo → aplique cache
  • 2Workloads assíncronos → use batch (-50%)
  • 3Só use fast mode onde latência importa para o usuário

💡 Regra dos três passos

  • 1Meça tokens reais num dia de produção
  • 2Calcule sem otimização (linha de base)
  • 3Aplique cache + batch progressivamente

📌 Resumo do Módulo

Regular: US$5/M entrada, US$25/M saída — igual ao 4.7.
Cache: write US$6,25–US$10/M, hit US$0,50/M — até 90% de economia.
Batch: -50% sobre regular, assíncrono, SLA 24h.
Fast mode: US$10/US$50 /M, ~2,5× mais rápido, ~3× mais barato que o fast do 4.7.

Próximo Módulo:

2.6 — Exercícios da Trilha 2