📏 O que é 1M de contexto
O Opus 4.8 suporta 1 milhão de tokens de contexto por padrão na Claude API, no Amazon Bedrock e no Google Vertex AI, com 128k de saída.
💡 Dica prática
1M de tokens equivale, grosso modo, a vários livros ou a uma base de código de porte médio inteira numa única chamada.
🏢 O limite no Foundry
Nem toda plataforma entrega 1M: no Microsoft Foundry o contexto é limitado a 200k tokens.
⚠️ Atenção
Se o seu caso depende de contexto enorme, prefira Claude API, Bedrock ou Vertex AI. No Foundry, planeje para 200k.
🗜️ Compactação de contexto
Em sessões longas, o modelo às vezes precisa compactar o contexto. O 4.8 melhora isso: menos compactações e melhor recuperação depois delas.
✓ Ganhos do 4.8
- ✓Menos compactações ("fewer compactions")
- ✓Melhor recuperação após compactar
✗ Por que importa
- ✗Compactar demais perde informação
- ✗Recuperação ruim quebra agentes longos
📈 GraphWalks 1M
Contexto grande só vale se for usável. No benchmark GraphWalks em janela de 1M, o 4.8 marca F1 de 68,1%, medindo recuperação de informação espalhada pela janela inteira.
📊 O que o número diz
- •GraphWalks testa "achar e conectar" pontos distantes no contexto
- •F1 68,1% indica que a janela de 1M é aproveitável, não decorativa
💡 Casos de uso
Onde a janela grande paga a conta:
Análise global sem chunking.
Revisão com visão do documento todo.
Contexto completo do cliente.
Horas de trabalho sem perder o fio.
⚠️ O custo do contexto grande
Cada token de entrada é cobrado. Encher 1M de contexto a US$5/M custa US$5 por chamada — caro se repetido sem cache.
💡 Dica prática
Para contexto longo recorrente, use prompt caching (Trilha 2): um cache hit custa US$0,50/M — até 90% de economia.
📌 Resumo do Módulo
Próximo Módulo:
1.4 — Controle de esforço (Low → Max)