Mapa da trilha
🚀 Apresentando o 4.8
O modelo mais capaz da Anthropic
🧩 Raciocínio híbrido
Pensa só quando precisa
📜 Janela de 1M
Um milhão de tokens
🎚️ Controle de esforço
Low até Max
🤖 Coding de longo horizonte
Horas sem perder o fio
✏️ Exercícios
Fixe com gabarito
📋 Prompts prontos
Copie e use
Conteúdo detalhado
🚀 Apresentando o Opus 4.8
O que é, quando foi lançado, como se posiciona e por que ele importa.
O Claude Opus 4.8 foi anunciado pela Anthropic em 28/05/2026 (uma quinta-feira), com disponibilidade imediata em todos os canais.
Saber a data e o contexto ajuda a entender o ritmo de evolução da família 4.x e a comparar com versões anteriores.
Lançamento "disponível em todos os lugares hoje"; ~42 dias após o Opus 4.7 — o ciclo mais rápido da família.
A Anthropic posiciona o 4.8 como seu "modelo mais capaz geralmente disponível", construído sobre o Opus 4.7.
O posicionamento define para quais cargas o modelo é indicado: raciocínio complexo e tarefas autônomas longas.
"Most capable generally available model"; foco em coding agêntico e agentes de IA.
Na API, o identificador do modelo é claude-opus-4-8. Pertence à família Opus 4.x (4.5 → 4.6 → 4.7 → 4.8).
Você precisa do ID correto para chamar o modelo na API, Bedrock e Vertex AI.
ID estável claude-opus-4-8; mesma família, evolução incremental.
É um modelo de raciocínio híbrido: pode responder direto ou "pensar" antes, conforme a dificuldade.
Entender o modo híbrido é a base para usar bem o controle de esforço (módulo 1.4).
"Hybrid reasoning model"; pensamento adaptativo; uma única chamada decide quanto raciocinar.
Disponível no claude.ai, na Claude API, no Amazon Bedrock, no Google Vertex AI, no Microsoft Foundry e no GitHub Copilot.
A escolha da plataforma afeta limites (ex.: contexto de 200k no Foundry) — detalhado na Trilha 3.
6 canais no dia 1; paridade de recursos com pequenas exceções por plataforma.
O 4.8 mira tarefas autônomas que duram horas — coding agêntico, trabalho de conhecimento profundo e operação independente.
Saber o "para quê" do modelo evita usá-lo mal (ex.: pagar Opus para tarefas triviais).
Autonomia longa; menos ciclos de revisão; comportamento mais previsível em escala.
🧩 Raciocínio híbrido & pensamento adaptativo
Como o modelo decide quando pensar mais e quando responder direto.
Um único modelo que pode operar com ou sem raciocínio explícito, escolhendo conforme a tarefa.
Elimina a necessidade de trocar de modelo entre "rápido" e "pensante".
Híbrido = flexível; uma chamada, dois comportamentos.
O modelo calibra a profundidade do raciocínio conforme a dificuldade percebida da tarefa.
Reduz desperdício de tokens em tarefas fáceis e melhora qualidade nas difíceis.
"Adaptive thinking"; calibração de esforço de raciocínio.
Problemas de múltiplos passos, matemática e código complexo tendem a acionar mais raciocínio.
Ajuda a prever custo e latência conforme o tipo de tarefa.
Mais passos = mais pensamento; tarefas triviais = resposta direta.
O raciocínio consome tokens de saída, então mais pensamento custa mais e demora mais.
Equilibrar qualidade × custo é decisão de engenharia diária.
Tokens de raciocínio contam como saída; use o controle de esforço para limitar.
No claude.ai você ajusta o esforço (Low→Max); na prática, é um teto/piso para o pensamento adaptativo.
Saber combinar adaptativo + controle manual dá o melhor dos dois mundos.
Adaptativo decide sozinho; o dial te deixa intervir.
Para a maioria das tarefas, o padrão adaptativo basta; ajuste só quando custo/latência ou qualidade exigirem.
Evita micro-otimização desnecessária.
Comece no padrão; meça; só então ajuste o esforço.
📜 A janela de 1M de tokens
Contexto longo na prática: o que cabe, limites por plataforma e compactação.
Suporte padrão a 1 milhão de tokens de contexto na Claude API, Bedrock e Vertex AI.
Permite analisar bases de código e documentos inteiros numa só chamada.
1M tokens por padrão; 128k de saída.
No Microsoft Foundry o contexto é limitado a 200k tokens (não 1M).
A escolha de plataforma muda o que cabe no contexto.
Foundry = 200k; demais = 1M.
O 4.8 melhora o manejo de contexto longo, com menos compactações e melhor recuperação após compactar.
Compactação afeta a continuidade de agentes longos.
"Fewer compactions, better compaction recovery".
Benchmark de raciocínio em contexto de 1M; o 4.8 marca F1 de 68,1%.
Mostra que contexto longo é usável, não só grande.
GraphWalks mede recuperação em janela enorme.
Repositórios inteiros, contratos longos, históricos de suporte e sessões de agente de horas.
Identificar onde o contexto grande paga a conta.
Menos chunking; mais visão global.
Cada token de entrada é cobrado; encher 1M de contexto custa caro sem cache.
Prompt caching (Trilha 2) é essencial para contexto longo recorrente.
Grande ≠ grátis; combine com cache.
🎚️ Controle de esforço (Low → Max)
Os cinco níveis de esforço no claude.ai e quando usar cada um.
No claude.ai você controla quanto esforço o Claude aplica à tarefa.
É a alavanca direta entre velocidade/custo e profundidade.
Dial de esforço; padrão é "high".
Cinco tiers: Low, Medium, High (padrão), Extra e Max.
Cada nível troca custo/latência por profundidade.
5 níveis; quanto mais alto, mais raciocínio.
Tarefas simples, respostas rápidas e alto volume.
Economiza tokens e tempo quando não há complexidade.
Baixo esforço = rápido e barato.
Problemas difíceis, raciocínio multi-passo e qualidade máxima.
Vale o custo extra quando o erro sai caro.
Alto esforço = mais lento e caro, porém mais preciso.
Subir o esforço gera mais tokens de raciocínio (saída cobrada).
Permite orçar o gasto por tarefa.
Esforço ↑ = custo ↑; meça o retorno.
Comece no High (padrão), baixe para volume/custo, suba para tarefas críticas.
Uma heurística simples cobre 90% dos casos.
Padrão → ajuste por exceção.
🤖 Codificação agêntica de longo horizonte
Por que o 4.8 sustenta tarefas de horas sem perder o fio.
Tarefas autônomas que se estendem por horas de operação independente.
É o diferencial central do 4.8 para agentes.
"Multi-stage autonomous tasks that span hours".
O 4.8 precisa compactar o contexto menos vezes durante sessões longas.
Menos compactação = menos perda de informação no meio da tarefa.
Fewer compactions.
Quando compacta, o 4.8 retoma o trabalho com menos perda de qualidade.
Crucial para agentes que rodam além do limite de contexto.
Better compaction recovery.
O 4.8 aciona ferramentas de forma mais confiável, pulando menos chamadas necessárias.
Ferramentas puladas quebram fluxos de agente.
Tool triggering with fewer skipped calls.
A Anthropic afirma comportamento mais previsível, com menor variância e menos revisões.
Menos revisão = mais automação confiável.
"Lower output variance and fewer review cycles".
Segundo a Anthropic, é ~4x menos provável que deixe passar falhas no próprio código que o antecessor.
Autorrevisão reduz bugs em pipelines autônomos.
~4x menos falhas não detectadas (auto-reportado).
✏️ Exercícios da Trilha 1
Questões com gabarito e desafios práticos para fixar as capacidades do 4.8.
Múltipla escolha sobre data, model ID, posicionamento e família 4.x.
Verifica retenção dos fatos básicos antes de avançar.
Gabarito comentado ao final de cada questão.
Afirmações verdadeiro/falso sobre quando o modelo pensa mais.
Treina a intuição de custo/latência.
Justificativa para cada V/F.
Estime o custo de encher 500k tokens de contexto com e sem cache.
Conecta 1M de contexto com preço real.
Resolução passo a passo no gabarito.
Para 5 tarefas dadas, escolha o nível de esforço ideal.
Aplica a heurística padrão→exceção.
Gabarito com justificativa por caso.
Faça uma chamada ao claude-opus-4-8 e observe o comportamento adaptativo.
Transforma teoria em experiência real.
Roteiro passo a passo + critério de sucesso.
Checklist do que você deveria conseguir explicar ao fim da trilha.
Identifica lacunas antes da Trilha 2.
Autodiagnóstico orientado a objetivos.
📋 Prompts prontos da Trilha 1
Prompts copiáveis para explorar as capacidades do Opus 4.8.
Prompt para revisar um repositório inteiro colado no contexto.
Aproveita o contexto de 1M sem chunking.
Prompt copiável na página completa.
Prompt que pede raciocínio passo a passo explícito para problemas difíceis.
Mostra como guiar o esforço via instrução.
Combine com o nível Extra/Max.
Esqueleto de prompt para uma tarefa de longo horizonte com checkpoints.
Estrutura tarefas longas para o 4.8.
Objetivo + restrições + critério de parada.
Prompt que orienta quando chamar ferramentas e quando não.
Reduz chamadas puladas ou excessivas.
Regras claras de acionamento.
Prompt que pede ao modelo revisar criticamente o próprio output.
Explora o ganho de ~4x menos falhas não detectadas.
Gerar → criticar → corrigir.
Prompt para resumir documentos longos preservando citações.
Caso clássico de contexto grande.
Fidelidade + rastreabilidade.