🧠 HLE — Humanity's Last Exam
O HLE é um benchmark composto por 3.000 questões de nível pós-doutorado em 100+ disciplinas — criado para resistir a saturação de modelos. O 4.8 com ferramentas atinge 57,9%, número que colocaria um humano especialista numa pequena fatia das questões.
📊 Resultado no HLE (com ferramentas)
| Modelo | Score | Nota |
|---|---|---|
| Claude Opus 4.8 | 57,9% | Com ferramentas habilitadas |
| Claude Opus 4.7 | ~43% | Geração anterior |
| Humano especialista | ~70% | Referência humana |
⚠️ Ressalva obrigatória
Todos os benchmarks neste módulo são auto-reportados pela Anthropic, não auditados por terceiros em escala. Use como sinal direcional, não como garantia absoluta de desempenho em seu caso de uso.
📐 USAMO — Olimpíada de Matemática
O USAMO (United States of America Mathematical Olympiad) exige provas formais, não apenas resultados numéricos. 96,7% no 4.8 representa o teto prático de raciocínio matemático competitivo até hoje.
🏆 Por que 96,7% é notável
- •Provas abertas: respostas dissertativas — não de múltipla escolha — que exigem lógica formal encadeada.
- •Nível de finalistas: o USAMO seleciona os ~500 melhores estudantes de matemática dos EUA por ano.
- •Implicação prática: raciocínio simbólico rigoroso — útil para verificação formal, auditoria de código e lógica de negócios complexa.
💡 Dica prática
Se você precisa de raciocínio matemático ou lógico rigoroso em seu produto, o USAMO é o benchmark mais relevante para prever a qualidade — muito mais do que benchmarks de trivia.
🕸️ GraphWalks — memória em 1M tokens
O GraphWalks testa recuperação de informação em grafos de conhecimento distribuídos ao longo de janelas de contexto muito longas. O 4.8 atinge 68,1% F1 na versão de 1M de tokens.
O que o benchmark mede
Capacidade de conectar entidades dispersas por centenas de milhares de tokens — o equivalente a lembrar quem é quem num documento de 700 páginas.
68,1% F1 — contexto
F1 combina precisão e recall. O modelo precisa achar a relação certa e não inventar relações falsas. 68% em 1M tokens é o estado da arte atual.
Casos de uso reais
Análise de repositórios inteiros, auditorias de contratos longos, due diligence de documentação extensa — todos se beneficiam diretamente desse número.
📈 Artificial Analysis Index
O Artificial Analysis Intelligence Index é um índice composto que agrega múltiplos benchmarks em uma pontuação única para comparação cross-modelo. O 4.8 marca 61,4.
🔢 Índice comparativo
| Modelo | AA Index | Posição |
|---|---|---|
| Claude Opus 4.8 | 61,4 | Topo do ranking (auto-reportado) |
| Claude Opus 4.7 | ~57 | Geração anterior |
💡 Como usar o índice
O AA Index é útil para comparação rápida entre modelos de fornecedores diferentes. Combine-o com benchmarks específicos da sua área para decisões de seleção de modelo.
🔍 O que cada métrica mede
Não existe benchmark universal. Cada métrica captura uma fatia diferente de inteligência. Saber o que cada um avalia é tão importante quanto os números.
🧠 HLE (57,9%)
Raciocínio geral de especialistas. Cobre ciências, humanidades, direito, medicina. Indicado para avaliar profundidade de conhecimento e raciocínio multidisciplinar.
📐 USAMO (96,7%)
Raciocínio matemático formal. Provas abertas, não múltipla escolha. Prediz qualidade em lógica simbólica, verificação e código algorítmico complexo.
🕸️ GraphWalks F1 (68,1%)
Recuperação em contexto muito longo. Fundamental para repositórios, documentações extensas e análises de longo horizonte com múltiplas entidades.
📈 AA Index (61,4)
Índice composto cross-modelo. Bom para comparação geral entre fornecedores mas não substitui benchmarks específicos do seu domínio.
✓ Outros destaques (agentes)
- ✓SWE-bench Pro: 69,2% (4.7: 64,3%; GPT-5.5: 58,6%)
- ✓SWE-bench Verified: 88,6% (4.7: 87,6%)
- ✓OSWorld: 83,4% (GPT-5.5: 78,7%)
- ✓Online-Mind2Web: 84%
✗ Benchmarks não medem
- ✗Qualidade de instrução seguida no seu domínio específico
- ✗Custo-benefício para seu volume de uso
- ✗Comportamento em edge cases do seu produto
📋 Quadro geral de capacidade
Consolidando todos os benchmarks, emerge um padrão claro: o 4.8 avança em raciocínio puro, agência e contexto longo simultaneamente.
📊 Resumo de benchmarks
| Benchmark | 4.8 | 4.7 | Categoria |
|---|---|---|---|
| HLE (c/ ferramentas) | 57,9% | ~43% | Raciocínio geral |
| USAMO | 96,7% | — | Matemática |
| GraphWalks 1M F1 | 68,1% | — | Contexto longo |
| AA Index | 61,4 | ~57 | Índice composto |
| SWE-bench Pro | 69,2% | 64,3% | Agente / código |
| SWE-bench Verified | 88,6% | 87,6% | Agente / código |
| OSWorld | 83,4% | — | Agente / desktop |
| Online-Mind2Web | 84% | — | Agente / web |
💡 Regra de leitura
Benchmarks são evidência, não prova. Use-os para formar uma hipótese sobre qual modelo vai funcionar melhor — depois valide com dados do seu caso de uso real.
📌 Resumo do Módulo
Próximo Módulo:
2.5 — Preços e custo