MÓDULO 2.3

🖥️ Uso de computador e agentes

O que significa um modelo "usar o computador", como o Opus 4.8 se sai nos benchmarks de automação de interface, e o que esses resultados implicam para quem quer construir agentes autônomos.

6
Tópicos
35
Min
Interm.
Nível
Agentes
Tipo
1

🖱️ O que é "uso de computador"

O termo "computer use" (uso de computador) descreve a capacidade de um modelo de IA de interagir com uma interface de computador como um humano faria: clicar em botões, digitar texto, navegar em menus, abrir arquivos, preencher formulários, rolar páginas. Não é execução de código — é controle de interface visual.

🎯 Conceito Principal: o loop de percepção-ação

O modelo opera num ciclo contínuo: recebe uma captura de tela da tela atual, decide qual ação tomar, executa a ação, e recebe uma nova captura de tela para continuar. Diferente de um script automatizado, ele não precisa de uma API — opera pela camada visual, como um humano.

👁️
Percebe
Screenshot da tela
🧠
Decide
Próxima ação
🖱️
Age
Click, type, scroll

✓ Casos de uso viáveis

  • Automação de softwares legados sem API disponível
  • Testes de UI automatizados via linguagem natural
  • Extração de dados de interfaces visuais complexas
  • Workflows multi-aplicação que cruzam sistemas diferentes

✗ Limitações atuais

  • Latência alta — cada ação exige um ciclo completo de inferência
  • Erros propagam: um clique errado pode invalidar o restante do fluxo
  • Interfaces que mudam com frequência (A/B tests, redesigns) quebram o agente
2

🌐 OSWorld: 83,4%

O OSWorld é um benchmark que avalia modelos de IA em um ambiente de desktop completo — navegadores, editores de texto, planilhas, terminais — com tarefas em linguagem natural. O Opus 4.8 marca 83,4% aqui, o melhor resultado dentre os modelos comparados.

Claude Opus 4.8 83,4% 🥇

OSWorld · auto-reportado · 1º lugar

GPT-5.5 78,7%

OSWorld · −4,7 pp vs Opus 4.8

Gemini 3.1 Pro 76,2%

OSWorld · −7,2 pp vs Opus 4.8

📊 O que o OSWorld testa especificamente

O OSWorld simula um desktop Ubuntu com aplicações reais instaladas. O modelo recebe tarefas em linguagem natural ("salve este documento como PDF", "agende a reunião para terça às 14h", "extrai os dados desta planilha para um CSV") e precisa navegar pela interface visual para concluí-las. É o benchmark de desktop mais próximo de uso real disponível atualmente.

3

🌍 Online-Mind2Web: 84%

Enquanto o OSWorld foca em desktop, o Online-Mind2Web testa a capacidade de navegar e executar tarefas em sites reais da internet — e-commerce, formulários de governo, plataformas de conteúdo. O Opus 4.8 atinge 84%, o melhor score reportado neste benchmark.

🏆 Destaque: melhor resultado do benchmark

Online-Mind2Web · Opus 4.8 84%

A Anthropic não divulgou comparações com outros modelos neste benchmark especificamente — o 84% é o número absoluto reportado. Dados de concorrentes nesta métrica não estão disponíveis publicamente para comparação direta.

A

Web é mais difícil que desktop

Popups inesperados, redirecionamentos, formulários com validação em tempo real, CAPTCHAs, mudanças de estado assíncronas — a web é um ambiente muito mais imprevisível que o desktop. Um score alto aqui indica resiliência real a ambientes não controlados.

B

Implicação para automação de processos

Um agente que navega bem em sites reais pode automatizar processos que hoje exigem um humano em frente ao computador — desde preenchimento de formulários de RH até coleta de dados de portais governamentais.

💡 Dica para quem quer usar computer use

Tarefas web são hoje o caso de uso mais acessível de computer use: você não precisa de acesso a um desktop virtual. A API de computer use da Anthropic pode ser usada para automatizar fluxos web de forma mais simples que os fluxos de desktop completo.

4

⚔️ Comparação com concorrentes

Nos benchmarks de uso de computador, o Opus 4.8 lidera de forma consistente no OSWorld. A tabela abaixo consolida os dados disponíveis.

Modelo OSWorld Online-Mind2Web Posição
Claude Opus 4.8 83,4% 84,0% 🥇 1º
GPT-5.5 78,7%
Gemini 3.1 Pro 76,2%

📊 Contexto da margem no OSWorld

A diferença de 4,7 pp sobre o GPT-5.5 pode parecer pequena em percentual, mas tem implicações práticas em fluxos complexos. Se um agente precisa completar uma sequência de 10 ações com sucesso, uma taxa individual de 83,4% vs 78,7% por passo resulta em taxas de conclusão total muito diferentes.

Exemplo simplificado: em 10 passos sequenciais, a taxa de conclusão do fluxo inteiro seria 0.834^10 ≈ 16% vs 0.787^10 ≈ 8% — o dobro de fluxos completos.

5

🤖 O que isso significa para agentes

Benchmarks de uso de computador são o sinal mais direto da viabilidade de agentes autônomos em produção. Um modelo em 83% no OSWorld está numa zona diferente de um modelo em 70% — mas ainda não na zona de autonomia total.

~50–60% Fase de demonstrações

Funciona em demos cuidadosamente preparados. Quebra em ambientes reais com qualquer variação. Não é utilizável em produção.

~70% Pilotos com supervisão intensa

Útil apenas com um humano revisando cada ação. Falha 3x em cada 10 tarefas — inaceitável para produção sem watchdog constante.

~83% (4.8) Zona de produção vigiada

Falha ~17% das tarefas individuais. Com supervisão espaçada e checkpoints, começa a criar valor real em workflows de baixo a médio risco. Este é o patamar atual do Opus 4.8.

>95% (futuro) Autonomia real

Agentes confiáveis sem supervisão contínua em fluxos de alto volume. Ainda não alcançado por nenhum modelo disponível comercialmente.

💡 Implicação de design para agentes

A arquitetura de qualquer agente baseado no Opus 4.8 deve incluir pontos de checagem humana explícitos, mecanismos de rollback quando algo dá errado, e alertas quando o modelo encontra situações não previstas. Não projete para autonomia total — projete para autonomia assistida.

6

⚠️ Ressalva: auto-reportado e contexto controlado

Os números de computer use compartilham o mesmo problema dos benchmarks de código: são auto-reportados pela Anthropic em condições controladas, sem auditoria independente em escala. Mas têm um problema adicional específico a este tipo de avaliação.

⚠️ Problemas específicos dos benchmarks de computer use

  • Ambientes fixos: o OSWorld e o Mind2Web rodam em ambientes predefinidos e consistentes. O ambiente real que você usa tem mais variação, inconsistência e imprevisibilidade
  • Seleção de tarefas: a Anthropic reporta os benchmarks onde seu modelo performa melhor. Não há como saber quais benchmarks foram descartados
  • Comparações de primeira parte: os dados do GPT-5.5 e Gemini foram obtidos e reportados pela Anthropic, não pelos respectivos fabricantes ou por auditores neutros
  • Único teste externo: a TrueFoundry testou 50 problemas — amostra pequena demais para validar os percentuais absolutos com confiança estatística

✓ Conclusões razoáveis

  • O 4.8 é provavelmente melhor em agência que o 4.7
  • A direção de liderança sobre concorrentes é plausível
  • Computer use em geral está avançando rápido no setor
  • Agentes já criam valor real em tarefas supervisionadas

✗ Não concluir sem teste próprio

  • Que 83,4% é o desempenho no seu ambiente específico
  • Que a margem exata sobre o GPT-5.5 é 4,7 pp no seu caso
  • Que agentes podem operar sem supervisão em produção

💡 Como validar no seu contexto

Monte 15–20 tarefas representativas do seu uso real de automação. Execute no Opus 4.8 e anote: taxa de conclusão sem erro, número de passos médio, casos em que o modelo travou. Se a taxa própria ficar abaixo de 70%, ainda não é hora de produtizar sem supervisão intensiva.

📌 Resumo do Módulo

Computer use — controle de interface visual via loop percepção-ação, sem necessidade de API.
OSWorld 83,4% — 1º lugar, vs GPT-5.5 (78,7%) e Gemini 3.1 Pro (76,2%).
Online-Mind2Web 84% — melhor resultado reportado no benchmark de navegação web.
Zona de produção vigiada — 83% é útil com supervisão, mas ainda falha ~17% das tarefas individualmente.
Auto-reportados — pela Anthropic, sem auditoria independente em escala. TrueFoundry (50 problemas) é o único teste externo disponível.

Próximo Módulo:

2.4 — Memória e contexto longo