A decisão de arquitetura que ninguém fala
A maioria das empresas usa GPT-4o onde GPT-4o-mini entregaria o mesmo resultado por 1/10 do custo. Essa decisão não é técnica — é arquitetural.
Benchmark de custo por 1.000 interações
- GPT-4o: ~$12 por 1.000 interações
- GPT-4o-mini: ~$0.90 por 1.000 interações
- Mesma qualidade para 80% dos casos de uso em vendas
Critério de escolha
Use GPT-4o apenas quando o raciocínio multi-etapa for crítico (negociação complexa, análise contratual). Para qualificação BANT, GPT-4o-mini vence.
Técnica de fallback
Inicie com GPT-4o-mini e escale para GPT-4o apenas quando o score de confiança da resposta cair abaixo de 0.75. Isso reduz o custo em até 90% sem comprometer a qualidade.
Cache de prompts
Reutilize contextos fixos para reduzir tokens em 40% adicional nas conversas longas. O system prompt não precisa ser reenviado em cada request — use cache inteligente.
Quer implementar essa estratégia na sua operação? Fale com o Roberto no WhatsApp.