Como montamos um agente de IA que qualifica leads no WhatsApp 24/7 (com n8n + Claude)

Em 2023, um lead que chegava no WhatsApp da Máximo às 22h ficava esperando até o dia seguinte. Conversão caía 40% do primeiro toque pro segundo.

Em 2026, o mesmo lead é respondido em 30 segundos — por uma IA. Em 5 minutos, ela qualifica, agenda call com o vendedor humano se for case bom, ou educa se for muito frio. Sem perder o tom da Máximo, sem soar como bot.

Esse artigo é a arquitetura completa: como montamos esse agente, com que ferramentas, e o que considerar pra montar o seu.

O problema que resolvemos

Antes:

Lead chegava no WhatsApp via campanha
Vendedor humano via 4-12 horas depois
40% dos leads “esfriavam” antes do primeiro contato
Qualificação tomava 3-5 mensagens vai-e-vem (15-30 minutos do vendedor)
Em pico de campanha, vendedor afogava

Depois:

IA responde em < 30 segundos, 24/7
Qualifica em 4-7 mensagens (5 minutos)
Agenda call se for SQL
Vendedor humano só entra em casos qualificados
0% de lead perdido por demora

A arquitetura — alto nível

[Lead manda mensagem WhatsApp]
        ↓
[Z-API recebe e envia webhook]
        ↓
[n8n trigger HTTP]
        ↓
[n8n: busca histórico desse contato no Postgres]
        ↓
[n8n: monta contexto + manda pra Claude API]
        ↓
[Claude: gera resposta seguindo persona da Máximo]
        ↓
[n8n: salva resposta + atualiza estado do lead no Postgres]
        ↓
[n8n: envia resposta via Z-API pro lead]
        ↓
[se lead = SQL → n8n manda pro CRM + agenda call no Calendly]

Stack:

Z-API: gateway WhatsApp Business API (R$ 99/mês)
n8n: orquestrador self-hosted no Railway (R$ 0)
Claude API: motor de conversa (Claude Sonnet, ~R$ 0.003 por interação)
Postgres no Railway: memória de contexto (R$ 0)
Cal.com / Calendly: agendamento (R$ 0 — Cal.com self-hosted)

Total operacional: ~R$ 150-300/mês pra 5.000 mensagens. Escala linear.

A “persona” da IA (parte mais crítica)

O segredo NÃO é a IA. É o prompt que define a persona. Esse é o trecho central do nosso prompt:

Você é Maria, atendente da Máximo do Marketing, uma agência de
performance digital com 10+ anos de mercado.

REGRAS FUNDAMENTAIS:
1. Você é HUMANA até prova em contrário. Não diz "sou uma IA"
   nem se identifica como bot, a menos que perguntado diretamente.
2. Linguagem natural brasileira. Pode usar gírias leves ("massa",
   "show", "beleza"). Pode usar emojis com moderação. SEM marketing-ês.
3. Mensagens CURTAS. 1-3 linhas no máximo. Se precisar de mais,
   quebra em mensagens separadas.
4. Sempre termine fazendo UMA pergunta que avança a conversa.
5. Em qualquer dúvida que não souber responder, oferece: "vou
   transferir pra um especialista que te atende em alguns minutos".

OBJETIVO: qualificar o lead em 4-7 mensagens, descobrindo:
- Que tipo de negócio é (B2B, B2C, e-commerce, serviço)
- Faturamento atual aproximado
- O que ele já testou em marketing
- O que está procurando agora
- Quando quer começar

DEPOIS DE QUALIFICAR:
- Se faturamento > R$ 30k/mês e tem urgência → agendar call com Nathan
  (manda link Cal.com)
- Se faturamento < R$ 30k/mês → "vamos te mandar nosso material
  introdutório por email" (captura email)
- Se quer apenas conteúdo → indica artigos do blog

Isso é só o esqueleto. O prompt completo tem 1500-2000 palavras, com exemplos de boas conversas e conversas a evitar.

Como tratamos contexto e memória

Cada conversa precisa lembrar o que foi dito antes. Soluções:

Opção 1 — Janela inteira no prompt (simples)

Pega todas as mensagens daquela conversa, monta JSON, manda pra Claude junto com o prompt do sistema.

const messages = await db.query(
  'SELECT role, content FROM messages WHERE contact_id = $1 ORDER BY created_at',
  [contactId]
);

const response = await claude.messages.create({
  model: "claude-sonnet-4-6",
  system: SYSTEM_PROMPT,
  messages: messages,
});

Funciona pra conversa de até ~30 mensagens. Acima disso, fica caro.

Opção 2 — Resumo + últimas N mensagens (escalável)

A cada 20 mensagens, peça pra IA resumir a conversa. Salve esse resumo. No próximo prompt, manda resumo + últimas 10 mensagens.

if (messageCount > 20 && !summary) {
  summary = await claude.summarize(messages);
  await db.update({ contact_id, summary });
}

const context = summary
  ? `RESUMO: ${summary}\n\nÚLTIMAS:\n${last10Messages}`
  : allMessages;

Mais barato e suficiente em 95% dos casos.

Como cuida da fila e rate limit

Em campanha grande, 20-50 leads chegam ao mesmo tempo. Sem fila, IA atropela:

n8n armazena mensagens em queue Redis ou fila Postgres
Worker pega 1 por vez, processa, manda resposta
Rate limit: ~3 req/segundo pra Claude API (Anthropic libera pacotes maiores se você pedir)
Z-API tem limite próprio: ~10 mensagens/segundo por número

Pra picos grandes, escala com workers paralelos.

Como sabemos quando humano entra

Sinais que disparam handoff pra humano:

Lead diz palavra-chave: “quero falar com alguém”, “atendente”, “humano”, “vendedor”
Reclamação ou raiva detectada: IA analisa sentimento e escala
Pergunta técnica fora do escopo: ex: “tem case de empresa X?” — IA não inventa
Lead super qualificado: faturamento alto + urgência → handoff direto pro Nathan
5+ mensagens sem progresso: se a conversa tá rodando em círculo, escala

Quando escala, IA manda:

Beleza! Vou te conectar com [nome do humano].
Em até 10 minutos alguém te chama por aqui mesmo, ok?

E manda alerta no Slack do time + cria registro no CRM.

Métricas que monitoramos

Métrica	Alvo	O que mede
Tempo de primeira resposta	< 30s	Eficiência da IA
Mensagens até qualificar	4-7	Eficiência do prompt
Taxa de handoff justificado	> 80%	Quando humano entra, lead vale a pena
Taxa de “perceberam que é bot”	< 5%	Naturalidade
ROI: leads → SQLs	> 25%	Conversão geral
Custo por SQL gerado	< R$ 10	Eficiência financeira

Erros que cometemos no caminho (e que você vai cometer)

Erro 1 — Prompt curto demais

Primeiro prompt tinha 200 palavras. IA inventava coisas. Hoje tem 2000 com exemplos. Funciona muito melhor.

Erro 2 — Não testar com adversários

A gente testou só com conversas “felizes”. Quando lead bravo chegou, IA respondia robotizado. Hoje testamos cenários hostis.

Erro 3 — Esquecer de salvar histórico

Lead voltava 1 semana depois, IA não lembrava nada. Hoje histórico completo no Postgres com retenção indefinida.

Erro 4 — Não medir handoffs

A gente não sabia quantos % de leads estavam querendo humano e não conseguindo. Adicionamos métrica e descobrimos que era 18% — IA estava recusando handoff em casos óbvios.

Erro 5 — Achar que IA resolve tudo

IA é boa em qualificar, agendar, responder dúvida comum. Não vende sozinha em ticket > R$ 5k. Closer humano continua essencial.

O que considerar antes de montar o seu

Você TEM volume?

Se sua empresa recebe 5-10 leads/dia no WhatsApp, montar isso é overkill. Time humano dá conta.

A partir de 30+ leads/dia começa a fazer sentido. Acima de 100/dia, é praticamente obrigatório.

Você TEM um processo definido?

Se você ainda não sabe qual cliente é bom pra você e quais perguntas qualificar, IA vai amplificar a bagunça.

Tem que ter:

ICP (ideal customer profile) escrito
Critérios claros de qualificação (BANT ou similar)
Processo de handoff bem definido

Você TEM stack mínimo?

Conta Z-API ou similar (WhatsApp Business API)
Ambiente pra rodar n8n (Railway, VPS, qualquer)
Conta Anthropic pra Claude API
Banco de dados (qualquer)

Setup técnico: 2-4 semanas pra pessoa que sabe. 6-12 semanas pra quem está aprendendo no caminho.

ROI real (caso interno da Máximo)

Métricas dos últimos 90 dias:

	Antes (humano só)	Depois (IA + humano)
Tempo médio de 1ª resposta	4h12min	18s
Taxa de lead → SQL	19%	31%
Horas/semana do time em atendimento básico	28h	5h
Vendas geradas via WhatsApp	R$ 142k/mês	R$ 251k/mês

ROI do investimento (~R$ 350/mês operacional + R$ 12k de implementação): paga em 12 dias.

A Máximo monta esse tipo de agente IA pra clientes (e tem um produto chamado Aura pra empresas que querem isso “out of the box”). Quer aplicar no seu negócio? Fala com a gente.