Skip to content

Estimativa de Custos - Agente de Busca de Produtos iFriend no Slack

Resumo Executivo

Este documento fornece uma estimativa detalhada dos custos de operação do agente de busca de produtos iFriend rodando no Slack para uma equipe de 10 funcionários, utilizando o modelo Gemini 2.5 Flash via Google AI Studio API.

Configuração do Ambiente

Modelo Utilizado

  • Modelo: gemini-2.5-flash
  • API: Google AI Studio (Gemini API)
  • Preço: Gratuito até 1.500 requisições por dia (novembro 2025)
  • Após limite gratuito: US$ 0,075 por 1 milhão de tokens de entrada / US$ 0,30 por 1 milhão de tokens de saída

Infraestrutura Cloud Run

  • Serviço: Cloud Run (agente-busca-produtos-slack)
  • Região: us-central1
  • Recursos:
  • Memória: 4 GiB
  • CPU: 4 vCPU
  • Concorrência: 80 requisições simultâneas
  • Max instâncias: 10

Estimativa de Uso - Equipe de 10 Funcionários

Cenário Conservador (Uso Baixo)

Premissas: - 5 consultas por funcionário/dia - 20 dias úteis/mês - Total: 1.000 consultas/mês

Análise de Tokens por Consulta

Com base no caso real fornecido (consulta complexa de Paris):

Entrada (Input): - Instructions do agente: ~2.800 tokens - Query do usuário: ~250 tokens - Histórico de conversação: ~500 tokens (média) - Schema das 8 tools: ~1.500 tokens - Total por requisição ao modelo: ~5.050 tokens

Saída (Output): - Resposta final formatada: ~1.500 tokens - Chamadas de tools (metadata): ~300 tokens - Total por requisição: ~1.800 tokens

Número de chamadas ao modelo por consulta: - Consulta complexa (como a de Paris): - 1 chamada inicial (entender intenção) - 2-3 chamadas para buscar produtos - 3-5 chamadas para verificar disponibilidade - 2-4 chamadas para calcular preços - 1 chamada para formatar resposta final - Total: ~12 chamadas ao modelo

  • Consulta simples:
  • Total: ~3-5 chamadas ao modelo

Média ponderada: 7 chamadas/consulta (60% simples, 40% complexas)

Cálculo de Tokens Mensais

Tokens de Entrada (Input): - 1.000 consultas × 7 chamadas × 5.050 tokens = 35.350.000 tokens/mês - ≈ 35,35 milhões de tokens de entrada

Tokens de Saída (Output): - 1.000 consultas × 7 chamadas × 1.800 tokens = 12.600.000 tokens/mês - ≈ 12,6 milhões de tokens de saída

Custos do Modelo Gemini 2.5 Flash

Considerando o limite gratuito: - Limite gratuito: 1.500 requisições/dia = ~45.000 requisições/mês - Requisições previstas: 1.000 consultas × 7 = 7.000 requisições/mês - Status: ✅ Totalmente dentro do limite gratuito

Custo se ultrapassar o limite (referência futura): - Entrada: 35,35M tokens × US$ 0,075 / 1M = US$ 2,65/mês - Saída: 12,6M tokens × US$ 0,30 / 1M = US$ 3,78/mês - Total: US$ 6,43/mês (R$ 36,41 a R$ 5,50)

Cenário Moderado (Uso Médio)

Premissas: - 10 consultas por funcionário/dia - 20 dias úteis/mês - Total: 2.000 consultas/mês

Tokens mensais: - Entrada: 70,7 milhões de tokens - Saída: 25,2 milhões de tokens

Custo do modelo (se ultrapassar limite gratuito): - Entrada: US$ 5,30/mês - Saída: US$ 7,56/mês - Total: US$ 12,86/mês (R$ 72,82 a R$ 5,50)

Status: ✅ Ainda dentro do limite gratuito (14.000 requisições/mês < 45.000)

Cenário Intensivo (Uso Alto)

Premissas: - 20 consultas por funcionário/dia (uso pesado) - 20 dias úteis/mês - Total: 4.000 consultas/mês

Tokens mensais: - Entrada: 141,4 milhões de tokens - Saída: 50,4 milhões de tokens

Custo do modelo (se ultrapassar limite gratuito): - Entrada: US$ 10,61/mês - Saída: US$ 15,12/mês - Total: US$ 25,73/mês (R$ 145,64 a R$ 5,50)

Status: ✅ Ainda dentro do limite gratuito (28.000 requisições/mês < 45.000)

Custos de Infraestrutura (Cloud Run)

Cloud Run - Preços (us-central1)

CPU (vCPU-segundos): - Preço: US$ 0,00002400 por vCPU-segundo - 4 vCPUs por instância

Memória (GiB-segundos): - Preço: US$ 0,00000250 por GiB-segundo - 4 GiB por instância

Requisições: - Preço: US$ 0,40 por milhão de requisições

Estimativa de Custos Cloud Run

Cenário Conservador (1.000 consultas/mês):

Assumindo: - Tempo médio de processamento: 15 segundos por consulta - 1 instância ativa na maior parte do tempo - Tempo total de CPU: 1.000 × 15s = 15.000 segundos

Cálculo: - CPU: 15.000s × 4 vCPUs × US$ 0,00002400 = US$ 1,44 - Memória: 15.000s × 4 GiB × US$ 0,00000250 = US$ 0,15 - Requisições: 1.000 × US$ 0,40 / 1.000.000 = US$ 0,0004 - Total Cloud Run: US$ 1,59/mês (R$ 9,00)

Cenário Moderado (2.000 consultas/mês): - Total Cloud Run: US$ 3,18/mês (R$ 18,00)

Cenário Intensivo (4.000 consultas/mês): - Total Cloud Run: US$ 6,36/mês (R$ 36,00)

Outros Custos Google Cloud

BigQuery

  • Dataset: Ifriend_produto
  • Consultas: ~1 query por consulta do agente
  • Custo: US$ 5 por TB processado
  • Estimativa: Cada query processa ~10 MB (embeddings)
  • 1.000 consultas × 10 MB = 10 GB/mês
  • 10 GB × US$ 5 / 1.000 GB = US$ 0,05/mês
  • Total BigQuery: < US$ 0,10/mês (desprezível)

Firestore (Session Storage)

  • Leituras: ~3 por sessão
  • Escritas: ~2 por sessão
  • Armazenamento: ~1 KB por sessão
  • Custo: Gratuito até 50.000 leituras/dia, 20.000 escritas/dia
  • Estimativa: Totalmente dentro do free tier
  • Total Firestore: US$ 0,00/mês

Cloud Storage

  • Uso: Upload de CSVs gerados
  • Estimativa: 100 CSVs/mês × 50 KB = 5 MB/mês
  • Custo: Gratuito (free tier: 5 GB)
  • Total Storage: US$ 0,00/mês

Resumo de Custos Totais

Com Limite Gratuito do Gemini (até ~45.000 requisições/mês)

Cenário Consultas/Mês Gemini API Cloud Run BigQuery TOTAL/Mês
Conservador 1.000 US$ 0,00 US$ 1,59 US$ 0,05 US$ 1,64 (R$ 9,29)
Moderado 2.000 US$ 0,00 US$ 3,18 US$ 0,10 US$ 3,28 (R$ 18,58)
Intensivo 4.000 US$ 0,00 US$ 6,36 US$ 0,20 US$ 6,56 (R$ 37,16)

Se Ultrapassar Limite Gratuito do Gemini

Cenário Consultas/Mês Gemini API Cloud Run BigQuery TOTAL/Mês
Conservador 1.000 US$ 6,43 US$ 1,59 US$ 0,05 US$ 8,07 (R$ 45,70)
Moderado 2.000 US$ 12,86 US$ 3,18 US$ 0,10 US$ 16,14 (R$ 91,40)
Intensivo 4.000 US$ 25,73 US$ 6,36 US$ 0,20 US$ 32,29 (R$ 182,80)

Conversão estimada: US$ 1,00 = R$ 5,66 (novembro 2025)

Recomendações para Evitar Surpresas

1. Monitoramento Ativo

Configure alertas no Google Cloud:

# Alerta de custo mensal
gcloud billing budgets create \
  --billing-account=SEU_BILLING_ACCOUNT \
  --display-name="Alerta Agente Slack" \
  --budget-amount=50 \
  --threshold-rule=percent=50 \
  --threshold-rule=percent=80 \
  --threshold-rule=percent=100

Dashboards recomendados: - Cloud Run: Requisições/minuto, latência, instâncias ativas - BigQuery: Bytes processados por dia - Gemini API: Requisições/dia, tokens consumidos

2. Otimizações de Custo

Reduzir tokens de entrada: - ✅ Instructions já estão otimizadas (~2.800 tokens) - ⚠️ Considere criar instructions mais concisas para casos simples - ✅ Limite histórico de conversação a 5 mensagens (implementado)

Reduzir chamadas ao modelo: - ✅ Cache de resultados de busca (considerar implementar) - ✅ Batch de verificações de disponibilidade - ⚠️ Evitar chamadas desnecessárias com validações client-side

Otimizar Cloud Run: - ✅ Min instances = 0 (já configurado) - ⚠️ Considere reduzir para 2 vCPUs + 2 GiB se performance permitir - ✅ Timeout adequado (900s para consultas complexas)

3. Limites de Uso por Usuário

Implemente rate limiting no Slack:

# Limite de 30 consultas/usuário/dia
USER_DAILY_LIMIT = 30

# Limite de 5 consultas/usuário/hora
USER_HOURLY_LIMIT = 5

4. Migração para Vertex AI (Opcional)

Se ultrapassar o limite gratuito frequentemente, considere Vertex AI:

Vantagens: - SLA empresarial - Quotas dedicadas - Suporte prioritário

Custo Vertex AI Gemini 2.5 Flash: - Entrada: US$ 0,075 / 1M tokens (mesmo preço) - Saída: US$ 0,30 / 1M tokens (mesmo preço) - Sem limite gratuito de requisições

5. Análise Mensal Obrigatória

Checklist mensal: - [ ] Revisar fatura Google Cloud - [ ] Verificar consumo de tokens Gemini API - [ ] Analisar logs de erros (requisições desnecessárias) - [ ] Revisar métricas de uso por funcionário - [ ] Ajustar recursos Cloud Run se necessário

Estimativa Inicial (Primeiros 3 Meses)

Fase de Adoção Gradual

Mês 1 - Piloto (3 usuários): - Consultas: ~300/mês - Custo estimado: US$ 0,50 (R$ 2,83) - Status: Gratuito (dentro do free tier)

Mês 2 - Expansão (7 usuários): - Consultas: ~700/mês - Custo estimado: US$ 1,20 (R$ 6,79) - Status: Gratuito (dentro do free tier)

Mês 3 - Total (10 usuários): - Consultas: ~1.000/mês - Custo estimado: US$ 1,64 (R$ 9,29) - Status: Gratuito (dentro do free tier)

Custo total 3 meses: US$ 3,34 (R$ 18,91)

Conclusão

Para uma equipe de 10 funcionários, o custo mensal estimado é muito baixo:

  • Cenário mais provável: US$ 1,64 - US$ 3,28/mês (R$ 9,29 - R$ 18,58)
  • Pior cenário (uso intensivo): US$ 6,56/mês (R$ 37,16)
  • Se ultrapassar limite gratuito: US$ 8,07 - US$ 32,29/mês (R$ 45,70 - R$ 182,80)

Recomendações finais:

  1. Implemente monitoramento desde o dia 1
  2. Configure alertas de budget em US$ 50/mês
  3. Revise custos semanalmente no primeiro mês
  4. Mantenha limite gratuito do Gemini API (1.500 req/dia)
  5. ⚠️ Se ultrapassar US$ 30/mês, revise otimizações

O agente é altamente custo-efetivo e improvável causar surpresas na fatura, especialmente nos primeiros meses dentro do free tier do Gemini API.


Última atualização: 17 de novembro de 2025
Modelo: gemini-2.5-flash
Região: us-central1
Câmbio: US$ 1,00 = R$ 5,66