Estimativa de Custos - Agente de Busca de Produtos iFriend no Slack¶

Resumo Executivo¶

Este documento fornece uma estimativa detalhada dos custos de operação do agente de busca de produtos iFriend rodando no Slack para uma equipe de 10 funcionários, utilizando o modelo Gemini 2.5 Flash via Google AI Studio API.

Configuração do Ambiente¶

Modelo Utilizado¶

Modelo: gemini-2.5-flash
API: Google AI Studio (Gemini API)
Preço: Gratuito até 1.500 requisições por dia (novembro 2025)
Após limite gratuito: US$ 0,075 por 1 milhão de tokens de entrada / US$ 0,30 por 1 milhão de tokens de saída

Infraestrutura Cloud Run¶

Serviço: Cloud Run (agente-busca-produtos-slack)
Região: us-central1
Recursos:
Memória: 4 GiB
CPU: 4 vCPU
Concorrência: 80 requisições simultâneas
Max instâncias: 10

Estimativa de Uso - Equipe de 10 Funcionários¶

Cenário Conservador (Uso Baixo)¶

Premissas: - 5 consultas por funcionário/dia - 20 dias úteis/mês - Total: 1.000 consultas/mês

Análise de Tokens por Consulta¶

Com base no caso real fornecido (consulta complexa de Paris):

Entrada (Input): - Instructions do agente: ~2.800 tokens - Query do usuário: ~250 tokens - Histórico de conversação: ~500 tokens (média) - Schema das 8 tools: ~1.500 tokens - Total por requisição ao modelo: ~5.050 tokens

Saída (Output): - Resposta final formatada: ~1.500 tokens - Chamadas de tools (metadata): ~300 tokens - Total por requisição: ~1.800 tokens

Número de chamadas ao modelo por consulta: - Consulta complexa (como a de Paris): - 1 chamada inicial (entender intenção) - 2-3 chamadas para buscar produtos - 3-5 chamadas para verificar disponibilidade - 2-4 chamadas para calcular preços - 1 chamada para formatar resposta final - Total: ~12 chamadas ao modelo

Consulta simples:
Total: ~3-5 chamadas ao modelo

Média ponderada: 7 chamadas/consulta (60% simples, 40% complexas)

Cálculo de Tokens Mensais¶

Tokens de Entrada (Input): - 1.000 consultas × 7 chamadas × 5.050 tokens = 35.350.000 tokens/mês - ≈ 35,35 milhões de tokens de entrada

Tokens de Saída (Output): - 1.000 consultas × 7 chamadas × 1.800 tokens = 12.600.000 tokens/mês - ≈ 12,6 milhões de tokens de saída

Custos do Modelo Gemini 2.5 Flash¶

Considerando o limite gratuito: - Limite gratuito: 1.500 requisições/dia = ~45.000 requisições/mês - Requisições previstas: 1.000 consultas × 7 = 7.000 requisições/mês - Status: ✅ Totalmente dentro do limite gratuito

Custo se ultrapassar o limite (referência futura): - Entrada: 35,35M tokens × US$ 0,075 / 1M = US$ 2,65/mês - Saída: 12,6M tokens × US$ 0,30 / 1M = US$ 3,78/mês - Total: US$ 6,43/mês (R$ 36,41 a R$ 5,50)

Cenário Moderado (Uso Médio)¶

Premissas: - 10 consultas por funcionário/dia - 20 dias úteis/mês - Total: 2.000 consultas/mês

Tokens mensais: - Entrada: 70,7 milhões de tokens - Saída: 25,2 milhões de tokens

Custo do modelo (se ultrapassar limite gratuito): - Entrada: US$ 5,30/mês - Saída: US$ 7,56/mês - Total: US$ 12,86/mês (R$ 72,82 a R$ 5,50)

Status: ✅ Ainda dentro do limite gratuito (14.000 requisições/mês < 45.000)

Cenário Intensivo (Uso Alto)¶

Premissas: - 20 consultas por funcionário/dia (uso pesado) - 20 dias úteis/mês - Total: 4.000 consultas/mês

Tokens mensais: - Entrada: 141,4 milhões de tokens - Saída: 50,4 milhões de tokens

Custo do modelo (se ultrapassar limite gratuito): - Entrada: US$ 10,61/mês - Saída: US$ 15,12/mês - Total: US$ 25,73/mês (R$ 145,64 a R$ 5,50)

Status: ✅ Ainda dentro do limite gratuito (28.000 requisições/mês < 45.000)

Custos de Infraestrutura (Cloud Run)¶

Cloud Run - Preços (us-central1)¶

CPU (vCPU-segundos): - Preço: US$ 0,00002400 por vCPU-segundo - 4 vCPUs por instância

Memória (GiB-segundos): - Preço: US$ 0,00000250 por GiB-segundo - 4 GiB por instância

Requisições: - Preço: US$ 0,40 por milhão de requisições

Estimativa de Custos Cloud Run¶

Cenário Conservador (1.000 consultas/mês):

Assumindo: - Tempo médio de processamento: 15 segundos por consulta - 1 instância ativa na maior parte do tempo - Tempo total de CPU: 1.000 × 15s = 15.000 segundos

Cálculo: - CPU: 15.000s × 4 vCPUs × US$ 0,00002400 = US$ 1,44 - Memória: 15.000s × 4 GiB × US$ 0,00000250 = US$ 0,15 - Requisições: 1.000 × US$ 0,40 / 1.000.000 = US$ 0,0004 - Total Cloud Run: US$ 1,59/mês (R$ 9,00)

Cenário Moderado (2.000 consultas/mês): - Total Cloud Run: US$ 3,18/mês (R$ 18,00)

Cenário Intensivo (4.000 consultas/mês): - Total Cloud Run: US$ 6,36/mês (R$ 36,00)

Outros Custos Google Cloud¶

BigQuery¶

Dataset: Ifriend_produto
Consultas: ~1 query por consulta do agente
Custo: US$ 5 por TB processado
Estimativa: Cada query processa ~10 MB (embeddings)
1.000 consultas × 10 MB = 10 GB/mês
10 GB × US$ 5 / 1.000 GB = US$ 0,05/mês
Total BigQuery: < US$ 0,10/mês (desprezível)

Firestore (Session Storage)¶

Leituras: ~3 por sessão
Escritas: ~2 por sessão
Armazenamento: ~1 KB por sessão
Custo: Gratuito até 50.000 leituras/dia, 20.000 escritas/dia
Estimativa: Totalmente dentro do free tier
Total Firestore: US$ 0,00/mês

Cloud Storage¶

Uso: Upload de CSVs gerados
Estimativa: 100 CSVs/mês × 50 KB = 5 MB/mês
Custo: Gratuito (free tier: 5 GB)
Total Storage: US$ 0,00/mês

Resumo de Custos Totais¶

Com Limite Gratuito do Gemini (até ~45.000 requisições/mês)¶

Cenário	Consultas/Mês	Gemini API	Cloud Run	BigQuery	TOTAL/Mês
Conservador	1.000	US$ 0,00	US$ 1,59	US$ 0,05	US$ 1,64 (R$ 9,29)
Moderado	2.000	US$ 0,00	US$ 3,18	US$ 0,10	US$ 3,28 (R$ 18,58)
Intensivo	4.000	US$ 0,00	US$ 6,36	US$ 0,20	US$ 6,56 (R$ 37,16)

Se Ultrapassar Limite Gratuito do Gemini¶

Cenário	Consultas/Mês	Gemini API	Cloud Run	BigQuery	TOTAL/Mês
Conservador	1.000	US$ 6,43	US$ 1,59	US$ 0,05	US$ 8,07 (R$ 45,70)
Moderado	2.000	US$ 12,86	US$ 3,18	US$ 0,10	US$ 16,14 (R$ 91,40)
Intensivo	4.000	US$ 25,73	US$ 6,36	US$ 0,20	US$ 32,29 (R$ 182,80)

Conversão estimada: US$ 1,00 = R$ 5,66 (novembro 2025)

Recomendações para Evitar Surpresas¶

1. Monitoramento Ativo¶

Configure alertas no Google Cloud:

# Alerta de custo mensal
gcloud billing budgets create \
  --billing-account=SEU_BILLING_ACCOUNT \
  --display-name="Alerta Agente Slack" \
  --budget-amount=50 \
  --threshold-rule=percent=50 \
  --threshold-rule=percent=80 \
  --threshold-rule=percent=100

Dashboards recomendados: - Cloud Run: Requisições/minuto, latência, instâncias ativas - BigQuery: Bytes processados por dia - Gemini API: Requisições/dia, tokens consumidos

2. Otimizações de Custo¶

Reduzir tokens de entrada: - ✅ Instructions já estão otimizadas (~2.800 tokens) - ⚠️ Considere criar instructions mais concisas para casos simples - ✅ Limite histórico de conversação a 5 mensagens (implementado)

Reduzir chamadas ao modelo: - ✅ Cache de resultados de busca (considerar implementar) - ✅ Batch de verificações de disponibilidade - ⚠️ Evitar chamadas desnecessárias com validações client-side

Otimizar Cloud Run: - ✅ Min instances = 0 (já configurado) - ⚠️ Considere reduzir para 2 vCPUs + 2 GiB se performance permitir - ✅ Timeout adequado (900s para consultas complexas)

3. Limites de Uso por Usuário¶

Implemente rate limiting no Slack:

# Limite de 30 consultas/usuário/dia
USER_DAILY_LIMIT = 30

# Limite de 5 consultas/usuário/hora
USER_HOURLY_LIMIT = 5

4. Migração para Vertex AI (Opcional)¶

Se ultrapassar o limite gratuito frequentemente, considere Vertex AI:

Vantagens: - SLA empresarial - Quotas dedicadas - Suporte prioritário

Custo Vertex AI Gemini 2.5 Flash: - Entrada: US$ 0,075 / 1M tokens (mesmo preço) - Saída: US$ 0,30 / 1M tokens (mesmo preço) - Sem limite gratuito de requisições

5. Análise Mensal Obrigatória¶

Checklist mensal: - [ ] Revisar fatura Google Cloud - [ ] Verificar consumo de tokens Gemini API - [ ] Analisar logs de erros (requisições desnecessárias) - [ ] Revisar métricas de uso por funcionário - [ ] Ajustar recursos Cloud Run se necessário

Estimativa Inicial (Primeiros 3 Meses)¶

Fase de Adoção Gradual¶

Mês 1 - Piloto (3 usuários): - Consultas: ~300/mês - Custo estimado: US$ 0,50 (R$ 2,83) - Status: Gratuito (dentro do free tier)

Mês 2 - Expansão (7 usuários): - Consultas: ~700/mês - Custo estimado: US$ 1,20 (R$ 6,79) - Status: Gratuito (dentro do free tier)

Mês 3 - Total (10 usuários): - Consultas: ~1.000/mês - Custo estimado: US$ 1,64 (R$ 9,29) - Status: Gratuito (dentro do free tier)

Custo total 3 meses: US$ 3,34 (R$ 18,91)

Conclusão¶

Para uma equipe de 10 funcionários, o custo mensal estimado é muito baixo:

Cenário mais provável: US$ 1,64 - US$ 3,28/mês (R$ 9,29 - R$ 18,58)
Pior cenário (uso intensivo): US$ 6,56/mês (R$ 37,16)
Se ultrapassar limite gratuito: US$ 8,07 - US$ 32,29/mês (R$ 45,70 - R$ 182,80)

Recomendações finais:

✅ Implemente monitoramento desde o dia 1
✅ Configure alertas de budget em US$ 50/mês
✅ Revise custos semanalmente no primeiro mês
✅ Mantenha limite gratuito do Gemini API (1.500 req/dia)
⚠️ Se ultrapassar US$ 30/mês, revise otimizações

O agente é altamente custo-efetivo e improvável causar surpresas na fatura, especialmente nos primeiros meses dentro do free tier do Gemini API.

Última atualização: 17 de novembro de 2025
Modelo: gemini-2.5-flash
Região: us-central1
Câmbio: US$ 1,00 = R$ 5,66