Estimativa de Custos - Agente de Busca de Produtos iFriend no Slack¶
Resumo Executivo¶
Este documento fornece uma estimativa detalhada dos custos de operação do agente de busca de produtos iFriend rodando no Slack para uma equipe de 10 funcionários, utilizando o modelo Gemini 2.5 Flash via Google AI Studio API.
Configuração do Ambiente¶
Modelo Utilizado¶
- Modelo:
gemini-2.5-flash - API: Google AI Studio (Gemini API)
- Preço: Gratuito até 1.500 requisições por dia (novembro 2025)
- Após limite gratuito: US$ 0,075 por 1 milhão de tokens de entrada / US$ 0,30 por 1 milhão de tokens de saída
Infraestrutura Cloud Run¶
- Serviço: Cloud Run (agente-busca-produtos-slack)
- Região: us-central1
- Recursos:
- Memória: 4 GiB
- CPU: 4 vCPU
- Concorrência: 80 requisições simultâneas
- Max instâncias: 10
Estimativa de Uso - Equipe de 10 Funcionários¶
Cenário Conservador (Uso Baixo)¶
Premissas: - 5 consultas por funcionário/dia - 20 dias úteis/mês - Total: 1.000 consultas/mês
Análise de Tokens por Consulta¶
Com base no caso real fornecido (consulta complexa de Paris):
Entrada (Input): - Instructions do agente: ~2.800 tokens - Query do usuário: ~250 tokens - Histórico de conversação: ~500 tokens (média) - Schema das 8 tools: ~1.500 tokens - Total por requisição ao modelo: ~5.050 tokens
Saída (Output): - Resposta final formatada: ~1.500 tokens - Chamadas de tools (metadata): ~300 tokens - Total por requisição: ~1.800 tokens
Número de chamadas ao modelo por consulta: - Consulta complexa (como a de Paris): - 1 chamada inicial (entender intenção) - 2-3 chamadas para buscar produtos - 3-5 chamadas para verificar disponibilidade - 2-4 chamadas para calcular preços - 1 chamada para formatar resposta final - Total: ~12 chamadas ao modelo
- Consulta simples:
- Total: ~3-5 chamadas ao modelo
Média ponderada: 7 chamadas/consulta (60% simples, 40% complexas)
Cálculo de Tokens Mensais¶
Tokens de Entrada (Input): - 1.000 consultas × 7 chamadas × 5.050 tokens = 35.350.000 tokens/mês - ≈ 35,35 milhões de tokens de entrada
Tokens de Saída (Output): - 1.000 consultas × 7 chamadas × 1.800 tokens = 12.600.000 tokens/mês - ≈ 12,6 milhões de tokens de saída
Custos do Modelo Gemini 2.5 Flash¶
Considerando o limite gratuito: - Limite gratuito: 1.500 requisições/dia = ~45.000 requisições/mês - Requisições previstas: 1.000 consultas × 7 = 7.000 requisições/mês - Status: ✅ Totalmente dentro do limite gratuito
Custo se ultrapassar o limite (referência futura): - Entrada: 35,35M tokens × US$ 0,075 / 1M = US$ 2,65/mês - Saída: 12,6M tokens × US$ 0,30 / 1M = US$ 3,78/mês - Total: US$ 6,43/mês (R$ 36,41 a R$ 5,50)
Cenário Moderado (Uso Médio)¶
Premissas: - 10 consultas por funcionário/dia - 20 dias úteis/mês - Total: 2.000 consultas/mês
Tokens mensais: - Entrada: 70,7 milhões de tokens - Saída: 25,2 milhões de tokens
Custo do modelo (se ultrapassar limite gratuito): - Entrada: US$ 5,30/mês - Saída: US$ 7,56/mês - Total: US$ 12,86/mês (R$ 72,82 a R$ 5,50)
Status: ✅ Ainda dentro do limite gratuito (14.000 requisições/mês < 45.000)
Cenário Intensivo (Uso Alto)¶
Premissas: - 20 consultas por funcionário/dia (uso pesado) - 20 dias úteis/mês - Total: 4.000 consultas/mês
Tokens mensais: - Entrada: 141,4 milhões de tokens - Saída: 50,4 milhões de tokens
Custo do modelo (se ultrapassar limite gratuito): - Entrada: US$ 10,61/mês - Saída: US$ 15,12/mês - Total: US$ 25,73/mês (R$ 145,64 a R$ 5,50)
Status: ✅ Ainda dentro do limite gratuito (28.000 requisições/mês < 45.000)
Custos de Infraestrutura (Cloud Run)¶
Cloud Run - Preços (us-central1)¶
CPU (vCPU-segundos): - Preço: US$ 0,00002400 por vCPU-segundo - 4 vCPUs por instância
Memória (GiB-segundos): - Preço: US$ 0,00000250 por GiB-segundo - 4 GiB por instância
Requisições: - Preço: US$ 0,40 por milhão de requisições
Estimativa de Custos Cloud Run¶
Cenário Conservador (1.000 consultas/mês):
Assumindo: - Tempo médio de processamento: 15 segundos por consulta - 1 instância ativa na maior parte do tempo - Tempo total de CPU: 1.000 × 15s = 15.000 segundos
Cálculo: - CPU: 15.000s × 4 vCPUs × US$ 0,00002400 = US$ 1,44 - Memória: 15.000s × 4 GiB × US$ 0,00000250 = US$ 0,15 - Requisições: 1.000 × US$ 0,40 / 1.000.000 = US$ 0,0004 - Total Cloud Run: US$ 1,59/mês (R$ 9,00)
Cenário Moderado (2.000 consultas/mês): - Total Cloud Run: US$ 3,18/mês (R$ 18,00)
Cenário Intensivo (4.000 consultas/mês): - Total Cloud Run: US$ 6,36/mês (R$ 36,00)
Outros Custos Google Cloud¶
BigQuery¶
- Dataset: Ifriend_produto
- Consultas: ~1 query por consulta do agente
- Custo: US$ 5 por TB processado
- Estimativa: Cada query processa ~10 MB (embeddings)
- 1.000 consultas × 10 MB = 10 GB/mês
- 10 GB × US$ 5 / 1.000 GB = US$ 0,05/mês
- Total BigQuery: < US$ 0,10/mês (desprezível)
Firestore (Session Storage)¶
- Leituras: ~3 por sessão
- Escritas: ~2 por sessão
- Armazenamento: ~1 KB por sessão
- Custo: Gratuito até 50.000 leituras/dia, 20.000 escritas/dia
- Estimativa: Totalmente dentro do free tier
- Total Firestore: US$ 0,00/mês
Cloud Storage¶
- Uso: Upload de CSVs gerados
- Estimativa: 100 CSVs/mês × 50 KB = 5 MB/mês
- Custo: Gratuito (free tier: 5 GB)
- Total Storage: US$ 0,00/mês
Resumo de Custos Totais¶
Com Limite Gratuito do Gemini (até ~45.000 requisições/mês)¶
| Cenário | Consultas/Mês | Gemini API | Cloud Run | BigQuery | TOTAL/Mês |
|---|---|---|---|---|---|
| Conservador | 1.000 | US$ 0,00 | US$ 1,59 | US$ 0,05 | US$ 1,64 (R$ 9,29) |
| Moderado | 2.000 | US$ 0,00 | US$ 3,18 | US$ 0,10 | US$ 3,28 (R$ 18,58) |
| Intensivo | 4.000 | US$ 0,00 | US$ 6,36 | US$ 0,20 | US$ 6,56 (R$ 37,16) |
Se Ultrapassar Limite Gratuito do Gemini¶
| Cenário | Consultas/Mês | Gemini API | Cloud Run | BigQuery | TOTAL/Mês |
|---|---|---|---|---|---|
| Conservador | 1.000 | US$ 6,43 | US$ 1,59 | US$ 0,05 | US$ 8,07 (R$ 45,70) |
| Moderado | 2.000 | US$ 12,86 | US$ 3,18 | US$ 0,10 | US$ 16,14 (R$ 91,40) |
| Intensivo | 4.000 | US$ 25,73 | US$ 6,36 | US$ 0,20 | US$ 32,29 (R$ 182,80) |
Conversão estimada: US$ 1,00 = R$ 5,66 (novembro 2025)
Recomendações para Evitar Surpresas¶
1. Monitoramento Ativo¶
Configure alertas no Google Cloud:
# Alerta de custo mensal
gcloud billing budgets create \
--billing-account=SEU_BILLING_ACCOUNT \
--display-name="Alerta Agente Slack" \
--budget-amount=50 \
--threshold-rule=percent=50 \
--threshold-rule=percent=80 \
--threshold-rule=percent=100
Dashboards recomendados: - Cloud Run: Requisições/minuto, latência, instâncias ativas - BigQuery: Bytes processados por dia - Gemini API: Requisições/dia, tokens consumidos
2. Otimizações de Custo¶
Reduzir tokens de entrada: - ✅ Instructions já estão otimizadas (~2.800 tokens) - ⚠️ Considere criar instructions mais concisas para casos simples - ✅ Limite histórico de conversação a 5 mensagens (implementado)
Reduzir chamadas ao modelo: - ✅ Cache de resultados de busca (considerar implementar) - ✅ Batch de verificações de disponibilidade - ⚠️ Evitar chamadas desnecessárias com validações client-side
Otimizar Cloud Run: - ✅ Min instances = 0 (já configurado) - ⚠️ Considere reduzir para 2 vCPUs + 2 GiB se performance permitir - ✅ Timeout adequado (900s para consultas complexas)
3. Limites de Uso por Usuário¶
Implemente rate limiting no Slack:
# Limite de 30 consultas/usuário/dia
USER_DAILY_LIMIT = 30
# Limite de 5 consultas/usuário/hora
USER_HOURLY_LIMIT = 5
4. Migração para Vertex AI (Opcional)¶
Se ultrapassar o limite gratuito frequentemente, considere Vertex AI:
Vantagens: - SLA empresarial - Quotas dedicadas - Suporte prioritário
Custo Vertex AI Gemini 2.5 Flash: - Entrada: US$ 0,075 / 1M tokens (mesmo preço) - Saída: US$ 0,30 / 1M tokens (mesmo preço) - Sem limite gratuito de requisições
5. Análise Mensal Obrigatória¶
Checklist mensal: - [ ] Revisar fatura Google Cloud - [ ] Verificar consumo de tokens Gemini API - [ ] Analisar logs de erros (requisições desnecessárias) - [ ] Revisar métricas de uso por funcionário - [ ] Ajustar recursos Cloud Run se necessário
Estimativa Inicial (Primeiros 3 Meses)¶
Fase de Adoção Gradual¶
Mês 1 - Piloto (3 usuários): - Consultas: ~300/mês - Custo estimado: US$ 0,50 (R$ 2,83) - Status: Gratuito (dentro do free tier)
Mês 2 - Expansão (7 usuários): - Consultas: ~700/mês - Custo estimado: US$ 1,20 (R$ 6,79) - Status: Gratuito (dentro do free tier)
Mês 3 - Total (10 usuários): - Consultas: ~1.000/mês - Custo estimado: US$ 1,64 (R$ 9,29) - Status: Gratuito (dentro do free tier)
Custo total 3 meses: US$ 3,34 (R$ 18,91)
Conclusão¶
Para uma equipe de 10 funcionários, o custo mensal estimado é muito baixo:
- Cenário mais provável: US$ 1,64 - US$ 3,28/mês (R$ 9,29 - R$ 18,58)
- Pior cenário (uso intensivo): US$ 6,56/mês (R$ 37,16)
- Se ultrapassar limite gratuito: US$ 8,07 - US$ 32,29/mês (R$ 45,70 - R$ 182,80)
Recomendações finais:
- ✅ Implemente monitoramento desde o dia 1
- ✅ Configure alertas de budget em US$ 50/mês
- ✅ Revise custos semanalmente no primeiro mês
- ✅ Mantenha limite gratuito do Gemini API (1.500 req/dia)
- ⚠️ Se ultrapassar US$ 30/mês, revise otimizações
O agente é altamente custo-efetivo e improvável causar surpresas na fatura, especialmente nos primeiros meses dentro do free tier do Gemini API.
Última atualização: 17 de novembro de 2025
Modelo: gemini-2.5-flash
Região: us-central1
Câmbio: US$ 1,00 = R$ 5,66