El costo real de un sistema multi-agente: desglose completo
VPS $24/mes, API $200-600/mes, total $224-624/mes vs $6-12K en salarios. Desglose real de costos de un sistema de 10 agentes en producción.
$224 al mes. Eso cuesta operar un departamento legal de investigación con 10 agentes autónomos en el escenario más conservador. En el escenario de uso intensivo, $624 al mes. Contra la alternativa humana: 3-5 analistas junior a $2-4K cada uno, más un coordinador. Entre $6K y $12K mensuales en salarios, sin contar cargas sociales, oficina, licencias de software ni rotación.
Estamos publicando estas cifras porque el mercado de agentes de IA tiene un problema de transparencia. Los vendedores de plataformas hablan de “ahorro de costos” sin desglosar una sola factura. Las consultoras grandes entregan estimaciones en rangos tan amplios que no significan nada. Y los equipos internos que evalúan estas soluciones terminan comparando un costo real (salarios) contra un costo imaginario (“la IA lo hace más barato”).
Este artículo es el desglose real. Números de producción, no de demo.
El sistema de referencia
Estamos operando un daemon de investigación legal desde febrero de 2025. El sistema tiene 10 agentes especializados distribuidos en 4 equipos: validación de mercado, investigación técnica, financiamiento y lanzamiento. Cada agente tiene un modelo asignado según la complejidad de su tarea. Los agentes pesados (orquestador, arquitecto de producto, estratega de ventas) corren sobre Claude Sonnet 4. Los más rutinarios (analista de mercado, escritor de grants) corren sobre Claude Haiku 4.
El daemon ejecuta ciclos de sprint autónomos. Toma tareas de un backlog, las ejecuta secuencialmente, valida la calidad del output, y reporta resultados a Slack. 33 de 37 tareas completadas sin intervención humana. Las 4 restantes están bloqueadas por una dependencia externa de financiamiento.
Ese es el sistema sobre el cual estamos midiendo costos. No es un laboratorio. Es infraestructura en producción.
Desglose por componente
| Componente | Costo mensual | Notas |
|---|---|---|
| VPS (2 vCPU, 4GB RAM, DigitalOcean) | $24 | Compartido con otros servicios |
| API de LLM (Claude Sonnet 4 + Haiku 4) | $200-600 | Depende de frecuencia de sprints |
| Almacenamiento (SQLite + archivos markdown) | $0 | Incluido en el VPS |
| Monitoreo (health endpoint + Slack) | $0 | Incluido en la infraestructura existente |
| Slack workspace | $0 | Costo incremental nulo |
| Notion (bases de datos de tracking) | $0 | Costo incremental nulo |
| Total | $224-624 |
La variación en el costo de API depende directamente de cuántos sprints ejecuta el sistema por día. Con 2 sprints diarios y un cap de $20/día, el costo mensual de API ronda los $600. Con ejecución intermitente (3-4 sprints por semana), baja a $200.
Cómo se compone el gasto en API
El costo de API es el único componente variable. Aquí esta la estructura de precios por modelo que estamos usando:
| Modelo | Input (por millón de tokens) | Output (por millón de tokens) | Uso típico |
|---|---|---|---|
| Claude Sonnet 4 | $3.00 | $15.00 | Planificación de sprint, análisis legal, arquitectura |
| Claude Haiku 4 | $0.80 | $4.00 | Investigación de mercado, borradores, tareas rutinarias |
Un sprint típico consume entre 50K y 150K tokens de input y entre 10K y 40K tokens de output, distribuidos entre 2-4 agentes. El costo por sprint oscila entre $0.50 y $3.00 dependiendo de cuáles agentes participan. Los sprints que involucran al orquestador y al arquitecto de producto (ambos en Sonnet 4) son los más caros. Los de investigación de mercado y redacción de grants (Haiku 4) cuestan una fracción.
El sistema registra cada llamada a la API en una tabla SQLite con el conteo exacto de tokens, el modelo utilizado y el costo calculado. No estimamos. Medimos.
Controles de presupuesto
El daemon tiene un cap duro de $20 por día. Antes de cada ejecución de track, verifica el gasto acumulado del día en la tabla api_calls. Si el cap se alcanzó, pausa la ejecución hasta medianoche UTC.
Ese cap existe porque aprendimos lo que pasa sin el. Una versión temprana del sistema de investigación entró en un loop donde el agente analista revisaba su output basándose en feedback del agente revisor, cada revisión generaba una nueva revisión, y doce iteraciones después el output era peor que el borrador original. El gasto fue 40 veces el presupuesto esperado.
Los controles actuales tienen tres capas:
Retry cap por tarea: máximo 3 intentos. Después de 3 outputs que no pasan el umbral de calidad (0.4 sobre 1.0), la tarea se marca como bloqueada y queda para revisión humana. Esto previene que el sistema queme presupuesto en tareas que no puede completar.
Budget diario por sistema: el cap de $20/día se verifica entre cada track de ejecución. Si queda presupuesto para un track más, ejecuta. Si no, pausa.
Circuit breaker global: después de 3 sprints fallidos consecutivos, el daemon ejecuta un sprint de diagnóstico. Lee los logs de error recientes, diagnóstica la causa raiz, y postea el diagnóstico a Slack. Si el sprint de diagnóstico también falla, el sistema se pausa completamente hasta un reset manual.
Comparación directa con el equivalente humano
| Concepto | Sistema multi-agente | Equipo humano equivalente |
|---|---|---|
| Costo mensual | $224-624 | $6,000-12,000 |
| Disponibilidad | 24/7 | 8-10 horas/día, 5 días/semana |
| Tiempo de onboarding | 0 (memoria persistente) | 2-4 semanas por persona nueva |
| Escalabilidad | Agregar agente = minutos | Contratar = semanas o meses |
| Calidad consistente | Gates automaticos, scoring objetivo | Variable según persona y día |
| Coordinación | Automática, sin reuniones | 3-5 horas/semana en standups |
| Rotación | No aplica | 15-25% anual en LATAM tech |
Estas comparaciones son válidas para trabajo de investigación, análisis y síntesis. Trabajo donde el input es información y el output es un documento estructurado. No estamos comparando contra roles que requieren presencia fisica, relaciones interpersonales complejas o creatividad genuina.
Costos ocultos que hay que incluir
El número de $224-624/mes es el costo operativo recurrente. No incluye tres categorías que todo proyecto de agentes tiene:
1. Tiempo de desarrollo e integración
El daemon legal tiene ~3,750 líneas de Python distribuidas en 26 archivos, más 35 documentos de definición de agentes. Construirlo tomó 3 días de desarrollo intensivo. Los conectores para Slack, Notion y la API proxy requirieron debugging de autenticación, rate limits y comportamientos no documentados.
Para un cliente, estimamos 13-21 días de implementación dependiendo de la complejidad. El costo de ese setup es un one-time fee separado del costo operativo mensual.
2. Ingeniería de calidad
El sistema paso por 3 rewrites completos del layer de calidad antes de producir output confiable. La primera versión no tenía gates. La segunda filtraba basura obvia pero dejaba pasar lo que llamamos “basura sofisticada”: documentos bien formateados con porcentajes inventados y afirmaciones fabricadas sobre empresas reales. La tercera versión, la que corre en producción, tiene 50+ patrones de detección de garbage, scoring de contenido con bonificaciones y penalizaciones explicitas, y el retry cap de 3 intentos.
Ese trabajo de ingeniería de calidad no se ve en la factura mensual. Pero sin el, el sistema produce basura fluida a $600/mes en vez de investigación útil a $600/mes.
3. Mantenimiento continuo
El sistema requiere atención periódica. Nuevos patrones de garbage aparecen conforme los agentes encuentran tipos de tarea que no existian antes. Las APIs externas cambian sus endpoints, rate limits o flujos de autenticación. Los modelos de lenguaje se actualizan y su comportamiento cambia de maneras sutiles.
Estamos midiendo el tiempo de mantenimiento en ~2-4 horas por semana. No es cero. Pero comparado con las 15-25 horas semanales de coordinación que requiere un equipo humano de 3-5 personas, la diferencia sigue siendo de un orden de magnitud.
Cuando los agentes son más baratos (y cuando no)
Los agentes de IA ganan en costo cuando el trabajo tiene estas caracteristicas:
- Volumen alto de tareas repetibles: investigación de mercado, análisis de compliance, generación de reportes, revisión de contratos estándar. Trabajo donde el patrón es claro y la variación es moderada.
- Operación continua: cualquier función que necesita monitoreo 24/7 o respuesta rápida fuera de horario laboral. El daemon no duerme, no toma vacaciones, no tiene días malos.
- Coordinación entre múltiples fuentes: cruzar información entre bases de datos, emails, documentos y CRMs. Los agentes lo hacen en segundos. Un humano tarda horas y se le escapa la mitad.
Los agentes de IA pierden en costo cuando:
- El volumen es bajo: si la función requiere 5 horas de trabajo al mes, un freelancer a $30/hora cuesta $150. No justifica un sistema de $224-624/mes más el costo de implementación.
- La tarea cambia constantemente: funciones donde cada caso es fundamentalmente diferente del anterior. Los agentes funcionan bien con variación moderada dentro de patrones conocidos. Funcionan mal cuando no hay patrón.
- Se necesita juicio subjetivo complejo: negociaciones, decisiones eticas, evaluación de contextos culturales matizados. Los agentes pueden preparar el análisis, pero la decisión final necesita un humano.
- La tolerancia al error es cercana a cero: en contextos donde un solo error tiene consecuencias legales o financieras graves, la supervisión humana no es opcional. El costo de esa supervisión reduce la ventaja económica.
La curva de costos a 12 meses
El costo operativo mensual se mantiene estable o baja con el tiempo. El sistema de memoria persistente acumula contexto, lo que reduce la cantidad de tokens necesarios por sprint (menos contexto nuevo que cargar, más conocimiento reutilizable). Los patrones de calidad se refinan, lo que reduce retries y gasto desperdiciado.
En contraste, un equipo humano tiene costos que suben: incrementos salariales anuales (8-15% en LATAM tech), costos de rotación (perder a un analista y reemplazarlo cuesta 3-6 meses de salario entre reclutamiento, onboarding y productividad pérdida), y el costo invisible de la pérdida de conocimiento institucional cada vez que alguien se va.
A los 6 meses, un sistema de agentes que costo $10K-25K en implementación y $224-624/mes en operación ha generado entre $30K y $60K de ahorro acumulado vs el equipo humano equivalente. A los 12 meses, el ROI esta entre 5x y 15x dependiendo del tier salarial de la región.
Lo que estamos midiendo ahora
Estamos trackeando cuatro métricas de costo que publicaremos con actualizaciones trimestrales:
-
Costo por tarea completada: actualmente entre $3 y $18 dependiendo de la complejidad. Una investigación de mercado simple cuesta ~$3. Un análisis legal completo con múltiples agentes involucrados cuesta ~$18.
-
Tasa de desperdicio: porcentaje del gasto en API que va a outputs rechazados por los quality gates. Actualmente ~12%. La meta es bajar a <8% conforme mejoramos los patrones de calidad.
-
Costo marginal por agente adicional: agregar un agente nuevo al sistema cuesta ~$0 en infraestructura (el VPS ya esta corriendo) y entre $15-80/mes en API dependiendo de su frecuencia de uso. El costo de configuración (escribir instrucciones, calibrar patrones de calidad, testing) toma 1-3 días.
-
Break-even por cliente: para un despliegue típico de tier Growth ($5K-15K de setup, $800-2K/mes de operación), el break-even contra la alternativa humana ocurre entre el mes 2 y el mes 4.
Los números en una tabla
| Métrica | Valor |
|---|---|
| Costo mensual operativo (10 agentes) | $224-624 |
| Equivalente humano | $6,000-12,000/mes |
| Ahorro mensual | $5,376-11,376 |
| Costo de implementación | $10,000-25,000 (one-time) |
| Break-even | Mes 2-4 |
| ROI a 12 meses | 5x-15x |
| Costo por tarea completada | $3-18 |
| Tasa de desperdicio actual | ~12% |
| Mantenimiento semanal | 2-4 horas |
| Disponibilidad | 24/7 |
Estos son números reales de un sistema en producción. No son proyecciones. No son “hasta X” ni “potencialmente Y”. Son lo que gastamos y lo que medimos.
La pregunta para cualquier empresa evaluando agentes de IA no debería ser “cuánto cuesta” en abstracto. Debería ser: cuánto cuesta la función específica que quiero automatizar, cuánto cuesta la alternativa humana para esa misma función, y en cuántos meses recupero la inversión.
Si los números no cierran, no se implementa. Si cierran, se implementa y se mide. Publicaremos la actualización trimestral con los datos acumulados.
Synaptic convierte negocios en organizaciones AI-native. Empezamos donde termina la demo. synaptic.so