80.000 en el presupuesto. 240.000 dieciocho meses después. La discrepancia no es un fraude. El integrador presupuestó lo que se le pidió: desarrollo, integración, puesta en producción. Nadie le pidió que cifrara el resto. Y el resto es precisamente lo que consume el presupuesto de producción. Esto es lo que falta en el presupuesto, por orden de sorpresa para el Director Financiero que descubre la factura seis meses después.
El coste de las fichas en producción
Un LLM se factura por token. Durante la fase de desarrollo, el volumen de tokens es bajo: se prueba y se itera. En producción, el volumen explota con el uso.
Un ejemplo realista: una aplicación de asistencia documental para 100 usuarios, cada uno de los cuales realiza 20 solicitudes al día, con un contexto medio de 2.000 tokens por solicitud (documento + pregunta + respuesta). Es decir, 4 millones de tokens al día. A 0,015 euros por 1.000 tokens (tarifa GPT-4 Turbo en el momento de escribir estas líneas), eso supone 60 euros al día, o 22.000 euros al año, sólo por la API.
Si su uso es diez veces mayor, tendrá que gastar 220.000 euros en PLC al año. Este coste no estaba incluido en el presupuesto inicial.
El coste de la preparación de datos
Para que su LLM responda correctamente en su dominio, sus datos deben ser accesibles. En la práctica: limpiar los documentos, convertirlos a formatos utilizables (PDF → texto limpio, no es trivial), construir y mantener una base de datos vectorial, gestionar las actualizaciones.
Este trabajo se subestima sistemáticamente. Los datos reales de una empresa están contenidos en PDF mal estructurados, documentos de Word con tablas, exportaciones de Excel y correos electrónicos. Extraer texto limpio de estas fuentes es un proyecto en sí mismo.
Un proyecto GAR serio suele destinar entre el 30 y el 40% del presupuesto total a la preparación y el mantenimiento de los datos. Este presupuesto rara vez se incluye en la estimación inicial.
El coste de un mantenimiento rápido
Un LLM responde a instrucciones (prompts). Estas instrucciones deben ajustarse y mantenerse cuando el modelo cambia de versión, cuando los casos de prueba revelan comportamientos inesperados, cuando los casos de uso evolucionan.
La ingeniería rápida no es una tarea puntual. Es un proceso continuo. Los modelos cambian de versión (GPT-4 → GPT-4o → GPT-4.5 → GPT-5…) y su comportamiento evoluciona. Un indicador que funcionaba bien puede degradarse tras una actualización del modelo subyacente.
Este coste de mantenimiento está prácticamente ausente de los presupuestos. A menudo representa entre el 15 y el 25% del coste total a lo largo de 3 años.
El coste de la corrección humana
Un LLM comete errores. Estos errores deben detectarse. En los casos graves, la corrección humana se integra en el flujo de trabajo.
Esta corrección tiene un coste. Si el modelo procesa 1.000 documentos a la semana y un operador tiene que corregir el 10% de los resultados (los casos inciertos), hay que corregir 100 documentos a la semana. Si se tarda 5 minutos por documento, son 500 minutos de tiempo de un operador humano a la semana, que deben presupuestarse como un puesto recurrente.
Este coste se omite sistemáticamente en los cálculos del ROI presentados en las demostraciones. La demostración muestra el tiempo ahorrado. No resta el coste de la verificación.
Costes de infraestructura
Además de los costes de API, si despliega un modelo localmente (on-premise) por razones de confidencialidad o latencia: GPU, servidores, almacenamiento, red, mantenimiento del sistema. Comprar un servidor H100 cuesta entre 25.000 y 35.000 euros. Añádele electricidad, refrigeración y mantenimiento. Un clúster de 4 GPU dedicadas a la inferencia representa un capex de 100.000 a 150.000 euros y un opex anual de 15.000 a 30.000 euros.
Si se utiliza la nube GPU (AWS, GCP, Azure), los costes son en opex pero pueden ser elevados para cargas de trabajo continuas.
Cómo construir un TCO realista
Antes de firmar, pida al proveedor seis cifras: el volumen estimado de tokens en producción con un margen de seguridad del 50%, el presupuesto para la preparación y el mantenimiento de los datos durante tres años, el coste de la relectura humana incluido como partida recurrente, la infraestructura en la nube o en local con su coste total de propiedad a 36 meses. Si su proveedor no puede presentarlos, no es una cuestión de transparencia. Es porque nunca los han calculado.