Guía de compra
¿Qué infraestructura necesito para inference AI on-prem?
Montar capacidad de inference on-prem no es solo comprar GPUs. Requiere dimensionar cómputo, storage, red y energía en función del modelo, la carga y la ventana de implementación. Esta guía ayuda a estructurar la conversación técnica antes de cotizar.
¿Qué es inference AI y qué la diferencia del entrenamiento?
El entrenamiento (training) crea el modelo a partir de datos, lo que requiere cómputo masivo y tiempo extendido. La inference es cuando el modelo ya entrenado responde solicitudes en producción. La inference demanda menos cómputo por instancia, pero tiene requisitos estrictos de latencia, disponibilidad y eficiencia energética.
¿Cuándo conviene hacer inference on-prem en lugar de usar cloud?
On-prem conviene cuando hay datos sensibles que no pueden salir de las instalaciones, cuando el volumen de solicitudes es alto y predecible (el costo cloud por token se vuelve mayor que la amortización del hardware), o cuando se requiere latencia muy baja para aplicaciones en tiempo real.
- Datos regulados o confidenciales: salud, finanzas, defensa.
- Más de 10.000 solicitudes diarias sostenidas en el tiempo.
- Latencia objetivo menor a 200ms para aplicaciones interactivas.
- Estrategia de soberanía de datos o cumplimiento normativo.
¿Qué cómputo necesito para inference?
Depende del tamaño del modelo (parámetros), el tipo de cuantización (FP16, INT8, INT4) y la carga esperada (solicitudes por segundo). Un modelo de 7B parámetros en INT8 puede correr en una GPU de 24GB de VRAM. Un modelo de 70B requiere múltiples GPUs o CPUs con grandes memorias unificadas.
- Modelos pequeños (≤7B): 1 GPU de 24GB o CPU moderna con memoria suficiente.
- Modelos medianos (7B–30B): 1-2 GPUs de alta gama o servidor AI dedicado.
- Modelos grandes (>30B): múltiples GPUs con NVLink o solución rack multi-GPU.
- Evaluar siempre el ratio TFLOPS/W para optimizar costo operacional.
¿Qué storage y red requiere un servidor de inference?
El storage debe ser suficientemente rápido para cargar el modelo en memoria en tiempos razonables (NVMe recomendado sobre HDD). La red importa para recibir solicitudes con baja latencia y, si hay múltiples nodos, para la comunicación entre GPUs. En proyectos con múltiples modelos, el storage de modelos puede convertirse en un cuello de botella inesperado.
¿Cuánto tarda en implementarse un proyecto de inference on-prem?
Un proyecto piloto con un modelo y un servidor puede estar operativo en 2 a 4 semanas si el hardware está disponible. La etapa crítica es la disponibilidad del equipo: servidores AI de alta gama pueden tener tiempos de entrega de 4 a 12 semanas según el fabricante y el mercado.
¿Cómo evaluar una cotización de infraestructura AI?
Antes de cotizar, conviene definir: el modelo objetivo, la carga esperada, el presupuesto energético disponible y el plazo de implementación. ADIRMESH organiza la ruta desde el catálogo de infraestructura AI hasta la cotización con contexto técnico suficiente para defender la inversión internamente.