Guía de compra

¿Cómo dimensionar servidores para un proyecto AI en Chile?

Dimensionar mal el cómputo AI tiene dos costos: sobredimensionar inmoviliza capital en hardware ocioso; subdimensionar crea cuellos de botella que frenan la adopción interna. Esta guía ordena los factores clave para llegar a una especificación técnica defendible.

¿Cuáles son las variables clave para dimensionar un servidor AI?

Las cinco variables fundamentales son: el tamaño del modelo (parámetros), el tipo de carga (inference o entrenamiento), la latencia máxima tolerable, el número de usuarios o solicitudes concurrentes y la ventana de implementación disponible.

¿Cuánta VRAM necesito para correr un modelo de lenguaje?

Como referencia práctica: un modelo de 7B parámetros en precisión FP16 requiere aproximadamente 14GB de VRAM. En INT8 baja a ~7GB, en INT4 a ~4GB. Para 70B parámetros en INT8 se necesitan ~70GB de VRAM, lo que implica múltiples GPUs de alta gama o soluciones con memoria unificada.

7B parámetros FP16: ~14GB VRAM (1× GPU 16GB o 24GB).
13B parámetros FP16: ~26GB VRAM (1× GPU 40GB o 2× 16GB).
70B parámetros INT8: ~70GB VRAM (2× A100 80GB o configuración multi-GPU).
Modelos multimodales o con contexto largo: +20–50% de VRAM base.

¿Qué otros componentes del servidor impactan el rendimiento AI?

Además de la GPU/VRAM, el rendimiento de inference depende del ancho de banda de memoria del procesador, la velocidad del almacenamiento para carga del modelo, el ancho de banda de red para recibir solicitudes y la eficiencia del sistema de enfriamiento para sostener cargas prolongadas.

¿Cuántos usuarios concurrentes puede atender un servidor AI?

Depende del modelo, la GPU y el framework de serving usado (vLLM, TensorRT-LLM, Ollama). Un servidor con una GPU A100 corriendo un modelo de 7B puede atender entre 10 y 50 usuarios concurrentes con latencias aceptables, dependiendo del largo promedio de los contextos.

¿Cuándo conviene escalar verticalmente vs horizontalmente?

Si el cuello de botella es VRAM (el modelo no cabe en una GPU), se escala verticalmente (GPU más grande) o se usa un servidor multi-GPU. Si el cuello de botella es throughput (muchos usuarios simultáneos con latencia aceptable), se escala horizontalmente agregando nodos.

¿Cómo pedir una cotización de servidor AI con especificación correcta?

El brief mínimo para cotizar incluye: modelo AI objetivo, carga concurrente esperada, tolerancia de latencia, presupuesto energético disponible y ventana de implementación. ADIRMESH organiza la ruta desde el catálogo hasta la cotización con este contexto técnico.

Siguiente paso

Ver catálogo infraestructura AI Ver marca Supermicro Solicitar cotización

Explora más

Ver catálogo relacionado Ver marca relacionada Ver solución relacionada Ver todas las guías B2B de ADIRMESH