La Inteligencia Artificial (IA) es una de las cargas de trabajo con mayores demandas de computación de nuestros tiempos. Por eso, no sorprende que el consumo energético y el costo de energía asociado de los sistemas de IA se elevará.
A principios de este año, la Agencia Internacional de Energía (IEA, por sus siglas en inglés) informó que los centros de datos consumieron, a nivel global, el 2% de toda la electricidad en 2022, y la IEA predice que ese consumo podría aumentar a más del doble en 2026.1
Y mientras que la eficiencia ha mejorado en los aceleradores de próxima generación, el consumo energético continuará intensificándose con la adopción de la IA.
Los centros de datos deberán ejecutar cargas de trabajo de IA de manera más efectiva, y las instalaciones actuales no están equipadas para atender las demandas de enfriamiento de este creciente poder de procesamiento. Aquí es donde entra el enfriamiento líquido.
Una “idea fresca” para estos tiempos
En comparación con el enfriamiento por aire tradicional que utiliza ventiladores, con el enfriamiento líquido y, específicamente, con el enfriamiento líquido directo (DLC, Direct Liquid Cooling, en inglés), el refrigerante o cooler se bombea directamente a un servidor para absorber el calor emitido por los procesadores y transferirlo a un sistema de intercambio de calor fuera del centro de datos.
Por décadas se han estado innovando y ofreciendo sistemas de enfriamiento líquido en todo el mundo para enfriar de manera eficiente los sistemas de gran escala que ejecutan cargas de trabajo de alto rendimiento (HPC, por sus siglas en inglés).
La infraestructura de IA del futuro con los aceleradores más recientes requerirá esta misma innovación en enfriamiento líquido para atender las inquietudes sobre la eficiencia energética, la sostenibilidad e incluso la resiliencia de los sistemas, que es central para mantener operando las cargas de trabajo de IA.
Veamos las cuatro principales razones por las cuales el enfriamiento líquido es la solución ideal para los centros de datos de IA.
Algunos chips simplemente no toleran el calor
Nuestros amigos de la industria han hecho un trabajo asombroso al diseñar aceleradores de próxima generación que proporcionan un rendimiento considerablemente más alto para la IA con mayor eficiencia.
En efecto, los nuevos chips están diseñados para ofrecer aún más rendimiento en un espacio reducido, pero eso también significa que será más difícil enfriar todos esos componentes críticos por dentro.
Si no podemos enfriar los chips lo suficientemente rápido, los centros de datos podrían enfrentar problemas de sobrecalentamiento que causarían fallas en el sistema y, en última instancia, tiempos de inactividad imprevistos en las tareas de IA en ejecución.
El enfriamiento líquido puede enfriar esos chips de forma más rápida y eficiente, ya que el agua contiene el triple de capacidad de calor que el enfriamiento por aire2, lo que le permite absorber más calor emitido por los aceleradores y otros componentes como las CPU, la memoria y los switches de red.
Obtener el valor de la IA con menos impacto ambiental
Enfriar de manera eficiente los aceleradores de próxima generación para garantizar la fiabilidad de los sistemas es una prioridad clave, pero es igual de importante hacerlo de manera más sostenible en beneficio de la madre naturaleza.
El enfriamiento líquido cuenta con ventajas importantes de sostenibilidad y costo para los aceleradores de próxima generación. Tomemos como ejemplo un centro de datos HPC con 10,000 servidores.
Si los 10,000 servidores se enfrían por aire, el centro de datos emitirá más de 8,700 toneladas de CO2, en comparación con los servidores enfriados por líquido, que emiten alrededor de 1,200 toneladas de CO2.3 Esto representa una reducción del 87% en el consumo de energía y evita que casi 17.8 millones de libras (más de 8 millones de kg) de CO2 se liberen anualmente a la atmósfera.3
Sin duda, esta enorme reducción de consumo energético viene acompañada de un gran ahorro de costos. Cualquier director financiero que supervise los gastos energéticos lo apreciará.
Con un centro de datos de 10,000 servidores enfriados por líquido, el centro sólo pagará 45.99 dólares por servidor anualmente, en comparación con el costo anual de 254.70 dólares por cada servidor enfriado por aire. Esto ahorra casi 2.1 millones de dólares al año en costos operativos.
Reutilizar la energía de los sistemas de IA
Y las ventajas del enfriamiento líquido no acaban aquí, pues después de capturar el calor, los sistemas con enfriamiento líquido lo transfieren a un sistema de intercambio fuera del centro de datos, donde el agua caliente puede reutilizarse como fuente de energía para alimentar otros edificios o instalaciones.
El Laboratorio Nacional de Energía Renovable (NREL, por sus siglas en inglés) del Departamento de Energía de Estados Unidos lo ha estado haciendo con éxito durante años. El laboratorio, uno de los centros de energía renovable líderes del mundo, reutilizó el 90% del agua caliente capturada de su sistema Peregrine, una supercomputadora de enfriamiento líquido HPE Cray, como la principal fuente de calor para las oficinas y el espacio de laboratorio de su planta de integración de sistemas de energía (ESIF, por sus siglas en inglés).
La empresa QScale, en Quebec, está planeando hacer lo mismo, pero con el objetivo de ayudar a incrementar la producción agrícola y abordar la escasez de alimentos. Con el enfriamiento líquido, QScale espera proporcionar electricidad a los invernaderos locales, que tienen casi el tamaño de unos 100 campos de futbol americano, para producir el equivalente a 80,000 toneladas de tomates al año.
De manera similar, la firma noruega Green Mountain planea ofrecer agua caliente para apoyar los esfuerzos de acuicultura en Hima, el criadero de truchas en tierra más grande del mundo, el cual está basado en Sistemas de Recirculación Acuícola (RAS, por sus siglas en inglés), una tecnología que recircula el agua de montaña limpia y pura. Hima pretende producir cerca de 8,000 toneladas de truchas Hima premium, el equivalente a 22,000,000 cenas al año.
Más rendimiento de IA, sistemas más pequeños
A medida que los centros de datos planean y se preparan para adoptar infraestructuras de IA en el futuro, la densidad será un factor clave para hacer espacio para las soluciones de IA avanzadas.
Debido a que el enfriamiento líquido no necesita ventiladores ni todo el equipo necesario para las soluciones de enfriamiento por aire, los centros de datos pueden colocar menos racks de servidores de manera más compacta para maximizar el espacio o expandirse conforme sea necesario.
De acuerdo con el ejemplo del centro de datos con 10,000 servidores, una instalación reduciría el 77.5% del espacio necesario si utilizara servidores con enfriamiento líquido3.
Además, en un período de cinco años, las soluciones de enfriamiento líquido consumen un 14.9% menos de energía para el chasis, lo que brinda un 20.7% de más rendimiento por kW que las soluciones con enfriamiento por aire.4
La IA requiere experiencia y confianza
Las soluciones de enfriamiento líquido también han demostrado contribuir a una computación más sostenible.
Tan solo en los últimos dos años, entregamos cuatro de los diez sistemas más rápidos del mundo, los cuales todos son supercomputadoras HPE Cray EX con enfriamiento líquido.5 De estas, Frontier, la supercomputadora más rápida del mundo desarrollada para el Laboratorio Nacional de Oak Ridge del Departamento de Energía de Estados Unidos, logró una hazaña de ingeniería al romper la barrera de la velocidad de exaescala, operando decenas de miles de aceleradores sin presentar una sola falla. Incluso a esta escala monumental de rendimiento, Frontier recibió el título de la supercomputadora más energéticamente eficiente del mundo.6
Por lo tanto, sabemos una que otra cosa sobre lo que se necesita para desarrollar y operar con eficiencia sistemas con grandes demandas de computación.
Hemos estado preparados desde hace tiempo para la IA y apoyamos el camino hacia la IA con algunas de las soluciones de enfriamiento más sofisticadas del mundo.
REFERENCIAS:
- Informe de IEA, publicado en 2024: Electricity 2024 – Analysis and forecast to 2026 (Electricidad 2024 – Análisis y pronóstico a 2026)
- Fuente: Bridge Ocean Science Education Resource Center: “Water has a specific heat of 186 J/g degreesC, versus air, which has a specific heat of 1.005 J/g degreesC”. (Centro de recursos educativos científicos de Bridge Ocean: “El agua tiene un calor especifico de 4.186 J/g gradosC, en comparación con el aire, que tiene un calor específico de 1.005 J/g gradosC”.)
- Fuente: Datos internos de HPE. Estos cálculos se basan en un centro de datos con 10,000 servidores. Asume 0.105 dólares por kWh. El escenario de enfriamiento por aire asume 18 servidores por rack. El ejemplo de DLC asume 80 servidores HPE ProLiant XL225n por rack 48U. Los ahorros energéticos por el enfriamiento se basan en las mismas estimaciones de HPE.
- El ejemplo compara el enfriamiento por aire de HPE Cray XD2000 con la prueba de rendimiento DLC SPEChpc 2021, MPI+OpenMP (64 rangos), 14 hilos (est.) (por chasis HPE Cray XD2000). Los resultados mostrados son estimaciones basadas en pruebas de rendimiento internas conducidas por HPE en abril 2023. Enlace al estudio.
- Resultados Top500 de junio 2024: https://top500.org/lists/top500/2024/06/
- Resultados Top500 y Green500 de junio 2022: https://top500.org/lists/top500/2022/06/highs/
Por Jason Zeiler, gerente de productos de enfriamiento líquido en HPE