Nvidia, AMD e Intel están a punto de competir por una parte del creciente mercado de unidades de procesamiento de gráficos (GPU) que está siendo impulsado por las necesidades de la Inteligencia Artificial y el aprendizaje automático.
La unidad de procesamiento de gráficos (GPU) moderna comenzó como un acelerador para videojuegos de Windows, pero en los últimos 20 años se transformó en un procesador de servidor empresarial para aplicaciones de inteligencia artificial y computación de alto rendimiento.
Ahora, las GPU están en la punta de la lanza de rendimiento que se utiliza en la supercomputación, el entrenamiento y la inferencia de IA, la investigación de medicamentos, el modelado financiero y la imagenología médica. También se han aplicado a tareas más comunes para situaciones en las que las CPU simplemente no son lo suficientemente rápidas, como en las bases de datos relacionales impulsadas por GPU .
A medida que crece la demanda de GPU, también lo hará la competencia entre los proveedores que fabrican GPU para servidores, y sólo hay tres: Nvidia, AMD y (pronto) Intel.
Intel ha intentado y ha fallado dos veces para encontrar una alternativa a las GPU de los demás, pero lo está intentando otra vez.
La importancia de las GPU en los centros de datos
Estos tres proveedores reconocen la demanda de GPU en los centros de datos como una oportunidad creciente. Esto se debe a que las GPU son más adecuadas que las CPU para manejar muchos de los cálculos requeridos por la Inteligencia Artificial y el aprendizaje automático en los centros de datos empresariales y las redes hiperescalables. Las CPU pueden manejar el trabajo; simplemente les toma más tiempo.
Debido a que las GPU están diseñadas para resolver problemas matemáticos complejos en paralelo al dividirlos en tareas separadas en las que trabajan al mismo tiempo, los resuelven más rápidamente. Para lograr esto, tienen varios núcleos, muchos más que la CPU de propósito general. Por ejemplo, las CPU de servidor Xeon de Intel tienen hasta 28 núcleos, mientras que las CPU de servidor Epyc de AMD tienen hasta 64. Por el contrario, la generación actual de GPU de Nvidia, Ampere, tiene 6,912 núcleos, todos funcionando en paralelo para hacer una cosa: procesamiento matemático de punto flotante.
El rendimiento de las GPU se mide en cuántas de estas operaciones matemáticas de punto flotante pueden realizar por segundo o FLOPS. Este número a veces especifica el formato de punto flotante estandarizado en uso cuando se realiza la medida, como FP64.
Entonces, ¿qué depara el año para las GPU de servidor? Nvidia, AMD e Intel han revelado sus planes inmediatos, y parece que será una dura competencia. Aquí un vistazo a lo que Nvidia, AMD e Intel tienen reservado.
Nvidia
Nvidia presentó su hoja de ruta de GPU para este año en marzo pasado y lo hizo con el anuncio de su arquitectura de GPU Hopper, afirmando que, según el uso, puede ofrecer de tres a seis veces el rendimiento de su arquitectura anterior, Ampere, que pesa 9.7 TFLOPS de FP64. Nvidia dice que el Hopper H100 alcanzará un máximo de 60TFLOPS de rendimiento FP64.
Al igual que las GPU anteriores, la GPU Hopper H100 puede funcionar como un procesador independiente que se ejecuta en una placa PCI Express adicional en un servidor. Pero Nvidia también lo emparejará con una CPU en un procesador Arm personalizado llamado Grace que desarrolló y espera tener disponible en 2023.
Para Hopper, Nvidia hizo más que simplemente amplificar el procesador GPU. También modificó la memoria de doble velocidad de datos de baja potencia (LPDDR) 5, normalmente utilizada en teléfonos inteligentes, para crear LPDDR5X. Admite código de corrección de errores (ECC) y el doble de ancho de banda de memoria que la memoria DDR5 tradicional, para 1 TBps de rendimiento.
Junto con Hopper, Nvidia anunció NVLink 4, su última interconexión de GPU a GPU. NVLink 4C2C permite que las GPU Hopper se comuniquen entre sí directamente con un ancho de banda total máximo de 900 GB, siete veces más rápido que si se conectaran a través de un bus PCIe Gen5.
“Si piensa en los productos del centro de datos, tiene tres componentes y todos deben avanzar al mismo ritmo. Esa es la memoria, el procesador y las comunicaciones”, expuso Jon Peddie, presidente de Jon Peddie Research. “Y Nvidia ha hecho eso con Hopper. Esas tres tecnologías no se mueven sincronizadas, pero Nvidia ha logrado hacerlo”.
Nvidia planea enviar la GPU Hopper a partir del tercer trimestre de 2022. Los socios OEM incluyen Atos, BOXX Technologies, Cisco, Dell Technologies, Fujitsu, GIGABYTE, H3C, Hewlett Packard Enterprise, Inspur, Lenovo, Nettrix y Supermicro.
Debido a las continuas presiones de suministro en su fabricante de chips TSMC, Nvidia abrió la puerta a la posibilidad de trabajar con el negocio de fundición de Intel , pero advirtió que tal acuerdo tardaría años.
AMD
AMD tiene el viento a favor. Las ventas aumentan trimestre a trimestre, su cuota de mercado de CPU x86 está creciendo y, en febrero, completó la adquisición de Xilinx y sus arreglos de puertas programables en campo (FPGA), sistemas adaptables en un chip (SoC), motores de inteligencia artificial y experiencia en software. . Se espera que AMD lance su CPU Zen 4 a fines de 2022.
Las nuevas GPU para juegos de AMD basadas en su arquitectura RDNA 3 también saldrán este año. AMD no ha dicho nada sobre las especificaciones de RDNA 3, pero los blogueros entusiastas de los juegos han hecho circular rumores no confirmados de un aumento del rendimiento del 50% al 60% con respecto a RDNA 2.
Mientras tanto, AMD ha comenzado a comercializar la línea Instinct MI250 de aceleradores GPU para computación empresarial, considerablemente más rápido que la serie MI100 anterior. El bus de memoria se ha duplicado de 4,096 bits a 8,192 bits, el ancho de banda de la memoria se ha más que duplicado de 1.23 TBps a 3.2 TBps y el rendimiento se ha más que cuadruplicado de 11.5 TFLOPS de rendimiento FP64 a 47.9 TFLOPS. Eso es más lento que el Hopper 60TFLOPS de AMD, pero sigue siendo competitivo.
Daniel Newman, analista principal de Futurum Research, dijo que la oportunidad de AMD de ganar participación de mercado llegará a medida que crezca el mercado de IA. Y dijo que cree que el éxito de AMD con el mercado de CPU podría ayudar a sus ventas de GPU. “Lo que AMD realmente ha creado en los últimos cinco o siete años es una lealtad bastante fuerte que posiblemente se puede prolongar”, aseveró. “La pregunta es, ¿pueden aumentar significativamente la cuota de mercado de IA/HPC?”
Dijo que la respuesta podría ser “Sí”, porque la empresa ha sido extremadamente buena para encontrar oportunidades de mercado y administrar su cadena de suministro para cumplir con sus objetivos. Y con la directora ejecutiva Lisa Su a la cabeza, “me resulta muy difícil descartar a AMD en cualquier área en la que decidieran competir en este momento”, señaló.
Jonathan Cassell, analista principal de computación avanzada, IA e IoT en Omdia, dijo que siente que el éxito de AMD con sus CPU de servidor Epyc brindará una oportunidad para el procesador Instinct.
“Creo que con el tiempo, podemos ver a AMD aprovechar su éxito en el lado del microprocesador del centro de datos y usarlo para que las empresas echen un vistazo a [Instinct]. Creo que veremos a AMD tratando de aprovechar sus relaciones con los clientes para tratar de expandir su presencia”, agregó.
Instinct ha estado a la venta desde el primer trimestre de 2022. Hasta ahora, su caso de uso de mayor perfil ha sido con una supercomputadora en Oak Ridge National Labs , que reunió mucho rendimiento en un espacio muy pequeño. Pero los laboratorios también están construyendo una supercomputadora de exaescala totalmente AMD llamada Frontier, que se implementará a finales de este año. Los socios OEM que envían productos con Instinct incluyen ASUS, ATOS, Dell Technologies, Gigabyte, Hewlett Packard Enterprise (HPE), Lenovo, Penguin Computing y Supermicro.
Intel
Intel ha luchado durante mucho tiempo para hacer cualquier cosa que no sean GPU integradas básicas para sus CPU de escritorio. Para computadoras de escritorio tiene su nueva línea Intel Xe mientras que el servidor equivalente se conoce como Intel Server GPU.
Ahora, la compañía dice que ingresará al campo de GPU para centros de datos este año con un procesador con nombre en código Ponte Vecchio que, según se informa, ofrece 45 TFLOPS en FP64, casi lo mismo que el MI250 de AMD y un 25% menos que Hopper de Nvidia.
“Realmente va a perturbar el medio ambiente”, aseveró Peddie. “Por lo que nos han dicho, y hemos escuchado de rumores y otras filtraciones, es muy escalable”. Ponte Vecchio saldrá a finales de este año.
Newman también ha escuchado cosas positivas sobre Ponte Vecchio, pero dijo que la verdadera oportunidad para Intel está en su estrategia de software oneAPI .
oneAPI es una plataforma unificadora de desarrollo de software en la que está trabajando la compañía y que está diseñada para elegir el tipo de silicio más apropiado que fabrica Intel (procesadores x86, GPU, FPGA, AI) al compilar aplicaciones en lugar de obligar al desarrollador a elegir un tipo de silicio. y codificarlo. También proporciona una serie de bibliotecas API para funciones como procesamiento de video, comunicaciones, análisis y redes neuronales.
Esta abstracción elimina la necesidad de determinar el mejor procesador para el objetivo, así como la necesidad de trabajar con diferentes herramientas, bibliotecas y lenguajes de programación. Entonces, en lugar de codificar para un procesador específico en un lenguaje específico, los desarrolladores pueden enfocarse en la lógica comercial y escribir en Data Parallel C++ (DPC++), una variante de código abierto de C++ diseñada específicamente para el paralelismo de datos y la programación heterogénea.
Un factor que separa a Intel de Nvidia y AMD es dónde fabrica sus chips. Mientras que los demás usan el fabricante de chips de Taiwán TSMC, Intel fabrica muchos de sus propios chips en los EE. UU., con otras fábricas en Irlanda, Malasia e Israel. Y tiene grandes planes para construir más en los Estados Unidos. Eso le da ciertas ventajas, dijo Cassell. “El control [que tiene] de su propia fabricación le da un control de su destino, en cierto modo”, señaló. “Veo estas cosas como activos para la empresa”.
Al final, dijo Newman, la competencia entre Nvidia, AMD e Intel podría reducirse a una carrera de software. “Si le preguntas a los mejores ingenieros [de Nvidia], te dirán que no somos una empresa de chips. Somos una empresa de software. Realmente creo que Intel no ha pensado realmente como una compañía de software sobre la IA hasta ahora, pero si pueden hacer [oneAPI] correctamente, veo una oportunidad real allí”, concluyó.
Andy Patricio, CW.com