NVIDIA anuncia A100 80GB: Ampere obtiene una actualización de memoria HBM2E

Con el lanzamiento de una versión muy virtual del programa de supercomputación SC20, NVIDIA esta mañana anuncia una nueva versión de su acelerador insignia A100. Apenas lanzado hace 6 meses, NVIDIA se está preparando para lanzar una versión actualizada del acelerador basado en GPU con 80 gigabytes de memoria HBM2e, duplicando la capacidad de la versión inicial del acelerador. Y como un toque adicional, NVIDIA también está marcando las velocidades de reloj de la memoria, lo que lleva la versión de 80GB del A100 a 3.2Gbps / pin, o un poco más de 2TB / segundo de ancho de banda de memoria en total.

Nvidia y los principales fabricantes de servidores del mundo acaban de presentar sus sistemas basados en la tecnología A100 de Nvidia con una amplia variedad de diseños y configuraciones para afrontar los retos más complejos de la IA, la ciencia de los datos y la computación científica.

Se espera que, tras el lanzamiento el mes pasado de la arquitectura Ampere de Nvidia y la GPU A100 de Nvidia, se instalen más de 50 servidores A100 de los principales fabricantes del mundo, lo que incluye Asus, Atos, Cisco, Dell Technologies, Fujitsu, Gigabyte, Hewlett Packard Enterprise, Inspur, Lenovo, One Stop Systems, Quanta/QCT y Supermicro.

La disponibilidad de los servidores varía, con 30 sistemas previstos este verano, y más de 20 más a finales de año.

“La adopción de las GPUs Nvidia A100 en la oferta de los principales fabricantes de servidores está superando todo lo que habíamos visto hasta ahora”, afirma Ian Buck, Vicepresidente y Director general de informática acelerada de Nvidia “La enorme amplitud de los servidores A100 de Nvidia procedentes de nuestros partners garantiza que los clientes puedan elegir las mejores opciones para acelerar sus centros de datos con el fin de conseguir una alta utilización y un bajo coste total de propiedad”.

La primera GPU basada en la arquitectura Ampere de Nvidia, la A100 puede aumentar el rendimiento hasta 20 veces más que su predecesora, lo que la convierte en el mayor salto de rendimiento de la GPU de la compañía hasta la fecha. Incluye varios avances técnicos, entre ellos una nueva tecnología de GPU multi-instancia que permite dividir una sola A100 en hasta siete GPUs distintas para manejar diferentes tareas de cálculo; la tecnología Nvidia NVLink de tercera generación que permite unir varias GPU para que funcionen como una sola GPU gigante; y nuevas funciones de dispersión estructural que pueden utilizarse para duplicar el rendimiento de una GPU

La versión de 80 GB del A100 continuará vendiéndose junto con la versión de 40 GB, que NVIDIA ahora llama A100 40 GB, y está dirigida principalmente a clientes con conjuntos de datos de IA de gran tamaño. Lo que a primera vista puede parecer un poco obvio, pero con cargas de trabajo de aprendizaje profundo en particular, la capacidad de memoria puede ser un factor muy limitante cuando se trabaja con conjuntos de datos particularmente grandes. Por lo tanto, un acelerador que sea lo suficientemente grande como para mantener un modelo completo en la memoria local puede ser potencialmente significativamente más rápido que uno que tiene que desconectarse con frecuencia para intercambiar datos.

Sumergiéndonos en las especificaciones, la única diferencia entre las versiones de 40 GB y 80 GB del A100 será la capacidad de memoria y el ancho de banda de la memoria. Ambos modelos se envían con una GPU GA100 habilitada en su mayoría con 108 SM activos y un reloj de impulso de 1,41 GHz. Del mismo modo, los TDP entre los dos modelos también se mantienen sin cambios. Por lo tanto, para un rendimiento informático puro en papel, no hay diferencia entre los aceleradores.

En cambio, las mejoras para el A100 se reducen a su capacidad de memoria y su mayor ancho de banda de memoria. Cuando el A100 original en mayo, NVIDIA lo equipó con seis pilas de 8GB de memoria HBM2, con una de esas pilas desactivada por razones de rendimiento. Esto dejó al A100 original con 40 GB de memoria y apenas 1,6 TB / segundo de ancho de banda de memoria.

Para el A100 80GB más nuevo, NVIDIA mantiene habilitada la misma configuración de 5 de 6 pilas de memoria, sin embargo, la memoria en sí ha sido reemplazada por una memoria HBM2E más nueva. HBM2E es el nombre informal que se le da a la actualización más reciente del estándar de memoria HBM2, que en febrero de este año definió una nueva velocidad máxima de memoria de 3,2 Gbps / pin. Junto con esa mejora de frecuencia, las mejoras de fabricación también han permitido a los fabricantes de memoria duplicar la capacidad de la memoria, pasando de 1GB / dado a 2GB / dado. El resultado neto es que HBM2E ofrece tanto mayores capacidades como mayores anchos de banda, dos cosas que NVIDIA está aprovechando aquí.

Con 5 pilas activas de 16GB, 8-Hi de memoria, el A100 actualizado obtiene un total de 80GB de memoria. Lo cual, funcionando a 3.2Gbps / pin, equivale a poco más de 2TB / seg de ancho de banda de memoria para el acelerador, un aumento del 25% con respecto a la versión de 40GB. Esto significa que el acelerador de 80 GB no solo ofrece más almacenamiento local, sino que es raro en un modelo de mayor capacidad, sino que también ofrece un ancho de banda de memoria adicional para acompañarlo. Eso significa que en las cargas de trabajo vinculadas al ancho de banda de la memoria, la versión de 80 GB debería ser más rápida que la versión de 40 GB incluso sin utilizar su capacidad de memoria adicional.

Ser capaz de ofrecer una versión del A100 con más ancho de banda de memoria parece ser en gran medida un artefacto de fabricación en lugar de algo planeado por NVIDIA: Samsung y SK Hynix finalmente comenzaron la producción en masa de HBM2E un poco a principios de este año, pero no obstante lo es seguro que será bienvenido.

De lo contrario, como se mencionó anteriormente, la memoria adicional no cambiará los parámetros de TDP del A100. Por lo tanto, el A100 sigue siendo una pieza de 400 vatios y, nominalmente, la versión de 80 GB debería ser un poco más eficiente en términos de energía, ya que ofrece más rendimiento dentro del mismo TDP.

Mientras tanto, NVIDIA también ha confirmado que la mayor capacidad de memoria del modelo de 80 GB también estará disponible para los usuarios de GPU de instancias múltiples (MIG). El A100 todavía tiene una limitación de hardware de 7 instancias, por lo que las instancias de igual tamaño ahora pueden tener hasta 10 GB de memoria dedicada cada una.

En lo que respecta al rendimiento, NVIDIA arroja algunos números comparando las dos versiones del A100. De hecho, es un poco sorprendente que estén hablando tanto de la versión de 80 GB, ya que NVIDIA seguirá vendiendo la versión de 40 GB. Pero dado que es probable que el A100 80GB cueste un tramo (NVIDIA ya compró el Arm ), sin duda todavía hay mercado para ambos.

Finalmente, al igual que con el lanzamiento del A100 original a principios de este año, el enfoque inmediato de NVIDIA con el A100 de 80GB está en las configuraciones HGX y DGX. El acelerador de factor de forma mezzanine está diseñado para ser instalado en sistemas multi-GPU, así es como lo vende NVIDIA: como parte de una placa portadora HGX con 4 u 8 de las GPU instaladas. Para los clientes que necesitan A100 individuales, NVIDIA continúa ofreciendo el PCIe A100, aunque no en una configuración de 80 GB (al menos, todavía no).

Además de hacer que el A100 80GB esté disponible para los clientes de HGX, NVIDIA también está lanzando hoy un nuevo hardware DGX. En la gama alta, ofrecen una versión del DGX A100 con los nuevos aceleradores, a los que llamarán DGX A100 de 640GB. Este nuevo DGX A100 también cuenta con el doble de DRAM y almacenamiento que su predecesor, duplicando el original en más de una forma.

Mientras tanto, NVIDIA está lanzando una versión de estación de trabajo más pequeña del DGX A100, a la que llaman DGX Station A100. El sucesor del DGX Station original, basado en Volta, el DGX Station A100 es esencialmente la mitad de un DGX A100, con 4 aceleradores A100 y un solo procesador AMD EPYC. La conferencia de prensa previa de NVIDIA no mencionó el consumo total de energía, pero me han dicho que funciona con un enchufe de pared estándar, mucho menos que los 6.5kW del DGX A100.

NVIDIA también está notando que la DGX Station usa un sistema de enfriamiento refrigerante , lo que significa que están usando enfriamiento subambiental (a diferencia de la DGX Station original, que simplemente se enfría por agua). NVIDIA promete que, a pesar de esto, la DGX Station A100 es silenciosa, por lo que será interesante ver cuánto de eso es cierto dados los problemas de ruido habituales que implica conectar un compresor al circuito de refrigeración de una computadora.

Tanto los nuevos sistemas DGX como en producción ahora. Según NVIDIA, los sistemas ya se están utilizando para algunas de sus instalaciones de supercomputación anunciadas anteriormente, como el sistema Cambridge-1. De lo contrario, la disponibilidad comercial comenzará en enero, con una disponibilidad más amplia en febrero

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *