Si examina la industria de la CPU y pregunta dónde está el gran dinero, debe mirar el mercado de servidores y centros de datos. Desde los días de Opteron, la cuota de mercado de AMD se ha redondeado a cero por ciento, y con su primera generación de procesadores EPYC que utilizan su nueva microarquitectura Zen, ese número omitió un pequeño puñado de puntos, pero todos han estado esperando con aliento segundo golpe en la pelota. La plataforma Rome de AMD resuelve las preocupaciones que tenía la primera generación de Naples, además de que esta familia de CPU está diseñada para hacer muchas cosas: una nueva microarquitectura de CPU en 7 nm, ofrece hasta 64 núcleos, ofrece 128 carriles de PCIe 4.0, ofrece 8 canales de memoria y ofrece Una arquitectura de memoria unificada basada en chiplets. Hoy se celebra el lanzamiento de Roma, y ​​tenemos algunos de nuestros propios datos para compartir sobre su rendimiento.

Primer arranque

Sesenta y cuatro núcleos. Cada núcleo con un núcleo Zen 2 mejorado, que ofrece ~ 15% mejor rendimiento de IPC que Nápoles (como se probó en nuestra revisión de CPU del consumidor ), y duplicó el rendimiento de AVX2 / FP. El chip tiene un total de 256 MB de caché L3 y 128 carriles PCIe 4.0. El EPYC de segunda generación de AMD, en este caso el EPYC 7742, es un gigante.

Arranque en BIOS, verifique la información del nodo.

[Nota: esa lectura de 1500 mV en la captura de pantalla es la misma lectura que vemos en las plataformas Ryzen del consumidor; parece ser el voltaje no DVFS como se enumera en el firmware, pero en realidad no se observa]

Está claro que las especificaciones en bruto de nuestra nueva CPU Rome son algunas de las más impresionantes del mercado. La pregunta es si este es el nuevo chip de servidor más rápido del mercado, una afirmación de que AMD está poniendo todo su peso detrás. Si esta es la nueva CPU más rápida del mercado, la pregunta se convierte en “¿por cuánto?” Y “¿cuánto cuesta?”.

He estado cubriendo las CPU de los servidores desde el lanzamiento de Opteron en 2003, pero esto no se parece a lo que he visto antes: un núcleo competitivo y el doble de ellos en un chip de lo que la competencia (Intel, Cavium, incluso IBM) puede oferta. Para citar al vicepresidente sénior de AMD de su división Enterprise, Forrest Norrod :

Diseñamos esta parte para competir con Ice Lake, con la esperanza de avanzar en el rendimiento de un solo subproceso. No esperábamos enfrentarnos a Skylake recalentado. Este será uno de los mejores momentos de nuestras carreras“.

La confianza en uno mismo es siempre alta en AMD, y en el papel parecería estar justificada. Las nuevas CPU del servidor Rome han mejorado el IPC central, duplicando el conteo de núcleos en el extremo superior, y está utilizando un nuevo proceso de fabricación (7 nm) de una sola vez. Por lo general, vemos que una compañía de servidores hace una de esas cosas a la vez, no las tres. De hecho, es un gran riesgo tomar, y el potencial de ser emocionante si todo encaja.

Para poner esto en perspectiva: promete un rendimiento de hasta 2x FP, 2x núcleos y una nueva tecnología de proceso habría sonado extraño hace unos años. Al final de los días de Opteron, hace solo 4-5 años, las mejores CPU de Intel eran hasta tres veces más rápidas . En ese momento, había poca o ninguna razón para comprar un servidor con AMD Opterons. Hace dos años, EPYC consiguió que AMD volviera al mercado de servidores, pero aunque la relación rendimiento por dólar fue mucho mejor que la de Intel, no fue una victoria completa. No solo AMD seguía a la zaga en el rendimiento de la base de datos y el rendimiento de AVX / FP, sino que los socios y los OEM también eran reacios a asociarse con la empresa sin un producto probado.

Entonces, ahora que AMD ha demostrado su valía con Nápoles, y AMD promete más del doble de los diseños implementados de Roma con una rampa muy rápida para los clientes, tenemos que comparar lo antiguo con lo nuevo. Para el lanzamiento del nuevo hardware, AMD nos proporcionó un sistema dual EPYC 7742 de Quanta, con dos CPU de 64 núcleos.

Mejor Core en Zen 2

En caso de que te lo hayas perdido, en nuestro artículo de análisis de microarquitectura, Ian ha explicado con gran detalle por qué AMD afirma que su nuevo Zen2 es una arquitectura significativamente mejor que Zen1:

• un predictor de rama diferente de la segunda etapa, conocido como predictor TAGE
• duplicación del caché micro-op
• duplicación del caché L3
• aumento de recursos enteros
• aumento en la carga / almacenar recursos
• admite dos instrucciones AVX-256 por ciclo (en lugar de tener que combinar dos unidades de 128 bits).

Todas estas mejoras en papel muestran que AMD está atacando sus mercados clave tanto en el rendimiento del consumidor como del empresarial. Con el cómputo adicional y la eficiencia prometida, podemos suponer que AMD también tiene la ambición de recuperar el mercado de alto rendimiento. A diferencia del Xeon, el EPYC de segunda generación no declara relojes más bajos cuando ejecuta AVX2; en cambio, se ejecuta en un programador consciente de energía que suministra la mayor frecuencia posible dentro de las restricciones de energía de la plataforma.

Los usuarios pueden preguntarse, especialmente con Intel tan integrado en el alto rendimiento y el aprendizaje automático, ¿por qué AMD no ha ido con un diseño AVX-512? Como referencia al líder del mercado, AMD ha declarado que no todas las ” rutinas pueden ser paralelas a ese grado “, así como una señal muy clara de que ” no es un buen uso de nuestro presupuesto de silicio “. Creo que podemos necesitar pistolas al amanecer. No obstante, será interesante cómo cada empresa aborda la paralelización de vectores a medida que surgen nuevas generaciones de hardware. Pero tal como está, AMD está bombeando su rendimiento de FP sin tener que usar AVX-512.

En respuesta a las afirmaciones de AMD de un aumento general del 15% del IPC para Zen 2, vimos estos resultados como resultado de nuestro análisis de Zen 2 en la línea de procesadores de consumo, que se lanzó el mes pasado. En nuestro análisis, Andrei comprobó y descubrió que, de hecho, es un 15-17% más rápido. Junto con las mejoras de rendimiento, también ha habido actualizaciones de seguridad , soporte de virtualización mejorado e instrucciones nuevas pero patentadas para la calidad de servicio (QoS) de memoria caché y ancho de banda de memoria. (Las características de QoS parecen muy similares a lo que Intel ha introducido en Broadwell / Xeon E5 versión 4 y Skylake – AMD se está poniendo al día en esa área).

Diseño de Roma: lo simple lo hace mucho más fácil

Cuando analizamos la primera generación de EPYC de AMD, una de las grandes desventajas fue la complejidad. AMD había construido sus procesadores Naples de 32 núcleos al habilitar cuatro matrices de silicio de 8 núcleos y conectar cada uno a dos canales de memoria, lo que resultó en una arquitectura de memoria no uniforme (NUMA). Debido a este diseño ‘quad NUMA’, varias aplicaciones vieron bastantes problemas de equilibrio NUMA . Esto sucedió en casi todos los sistemas operativos, y en algunos casos vimos informes de que los administradores de sistemas y otros tenían que hacer un trabajo de optimización para obtener el mejor rendimiento de la serie EPYC 7001.

El nuevo EPYC de segunda generación, Roma, ha resuelto esto. El diseño de la CPU implementa un concentrador central de E / S a través del cual se producen todas las comunicaciones fuera del chip. El diseño completo utiliza ocho chiplets de núcleo, denominados Matrices de complejo complejo (CCD), con una matriz central para E / S, denominada matriz de E / S (IOD). Todos los CCD se comunican con este concentrador central de E / S a través de enlaces dedicados de alta velocidad Infinity Fabric (IF) y, a través de esto, los núcleos pueden comunicarse con los carriles DRAM y PCIe contenidos u otros núcleos.

Los CCD constan de dos Core CompleX de cuatro núcleos (1 CCD = 2 CCX). Cada CCX consta de cuatro núcleos y 16 MB de caché L3, que se encuentran en el corazón de Roma. Los principales procesadores Rome de 64 núcleos en general tienen 16 CCX, y esos CCX solo pueden comunicarse entre sí a través de la matriz de E / S central. No hay comunicación CCD entre chips.

Esto es lo que muestra este diagrama. A la izquierda tenemos Nápoles, la primera Gen EPYC, que usa cuatro dados Zepellin, cada uno conectado con el otro con un enlace IF. A la derecha está Roma, con ocho CCD en verde alrededor del exterior, y una matriz de E / S centralizada en el medio con las interfaces DDR y PCIe.

Como informó Ian, mientras que los CCD se fabrican en TSMC, utilizando su última tecnología de proceso de 7 nm. El troquel IO, por el contrario, se basa en el proceso de 14 nm de GlobalFoundries. Dado que los circuitos de E / S, especialmente en comparación con el almacenamiento en caché / procesamiento y los circuitos lógicos, son notoriamente difíciles de reducir a nodos de proceso más pequeños, AMD está siendo inteligente aquí y está utilizando una tecnología de proceso muy madura para ayudar a mejorar el tiempo de comercialización, y definitivamente tiene ventajas

Esta topología es claramente visible cuando se quita el capó.

La principal ventaja es que la familia ‘EPYC 7002’ de segunda generación es mucho más fácil de entender y optimizar, especialmente desde el punto de vista del software, en comparación con Nápoles. En última instancia, cada procesador solo tiene un entorno de latencia de memoria, ya que cada núcleo tiene la misma latencia para hablar simultáneamente con los ocho canales de memoria, esto se compara con la primera generación de Nápoles, que tenía dos regiones NUMA por CPU debido a la memoria conectada directamente.

Como se ve en la imagen a continuación, esto significa que en una configuración de doble socket, un procesador Naples actuará como un entorno NUMA tradicional con el que la mayoría de los ingenieros de software están familiarizados.

En última instancia, la única otra forma de hacerlo es con un troquel monolítico grande, que para los nodos de proceso más pequeños se está volviendo menos aceptable cuando se trata de rendimientos y precios. En ese sentido, AMD tiene una ventaja significativa al poder desarrollar silicio pequeño de 7 nm con altos rendimientos y también proporciona una ventaja sustancial cuando se trata de binning para la frecuencia.

La forma en que un sistema ve el nuevo entorno NUMA es bastante interesante. Para las CPU Naples EPYC 7001, esto fue bastante complicado en una configuración de doble socket:

Aquí cada número muestra la “ponderación” dada a la demora para acceder a cada uno de los otros dominios NUMA. Dentro del mismo dominio, la ponderación es ligera con solo 10, pero luego un dominio NUMA en el mismo chip recibió un 16. Saltar del chip aumentó esto hasta 32.

Esto cambió significativamente en Roma EPYC 7002:

Aunque hay situaciones en las que las CPU EPYC 7001 se comunican más rápido, el hecho de que la topología es mucho más simple desde el punto de vista del software vale mucho. Hace que sea mucho más fácil obtener un buen rendimiento del chip para todos los que tienen que usarlo, lo que ahorrará mucho dinero en Enterprise, pero también ayudará a acelerar la adopción.

PCIe 4.0

Como la primera CPU de servidor x86 comercial que admite PCIe 4.0, las capacidades de E / S de los servidores EPYC de segunda generación son las mejores de su clase. Un PCIe 4.0 x16 ofrece hasta 32 GB / s en ambas direcciones, por lo que cada socket ofrece hasta 256 GB / s en ambas direcciones, para un total de 128 carriles PCIe 4.0 por CPU.

Cada CPU tiene 8 x 16 enlaces PCIe 4.0 disponibles que se pueden dividir entre hasta 8 dispositivos por raíz PCIe, como se muestra arriba. También hay soporte completo PCIe peer-to-peer tanto dentro de un solo socket como a través de sockets.

Con la generación anterior, para habilitar una configuración de socket dual, se usaron 64 carriles PCIe de cada CPU para unirlos. Para EPYC, AMD todavía permite el uso de 64 carriles PCIe, pero estos son carriles PCIe 4.0 ahora. También hay otra característica que AMD tiene aquí: administración de ancho de banda de enlace IF de zócalo a zócalo, que permite a los socios OEM diseñar sistemas de zócalo doble con menos ancho de banda zócalo a zócalo y más carriles PCIe si es necesario.

También aprendimos que, de hecho, hay 129 carriles PCIe 4.0 en cada CPU. En cada CPU hay un carril PCIe adicional para el BMC (el chip que controla el servidor). Teniendo en cuenta que estamos viviendo en la era de la aceleración de la IA, los servidores EPYC 7002 serán excelentes como anfitriones de bastantes GPU o TPU. La densidad nunca ha sido tan divertida.

CPU de Roma: recuentos y frecuencias principales

Ha habido pocas dudas de que, en papel, Roma y la familia EPYC 7002 serán un producto competitivo en comparación con el Xeon escalable de Intel cuando se trata de rendimiento o rendimiento por vatio. Como siempre, todo se reduce a elegir qué parte ofrece la competencia adecuada. Con Roma, AMD vuelve a atacar el rendimiento por dólar, así como el rendimiento máximo y el rendimiento por vatio.

Nomenclatura EPYC 7000

El nombramiento de las CPU se mantiene consistente con la generación anterior.

• EPYC = Marca
• 7 = serie 7000
• 25-74 = Número de dos dígitos indicativo del posicionamiento / rendimiento de la pila (no lineal)
• 1/2 = generación
• P = enchufe simple, no presente en el enchufe doble

AMD está presentando 19 CPU totales a la familia Rome, 13 de los cuales están destinados al mercado de doble socket. Todas las CPU tienen 128 líneas PCIe 4.0 disponibles para tarjetas adicionales, y todas las CPU admiten hasta 4 TiB de DDR4-3200.

La parte superior es el EPYC 7742, que es la CPU que se nos proporcionó en esta comparación. Es la CPU AMD no personalizada más cara de la historia. Discutiremos si el precio es una ganga o adecuado después de que hayamos realizado algunas evaluaciones comparativas.

Pero una cosa es segura: AMD definitivamente está mejorando el rendimiento por dólar. La verdadera estrella es el 7502, ya que ofrece 32 núcleos Zen2 a 2.50 / 3.35 GHz por $ 2600. Esto significa que obtienes relojes más altos, mejores núcleos, el doble del L3 y tantos núcleos como el 7601; en otras palabras, el 7502 es mejor en todos los sentidos, pero en comparación con el 7601, viene con un impresionante descuento del 40% ($ 2600 contra $ 4200).

Hay algo mas. A diferencia de la estrategia de segmentación del mercado de Intel, que hace que la vida de las personas de infraestructura empresarial sea más complicada de lo que debería ser, AMD no quema fusibles en SKU más baratas para crear un ‘valor’ artificial para comprar SKU más caras. El 7252 de 8 núcleos más barato tiene todos los 128 carriles PCIe 4.0, admite hasta 4 TB por zócalo, tiene una Infinite Fabric a la misma velocidad e incluye todas las características de virtualización y seguridad como el mejor producto.

Comparación con Intel

En la siguiente tabla, hemos realizado una comparación de ejemplo base con algunos de los SKU de Intel. Dado que Intel es dominante en el mercado, los posibles compradores deben obtener un bono de precio significativo o un TCO significativamente menor antes de cambiar a AMD.

En nuestra comparación, también hemos ignorado el hecho de que AMD admite hasta 4 TB por zócalo y tiene 128 carriles PCIe 4.0, que supera a Intel en ambos frentes. Si bien la cantidad de personas que comprarán DIMM de 256 GB es mínima en el mejor de los casos, dentro del margen de error del mercado, para nosotros es simplemente ridículo que Intel espere que los usuarios empresariales tomen otros miles de dólares por CPU para un modelo que admita 2 TB, mientras obtienes eso gratis de AMD.

En cuanto al papel, especialmente en la gama alta, Intel está completamente superado. Un Xeon 8276M de 28 núcleos tiene un precio de lista de ~ $ 12k, mientras que AMD cobra “solo” $ 7k por más del doble de núcleos. La única ventaja que mantiene Intel es un reloj de un solo hilo ligeramente más alto (4 GHz) y soporte AVX-512. Se podría argumentar que el TDP es más bajo, pero eso tiene que medirse, y francamente hay una buena probabilidad de que un núcleo de 64 (a 2.25-3.2 GHz) pueda mantenerse con dos Intel Xeon 8276 (2×28 núcleos a 2.2-2.8 GHz), a la vez que ofrece un consumo de energía mucho menor (placa de toma única frente a placa doble, 225W frente a 2x165W).

AMD es aún más generoso en el rango medio. El EPYC 7552 ofrece el doble de núcleos en relojes más altos que el Xeon Platinum 8260, que es posiblemente una de las CPU Xeon Platinum más populares. Lo mismo es cierto para el EPYC 7452, que todavía cuesta menos que el Xeon Gold 6242. Solo en el extremo más bajo, las diferencias se hacen más pequeñas.

Enchufe simple

Para sistemas de socket único, AMD ofrecerá los siguientes cinco procesadores a continuación. Estos procesadores reflejan las especificaciones de las contrapartes 2P, pero tienen una P en el nombre y precios ligeramente diferentes.

Esta tabla también deja en claro cuánta frecuencia extra AMD extrajo del proceso TSMC de 7 nm. El EPYC 7302P de dieciséis núcleos funciona a 3.0 GHz con todos los núcleos, mientras que el EPYC 7351 estaba limitado a 2.4 GHz con el mismo TDP de 155W.

Nuevamente, el EPYC 7502P parece una de las mejores ofertas del mercado de CPU para servidores. Este SKU puede ofrecer muchas ventajas en comparación con los servidores de doble socket actuales. If ofrece un rendimiento de un solo hilo muy potente (aumento de 3.35 GHz) y un muy alto 2.5 GHz cuando se utilizan todos los núcleos, incluso cuando se ejecuta el código AVX2. En segundo lugar, un servidor de socket único tiene una BOM más baja y un consumo de energía más bajo (200W) en comparación con un sistema dual de 16 núcleos. Por último, admite hasta 1-2 TB de manera realista (DIMM de 64-128 GB) y tiene un amplio ancho de banda de E / S con 128 carriles PCIe 4.0.

Ley de murphy: Cualquier cosa que pueda ir mal, irá mal

Para aquellos de ustedes que tal vez no lo sepan, soy Director Académico de MCT en la Universidad de Howest aquí en Bélgica. Realizo investigaciones en nuestros laboratorios aquí sobre análisis de big data, virtualización, computación en la nube y tecnología de servidores en general. Hacemos todas las pruebas aquí en el laboratorio, y también lanzo las pruebas de artículos para AnandTech.

Sin lugar a dudas, como la mayoría de las instituciones académicas, tenemos unas vacaciones de verano, donde nuestros laboratorios están cerrados y nos dicen que tomemos un poco de luz solar. El lanzamiento de AMD Roma se produjo justo cuando comenzó el cierre de nuestro laboratorio, por lo que tuve el servidor Roma entregado en mi laboratorio local. El único problema era que nuestro servidor Intel correspondiente todavía estaba en el laboratorio académico. Normalmente, esto no es realmente un problema: incluso cuando el laboratorio está abierto, emito pruebas a través de acceso remoto y proceso los datos de esa manera, para reiniciar el sistema y ejecutar pruebas, etc. Si se necesita un cambio de hardware, necesito estar físicamente allí, pero generalmente esto no es un problema.

Sin embargo, como lo diría la Ley de Murphy, durante las pruebas para esta revisión, nuestro controlador de dominio también se bloqueó mientras nuestros laboratorios estaban cerrados. No pudimos llegar a nuestros servidores más antiguos. Esto nos ha limitado un poco en nuestras pruebas: si bien puedo probar este sistema de Roma durante las horas normales en el laboratorio doméstico (realmente no puedo ejecutarlo durante la noche, es un servidor y, por lo tanto, es ruidoso), no pude emitir ningún punto de referencia para nuestro Sistemas de Nápoles / Cascade Lake en el laboratorio.

Como resultado, nuestra única opción era limitarnos a los puntos de referencia ya realizados en las máquinas EPYC 7601, Skylake y Cascade Lake. Tenga la seguridad de que volveremos con nuestros Big Data / AI habituales y otras pruebas del mundo real una vez que podamos poner en funcionamiento nuestra infraestructura de pruebas completa.

Configuración y metodología de referencia

Todas nuestras pruebas se realizaron en Ubuntu Server 18.04 LTS, excepto el servidor EPYC 7742, que ejecutaba Ubuntu 19.04. La razón era simple: nos dijeron que 19.04 había validado el soporte para Roma, y ​​con dos semanas de tiempo de prueba, queríamos completar lo que era posible. El soporte (incluidos los parches X2APIC / IOMMU para utilizar 256 hilos) para Roma está disponible con Linux Kernel 4.19 y posterior.

Notará que la capacidad de DRAM varía entre las configuraciones de nuestros servidores. Por supuesto, esto es el resultado del hecho de que los Xeons tienen acceso a seis canales de memoria, mientras que las CPU EPYC tienen ocho canales. Hasta donde sabemos, todas nuestras pruebas caben en 128 GB, por lo que la capacidad de DRAM no debería tener mucha influencia en el rendimiento.
AMD Daytona – Dual EPYC 7742

AMD nos envió el servidor “Daytona XT”, una plataforma de referencia construida por ODM Quanta (D52BQ-2U).

UPC AMD EPYC 7742 (2.25 GHz, 64c, 256 MB L3, 225W)
RAM 512 GB (16×32 GB) Micron DDR4-3200
Discos internos SAMSUNG MZ7LM240 (disco de arranque)
Micron 9300 3.84 TB (datos)
Tarjeta madre Referencia de Daytona: S5BQ
PSU PWS-1200

Aunque las CPU TDP de 225 W necesitan tubos de calor y disipadores de calor adicionales, todavía funcionan con refrigeración por aire …

AMD EPYC 7601 – (Chasis 2U)

UPC Dos EPYC 7601 (2.2 GHz, 32c, 8x8MB L3, 180W)
RAM 512 GB (16×32 GB) Samsung DDR4-2666 @ 2400
Discos internos SAMSUNG MZ7LM240 (disco de arranque)
Intel SSD3710 800 GB (datos)
Tarjeta madre AMD Speedway
PSU Fuente de alimentación de 1100 W (80+ platino)

Servidor Intel Xeon “Purley” – S2P2SY3Q (chasis 2U)
UPC Dos Intel Xeon Platinum 8280 (2.7 GHz, 28c, 38.5MB L3, 205W)
Dos Intel Xeon Platinum 8176 (2.1 GHz, 28c, 38.5MB L3, 165W)
RAM 384 GB (12×32 GB) Hynix DDR4-2666
Discos internos SAMSUNG MZ7LM240 (disco de arranque)
Micron 9300 3.84 TB (datos)
Tarjeta madre Intel S2600WF (placa base Wolf Pass)
Chipset Intel Wellsburg B0
PSU Fuente de alimentación de 1100 W (80+ platino)

Permitimos el hiperhilo y la aceleración de virtualización Intel.

Subsistema de memoria: ancho de banda

Como hemos informado antes, medir el potencial de ancho de banda completo con el punto de referencia de ancho de banda Stream de John McCalpin se ha convertido en una cuestión de ajuste extremo, que requiere una comprensión muy profunda de la plataforma.

Si utilizamos nuestros binarios anteriores, tanto la EPYC de primera como la segunda generación no podrían superar los 200-210 GB / s. Daba la impresión de toparse con un “muro de ancho de banda”, a pesar del hecho de que ahora teníamos DDR4-3200 de 8 canales. Así que utilizamos los resultados que producen los mejores binarios de Intel y AMD usando AVX-512 (Intel) y AVX-2 (AMD).

Los resultados se expresan en gigabytes por segundo.

AMD puede alcanzar números aún más altos con la configuración “número de nodos por socket” (NPS) establecida en 4. Con 4 nodos por socket, AMD informa hasta 353 GB / s. NPS4 hará que el CCX solo acceda a los controladores de memoria con la latencia más baja en el chip central IO Hub.

Esos números solo son importantes para un pequeño nicho de aplicaciones HPC cuidadosamente optimizadas AVX (-256/512). AMD afirma una ventaja del 45% en comparación con las mejores SKU de Intel (28 núcleos). Tenemos todas las razones para creerles, pero solo es relevante para un nicho.

Para el resto del mundo empresarial (probablemente más del 95%), la latencia de memoria tiene un impacto mucho mayor que el ancho de banda máximo.

Subsistema de memoria: latencia

AMD eligió compartir un diseño central entre dispositivos móviles, computadoras de escritorio y servidores por razones de escalabilidad y económicas. El Core Complex (CCX) todavía se usa en Roma como en la generación anterior.

Lo que ha cambiado es que cada CCX se comunica con el centro de E / S central, en lugar de cuatro dados que se comunican en un diseño NUMA de 4 nodos. Entonces, como el rendimiento de las CPU modernas depende en gran medida del subsistema de caché, teníamos más que curiosidad sobre qué tipo de latencia vería un subproceso de servidor al acceder a más y más páginas en la jerarquía de caché.

Utilizamos LMBench en un esfuerzo por intentar medir la latencia de memoria caché y. Los números que vimos fueron “Velocidad de latencia de carga aleatoria = 16 bytes”. La naturaleza aleatoria y el paso de 16 bytes aseguran que los captadores no sean capaces de predecir el flujo de datos.

Las cosas se ponen realmente interesantes cuando comenzamos a mirar 2 MB y más, cuando se accede a los cachés L3. Los núcleos pueden acceder a las páginas muy rápido siempre que permanezca dentro del caché L3 que es local para el CCX de 4 núcleos: 8 MB para la EPYC de primera generación, 16 MB para la segunda generación.

Una vez que haya superado los 16 MB, los diseños de caché en anillo (Xeon E5 v4) y Mesh (Xeon S) son claramente mejores. El caché Intel L3 mantiene la latencia consistentemente baja siempre que permanezca dentro del caché L3. Todos los núcleos tienen acceso a 38.5 MB (Xeon 8180, 8176) o incluso a 55 MB (Xeon E5-2699 v4).

Mirando los números de AMD por encima de 16 MB, está claro que no hay 256 MB de caché L3 de gran tamaño. El AMD EPYC 7742 consiste más bien en 16 CCX que tienen un relativamente rápido 16 MB L3. Entonces, aunque los 64 núcleos son un gran nodo NUMA ahora, el chip de 64 núcleos es básicamente 16x 4 núcleos, cada uno con 16 MB de cachés L3. Una vez que supere ese caché de 16 MB, los captadores previos pueden suavizar el golpe, pero accederá a la DRAM principal.

Un poco extraño es el hecho de que acceder a los datos que residen en el mismo dado (CCD) pero que no están dentro del mismo CCX es tan lento como acceder a los datos en un dado totalmente diferente. Esto se debe a que, independientemente de dónde esté el otro CCX, si está cerca en el mismo dado o en el otro lado del chip, el acceso a los datos todavía tiene que pasar por el IF al dado IO y viceversa.

¿Es eso necesariamente algo malo? La respuesta: la mayoría de las veces no lo es. En primer lugar, en la mayoría de las aplicaciones solo el caché L3 debe responder a un bajo porcentaje de accesos. En segundo lugar, cada núcleo en el CCX tiene no menos de 4 MB de L3 disponibles, que es mucho más de lo que los núcleos de Intel tienen a su disposición (1.375 MB). Los prefetchers tienen mucho más espacio para asegurarse de que los datos estén allí antes de que se necesiten.

Pero el rendimiento de la base de datos aún podría sufrir algo. Por ejemplo, mantener una gran parte del índice en la memoria caché mejora el rendimiento, y especialmente los accesos OLTP tienden a ser bastante aleatorios. En segundo lugar, la comunicación relativamente lenta sobre un concentrador central ralentiza la comunicación de sincronización. El hecho de que Intel afirma que el OLTP hammerDB funciona un 60% más rápido en un Intel Xeon 8280 de 28 núcleos que en el EPYC 7601. demuestra que esto es algo real. No pudimos verificarlo antes de la fecha límite, pero parece razonable.

Pero para la gran mayoría de estas CPU de gama alta, ejecutarán muchas aplicaciones paralelas, como microservicios, contenedores acoplables, máquinas virtuales, mapeo / reducción de pequeñas cantidades de datos y trabajos paralelos de HPC. En casi todos los casos, 16 MB L3 para 4 núcleos es más que suficiente.

Aunque ahora que lo pienso, cuando se ejecuta una máquina virtual de 8 núcleos puede haber pequeños casos en los que el rendimiento sufre un poco (poco).

En resumen, AMD deja aún un poco de rendimiento en la mesa al no usar un CCX de 8 núcleos más grande. Esperamos ver qué pasa en futuras plataformas.

Subsistema de memoria: TinyMemBench

Verificamos dos veces nuestros números de LMBench con la prueba de latencia de memoria personalizada de Andrei .

La herramienta de latencia también mide el ancho de banda y quedó claro que una vez que superamos los 16 MB, se accede a DRAM. Cuando Andrei se comparó con nuestros números Ryzen 9 3900x, observó:

Los prefetchers en la plataforma de Roma no se ven tan agresivos como en la unidad Ryzen en la L2 y L3

Parece que algunas partes de los captadores previos están ajustados para Roma en comparación con Ryzen 3000. En efecto, los captadores previos son menos agresivos que los del consumidor, y creemos que AMD ha tomado esta decisión por el hecho de que bastantes aplicaciones (Java y HPC) sufren un poco si los prefetchers ocupan demasiado ancho de banda. Al hacer que los prefetchers sean menos agresivos en Roma, podría ayudar al rendimiento en esas pruebas.

Si bien no pudimos volver a probar todos nuestros servidores con la prueba de latencia de memoria de Andrei antes de la fecha límite (consulte la sección “Ley de Murphy” en la página 5), ​​recurrimos a nuestros resultados de referencia TinyMemBench de código abierto . La fuente se compiló para x86 con GCC y el nivel de optimización se estableció en “-O3”. La medida se describe bien en el manual de TinyMemBench:

El tiempo promedio se mide para accesos aleatorios de memoria en las memorias intermedias de diferentes tamaños. Cuanto más grande es el búfer, más significativas son las contribuciones relativas de TLB, los fallos de caché L1 / L2 y los accesos DRAM. Todos los números representan tiempo adicional, que debe agregarse a la latencia de caché L1 (4 ciclos).

Probamos con lectura aleatoria dual, ya que queríamos ver cómo el sistema de memoria hacía frente a múltiples solicitudes de lectura.

El gráfico muestra cómo el caché L3 más grande del EPYC 7742 resulta en una latencia mucho menor entre 4 y 16 MB, en comparación con el EPYC 7601. El caché L3 dentro del CCX también es muy rápido (2-8 MB) en comparación con Intel Mesh (8280) y topologías de anillo (E5).

Sin embargo, una vez que accedemos a más de 16 MB, Intel tiene una clara ventaja debido a la caché L3 compartida más lenta pero mucho más grande. Cuando probamos las nuevas CPU EPYC en una configuración NUMA más avanzada (con configuración NPS = 4, que significa 4 nodos por socket), la latencia a 64 MB bajó de 129 a 119. Citamos la ingeniería de AMD:

En NPS4, los dominios NUMA se informan al software de tal manera que los chiplets siempre acceden a la DRAM cercana (2 canales). En NPS1, los 8 canales están entrelazados por hardware y hay más latencia para llegar a otros. Varía por pares de canales DRAM, siendo el más alejado ~ 20-25ns (dependiendo de las diferentes velocidades) más alejado que el más cercano. En general, las latencias son + ~ 6-8ns, + ~ 8-10ns, + ~ 20-25ns en pares de canales frente a los físicamente más cercanos “.

Eso también explica por qué AMD afirma que las cargas de trabajo seleccionadas logran un mejor rendimiento con NPS = 4.

Estimaciones de CPU de 2006 de un solo hilo SPEC

Si bien puede haber sido reemplazado por SPEC2017, hemos acumulado mucha experiencia con SPEC CPU2006. Teniendo en cuenta los problemas que experimentamos con nuestra infraestructura de centro de datos, fue nuestra mejor opción de primera ronda para el análisis de rendimiento sin procesar.

El rendimiento de un solo subproceso sigue siendo muy importante, especialmente en situaciones de mantenimiento y configuración. Estos ejemplos pueden incluir ejecutar un script bash masivo, probar una consulta SQL muy compleja o configurar un nuevo software; hay muchas veces en que un usuario simplemente no usa todos los núcleos.

Aunque SPEC CPU2006 está más orientado a HPC y estaciones de trabajo, contiene una buena variedad de cargas de trabajo enteras. Es nuestra convicción que debemos tratar de imitar cómo se compila el software crítico para el rendimiento en lugar de tratar de lograr los puntajes más altos. Para ese fin, nosotros:

• usé gcc de 64 bits: con mucho, el compilador más utilizado en Linux para cargas de trabajo de enteros, un buen compilador completo que no intenta “romper” los puntos de referencia (libquantum …) o favorecer una determinada arquitectura
• usé gcc versión 7.4 y 8.3 : compilador estándar con Ubuntu 18.04 LTS y 19.04.
• usé la optimización -Ofast -fno-estricta-alias: un buen equilibrio entre el rendimiento y mantener las cosas simples
• se agregó “-std = gnu89” a la configuración de portabilidad para resolver el problema que algunas pruebas no compilarán

El objetivo final es medir el rendimiento en aplicaciones “no agresivamente optimizadas” donde, por alguna razón, como suele ser el caso, una tarea hostil de múltiples hilos nos hace esperar. La desventaja es que todavía hay algunas situaciones en las que gcc genera un código subóptimo , lo que causa un gran revuelo en comparación con los resultados ICC o AOCC que están optimizados para buscar optimizaciones específicas en el código SPEC.

Primero los resultados de un solo hilo. Es importante tener en cuenta que gracias a la tecnología turbo, todas las CPU funcionarán a velocidades de reloj más altas que su velocidad de reloj base.

• El Xeon E5-2699 v4 (“Broadwell”) es capaz de aumentar hasta 3.6 GHz. Nota: estos son resultados antiguos compilados con GCC 5.4
• El Xeon 8176 (“Skylake-SP”) es capaz de aumentar hasta 3.8 GHz.
• El EPYC 7601 (“Nápoles”) es capaz de aumentar hasta 3.2 GHz.
• El EPYC 7742 (“Roma”) aumenta a 3.4 GHz. Los resultados se compilan con GCC 7.4 y 8.3

Desafortunadamente, no pudimos probar el Intel Xeon 8280 a tiempo para estos datos. Sin embargo, el Intel Xeon 8280 ofrecerá resultados muy similares, la principal diferencia es que ejecuta un reloj un 5% más alto (4 GHz frente a 3,8 GHz). Así que básicamente esperamos que los resultados sean 3-5% más altos que el Xeon 8176.

Según las reglas de licencia de SPEC, como estos resultados no se han enviado oficialmente a la base de datos de SPEC, tenemos que declararlos como Resultados estimados.

Un análisis de CPU SPEC siempre es complicado, ya que es una combinación de qué tipo de código produce el compilador y la arquitectura de la CPU.

En primer lugar, el punto de datos más interesante fue el hecho de que el código generado por gcc 8 parece haber mejorado enormemente para los procesadores EPYC. Repetimos la prueba de un solo subproceso tres veces, y los números de velocidad muestran lo mismo: es muy consistente.

hmmer es uno de los puntos de referencia más intensivos en sucursales, y las otras dos cargas de trabajo en las que el impacto de la predicción de sucursales es mayor (un porcentaje algo mayor de fallas en las sucursales) – gobmk, sjeng – tienen un desempeño consistentemente mejor en el EPYC de segunda generación con su nuevo predictor TAGE.

Por qué el omnetpp de bajo IPC (“sim de red”) no muestra ninguna mejora es un misterio para nosotros, esperábamos que el caché L3 más grande ayudaría. Sin embargo, esta es una prueba que ama los cachés muy grandes, como resultado, los Intel Xeons tienen la ventaja (38.5 – 55 MB L3).

El punto de referencia de codificación de video ” h264ref ” también se basa un poco en el caché L3, pero ese punto de referencia se basa mucho más en el ancho de banda de DRAM. El hecho de que el EPYC 7002 tiene un mayor ancho de banda DRAM es claramente visible.

Los puntos de referencia de búsqueda de punteros (procesamiento XML y búsqueda de rutas) obtuvieron un rendimiento inferior al óptimo en la generación EPYC anterior (en comparación con los Xeons), pero muestran mejoras muy significativas en EPYC 7002.

Multi-core SPEC CPU2006

Para el registro, no creemos que la métrica “Velocidad” de la CPU SPEC tenga mucho valor para estimar el rendimiento de la CPU del servidor. La mayoría de las aplicaciones no ejecutan muchos procesos completamente separados en paralelo; Al menos hay alguna interacción entre los hilos. Pero como el punto de referencia a continuación causó tanta discusión, queríamos satisfacer la curiosidad de nuestros lectores.

Repetimos: la prueba de tasa SPECint probablemente no sea realista. Si inicia entre 112 y 256 instancias, crea un cuello de botella masivo de ancho de banda, no hay sincronización y hay una carga de CPU constante del 100%, todo lo cual es muy poco realista en la mayoría de las aplicaciones enteras.

Los resultados estimados de la tasa SPECint enfatizan todas las fortalezas de la nueva CPU EPYC: más núcleos, mucho más ancho de banda. Y en ese momento ignora una de las desventajas más pequeñas: mayor latencia intercore. Así que este es realmente el caso ideal para los procesadores EPYC.

Sin embargo, incluso si tenemos en cuenta que AMD tiene una ventaja de ancho de banda de memoria del 45% y que el último chip de Intel (8280) ofrece un rendimiento de 7 a 8% mejor, esto es sorprendente. Los números de tasa SPECint del EPYC 7742 son, en promedio, simplemente el doble que los de los mejores Intel Xeons enchufables disponibles.

Curiosamente, vimos que la mayoría de los puntos de referencia de tasa se ejecutaron en el reloj P1 o en el estado p más alto menos uno. Por ejemplo, esto es lo que vimos al ejecutar libquantum:

Mientras que algunos puntos de referencia como h264ref se ejecutaban en relojes más bajos.

El servidor actual no nos permite realizar mediciones de potencia precisas, pero si el AMD EPYC 7742 puede permanecer dentro del TDP de 225 W mientras ejecuta cargas de trabajo enteras en todos los núcleos a 3,2 GHz, sería bastante sorprendente. En pocas palabras: el nuevo EPYC 7742 parece ser capaz de soportar relojes más altos que los modelos Intel comparables mientras ejecuta cargas de trabajo enteras en todos los núcleos.

Legado: 7-zip

Si bien la compresión y la descompresión independientes no son puntos de referencia del mundo real (al menos en lo que respecta a los servidores), los servidores deben realizar estas tareas como parte de una función más importante (por ejemplo, compresión de bases de datos, optimización de sitios web). Dicho esto, le sugerimos que tome estos puntos de referencia con un gran grano de sal, ya que no son realmente importantes en un gran esquema de cosas. Todavía utilizamos 7zip 9.2, por lo que puede comparar con resultados mucho más antiguos.

La compresión en los núcleos modernos se basa casi exclusivamente en la memoria caché, la latencia de memoria y la eficiencia de TLB. Definitivamente, esta no es la situación ideal para la CPU EPYC de AMD, pero la EPYC 7742 escala muy bien, ofreciendo un 77% más de rendimiento que Nápoles. Eso es mejor de lo esperado.

La descompresión se basa en instrucciones enteras menos comunes (cambio, multiplicación). El núcleo Zen2 de AMD maneja estas instrucciones aún mejor porque duplicar los núcleos da como resultado un rendimiento no inferior al 127% (!).

Aunque este punto de referencia no es tan importante, sin embargo, es impresionante cómo AMD Engineering hizo que este gráfico se vea. Nunca hemos visto los puntos de referencia dominantes de AMD por un margen tan amplio.

Antes de que las personas nos acusen de elegir un punto de referencia que muestre AMD de la mejor manera, considere este punto de referencia como una de nuestras pruebas sintéticas más que cualquier otra cosa, diseñada para mostrar el potencial del puerto de ejecución central. Realmente no es indicativo de ningún rendimiento en el mundo real, pero actúa como un sintético para aquellos que han solicitado estos datos.

Rendimiento de Java

El punto de referencia SPECjbb 2015 tiene “ un modelo de uso basado en una empresa de supermercados mundial con una infraestructura de TI que maneja una combinación de solicitudes de puntos de venta, compras en línea y operaciones de minería de datos “. Utiliza las últimas características de Java 7 y utiliza XML, comunicación comprimida y mensajes con seguridad.

Probamos SPECjbb con cuatro grupos de inyectores de transacciones y backends. La razón por la que usamos la prueba “Multi JVM” es que es más realista: múltiples VM en un servidor es una práctica muy común.

La versión de Java fue OpenJDK 1.8.0_222. Utilizamos el JDK 8 anterior, ya que el JDK 11 más reciente ha eliminado algunos módulos obsoletos de JAVA EE que SPECJBB 1.01 necesita. Aplicamos un ajuste relativamente básico para imitar el uso en el mundo real, con el objetivo de adaptar todo dentro de un servidor con 128 GB de RAM:

-server -Xmx24G -Xms24G -Xmn16G -XX: + AlwaysPreTouch -XX: + BiasedLocking

Probamos con grandes páginas de vez en cuando.

El siguiente gráfico muestra los números de rendimiento máximo para nuestra prueba MultiJVM SPECJbb. Dado que la prueba es casi idéntica a la que hemos utilizado en nuestra revisión ThunderX2 (JDK8 1.8.0_166), también incluimos la CPU del servidor Cavium.

En última instancia, publicamos estos números con una advertencia: no debe comparar esto con los números oficiales publicados por SPECJBB2015, porque ejecutamos nuestra prueba de manera ligeramente diferente a las especificaciones de ejecución oficiales. Creemos que nuestros números tienen tanto sentido (y tal vez más) ya que la mayoría de los usuarios profesionales no irán por la última caída de rendimiento. El uso de estas configuraciones ultra optimizadas puede dar lugar a errores inconsistentes irrepetibles y difíciles de depurar; en el mejor de los casos, dará como resultado un rendimiento inferior, ya que son muy específicos de SPECJBB. Simplemente no vale la pena, un profesional se mantendrá con la optimización básica y confiable en el mundo real que no es HPC. En el mundo HPC, simplemente vuelve a ejecutar su trabajo en caso de error. Pero en el resto del mundo empresarial, usted hizo que muchos usuarios fueran muy infelices y creó mucho trabajo para (con suerte) empleados bien remunerados.

El rendimiento del EPYC 7742 es excelente, superando al mejor Intel Xeon disponible en un 48%.

Tenga en cuenta que la CPU EPYC funciona mejor con páginas pequeñas (4 KB) que con páginas grandes (2 MB). Las páginas pequeñas TLB de AMD son enormes y, como resultado, las caminatas de tabla de páginas (PTW) rara vez tienen páginas grandes. Si el número de PTW ya es muy bajo, no puede obtener muchos beneficios al aumentar el tamaño de la página.

¿Qué hay de Cavium? Bueno, el ThunderX2 de 32 núcleos fue horneado con una tecnología de proceso de 16 nm. Por lo tanto, no los descarte: Cavium tiene una oportunidad única, ya que también mueven el ThunderX3 a 7 nm FFN TSMC.

Para ser justos con AMD, podemos mejorar el rendimiento aún más usando numactl y vinculando la JVM a ciertas CPU. Sin embargo, rara vez lo desea, y felizmente intercambia ese rendimiento adicional por la flexibilidad de poder iniciar nuevas JVM cuando las necesite y dejar que el servidor se encargue de ello. Es por eso que compra esos servidores con un gran número de núcleos. Estamos en el mundo de los micro servicios, los contenedores acoplables, no en los primeros años del siglo XXI.

Ok, ¿y si haces eso de todos modos? AMD ofreció algunos números, mientras que los comparó con los números SPEJBB publicados oficialmente de Lenovo ThinkSystem SR650 (Intel Dual 8280).

AMD logra 335600 mediante el uso de 4 JVM por nodo, uniéndolos a “nodos virtuales NUMA”.

Al igual que Intel, AMD usa Oracle JDK, pero hay más en estos números récord. Algunos trucos que solo las personas de evaluación comparativa pueden usar para impulsar SPECJBB:

• Deshabilitar estados p y configurar el sistema operativo al máximo rendimiento (en lugar de equilibrado)
• Deshabilitar la protección de memoria (patrulla scrub)
• Usar un recolector de basura más antiguo porque es mejor en Specjbb
• Configuraciones de kernel no predeterminadas
• Optimizaciones agresivas de Java
• Deshabilitar estadísticas y monitoreo de JVM

En resumen, no creemos que sea aconsejable imitar estas configuraciones, pero digamos que el nuevo EPYC 7742 de AMD es entre 48 y 72% más rápido. ¡Y en ambos casos, eso es significativo!

Rendimiento de Java

Aunque nuestras pruebas no son el caso ideal para AMD (probablemente elegiría 8 o incluso 16 back-end), el EPYC supera al Xeon 8176. El uso de 8 JVM aumenta la brecha del 1% al 4-5%.

La métrica Critical-jOPS es una métrica de rendimiento bajo restricción de tiempo de respuesta.

Con este número de subprocesos activos, puede obtener Critical-jOps mucho más altos al aumentar significativamente la RAM por JVM. Sin embargo, no queríamos eso, ya que esto significaría que no podemos compararlo con sistemas que solo pueden acomodar 128 GB de RAM. Observe cuán mal el sistema Intel necesita páginas enormes.

Los datos de referencia de Intel y AMD se pueden encontrar a continuación.

Según AMD, el EPYC 7742 puede ser hasta un 66% más rápido. Sin embargo, tenga en cuenta que este tipo de puntajes altos para jOPS críticos a veces se configuran con 1 TB de RAM y más.

HPC: NAMD

Desarrollado por el Grupo de Biofísica Teórica y Computacional de la Universidad de Illinois Urbana-Champaign, NAMD es un conjunto de códigos de dinámica molecular paralelos para paralelización extrema en miles de núcleos. NAMD también es parte de SPEC CPU2006 FP. A diferencia de los puntos de referencia FP anteriores, el binario NAMD está compilado con Intel ICC y optimizado para AVX y AVX-512.

El binario NAMD está compilado con Intel ICC, optimizado para AVX y en su mayoría de precisión de coma flotante (fp32) . Para nuestras pruebas, utilizamos el binario ” NAMD _2.13_ Linux-x86 _ 64-multicore “. En algún momento queremos usar esta prueba con AOCC o un binario optimizado AMD similar, pero no pudimos hacerlo para esta revisión.

Utilizamos la carga de referencia más popular, apoa1 ( Apolipoprotein A1). Los resultados se expresan en nanosegundos simulados por día de reloj de pared. Medimos a 500 pasos.

Incluso sin AVX-512 y la optimización óptima de AVX, el 7742 ya ofrece el mismo tipo de rendimiento que un binario Intel ultra optimizado en la parte superior de la línea Xeon 8280. Cuando se hace una comparación de manzanas con manzanas, el EPYC 7742 no es menos del 43% más rápido.

AMD afirma una ventaja del 35% (3.8 ns / días frente a 2.8 ns / días) y eso parece confirmar nuestra propia evaluación comparativa preliminar.

Consumo energético

Primeras impresiones

Debido a problemas de mala suerte y sincronización, no hemos podido probar la última CPU de los servidores Intel y AMD en nuestras cargas de trabajo más exigentes. Sin embargo, las métricas que pudimos realizar muestran que AMD está ofreciendo un producto que empuja a Intel por el rendimiento y roba el programa por rendimiento por dólar.

Para aquellos con poco tiempo: en el extremo superior con CPUs x86 enchufadas, AMD le ofrece un rendimiento de hasta un 50 a un 100% más alto al tiempo que ofrece un precio 40% más bajo. A menos que elija las CPU de servidor de gama baja, no hay competencia: AMD ofrece un rendimiento mucho mejor por un precio mucho más bajo que Intel, con más canales de memoria y más del doble de carriles PCIe. Estos también son carriles PCIe 4.0. ¿Qué sucede si desea más de 2 TB de RAM en su servidor de doble socket? El descuento a favor de AMD acaba de convertirse en 50%.

Solo podemos aplaudir esto con entusiasmo, ya que empodera a todos los profesionales que no disfrutan del mismo poder de negociación que las Amazonas, Azure y otros jugadores a gran escala de este mundo. Gasta alrededor de $ 4k y obtienes 64 núcleos EPYC de segunda generación. Las ofertas de 1P ofrecen ofertas aún mejores para aquellos con un presupuesto ajustado.

Entonces, ¿AMD ha hecho lo impensable? ¿Golpeado a Intel por un margen tan grande que no hay competencia? Por ahora, según nuestras pruebas preliminares, ese es el caso. El lanzamiento de los procesadores EPYC de segunda generación de AMD es histórico, superando a la competencia por un amplio margen en casi todas las métricas: rendimiento, rendimiento por vatio y rendimiento por dólar.

Los analistas de la industria han declarado que AMD espera duplicar su participación en el mercado de servidores para el segundo trimestre de 2020, y hay muchas razones para creer que AMD tendrá éxito. El AMD EPYC es una plataforma de servidor extremadamente atractiva con una relación inmejorable de rendimiento por dólar.

La defensa inmediata más probable de Intel será bajar sus precios para un número selecto de clientes importantes, que no se harán públicos. También es probable que la compañía muestre sus procesadores Xeon Platinum 9200 series de 56 núcleos, que no viene para socket y solo están disponibles de un número limitado de proveedores, y se enumeran sin precio, por lo que no hay una determinación firme sobre el valor de esos procesadores. En última instancia, si Intel quisiera una comparación de núcleo por núcleo aquí, hubiéramos esperado que contactaran y ofrecieran un sistema Xeon 9200 para probar. Eso no sucedió. Pero esté atento a los mensajes de Intel en los próximos meses.

Como saben, Ice Lake es la respuesta más prometedora de Intel, y ese chip estará disponible en algún lugar a mediados de 2020. Ice Lake promete un IPC 18% más alto , ocho en lugar de seis canales de memoria y debería poder ofrecer 56 o más núcleos en sobre potencia razonable, ya que utilizará el proceso de 10 nm más avanzado de Intel. La gran pregunta será en torno a la implementación del diseño, si usa chiplets, cómo funciona la memoria y las frecuencias que pueden alcanzar.

En general, AMD ha hecho un trabajo estelar. La ciudad puede estar construida sobre siete colinas, pero el diseño de chiplet de 8×8 núcleos de Roma es un fenómeno verdaderamente cultural de la industria de los semiconductores.

Revisaremos más puntos de referencia de Big Data hasta agosto y septiembre, y esperamos tener pronto revisiones de puntos de referencia de chips individuales. Estén atentos para aquellos a medida que podamos adquirir el otro hardware.


1 comentario

Maikel · 8 agosto, 2019 a las 12:31 pm

en resumen, comprado con los mejores de Intel, mas o menos
+ 90% de rendimiento
+ nucleos, (+60% de los “equivalentes” de intel)
– 40% del precio
– consumo
+ ancho de banda
+ PCIe 4.0
+ densidad de computo

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *