Revisión y análisis profundo de AMD Zen 3 Ryzen: 5950X, 5900X, 5800X y 5600X

Cuando AMD anunció que su nuevo núcleo Zen 3 era un rediseño desde cero y ofrecía un liderazgo de rendimiento completo, tuvimos que pedirles que confirmaran si eso era exactamente lo que dijeron. A pesar de tener menos del 10% del tamaño de Intel, y muy cerca de colapsar como empresa en 2015, las apuestas que hizo AMD en ese período de tiempo con su microarquitectura Zen de próxima generación y diseños Ryzen ahora están dando frutos. Zen 3 y los nuevos procesadores Ryzen 5000, para el mercado de las computadoras de escritorio, son la consecución de esos objetivos: no solo el rendimiento por vatio y el rendimiento por dólar son líderes, sino el liderazgo absoluto en rendimiento en cada segmento. Entramos en la nueva microarquitectura y probamos los nuevos procesadores. AMD es el nuevo rey y tenemos los datos para demostrarlo.

¡Nuevo núcleo, mismo 7 nm, más de 5,0 GHz!

Los nuevos procesadores Ryzen 5000 son reemplazos directos de la serie Ryzen 3000. Cualquiera que tenga una placa base AMD X570 o B550 en la actualidad, con la BIOS más reciente (AGESA 1081 o superior), debería poder comprar y utilizar uno de los nuevos procesadores sin problemas. Cualquiera con una placa X470 / B450 tendrá que esperar hasta el primer trimestre de 2021 a medida que se actualicen esas placas.

Como hemos cubierto anteriormente, AMD está lanzando hoy cuatro procesadores para el comercio minorista, que van desde seis núcleos hasta dieciséis núcleos.

* Viene con enfriador de CPU incluido

Todos los procesadores tienen soporte nativo para memoria DDR4-3200 según los estándares JEDEC, aunque AMD recomienda algo un poco más rápido para un rendimiento óptimo. Todos los procesadores también tienen 20 carriles de PCIe 4.0 para dispositivos complementarios.

El Ryzen 9 5950X: 16 núcleos a $ 799

El procesador superior es el Ryzen 9 5950X, con 16 núcleos y 32 subprocesos, que ofrece una frecuencia base de 3400 MHz y una frecuencia turbo de 4900 MHz; en nuestro procesador minorista, en realidad detectamos una frecuencia de un solo núcleo de 5050 MHz, lo que indica que esto El procesador turbo por encima de 5,0 GHz con suficiente margen térmico y refrigeración.

Este procesador está habilitado a través de dos chiplets de ocho núcleos (más sobre chiplets a continuación), cada uno con 32 MB de caché L3 (64 MB en total). El Ryzen 9 5950X tiene el mismo TDP que el Ryzen 9 3950X, a 105 W. La potencia máxima será de ~ 142 W, según el diseño de socket de AMD, en las placas base que lo admitan.

Para aquellos que no leen el resto de la revisión, la breve conclusión para el Ryzen 9 5950X es que incluso al precio minorista sugerido de $ 799, permite un nuevo nivel de rendimiento de grado de consumidor en todos los ámbitos. La frecuencia de un solo hilo es increíblemente alta y, cuando se combina con el nuevo diseño de núcleo con su IPC más alto, empuja las cargas de trabajo que tienen un solo núcleo limitado más allá de los mejores procesadores Tiger Lake de Intel. Cuando se trata de cargas de trabajo de subprocesos múltiples, tenemos nuevos registros para un procesador de consumo en todos los ámbitos.

El Ryzen 9 5900X: 12 núcleos a $ 549

En comparación con el mejor procesador de Intel para consumidores está el Ryzen 9 5900X, con 12 núcleos y 24 hilos, que ofrece una frecuencia base de 3700 MHz y una frecuencia turbo de 4800 MHz (se observaron 4950 MHz). Este procesador está habilitado a través de dos chiplets de seis núcleos, pero toda la caché todavía está habilitada a 32 MB por chiplet (64 MB en total). El 5900X también tiene el mismo TDP que el 3900X / 3900XT al que reemplaza a 105 W.

A $ 549, tiene un precio $ 50 más alto que el procesador que reemplaza, lo que significa que por el costo adicional del 10%, tendrá que demostrar que puede funcionar al menos un 10% mejor.

El Ryzen 7 5800X: 8 núcleos a $ 449

Después de que AMD mostró un procesador de cuatro núcleos por menos de $ 100 en la última generación, se necesita mucho descaro para ofrecer un procesador de ocho núcleos por $ 449; AMD mantiene sus afirmaciones de que este procesador ofrece mejoras sustanciales en el rendimiento generacional. El nuevo AMD Ryzen 7 5800X, con ocho núcleos y dieciséis subprocesos, está configurado para competir con el Core i7-10700K de Intel, también un procesador de ocho núcleos / dieciséis subprocesos.

El Ryzen 7 5800X tiene una frecuencia base de 3800 MHz y una frecuencia turbo nominal de 4700 MHz (detectamos 4825 MHz), y utiliza un chiplet único de ocho núcleos con un total de 32 MB de caché L3. El chiplet de un solo núcleo tiene algunos pequeños beneficios sobre un diseño de chiplet dual donde se necesita algo de comunicación entre CPU, y eso se refleja en algunos de nuestros puntos de referencia de juegos con CPU muy limitados. Este procesador también tiene 105 W TDP (~ 142 W pico).

El Ryzen 5 5600X: 6 núcleos por $ 299

El procesador más barato que AMD lanza hoy es el Ryzen 5 5600X, pero también es el único que viene con un enfriador de CPU en la caja. El Ryzen 5 5600X tiene seis núcleos y doce subprocesos, funcionando a una frecuencia base de 3700 MHz y un turbo máximo de 4600 MHz (4650 MHz medidos), y es la única CPU que recibe un TDP de 65 W (~88 W pico ).

El diseño de chiplet único significa 32 MB de caché L3 en total (técnicamente sigue siendo el mismo que un solo núcleo puede acceder a las partes de Ryzen 9, más sobre eso más adelante), y se comparará con el Core i5-10600K de seis núcleos de Intel. que también se vende en un estadio similar.

A pesar de ser el procesador más barato y técnicamente el más lento del grupo, me sorprendió enormemente el rendimiento del Ryzen 5 5600X: similar al Ryzen 9 5950X, en los puntos de referencia de un solo hilo, sorprende por completo todo lo que Intel tiene para ofrecer. – incluso Tiger Lake.

Por qué funciona Ryzen 5000: Chiplets

A un alto nivel, la nueva serie Ryzen 5000 ‘Vermeer’ parece extrañamente familiar a la serie Ryzen 3000 ‘Matisse’ de última generación. En realidad, esto es por diseño, ya que AMD está aprovechando al máximo su metodología de diseño de chiplet en los nuevos procesadores.

Para introducir algo de terminología, AMD crea dos tipos de chiplets. Uno de ellos tiene los núcleos de procesamiento principales y se denomina matriz de núcleo complejo o CCD. Este es el que se basa en el proceso de 7 nm de TSMC. El otro chiplet es un dado de interconexión con E / S, conocido como dado de E / S o IOD; este tiene los carriles PCIe, los controladores de memoria, los puertos SATA, la conexión al chipset y ayuda a controlar la entrega de energía y la seguridad. . Tanto en la generación anterior como en la nueva, AMD empareja una de sus matrices IO con hasta dos chiplets de 8 núcleos.


Procesador Ryzen 3000 sin disipador de calor, que muestra dos chiplets de núcleo y un dado de E / S.

Esto es posible porque los nuevos chiplets de núcleo contienen los mismos protocolos para interconexión, diseño físico y restricciones de energía. AMD puede aprovechar la ejecución de la plataforma y la generación anteriores de tal manera que cuando las conexiones del núcleo son idénticas, a pesar de las diferentes estructuras internas (Zen 3 frente a Zen 2), aún se pueden unir y ejecutar de una manera conocida y exitosa.

Al igual que con la generación anterior, el nuevo chiplet Zen 3 está diseñado con ocho núcleos

Zen 3 es un nuevo diseño de núcleo

Al mantener el nuevo chiplet Zen 3 de 8 núcleos con el mismo tamaño y la misma potencia, esto obviamente significa que AMD tuvo que construir un núcleo que se ajuste a esas limitaciones pero que también ofrezca una mejora en el rendimiento y la eficiencia del rendimiento para hacer un diseño más atractivo. Por lo general, al diseñar un núcleo de CPU, lo más fácil es tomar el diseño anterior y actualizar ciertas partes de él, o lo que los ingenieros llaman abordar ‘la fruta madura’ que permite la mayor aceleración con el menor esfuerzo. Debido a que los diseños del núcleo de la CPU se construyen con una fecha límite, siempre hay ideas que nunca llegan al diseño final, pero se convierten en los objetivos más fáciles para la próxima generación. Esto es lo que vimos con Zen 1 / Zen + pasando a Zen 2. Entonces, naturalmente, lo más fácil de hacer para AMD sería lo mismo de nuevo, pero con Zen 3.

Sin embargo, AMD no hizo esto. En nuestras entrevistas con el personal senior de AMD, hemos sabido que AMD tiene dos equipos de diseño de núcleos de CPU independientes que tienen como objetivo superarse entre sí a medida que construyen núcleos más nuevos y de alto rendimiento. Zen 1 y Zen 2 eran productos del primer equipo de diseño principal, y ahora Zen 3 es el producto del segundo equipo de diseño. Naturalmente, entonces esperamos que Zen 4 sea la próxima generación de Zen 3, con ‘la fruta madura’ ya resuelta.

En nuestra reciente entrevista con el director de tecnología de AMD, Mark Papermaster, nos dijeron que si miras el núcleo desde un nivel de 100,000 pies, podrías confundir fácilmente que el diseño del núcleo Zen 3 es similar al de Zen 2. Sin embargo, nos dijeron que debido a que se trata de un equipo nuevo, cada segmento del núcleo ha sido rediseñado o, al menos, actualizado. Los usuarios que sigan este espacio de cerca recordarán que el predictor de ramas utilizado en Zen 2 no estaba destinado a aparecer hasta Zen 3, lo que demuestra que incluso los diseños centrales tienen un elemento de portabilidad para ellos. El hecho de que Zen 2 y Zen 3 estén construidos en el mismo nodo de proceso TSMC N7 (el mismo PDK, aunque Zen 3 tiene las últimas actualizaciones de fabricación de rendimiento / consistencia de TMSC) también ayuda en la portabilidad de ese diseño.

AMD ya ha anunciado el cambio importante que será obvio para la mayoría de los técnicos interesados ​​en este espacio: el chiplet de núcleo base, en lugar de tener dos complejos de cuatro núcleos, tiene un solo complejo de ocho núcleos. Esto permite que cada núcleo acceda a los 32 MB completos de caché L3 de un dado, en lugar de a los 16 MB, lo que reduce la latencia de los accesos a la memoria en esa ventana de 16 a 32 MB. También simplifica la comunicación de núcleo a núcleo dentro de un chiplet. Hay un par de compensaciones para hacer esto, pero en general es una buena victoria.

De hecho, hay una cantidad significativa de diferencias en todo el núcleo. AMD ha mejorado:

• ancho de banda de predicción de rama
• cambio más rápido de las tuberías de decodificación al caché de microoperaciones,
• recuperaciones más rápidas de predicciones erróneas,
• detección mejorada de omisión de decodificación para algunos NOP / modismos de puesta a cero
• búferes más grandes y ventanas de ejecución hacia arriba y hacia abajo del núcleo,
• ramales dedicados,
• mejor equilibrio de la lógica y la generación de direcciones,
• despacho INT / FP más amplio,
• mayor ancho de banda de carga,
• mayor ancho de banda de la tienda,
• mejor flexibilidad en las operaciones de carga / almacenamiento
• FMAC más rápidos
• Una amplia variedad de operaciones más rápidas (incluido x87?)
• más andadores de TLB
• mejor predicción de las dependencias hacia adelante del almacenamiento-carga
• copia más rápida de cadenas cortas
• más soporte AVX2 (VAES, VPCLMULQD)
• Soporte DIV / IDIV sustancialmente más rápido
• aceleración de hardware de PDEP / PEXT

Muchos de estos se explicarán y ampliarán en las próximas páginas, y se observarán en los resultados de las evaluaciones comparativas. En pocas palabras, esto es algo más que una simple actualización del núcleo: estos son núcleos genuinamente nuevos y nuevos diseños que requieren nuevas hojas de papel para construir.

Varias de estas características, como búferes más amplios y mayor ancho de banda, naturalmente surgen con la pregunta de cómo AMD ha mantenido la misma potencia para Zen 3 en comparación con Zen 2. Normalmente, cuando un núcleo se ensancha, eso significa que se necesita más silicio. encendido todo el tiempo, y esto influye en la potencia estática, o si todo se usa simultáneamente, entonces hay una mayor potencia activa.

Al hablar con Mark Papermaster, señaló la destreza de AMD en la implementación física como un factor clave en esto. Al aprovechar su conocimiento del proceso de 7nm (N7) de TSMC, así como las actualizaciones de sus propias herramientas para aprovechar al máximo estos diseños, AMD pudo mantenerse neutral en cuanto a energía, a pesar de todas estas actualizaciones y mejoras. Parte de esto también proviene de la larga relación de socio premium de AMD con TMSC, que permite una mejor co-optimización de la tecnología de diseño (DTCO) entre el plano de planta, la fabricación y el producto.

Reclamaciones de AMD

Los equipos de marketing de CPU de AMD, desde el lanzamiento de la primera generación Zen, han sido muy precisos en sus afirmaciones de rendimiento, incluso hasta el punto de subestimar el rendimiento de vez en cuando. Además de promover el liderazgo en rendimiento en un solo hilo, multihilo y juegos, AMD promovió varias métricas para la mejora de generación en generación.

+ 19% IPC

La métrica clave ofrecida por AMD fue un aumento de IPC de + 19% de Zen 2 a Zen 3, o más bien un aumento de + 19% de Ryzen 5 3800XT a Ryzen 5 5800X cuando ambas CPU están a 4.0 GHz y usan memoria DDR4-3600.

De hecho, utilizando nuestros puntos de referencia de la industria, para el rendimiento de un solo subproceso, observamos un aumento del 19% en el rendimiento de la CPU por reloj . Tenemos que felicitar a AMD aquí, esta es la segunda o tercera vez que citan cifras de IPC que hemos igualado.

En SPECrate multiproceso, la ganancia absoluta fue de solo alrededor del 10% más o menos, dado que los núcleos más rápidos también requieren más ancho de banda para la memoria principal, que no se ha proporcionado en esta generación. Esto significa que hay algunos cuellos de botella en los que un IPC más alto no ayudará si más núcleos requieren los mismos recursos.

Para las pruebas del mundo real, en toda nuestra suite, vimos un aumento promedio de + 24%. Para las pruebas explícitamente multiproceso, vimos rangos desde un rendimiento uniforme hasta + 35%, mientras que para las pruebas explícitamente de un solo subproceso, esto varió desde un rendimiento uniforme hasta + 57%. Esto se reduce a que las pruebas vinculadas a la ejecución / cálculo obtengan mayores aceleraciones sobre las cargas de trabajo vinculadas a la memoria.

Mejor juego

Para los juegos, el número se dio como un aumento de +5 a + 50% en juegos de 1920×1080 en el ajuste preestablecido alto, comparando un Ryzen 9 5900X con el Ryzen 9 3900XT, según el punto de referencia.

En nuestras pruebas con configuraciones limitadas de CPU, como 720p o 480p como mínimo, vimos un aumento de rendimiento promedio de + 44% cuadros por segundo comparando el Ryzen 9 5950X con el Ryzen 9 3950X. Dependiendo de la prueba, esto varió de + 10% a + 80% de mejora del rendimiento, con ganancias clave en Chernobylite, Borderlands 3, Gears Tactics y F1 2019.

Para nuestras pruebas de juegos más convencionales, ejecute a 1920 x 1080 con todas las configuraciones de calidad al máximo, la ganancia de rendimiento promedió alrededor de + 10%. Esto abarcó toda la gama desde una puntuación igual (World of Tanks, Strange Brigade, Red Dead Redemption), hasta + 36% (Civilization 6, Far Cry 5).

Quizás la comparación más importante es el AMD Ryzen 9 5950X contra el Intel Core i9-10900K. En nuestras pruebas limitadas de CPU, obtenemos una ganancia promedio de FPS de + 21% para AMD en escenarios de CPU limitada, que van desde + 2% a + 52%. Pero en nuestras pruebas de configuración máxima de 1080p, los resultados fueron en promedio de cuello a cuello, oscilando de -4% a + 6%. (Ese resultado no incluye la única anomalía en nuestras pruebas, ya que Civilization 6 muestra una ganancia de + 43% para AMD).

Emparejamientos de rendimiento cara a cara

Según el recuento de núcleos y los precios, los nuevos procesadores de la serie Ryzen 5000 se alinean estrechamente con algunos de los procesadores Comet Lake más populares de Intel, así como con el hardware AMD de la generación anterior.

* Técnicamente, un procesador de plataforma de escritorio de alta gama, casi no disponible en MSRP.

A lo largo de esta revisión, haremos referencia a estas comparaciones y, finalmente, dividiremos cada procesador en su propio análisis.

Más en esta revisión

Como esta es nuestra cobertura de Deep Dive en Zen 3, vamos a entrar en algunos detalles esenciales. En las próximas páginas, repasaremos:

• Mejoras en el diseño del núcleo (captadores previos, búferes, unidades de ejecución, etc.)
• Nuestras pruebas de microbenchmark (latencia de núcleo a núcleo, jerarquía de caché, aceleración de turbo)
• Nuevas instrucciones, instrucciones mejoradas
• Energía de SoC y energía por núcleo
• Resultados SPEC2006 y SPEC2017
• Puntos de referencia de CPU (Office, ciencia, simulación, renderizado, codificación, web, heredado)
• Puntos de referencia de juegos (11 pruebas, 4 configuraciones por prueba, con RTX 2080 Ti)
• Conclusiones y comentarios finales

El nuevo Zen 3 Core: alto nivel

A medida que nos sumergimos en la microarquitectura Zen3, AMD tomó nota de su viaje de los últimos años, una historia de éxito que comenzó en 2017 con la arquitectura Zen revolucionaria que ayudó a devolver a AMD al panorama competitivo después de varios años sombríos. de productos en mal estado.

La arquitectura Zen original trajo un aumento masivo del 52% de IPC gracias a una nueva microarquitectura de hoja limpia que trajo muchas características nuevas a la mesa para AMD, introduciendo características como una caché µOP y SMT por primera vez en los diseños de la compañía. además de introducir la noción de núcleos complejos de CPU con grandes cachés L3 (8 MB en ese momento). Con características en un nodo de proceso FinFET de 14nm, fue la culminación y el punto de partida de una nueva hoja de ruta de microarquitecturas que conduce al diseño Zen3 actual.

Tras una pequeña actualización en forma de Zen +, la microarquitectura Zen2 2019 del año pasado se implementó en los productos Ryzen 3000, que impulsó el éxito de AMD en el panorama competitivo. Zen2 fue lo que AMD llama un derivado de los diseños originales de Zen, sin embargo, históricamente contenía más cambios de los que cabría esperar de un diseño de este tipo, lo que trajo más aumentos de IPC de lo que normalmente vería. AMD vio Zen2 como un seguimiento de lo que habían aprendido con la microarquitectura Zen original, arreglando e implementando cambios en los objetivos de diseño que inicialmente habían planeado para el primer diseño, pero no pudieron implementar a tiempo para el lanzamiento del producto planeado. ventana. AMD también declaró que brindó la oportunidad de traer algunos de los futuros cambios específicos de Zen3 al diseño de Zen2.

Este fue también el punto en el que AMD se trasladó al nuevo diseño de chiplet, aprovechando la transición al nuevo nodo de proceso de 7 nm de TSMC para aumentar el presupuesto del transistor para cosas como duplicar el tamaño de la caché L3, aumentar la velocidad del reloj y reducir enormemente el consumo de energía del producto para permitir una rampa agresiva en el recuento total de núcleos tanto en el espacio del consumidor ( Ryzen 9 3950X de 16 núcleos ) como en el espacio empresarial ( EPYC2 Roma de 64 núcleos ).

Unir un chip de núcleo complejo (CCD) de alto rendimiento de 7 nm de vanguardia con un chip de E / S (IOD) de 12/14 nm de menor costo en un paquete tan heterogéneo permitió a AMD maximizar las ventajas y minimizar las desventajas de ambas tecnologías respectivas. Todo ello mientras el principal competidor de AMD, Intel, estaba y sigue luchando por sacar al mercado productos de 10 nm. Fue una apuesta tecnológica que AMD ha dicho muchas veces que se hizo con años de anticipación y que desde entonces ha dado sus frutos.

Zen 3 de un vistazo

Esto nos lleva a la microarquitectura Zen3 actual y a la nueva serie Ryzen 5000. Como se señaló anteriormente, Mark Papermaster había mencionado que si realmente mirara el nuevo diseño desde un nivel de 100,000 pies, notaría que se ve extremadamente similar a las microarquitecturas Zen de la generación anterior. En verdad, aunque Zen3 comparte similitudes con sus predecesores, los arquitectos de AMD comenzaron con un diseño de hoja limpia, o como lo llaman, “un rediseño desde cero”. En realidad, esta es una afirmación bastante grande, ya que es un esfuerzo enorme para aventurarse para cualquier empresa. Corteza del brazo-A76 es el diseño más reciente de la industria que se dice que fue diseñado desde cero, aprovechando años de aprendizaje de los diferentes equipos de diseño y resolviendo problemas inherentes que requieren cambios más invasivos y grandes en el diseño.

Debido a que el nuevo núcleo Zen3 todavía exhibe bastantes características definitorias de los diseños de la generación anterior, creo que la versión de AMD de un “rediseño completo” es más similar a una deconstrucción y reconstrucción de los bloques de construcción del núcleo, como si se desmantelara un LEGO set y reconstruirlo de nuevo. En este caso, Zen3 parece ser una pieza de set con nuevos bloques de construcción, pero también aprovechando las piezas de set y RTL que han usado antes en Zen2.

Cualquiera que sea la interpretación de una “hoja limpia” o un “rediseño completo”, lo importante es que Zen3 es una revisión importante en términos de su microarquitectura completa, con AMD prestando atención a cada pieza del rompecabezas y tratando de equilibrar a todo el diseño final resultante, que contrasta con un “diseño derivado” más tradicional que solo puede tocar y ver cambios en un par de componentes básicos de la microarquitectura.

Los principales objetivos de diseño de AMD para Zen3 giraban en torno a tres puntos principales:

– Ofrecer otro aumento significativo del rendimiento generacional de un solo subproceso. AMD no quería ser relegado al máximo rendimiento solo en escenarios donde las cargas de trabajo se distribuirían en todos los núcleos. La empresa quería ponerse al día y ser un líder indiscutible en esta área para poder reclamar una posición indiscutible en el mercado.

– Mejoras de latencia, tanto en términos de latencia de memoria, logradas a través de una reducción en la latencia de memoria efectiva a través de más cache-hits gracias a los 32MB L3 duplicados que un núcleo individual puede aprovechar, así como la latencia de núcleo a núcleo que nuevamente gracias a la caché L3 única consolidada en el troquel es capaz de reducir los largos tiempos de viaje entre los troqueles.

– Continuar con el liderazgo en eficiencia energética: aunque los nuevos núcleos Zen3 todavía usan el mismo nodo de proceso N7 base de TSMC (aunque con mejoras de diseño incrementales), AMD tenía la restricción de no aumentar el consumo de energía para la plataforma. Esto significa que cualquier nuevo aumento de rendimiento tendría que provenir de mejoras simultáneas de eficiencia energética de la microarquitectura.

La culminación de todos los cambios de diseño que AMD ha realizado con la microarquitectura Zen3 da como resultado lo que la compañía afirma como un aumento del rendimiento promedio del 19% en una variedad de cargas de trabajo. Desglosaremos este número más adelante en la revisión, pero las cifras internas muestran que estamos igualando el aumento promedio del 19% en todas las cargas de trabajo de SPEC, con una cifra mediana del 21%. De hecho, es un logro tremendo, considerando el hecho de que los nuevos chips Ryzen 5000 registran un reloj ligeramente más alto que sus predecesores, lo que amplifica aún más el aumento total del rendimiento del nuevo diseño.

El nuevo Zen 3 Core: actualizaciones de front-end

Continuando, veamos qué hace que funcione la microarquitectura Zen3 y qué detalles sobre cómo realmente mejora las cosas en comparación con su diseño predecesor, comenzando con el front-end del núcleo que incluye la predicción de ramas, decodificación, la ruta de caché OP e instrucción. caché y la etapa de envío.

Desde una descripción general de alto nivel, el front-end de Zen3 se ve igual que en Zen2, al menos desde una perspectiva de diagrama de bloques. Los bloques de construcción fundamentales son los mismos, comenzando con la unidad de predicción de ramas que AMD llama de vanguardia. Esto se alimenta a una caché de instrucciones de 32 KB que envía las instrucciones a un bloque de decodificación de 4 anchos. Seguimos manteniendo un flujo bidireccional en la cola de OP, ya que cuando volvemos a ver instrucciones que han sido decodificadas previamente, se almacenan en la caché de OP desde donde se pueden recuperar con un mayor ancho de banda (8 Mops / ciclo) y con menor consumo de energía.

Las mejoras de los núcleos Zen3 en los bloques reales aquí incluyen un predictor de rama más rápido que puede predecir más ramas por ciclo. AMD no detallaría exactamente lo que esto significa, pero sospechamos que esto podría aludir ahora a dos predicciones de rama por ciclo en lugar de solo una. Este sigue siendo un diseño basado en TAGE como se había introducido en Zen2, y AMD dice que ha podido mejorar la precisión del predictor.

Entre los cambios en la estructura de la unidad de sucursales, hemos visto un reequilibrio de los BTB, y el BTB L1 ahora duplica su tamaño de 512 a 1024 entradas. El L2 BTB ha experimentado una ligera reducción de 7K a 6.5K entradas, pero permitió que la estructura fuera más eficiente. La matriz de objetivos indirectos (ITA) también ha experimentado un aumento más sustancial de 1024 a 1536 entradas.

Si hay una predicción errónea, el nuevo diseño reduce la latencia de ciclo necesaria para poner en marcha una nueva transmisión. AMD no detallaría exactamente los ciclos exactos de predicción errónea absoluta o qué tan rápido es en esta generación, pero sería un aumento de rendimiento más significativo para el diseño general si la penalización por predicción errónea se redujera en esta generación.

AMD afirma que no hay burbujas en la mayoría de las predicciones debido al aumento del ancho de banda del predictor de rama, aquí puedo ver paralelismos con lo que Arm había introducido con el Cortex-A77 , donde un ancho de banda similar duplicado del predictor de rama podría ejecutarse antes de las etapas posteriores de las tuberías. y así llenar los huecos de la burbuja antes de que lleguen a las etapas de ejecución y potencialmente paran el núcleo.

En el lado de la caché de instrucciones, no vimos un cambio en el tamaño de la estructura, ya que sigue siendo un bloque de 8 vías de 32 KB, sin embargo, AMD ha mejorado su utilización. Ahora se dice que los prefetchers son más eficientes y agresivos al extraer datos de la L2 antes de que se utilicen en la L1. No sabemos exactamente a qué tipo de patrón AMD alude haber mejorado aquí, pero si el L1I se comporta igual que el L1D, entonces las líneas de caché adyacentes también se introducirían en el L1I aquí. La parte de tener una mejor utilización no estaba clara en términos de detalles y AMD no estaba dispuesto a divulgar más, pero sospechamos que una nueva política de reemplazo de línea de caché es un aspecto clave de esta nueva mejora.

Al ser un núcleo x86, una de las dificultades de la ISA es el hecho de que las instrucciones son de longitud variable y la codificación varía de 1 byte a 15 bytes. Este ha sido un efecto secundario heredado de las extensiones continuas del conjunto de instrucciones a lo largo de las décadas, y a medida que las microarquitecturas de CPU modernas se amplían en su rendimiento de ejecución, se ha convertido en un problema para los arquitectos diseñar decodificadores amplios eficientes. Para Zen3, AMD optó por permanecer con un diseño de 4 anchos, ya que ampliarlo habría significado ciclos de tubería adicionales que habrían reducido el rendimiento de todo el diseño.

Pasar por alto la etapa de decodificación a través de una estructura como el Op-cache es hoy en día el método preferido para resolver este problema, siendo la microarquitectura Zen de primera generación el primer diseño de AMD en implementar dicho bloque. Sin embargo, tal diseño también trae problemas, como un conjunto de instrucciones que residen en la caché de instrucciones, y su objetivo reside en la caché OP, nuevamente cuyo objetivo podría encontrarse nuevamente en la caché de instrucciones. AMD descubrió que se trataba de una ineficacia bastante grande en Zen2 y, por lo tanto, desarrolló el diseño para manejar mejor los flujos de instrucciones tanto de I-cache como de OP-cache y enviarlos a la cola µOP. Los investigadores de AMD parecen haber publicado un artículo más detallado sobre las mejoras.

En el lado del despacho, Zen3 sigue siendo una máquina de 6 anchos, emitiendo hasta 6-Macro-Ops por ciclo a las unidades de ejecución, lo que significa que el IPC máximo del núcleo permanece en 6. El Op-cache es capaz de entregar 8 Macro -Ops en la cola de µOp serviría como un mecanismo para reducir aún más las burbujas de la tubería en el front-end, ya que el ancho total de 8 de esa estructura no se vería afectado en todo momento.

En el lado del motor de ejecución de las cosas, hemos visto una revisión más grande del diseño, ya que el núcleo Zen3 ha visto una ampliación del ancho de emisión de números enteros y de punto flotante, con ventanas de ejecución más grandes y unidades de ejecución de latencia más bajas.


Comenzando con más detalle en el lado de los enteros, el cambio más grande en el diseño ha sido un cambio de programadores individuales para cada una de las unidades de ejecución a un diseño más consolidado de cuatro programadores que se distribuyen en dos unidades de ejecución cada uno. Estos nuevos programadores de 24 entradas deberían ser más eficientes energéticamente que tener programadores más pequeños separados, y la capacidad de entrada también aumenta ligeramente de 92 a 96.

El archivo de registro físico ha experimentado un ligero aumento de 180 entradas a 192 entradas, lo que permite un ligero aumento en la ventana de OOO enteros, con el búfer de reorden actual del núcleo creciendo de 224 instrucciones a 256 instrucciones, que en el contexto de Las microarquitecturas de la competencia, como el 352 ROB de Intel en Sunny Cove o el gigante de Apple ROB, todavía parecen relativamente pequeñas.

El ancho total del problema de la unidad de ejecución de enteros ha crecido de 7 a 10. El desglose aquí es que si bien el núcleo todavía tiene 4 ALU, ahora hemos visto que uno de los puertos de sucursal se separa en su propia unidad dedicada, mientras que el otro todavía comparte el mismo puerto que una de las ALU, lo que permite que las ALU no compartidas se dediquen más a las instrucciones aritméticas reales. Aquí no se muestra una unidad de almacenamiento adicional, así como una tercera unidad de carga, que es lo que nos lleva a 10 unidades de emisión en total en el lado entero.

En el lado del punto flotante, el ancho de despacho se ha incrementado de 4 µOps a 6 µOps. De manera similar a las canalizaciones de enteros, AMD ha optado por desagregar algunas de las capacidades de las canalizaciones, como mover el almacén de punto flotante y las unidades de conversión de punto flotante a entero a sus propios puertos y unidades dedicadas, de modo que las canalizaciones de ejecución principales puedan para ver una mayor utilización con las instrucciones de cálculo reales.

Una de las mayores mejoras en las latencias de instrucción ha sido la reducción de un ciclo de 5 a 4 para operaciones de acumulación múltiple fusionadas (FMAC). El programador en el lado FP también ha visto un aumento para manejar más instrucciones en vuelo ya que las cargas en el lado entero están obteniendo los operandos requeridos, aunque AMD aquí no revela los aumentos exactos.

El nuevo Zen 3 Core: carga / almacenamiento y una caché L3 masiva

Aunque las unidades de ejecución de Zen3 en papel en realidad no brindan más rendimiento computacional que Zen2, el reequilibrio de las unidades y la descarga de algunas de las capacidades de ejecución compartidas en unidades dedicadas, como el nuevo puerto de sucursal y los puertos F2I en el lado FP del núcleo, significa que el núcleo tiene más utilización computacional lograda real por ciclo. Para poder asegurarse de que la memoria no sea un cuello de botella, AMD ha mejorado notablemente la parte de carga / almacenamiento del diseño, introduciendo algunos cambios más grandes que permiten algunas capacidades del lado de la memoria muy mejoradas del diseño.

El núcleo ahora tiene una mayor capacidad de ancho de banda gracias a una unidad de carga y almacenamiento adicional, con la cantidad total de cargas y almacenes por ciclo ahora terminando en 3 y 2. AMD ha mejorado la carga para almacenar el reenvío para poder administrar mejor el flujo de datos a través de las unidades L / S.

Una gran actualización interesante es la inclusión de 4 andadores de mesa adicionales además de los 2 existentes, lo que significa que los núcleos Zen3 tienen un total de 6 andadores de mesa. Los caminadores de mesa suelen ser el cuello de botella para los accesos a la memoria que pierden el TLB L2, y tener un mayor número de ellos significa que en ráfagas de accesos a la memoria que no tienen el TLB, el núcleo puede resolver y recuperar dicho acceso paralelo mucho más rápido que si lo tuviera. confiar en uno o dos table walkers que tendrían que cumplir en serie las solicitudes de page walk. En este sentido, la nueva microarquitectura Zen3 debería funcionar significativamente mejor en cargas de trabajo con alta escasez de memoria, es decir, cargas de trabajo que tienen muchos accesos de memoria dispersos en grandes regiones de memoria.

En las unidades reales de carga / almacenamiento, AMD ha aumentado la profundidad de la cola de la tienda de 48 entradas a 64. Curiosamente, la cola de carga se ha mantenido en 44 entradas a pesar de que el núcleo tiene un 50% más de capacidad de carga. AMD cuenta esto hasta 72 contando la cola de generación de direcciones de 28 entradas.

La L2 DTLB también se ha mantenido en 2K entradas lo cual es interesante, dado que esto ahora sólo cubriría 1/4 º de la L3 que un solo núcleo ve. AMD explica que esto es simplemente un equilibrio entre la mejora de rendimiento dada y la complejidad de implementación real, recordándonos que, particularmente en el mercado empresarial, existe la opción de usar páginas de memoria más grandes que su tamaño 4K habitual, que son las predeterminadas para los sistemas de consumo.

La estructura de la caché de datos L1 se ha mantenido igual en términos de su tamaño, todavía 32KB y asociativa de 8 vías, pero ahora se ve un aumento en la concurrencia de acceso gracias a las 3x cargas por ciclo que las unidades enteras pueden solicitar. En realidad, no cambia el ancho de banda máximo de la caché, ya que los accesos enteros solo pueden ser de 64b para un total de 192b por ciclo cuando se usan 3 cargas simultáneas; el ancho de banda máximo solo se logra a través de 2 cargas de 256b provenientes de las tuberías FP / SIMD . De manera similar, las tiendas se han duplicado en términos de operaciones simultáneas por ciclo, pero solo en el lado entero con 2 tiendas de 64b, ya que las tuberías FP / SIMD aún alcanzan un pico de 1 256b de tiendas por ciclo.

Las instrucciones REP MOVS han experimentado mejoras en términos de su eficiencia para tamaños de búfer más cortos. Esto significa que, a diferencia de las microarquitecturas anteriores, que podrían haber tenido un mejor rendimiento con otros algoritmos de copia, en Zen3 REP MOVS obtendrá un rendimiento óptimo sin importar cuán grande o pequeño sea el tamaño del búfer que se está copiando.

AMD también ha mejorado sus captadores previos, diciendo que ahora los patrones que cruzan los límites de la página se detectan y predicen mejor. También he notado que los comportamientos generales del prefetcher han cambiado drásticamente, con algunos patrones, como las líneas de caché adyacentes que se introducen en L1, algo que es muy agresivo, y también un comportamiento más relajado, como algunos de nuestros patrones personalizados ya no se tan agresivamente recogido por los nuevos prefetchers.

AMD dice que la predicción de reenvío de la tienda a la carga es importante para la arquitectura y que hay alguna tecnología nueva en la que el núcleo ahora es más capaz de detectar dependencias en la tubería y reenviar antes, llevando los datos a las instrucciones que los necesitan a tiempo.

Una gran caché L3 de 32 MB

Pasando de los núcleos individuales, llegamos al nuevo caché L3 de 32 MB, que es una característica fundamental de la nueva microarquitectura Zen3 y el nuevo CCD Ryzen 5000:

El gran cambio aquí es de naturaleza topológica, ya que AMD elimina el CCX de 4 núcleos que se había utilizado anteriormente como bloque de clúster de núcleo unificado para Zen / Zen + / Zen2. En lugar de tener que dividir la capacidad de caché total de un chiplet en dos bloques de 4 y 4 núcleos, el nuevo L3 unificado agrega la cantidad de SRAM previamente establecida en un único grupo grande de 32 MB que abarca 8 segmentos de caché y da servicio a 8 núcleos.

El logro de esta caché L3 de 32 MB más grande no estuvo exento de compromisos, ya que las latencias aumentaron aproximadamente 7 ciclos a 46 ciclos en total. Le preguntamos a AMD sobre la topología del nuevo caché, pero no comentaron al respecto, además de afirmar que sigue siendo un sistema basado en hash de direcciones en los 8 segmentos de caché, con una latencia de memoria plana en toda la profundidad del caché, desde la vista. de un solo núcleo.

Una cosa que AMD no pudo escalar con la nueva caché L3 es el ancho de banda de la caché: aquí, la nueva L3 en realidad presenta los mismos anchos de interfaz que en Zen2, y el ancho de banda agregado total en todos los núcleos alcanza el mismo número que en la generación anterior. El caso es que ahora el caché sirve al doble de núcleos, por lo que significa que el ancho de banda por núcleo se ha reducido a la mitad en esta generación. AMD explica que también aumentar el ancho de banda habría incurrido en más compromisos, particularmente en el lado de la potencia. En efecto, esto significa que el ancho de banda agregado L3 en un CCD, sin tener en cuenta las mejoras en la velocidad del reloj, será la mitad del de un CCD Zen2 / Ryzen 3000 con dos CCX (esencialmente dos L3 separados).

El beneficio neto de la nueva estructura proviene de las tasas de aciertos de caché enormemente mejoradas para aplicaciones con presiones de memoria más grandes, aprovechando los 32 MB L3 completos, así como las cargas de trabajo que hacen uso de una gran sincronización y transferencias de datos de núcleo a núcleo: mientras que en anteriores generaciones dos núcleos en diferentes CCX en el mismo dado tendrían que enrutar el tráfico a través del IOD, esta penalización en el dado se elimina por completo en Zen3, y todos los núcleos dentro del nuevo CCD tienen comunicación completa y de baja latencia entre sí a través del nuevo L3.

Al ver toda la jerarquía de caché en el nuevo diseño de Zen3, vemos una imagen algo familiar. Los L2 se han mantenido sin cambios en 512 KB y una latencia de acceso de 12 ciclos, con las interfaces de memoria desde el L1D hasta el L3 llegando a 32B / ciclo tanto en lecturas como en escrituras.

El L3 continúa manteniendo etiquetas ocultas del contenido de L2 de los núcleos, por lo que si un núcleo solicita una línea de caché y reside en otro núcleo en el nuevo complejo de núcleos, el L3 sabrá desde qué núcleo recuperar esa línea.

En términos de paralelismo, puede haber hasta 64 fallas pendientes de L2 a L3, por núcleo. Las solicitudes de memoria de L3 a DRAM alcanzan un límite de 192 fallos pendientes, que en realidad podría ser un poco bajo en escenarios donde hay muchos núcleos accediendo a la memoria al mismo tiempo. Esto es una duplicación de las 96 fallas pendientes por L3 en Zen2, por lo que la proporción de fallas por núcleo aquí al menos no ha cambiado.

En términos de topología de empaque, debido a que la nueva serie Ryzen 5000 utiliza el mismo IOD que la serie Ryzen 3000, en realidad no vemos ningún cambio en la estructura general del diseño. Podemos tener SKU con un solo chiplet, como el nuevo Ryzen 5 5600X o Ryzen 7 5800X, o implementar dos chiplets, como el Ryzen 9 5900X o el Ryzen 9 5950X.

El ancho de banda entre el CCD y el IOD permanece igual entre generaciones, con escrituras de 16B / ciclo desde el CCD al IOD y lecturas de 32B / ciclo en la dirección opuesta. La velocidad de la estructura infinita es el factor determinante para el ancho de banda resultante aquí, que AMD todavía recomienda combinar 1: 1 con la frecuencia de DRAM para obtener la mejor latencia de memoria, al menos hasta alrededor de DDR4-3600, y ligeramente superior para los overclockers.

Si bien cubriremos el rendimiento final y las mejoras reales de IPC de Zen3 en las siguientes páginas, las primeras impresiones basadas en las divulgaciones de microarquitectura de AMD son que el nuevo diseño es de hecho un esfuerzo mayor que el promedio en la hoja de ruta de la CPU de la compañía.

AMD llama a Zen3 un rediseño desde cero o incluso un diseño de hoja limpia. Si bien parece una descripción bastante elevada de la nueva microarquitectura, es cierto que al menos los arquitectos han tocado muchos aspectos del diseño, incluso si al final muchas de las estructuras y el ancho total real del núcleo, especialmente en el front-end, en realidad no ha cambiado mucho desde Zen2.

Mi opinión de lo que es Zen3 es que es una reconstrucción de la generación anterior, con AMD aprendiendo lecciones de la implementación pasada y mejorando y refinando el diseño general más amplio. Cuando se le preguntó sobre el potencial futuro para ampliar el núcleo, de manera similar a algunas de las microarquitecturas competidoras actuales, Mike Clarke de AMD admitió que en algún momento tendrán que hacer eso para asegurarse de no quedarse atrás en el rendimiento, y que ya están trabajando en otro futuro rediseño de hoja limpia. Por el momento, Zen3 fue la elección correcta en términos de equilibrio entre rendimiento, eficiencia y tiempo de comercialización, además de considerar que esta generación en realidad no tuvo un gran aumento de nodo de proceso (que, por cierto, será un vector más raro y cada vez menos confiable para mejorar el rendimiento en el futuro).

Espero que estos diseños lleguen de manera oportuna con cambios impresionantes, ya que la competencia del lado del brazo definitivamente se está calentando, con diseños como el Cortex-X1 o el Neoverse-V1 que parecen ser más que compatibles con los diseños Zen3 sincronizados (como en el espacio de servidor / empresa). En el lado del consumidor, AMD parece no tener rival actualmente, aunque estaremos atentos al próximo silicio de Apple .

Latencia de núcleo a núcleo

A medida que crece el número de núcleos de las CPU modernas, llegamos a un momento en el que el momento de acceder a cada núcleo desde un núcleo diferente ya no es una constante. Incluso antes de la llegada de los diseños de SoC heterogéneos, los procesadores construidos en anillos o mallas grandes pueden tener diferentes latencias para acceder al núcleo más cercano en comparación con el núcleo más lejano. Esto suena cierto especialmente en entornos de servidor de varios sockets.

Pero las CPU modernas, incluso las CPU de escritorio y de consumo, pueden tener una latencia de acceso variable para llegar a otro núcleo. Por ejemplo, en las CPU Threadripper de primera generación, teníamos cuatro chips en el paquete, cada uno con 8 subprocesos, y cada uno con una latencia de núcleo a núcleo diferente dependiendo de si estaba en funcionamiento o no. Esto se vuelve más complejo con productos como Lakefield, que tiene dos buses de comunicación diferentes dependiendo de qué núcleo está hablando con cuál.

Si es un lector habitual de las revisiones de CPU de AnandTech, reconocerá nuestra prueba de latencia de núcleo a núcleo. Es una excelente manera de mostrar exactamente cómo se colocan los grupos de núcleos en el silicio. Esta es una prueba interna personalizada, y sabemos que existen pruebas competitivas, pero creemos que la nuestra es la más precisa sobre la rapidez con la que puede ocurrir un acceso entre dos núcleos.

Habíamos notado algunas diferencias en el comportamiento de latencia de núcleo a núcleo de varias CPU Zen2 según la placa base y la versión de AGESA que se probó en ese momento. Por ejemplo, en esta versión actual estamos viendo latencias entre núcleos dentro de las cachés L3 de CCX que caen en alrededor de 30-31ns, sin embargo, en el pasado habíamos medido en las mismas cifras de CPU en el rango de 17ns. Habíamos medido una cifra similar en nuestras pruebas Zen2 Renoir , por lo que es aún más extraño obtener ahora una cifra de 31ns en el 3950X mientras se está en una placa base diferente. Nos comunicamos con AMD sobre esta extraña discrepancia, pero nunca obtuvimos una respuesta adecuada sobre lo que está sucediendo exactamente aquí: después de todo, es la misma CPU e incluso el mismo binario de prueba, solo diferentes plataformas de placa base y versiones de AGESA.

Sin embargo, en el resultado podemos ver claramente las bajas latencias de los cuatro CCX, con latencias entre núcleos entre CPU de diferentes CCX que sufren en mayor grado en el rango de 82ns, que sigue siendo una de las desventajas clave del complejo de núcleos de AMD y arquitectura chiplet.

En el nuevo Ryzen 9 5950X basado en Zen3, lo que inmediatamente es obvio es que en lugar de cuatro grupos de CPU de baja latencia, ahora solo hay dos de ellos. Esto corresponde al cambio de AMD de cuatro CCX para su predecesor de 16 núcleos, a solo dos de esas unidades en la parte nueva, siendo el nuevo CCX básicamente el CCD completo en esta ocasión.

Las latencias entre núcleos dentro de L3 se encuentran en 15-19 ns, dependiendo del par de núcleos. Un aspecto que afecta a las cifras aquí también son las frecuencias de refuerzo que pueden alcanzar los pares de núcleos, ya que no estamos fijando el chip a una frecuencia establecida. Esta es una gran mejora en términos de latencia con respecto al 3950X, pero dado que en algunas combinaciones de firmware, así como en el chip móvil Renoir de AMD, este es el comportamiento de latencia normal esperado, no parece que la nueva parte Zen3 mejore mucho en En ese sentido, aparte de, obviamente, habilitar esta latencia en un grupo mayor de 8 núcleos dentro del CCD.

Las latencias entre núcleos entre los núcleos en diferentes CCD todavía incurre en una penalización de latencia mayor de 79-80ns, lo cual es algo de esperar ya que las nuevas partes de Ryzen 5000 no cambian el diseño de IOD en comparación con el predecesor, y el tráfico aún tendría que hacerlo. atraviesa la tela del infinito.

Para cargas de trabajo que tienen mucha sincronización y tienen múltiples subprocesos de hasta 8 subprocesos primarios, esta es una gran ventaja para el nuevo diseño Zen3 CCD y L3. De hecho, el nuevo complejo L3 de AMD ahora ofrece mejores latencias entre núcleos y una topología más plana que los diseños de consumo basados ​​en anillos de Intel, con SKU como el 10900K que varían entre 16.5-23ns de latencia entre núcleos. AMD todavía tiene un camino por recorrer para reducir la latencia entre CCD, pero tal vez sea algo que abordar en el diseño de próxima generación.

Latencia de caché y memoria

A medida que Zen3 realiza algunos cambios importantes en el departamento de jerarquía de la memoria caché, también esperamos que esto se materialice en un comportamiento bastante diferente en nuestras pruebas de latencia de memoria caché y. Sobre el papel, los cachés L1D y L2 en Zen3 no deberían ver ninguna diferencia en comparación con Zen2, ya que ambos comparten el mismo tamaño y latencias de ciclo; sin embargo, señalamos en nuestra análisis profundo de microarquitectura que AMD hizo algunos cambios en el comportamiento aquí. debido a los captadores previos, así como a la política de reemplazo de caché.

En el lado L3, esperamos un gran cambio de la curva de latencia en regiones de memoria más profundas dado que un solo núcleo ahora tiene acceso a los 32 MB completos, el doble que la generación anterior. Más profundamente en DRAM, AMD en realidad no ha hablado mucho sobre cómo la latencia de la memoria se vería afectada por la nueva microarquitectura; no esperamos grandes cambios aquí debido al hecho de que los nuevos chips están reutilizando el mismo dado de E / S con los mismos controladores de memoria y tejido infinito. Cualquier efecto de latencia aquí debería deberse únicamente a los cambios de microarquitectura realizados en las CPU reales y en la matriz del complejo central.

Comenzando en la región L1D de la nueva CPU superior Zen3 5950X, estamos viendo latencias de acceso de 0.792ns, lo que corresponde a un acceso de 4 ciclos a exactamente 5050MHz, que es la frecuencia máxima a la que esta nueva parte aumenta en single- cargas de trabajo con subprocesos.

Sin embargo, al ingresar a la región L2, ya estamos comenzando a ver un comportamiento de microarquitectura muy diferente por parte de las pruebas de latencia, ya que no se parecen en nada a lo que hemos visto en Zen2 y generaciones anteriores.

Comenzando con el patrón de acceso más básico, una cadena lineal simple dentro del espacio de direcciones, vemos que las latencias de acceso mejoran de un promedio de 5.33 ciclos en Zen2 a + -4.25 ciclos en Zen3, lo que significa que los precapturadores de línea adyacente de esta generación son mucho más agresivo al introducir datos en el L1D. En realidad, esto es ahora incluso más agresivo que los núcleos de Intel, que tienen una latencia de acceso promedio de 5.11 ciclos para el mismo patrón dentro de su región L2.

Además de la cadena lineal simple, también vemos un comportamiento muy diferente en muchos de los otros patrones, algunos de nuestros otros patrones más abstractos no están siendo precargados tan agresivamente como en Zen2, más sobre eso más adelante. Más interesante es el comportamiento del acceso aleatorio completo y el patrón de basura TLB + CLR que ahora son completamente diferentes: la curva aleatoria completa ahora es mucho más abrupta en el límite de L1 a L2, y estamos viendo que TLB + CLR tiene un pico extraño (reproducible) aquí también. El patrón TLB + CLR atraviesa páginas aleatorias que siempre llegan a una única línea de caché, pero cada vez que hay una línea de caché diferente dentro de cada página, lo que obliga a leer (o fallar) de TLB, así como a reemplazar la línea de caché.

El hecho de que esta prueba ahora se comporte completamente diferente en L2 a L3 y DRAM en comparación con Zen2 significa que AMD ahora está empleando una política de reemplazo de línea de caché muy diferente en Zen3. La curva de la prueba en el L3 ya no coincide con el tamaño de la caché significa que AMD ahora está optimizando la política de reemplazo para reordenar / moverse alrededor de las líneas de caché dentro de los conjuntos para reducir reemplazos innecesarios dentro de las jerarquías de caché. En este caso se trata de un comportamiento muy interesante que no habíamos visto hasta este punto en ninguna microarquitectura y básicamente rompe nuestra prueba TLB + CLR en la que anteriormente nos basábamos para estimar las latencias estructurales físicas de los diseños.

Es esta nueva política de reemplazo de caché la que creo que es la causa de las curvas más suavizadas al realizar la transición entre las cachés L2 y L3, así como de la L3 a la DRAM, este último comportamiento que ahora se parece más a lo que Intel y algunas otras microarquitecturas de la competencia tienen recientemente expuesto.

Dentro de la L3, las cosas son un poco difíciles de medir, ya que ahora hay varios efectos diferentes en juego. Los captadores anticipados en Zen3 no parecen ser tan agresivos en algunos de nuestros patrones, por lo que la latencia aquí ha aumentado un poco más de una cantidad notable; realmente no podemos usarlos para comparaciones de manzanas con manzanas a Zen2 porque ya no están haciendo lo mismo. Nuestra prueba CLR + TLB tampoco funciona según lo previsto significa que tendremos que recurrir a cifras completamente aleatorias; el nuevo caché Zen3 a 4 MB de profundidad aquí medido en 10.127ns en el 5950X, en comparación con 9.237ns en el 3950X. Traducir esto a ciclos corresponde a una regresión de 42,9 ciclos a 51,1 ciclos en promedio, o básicamente +8 ciclos. Las cifras oficiales de AMD aquí son 39 ciclos y 46 ciclos para Zen2 y Zen3, una regresión de + 7 ciclos, en línea con lo que medimos,teniendo en cuenta los efectos de TLB.

Las latencias que superan los 8 MB siguen aumentando a pesar de que la L3 tiene 32 MB de profundidad, y eso es simplemente porque supera la capacidad L2 TLB de 2K páginas con un tamaño de página de 4K.

En la región de DRAM, estamos midiendo 78.8ns en el 5950X versus 86.0ns en el 3950X. Convertir esto en ciclos en realidad termina con 398 ciclos idénticos para ambos chips a una profundidad de acceso aleatorio total de 160 MB. Debemos tener en cuenta que debido a ese cambio en la política de reemplazo de la línea de caché, las latencias parecen ser mejores para el nuevo chip Zen3 a profundidades de prueba entre 32 y 128 MB, pero eso es solo un efecto secundario de medición y no parece ser un real. Representación de la latencia física y estructural del nuevo chip. Tendría que probar regiones DRAM más profundas para obtener cifras precisas, todo lo cual tiene sentido dado que los nuevos chips Ryzen 5000 están usando el mismo chip de E / S y controladores de memoria, y estamos probando una memoria idéntica a la misma velocidad de 3200MHz. .

En general, aunque Zen3 no cambia drásticamente en su estructura de caché más allá del L3 duplicado y ligeramente más lento, el comportamiento real de caché entre las generaciones de microarquitectura ha cambiado bastante para AMD. El nuevo diseño de Zen3 parece hacer un uso mucho más inteligente de la captación previa y del manejo de la línea de caché, algunos de cuyos efectos de rendimiento podrían eclipsar fácilmente el aumento de L3. Le preguntamos a Mike Clarke de AMD sobre algunos de estos nuevos mecanismos, pero la compañía no comentó sobre algunas de las nuevas tecnologías que preferirían mantener más cerca de su pecho por el momento.

Rampa de frecuencia

Tanto AMD como Intel en los últimos años han introducido características en sus procesadores que aceleran el tiempo desde que una CPU pasa de inactivo a un estado de alta potencia. El efecto de esto significa que los usuarios pueden obtener un rendimiento máximo más rápido, pero el mayor efecto en cadena de esto es la duración de la batería en los dispositivos móviles, especialmente si un sistema puede acelerar rápidamente y acelerar rápidamente, asegurando que permanece en el nivel más bajo. y el estado de energía más eficiente durante el mayor tiempo posible.

La tecnología de Intel se llama SpeedShift, aunque SpeedShift no se habilitó hasta Skylake.

Sin embargo, uno de los problemas con esta tecnología es que a veces los ajustes de frecuencia pueden ser tan rápidos que el software no puede detectarlos. Si la frecuencia cambia en el orden de microsegundos, pero su software solo mide la frecuencia en milisegundos (o segundos), se perderán los cambios rápidos. No solo eso, como observador que prueba la frecuencia, podría estar afectando el rendimiento real del turbo. Cuando la CPU cambia de frecuencia, esencialmente tiene que pausar todos los cálculos mientras alinea la frecuencia de todo el núcleo.

Escribimos un extenso artículo de análisis de revisión sobre esto, llamado ‘ Alcanzando el Turbo: alineando la percepción con las métricas de frecuencia de AMD ‘, debido a un problema en el que los usuarios no observaban las velocidades máximas de turbo para los procesadores de AMD.

Solucionamos el problema haciendo que la frecuencia sondeara la carga de trabajo que causaba el turbo. El software es capaz de detectar ajustes de frecuencia en una escala de microsegundos, por lo que podemos ver qué tan bien un sistema puede llegar a esas frecuencias de refuerzo. Nuestra herramienta de rampa de frecuencia ya se ha utilizado en varias revisiones.

En el perfil de rendimiento, el nuevo 5950X parece comportarse de manera idéntica a la serie Ryzen 3000, aumentando hasta la frecuencia máxima en 1,2 ms. En el perfil equilibrado, esto es a 18 ms para evitar aumentar innecesariamente la frecuencia desde inactivo durante tareas esporádicas en segundo plano.

La frecuencia de inactividad en la nueva CPU llega a 3597MHz y la CPU Zen3 aquí aumentará hasta 5050MHz en cargas de trabajo de un solo subproceso. En nuestra herramienta de prueba, en realidad lee las fluctuaciones entre 5025 y 5050MHz, sin embargo, eso parece ser un problema de alias debido a que la resolución del temporizador es de 100 ns y nosotros medimos fragmentos de carga de trabajo de 20 µs. La frecuencia real según el reloj base y el multiplicador parece ser 5048.82MHz en esta placa base en particular.

Instrucciones nuevas y mejoradas

Cuando se trata de mejoras en las instrucciones, pasar a un nuevo núcleo básico permite mucha más flexibilidad en la forma en que se procesan las instrucciones en comparación con solo una actualización del núcleo. Además de agregar una nueva funcionalidad de seguridad, poder reestructurar el decodificador / caché de micro-operaciones, las unidades de ejecución y el número de unidades de ejecución permite una variedad de nuevas características y, con suerte, un rendimiento más rápido.

Como parte de las divulgaciones en profundidad de la microarquitectura de AMD, obtenemos naturalmente los mensajes de AMD sobre las mejoras en esta área; nos informaron de los aspectos más destacados, como el FMAC mejorado y las nuevas expansiones AVX2 / AVX256. También existe la tecnología Control-Flow Enforcement Technology (CET) que permite una pila de sombras para proteger contra ataques ret / ROP. Sin embargo, después de poner nuestras manos en el chip, hay un tesoro de mejoras por recorrer.

Primero cubramos los aspectos más destacados de AMD.

El elemento de la portada superior es el Fused Multiply-Accumulate (FMA) mejorado, que es una operación de uso frecuente en una serie de cargas de trabajo informáticas de alto rendimiento, así como en aprendizaje automático, redes neuronales, informática científica y cargas de trabajo empresariales.

En Zen 2, un solo FMA tomó 5 ciclos con un rendimiento de 2 / reloj.
En Zen 3, un solo FMA toma 4 ciclos con un rendimiento de 2 / reloj.

Esto significa que los FMA de AMD ahora están a la par con Intel, sin embargo, esta actualización será la más utilizada en los procesadores EPYC de AMD. A medida que ampliamos esta mejora a los 64 núcleos de la generación actual de EPYC Rome, cualquier carga de trabajo limitada por cómputo en Roma debería liberarse en Nápoles. Combine eso con la caché L3 más grande y la carga / almacenamiento mejorada, algunas cargas de trabajo deberían esperar algunas buenas aceleraciones.

La otra actualización principal es con criptografía y cifrado. En Zen 2, las operaciones AES y PCLMULQDQ basadas en vectores se limitaron a la ejecución AVX / 128-bit, mientras que en Zen 3 se actualizan a la ejecución AVX2 / 256-bit.

Esto significa que VAES tiene una latencia de 4 ciclos con un rendimiento de 2 / reloj.
Esto significa que VPCLMULQDQ tiene una latencia de 4 ciclos, con un rendimiento de 0,5 / reloj.

AMD también mencionó hasta cierto punto que ha aumentado su capacidad para procesar instrucciones MOV repetidas en cadenas cortas; lo que solía no ser tan bueno para copias cortas ahora es bueno para copias pequeñas y grandes. Detectamos que el nuevo núcleo realiza mejor la eliminación de instrucciones REP MOV en la etapa de decodificación, aprovechando mejor la caché de microoperaciones.

Ahora, aquí están las cosas de las que AMD no habló.

Enteros

Siguiendo con la eliminación de instrucciones, muchas instrucciones y expresiones idiomáticas de puesta a cero que Zen 2 solía decodificar pero luego saltarse la ejecución ahora se detectan y eliminan en la etapa de decodificación.

• NOP (90h) hasta 5x 66h
• LNOP3 / 4/5 (NOP en bucle)
• (V) MOVAPS / MOVAPD / MOVUPS / MOVUPD vec1, vec1: Mover (Des) alineado Empaquetado FP32 / FP64
• VANDNPS / VANDNPD vec1, vec1, vec1: Vector bit a bit lógico Y NO empaquetado FP32 / FP64
• VXORPS / VXORPD vec1, vec1, vec1: Vector bit a bit lógico XOR empaquetado FP32 / FP64
• VPANDN / VPXOR vec1, vec1, vec1: Vector bit a bit lógico (Y NO) / XOR
• VPCMPGTB / W / D / Q vec1, vec1, vec1: Vector comparan enteros empaquetados mayores que
• VPSUBB / W / D / Q vec1, vec1, vec1: Vector restar enteros empaquetados
• VZEROUPPER: Cero bits superiores de YMM
• CLC: Bandera de transporte clara

En cuanto a los ajustes directos de rendimiento, detectamos lo siguiente:

Vale la pena resaltar esos dos últimos comandos. El software que ayuda a los precapturadores, debido a cómo AMD ha organizado los predictores de rama, ahora puede procesar tres comandos de captación previa por ciclo. El otro elemento es la introducción de un acelerador de hardware con bits paralelos: la latencia se reduce un 99% y el rendimiento aumenta 250 veces. Si alguien pregunta por qué necesitamos transistores adicionales para las CPU modernas, es para cosas como esta.

También hay algunas regresiones

Como siempre, existen compensaciones.

x87

Para cualquiera que use un software matemático más antiguo, podría estar plagado de mucho código x87. Originalmente, x87 estaba destinado a ser una extensión de x86 para operaciones de punto flotante, pero en base a otras mejoras al conjunto de instrucciones, x87 está algo en desuso y, a menudo, vemos una regresión del rendimiento de generación en generación.

Pero no en Zen 3. Entre las regresiones, también estamos viendo algunas mejoras. Algunos.

Las mejoras de FADD y FMUL son las más importantes aquí, pero como se indicó, no se recomienda usar x87. Entonces, ¿por qué se menciona aquí? La respuesta está en un software más antiguo. Las pilas de software basadas en Fortran de décadas de antigüedad todavía usan estas instrucciones, y la mayoría de las veces en códigos matemáticos de alto rendimiento. El aumento del rendimiento del FADD / FMUL debería proporcionar una buena velocidad allí.

Enteros vectoriales

Todas las mejoras de los números enteros vectoriales se dividen en dos categorías principales. Aparte de las mejoras de latencia, algunas de estas mejoras son específicas del puerto de ejecución; debido a la forma en que los puertos de ejecución han cambiado esta vez, el rendimiento ha mejorado para un gran número de instrucciones.

Hay algunos otros que no son específicos de FP.

Estos tres últimos son importantes para la criptografía SHA. AMD, a diferencia de Intel, tiene SHA acelerado, por lo que poder reducir varias instrucciones a una sola instrucción para ayudar a aumentar el rendimiento y la utilización debería impulsarlas aún más. En lugar de optar por SHA256 acelerado por hardware, Intel prefiere usar su unidad AVX-512, que desafortunadamente consume mucha más energía y es menos eficiente.

Flotantes vectoriales

Ya cubrimos las mejoras en la latencia de FMA, pero también hay otras mejoras.

Junto con estos, las latencias de almacenamiento a carga se han incrementado en un reloj. AMD está promocionando que ha mejorado el ancho de banda de almacenamiento a carga con el nuevo núcleo, pero eso viene con una latencia adicional.

En comparación con algunos de los recientes lanzamientos de CPU, ¡esto es una gran cantidad de cambios!

Frecuencia: por encima de 5,0 GHz

Uno de los aspectos más destacados que AMD está promocionando con los nuevos procesadores Zen 3 core y Ryzen 5000 es que la compañía ha mantenido la misma potencia y, sin embargo, ha entregado más frecuencia, más rendimiento por MHz y, en última instancia, más rendimiento, a pesar de usar el mismo TSMC N7. nodo del proceso de fabricación. La eficiencia actualizada del núcleo, asumiendo que el diseño puede escalar en frecuencia y voltaje, naturalmente puede conducir a esos números de frecuencia más altos. Uno de los obstáculos de AMD al competir contra Intel en los últimos tiempos ha sido, a pesar de cualquier diferencia de IPC, la mayor frecuencia del proceso de 14nm de Intel. Con Zen 3, vemos que AMD impulsa esos números más altos, y algunos números más altos que en la caja.

Cuando AMD anunció el procesador superior de 16 núcleos, el Ryzen 9 5950X, dio una frecuencia base de 3400 MHz y una frecuencia turbo de 4900 MHz. Este valor turbo estaba tan cerca del número “mágico” de 5000 MHz, y proporcionaría un ángulo adicional para AMD en su estrategia de marketing y conjunto de herramientas promocionales. En última instancia, la puntuación de una versión de 5000 MHz se reduce a la agrupación: AMD tendría un análisis detallado de los chiplets que hace en TSMC, y vería cuántos chiplets podrían alcanzar esta marca. La pregunta entonces es si habría suficiente para satisfacer la demanda, o si esos chiplets se adaptarían mejor a los futuros productos EPYC de mayor eficiencia donde los márgenes son mayores.

Hemos visto lo que sucede cuando lanza un procesador que no se puede construir en la cantidad requerida: el Core i9-10900K de Intel, a 5.3 GHz turbo, era una frecuencia súper alta pero no se podía construir lo suficiente para satisfacer la demanda, e Intel lanzó el Core i9-10850K, un chip idéntico excepto que ahora bajó a 5.1 GHz, que era un objetivo más fácil de alcanzar.

Si ha leído hasta aquí en la revisión, ya ha visto que aquí estamos citando que superamos los 5.0 GHz para el Ryzen 9 5950X. A pesar de tener un turbo oficial de un solo núcleo de 4.9 GHz, el procesador tiene una métrica interna de frecuencia ‘pico’ asumiendo que hay suficiente margen térmico y de potencia de 5025 MHz. Este, en efecto, debería ser su valor turbo oficial. En combinación con el comportamiento de aumento de precisión predeterminado, vimos 5050 MHz muy regulares y sostenidos.

Preguntamos a AMD sobre esto. Nos dijeron que el valor de 4,9 GHz para el turbo de un solo núcleo debería cubrir todas las situaciones, según la versión de BIOS, la placa base utilizada y la calidad del silicio interior. La compañía se complace en permitir que los algoritmos básicos de refuerzo de precisión (o en lo que se incorporó el rango de frecuencia eXtreme / XFR) permitan algo más alto que 4.9 GHz si puede, y lo confirmaron con un AM4 estándar de gama alta construido y este procesador, 5025 / 5050 MHz debería ser fácilmente alcanzable con una gran proporción de hardware minorista 5950X.

Entonces, ¿por qué AMD no promueve 5.0 GHz?

Desde el punto de vista de ‘Me he ocupado de las relaciones con la prensa de estas empresas durante más de 10 años’, sospecho que la respuesta real de que AMD no promueva 5.0 GHz es más bien esculpir la visión holística de Zen 3 y Ryzen 5000.

Si la compañía promocionara / ubicara el Ryzen 9 5950X como el segundo procesador de AMD en superar los 5.0 GHz (el primero fue el FX-9590 en 2013), o alcanzar 5.0 GHz en 7nm, entonces este logro necesariamente eclipsaría todos los otros logros de AMD en Zen 3. En lugar de apuntar al nuevo núcleo, el IPC aumentado o la eficiencia del nuevo procesador, todos apuntarían al En su lugar, frecuencia de 5,0 GHz. Alcanzar ese valor y promoverlo como tal enmascara efectivamente la capacidad de AMD (y la prensa) de poder discutir algunas de las otras victorias importantes: esa victoria de 5.0 GHz resultaría como un cáliz envenenado. No solo esto, sino que podría incitar a los usuarios a comprarlos a un precio más alto; Puede considerar esto como una ganancia tanto desde la perspectiva de los ingresos como de los márgenes brutos, pero se relaciona con la capacidad de AMD para producir los chiplets con esta frecuencia o si quieren usarlos para otros productos de mayor margen.

Por supuesto, algo de esto es vanidad. AMD prefiere hablar sobre su experiencia y éxitos en ingeniería, sus equipos de ingenieros y sumergirse en los logros específicos del desempeño, especialmente para un producto donde las afirmaciones sobre el liderazgo absoluto en desempeño son en sí mismas una declaración sólida. Los usuarios pueden confundir el hecho de que AMD llegó a 5.0 GHz fue la única razón para el liderazgo en rendimiento y, en última instancia, esa no es la narrativa que AMD quiere cultivar.

También deja la puerta abierta a un producto futuro que seguramente dirá 5.0 GHz en la caja. Cuando AMD ha extraído el rendimiento de marketing de su mayor IPC y eficiencia, puede abrir esa ventana y cosechar otro ciclo de revisión enfocado.

En resumen: el marketing efectivo es una habilidad, especialmente cuando existen múltiples ángulos que se pueden aprovechar para las herramientas promocionales. Identificar cómo se superponen esas comunicaciones podría afectar, multiplicar o amplificar drásticamente la percepción del producto. En qué orden ejecutas esos múltiplos y amplificaciones pueden hacer o deshacer un ciclo de producto.

Desde la perspectiva de un miembro de la prensa, cuanto más interactúo con los equipos de comunicación, más entiendo cómo piensan.

Informes de frecuencia

Dicho todo esto, necesitamos una tabla actualizada que muestre nuestras frecuencias máximas medidas y turbo de todos los núcleos para la serie Ryzen 5000. Pasando por cada uno de los cuatro procesadores, como parte de nuestras pruebas de energía, recogemos todos los datos para la energía por núcleo y las frecuencias por núcleo a medida que escalamos de inactivo a carga completa de CPU. Parte de esos datos muestra:

La principal conclusión de estos datos, además de los valores turbo medidos, es que uno de los nuevos núcleos Zen 3 de AMD puede alcanzar los 4000 MHz en alrededor de 7 W, como lo indican los valores por núcleo en el 5950X y 5900X. Para los futuros procesadores empresariales AMD Milan EPYC, esta es información vital para ver dónde terminarán exactamente algunos de esos procesadores dentro de un presupuesto de energía dado (como 225 W o 280 W).

También son de destacar los dos últimos procesadores: ambos procesadores informan una frecuencia turbo de 4450 MHz de todos los núcleos, sin embargo, el 5800X lo hace con 14,55 W por núcleo, pero el 5600X puede hacerlo con solo 10,20 W por núcleo. En este caso, parece que el voltaje del 5800X es mucho más alto que el de los otros procesadores, y esto está forzando térmicas más altas: estábamos midiendo 90ºC a plena carga después de 30 segundos (en comparación con los 73ºC en el 5600X o 64ºC en el 5950X ), lo que podría estar atrofiando la frecuencia aquí. La placa base podría estar exagerando un poco el voltaje aquí, muy por encima de lo que realmente se requiere para el núcleo.

Volviendo al chip halo, podemos comparar la escala de frecuencia del núcleo cargada del nuevo Ryzen 9 5950X con núcleos Zen 3 con la generación anterior de Ryzen 9 3950X con núcleos Zen 2. Se parece un poco a esto.

Tenga en cuenta que los números 3950X se actualizaron desde nuestra revisión original 3950X, dado que ha habido una amplia variedad de actualizaciones de BIOS desde entonces. Ambas CPU exhiben una caída rápida de la carga de un solo núcleo, y entre 3 y 8 núcleos se mantiene estable, con el nuevo procesador en cualquier lugar entre 400 y 450 MHz más alto. A medida que escalamos más de ocho núcleos, las dos partes convergen en realidad a una carga de 14 núcleos, y cuando nos sentamos a una CPU completa, nuestro Ryzen 9 5950X es 125 MHz más bajo que el 3950X.

¿Deberíamos investigar mucho esto? La frecuencia base indicada del Ryzen 9 5950X es 100 MHz más baja que la del Ryzen 9 3950X (3400 MHz frente a 3500 MHz), y estamos viendo una diferencia total de 125 MHz. Esto tiene el potencial de indicar que Zen3 tiene una mayor densidad de corriente cuando todos los núcleos están activos, y debido a las características del silicio y el diseño del núcleo (como el núcleo más ancho y la carga / almacenamiento más rápido), tiene que haber esto Diferencia de frecuencia para mantener la potencia cuando todos los núcleos están cargados. Naturalmente, el beneficio de Zen 3 es un mayor rendimiento por núcleo, que debería ir más allá de la diferencia de 125 MHz. Los puntos de referencia de la próxima docena de páginas mostrarán esto.

TDP y consumo de energía: sin sorpresas reales

La naturaleza de informar sobre el consumo de energía del procesador se ha convertido, en parte, en una pesadilla distópica. Históricamente, el consumo máximo de energía de un procesador, tal como se compra, viene dado por su Potencia de diseño térmico (TDP o PL1). Para muchos mercados, como los procesadores integrados, ese valor de TDP todavía significa el consumo máximo de energía. Para los procesadores que probamos en AnandTech, ya sea de escritorio, portátil o empresarial, este no es siempre el caso.

Los procesadores modernos de alto rendimiento implementan una función llamada Turbo. Esto permite, normalmente durante un tiempo limitado, que un procesador supere su frecuencia nominal. Exactamente hasta dónde llega el procesador depende de algunos factores, como el Turbo Power Limit (PL2), si la frecuencia máxima está codificada, las térmicas y la entrega de energía. El turbo a veces puede ser muy agresivo, lo que permite valores de potencia 2,5 veces superiores al TDP nominal.

AMD e Intel tienen diferentes definiciones para TDP, pero en términos generales se aplican de la misma manera. La diferencia radica en los modos turbo, los límites turbo, los presupuestos turbo y cómo los procesadores gestionan ese equilibrio de energía. Estos temas son artículos de 10000-12000 palabras por derecho propio, y tenemos algunos artículos que vale la pena leer sobre el tema.

• Por qué los procesadores Intel consumen más energía de la esperada: explicación de TDP y Turbo
• Hablando de TDP, Turbo y Overclocking: una entrevista con el compañero de Intel Guy Therien
• Alcanzando el Turbo: alineando la percepción con las métricas de frecuencia de AMD
• Las travesuras del TDP de Intel lastiman a todos

En términos simples, los fabricantes de procesadores solo garantizan dos valores que están vinculados: cuando todos los núcleos funcionan a la frecuencia base, el procesador debe funcionar a la clasificación TDP o por debajo de ella. Todos los modos turbo y modos de potencia anteriores no están cubiertos por la garantía.

Para los nuevos procesadores Ryzen 5000 de AMD, la mayoría de ellos tienen un TDP de 105 W, con una configuración de Seguimiento de energía del paquete (PPT) de 142 W.Para estos procesadores, podemos ver nuestro consumo máximo de energía a través de nuestras pruebas que coinciden con ese valor. Para el único procesador de 65 W, el valor de PPT es de 88 W, y solo vemos 76 W, lo que muestra algunas de las eficiencias del Ryzen 5 5600X.

Si miramos directamente al Ryzen 9 5950X para el consumo de energía de todo el chip sobre la carga por núcleo, obtenemos el siguiente gráfico. Aquí informamos dos de los valores a los que tenemos acceso en el chip, que el chip estima como parte de sus algoritmos de detección y acción de turbo: potencia total del paquete (para todo el chip) y la potencia utilizada únicamente por la suma de núcleos, que incluye la caché L3. La diferencia entre los dos cubre la matriz de E / S, así como las comunicaciones chiplet a chiplet, PCIe, CPU a chipset y consumo de controlador DRAM.

Hay dos características importantes de este gráfico.

Primero está la joroba y una lenta disminución en el consumo total de energía del paquete después de una carga de 8-10 núcleos. Vimos esto cuando probamos por primera vez la generación anterior 3950X, y es indicativo de cómo el procesador ha aumentado la densidad de corriente a medida que carga los núcleos y, como resultado, hay un equilibrio entre la frecuencia que puede dar, la entrega de energía y la aplicación. el voltaje de una manera consistente. Estamos viendo que la diferencia entre los dos valores también aumenta ligeramente, a medida que se transfieren más datos a través de esas comunicaciones fuera de chiplet. También vemos este efecto en el 5900X, lo que quizás indique que esta es una característica del diseño de chiplet dual; no lo estamos viendo en el 5800X o 5600X.

La segunda característica es una caída extraña en la potencia que se mueve de 4 a 5 núcleos cargados. Mirando los datos, la frecuencia de los núcleos activos cae de 4725 a 4675, lo que no es una gran caída, sin embargo, el voltaje disminuye de 1,38 V a 1,31 V, lo que parece ser una caída más considerable que otras lecturas de voltaje a medida que escalamos la carga de núcleo a núcleo. También hay un mayor aumento en la potencia no central, de 16 W a 21 W, lo que quizás disminuye la potencia de los núcleos, reduciendo el voltaje.

Esto podría ser una peculiaridad de nuestro chip específico, nuestra prueba de potencia, o podría ser específico de la placa base o del BIOS (o una combinación de varios factores). Podríamos volver en el futuro a otras juntas para ver si esto es consistente.

Cuando nos sumergimos en la carga de energía por núcleo, obtenemos lo siguiente:

La distribución de energía del chip grande parece aumentar en esa carga de 3-4 núcleos antes de volver a bajar. Pero a medida que cargamos el segundo chiplet pasando de una carga de 8 a 9 núcleos, vale la pena señalar que el segundo chipset está reportando una potencia de núcleo más baja, a pesar de mostrar la misma frecuencia de núcleo. AMD puede suministrar a los dos chiplets diferentes cantidades de voltaje y potencia, y es posible que estemos viendo esto en tiempo real.

Quizás muy importante es ese consumo de energía de un solo núcleo cuando estamos a 5050 MHz de 20,6 W. Volviendo a los datos de nuestra generación anterior, en Zen 2 solo estábamos viendo un pico de 18,3 W y un voltaje ligeramente superior informado (1,45 V para Zen 2 frente a 1,42 V para Zen 3). Esto significa que, desde la perspectiva de nuestros dos chips, los núcleos Zen 3 escalan mejor en frecuencia, y aunque la potencia aumenta como se esperaba, el voltaje disminuye simultáneamente (tenga en cuenta que puede haber cierta variabilidad de silicio para explicar algo de esto).

Moviéndose hacia abajo en la pila, el Ryzen 9 5900X de 12 núcleos no muestra ninguna sorpresa: estamos viendo la misma caída a medida que cargamos los núcleos, esta vez a medida que superamos los ocho núcleos. Como este procesador usa dos chiplets, cada uno con seis núcleos, ese segundo conjunto de seis núcleos parece consumir menos energía por núcleo a medida que agregamos carga adicional.

Algunos usuarios pueden estar rascándose la cabeza: ¿por qué el segundo chiplet en ambos chips consume menos energía y, por lo tanto, es más eficiente? ¿No sería mejor usar ese chiplet como el primer chiplet para un menor consumo de energía con cargas bajas? Sospecho que la respuesta aquí es matizada: este primer chip probablemente tenga núcleos que permitan un perfil de fuga más alto, y luego podría decirse que podría alcanzar las frecuencias más altas a expensas de la potencia.

Bajando a un solo chiplet, pero tendrá todo el presupuesto de energía, y hay algunos ahorros de energía al no tener las comunicaciones de un segundo chiplet. Sin embargo, con una carga de 8 núcleos, el 5800X muestra 4450 MHz: los procesadores Ryzen 9 muestran 4475 MHz y 4500 MHz, lo que indica que todavía hay alguna diferenciación de producto con este tipo de rendimiento. Con este chip todavía vimos un consumo máximo de energía de 140 W, sin embargo, no estaba en este punto de referencia (nuestros números máximos pueden provenir de varios puntos de referencia que monitoreamos, no solo de nuestro conjunto de puntos de referencia de carga de energía).

En el nivel de 65 W del 5600X, como se mencionó anteriormente, la frecuencia de todos los núcleos es 4450 MHz, que en realidad está 50 MHz detrás del 5800X. Sin embargo, este chip es muy consistente, aún renuncia a +50 MHz en su turbo máximo en comparación con el número en la caja. También lleva este turbo a una carga de al menos 3 núcleos, y no pierde mucho a la carga de 5 núcleos. Los usuarios que buscan algo consistente y de bajo consumo podrían dejarse influir por este chip.

Para algunas pruebas específicas del mundo real, nos centraremos únicamente en el Ryzen 9 5950X. En primer lugar está nuestra carga de trabajo de construcción de modelos de imagen, utilizando nuestro punto de referencia Agisoft Photoscan. Esta prueba tiene varias áreas diferentes que involucran algoritmos de un solo hilo, multi-hilo o con memoria limitada.

La mayor parte de esta prueba se sitúa alrededor de la marca de 130 W, ya que la carga de trabajo tiene un número de subprocesos variable. Hay un par de picos momentáneos por encima de 140 W, sin embargo, todo está dentro de los parámetros esperados.

La segunda prueba es de y-Cruncher, que es nuestra carga de trabajo AVX2 / AVX512. Esto también tiene algunos requisitos de memoria, que pueden llevar a ciclos periódicos con sistemas que tienen opciones de ancho de banda de memoria por núcleo más bajas.

Nuestra prueba y-Cruncher a menudo muestra uno de dos patrones: una línea plana para procesadores con limitación de energía o este zig-zag cuando se carga la prueba y también utiliza una buena parte de las transferencias de memoria para el cálculo. Por lo general, es este último el que muestra cuándo estamos aprovechando al máximo el procesador, y lo obtenemos aquí.

En comparación con otros procesadores, para la potencia máxima, informamos el valor de carga más alto observado en cualquiera de nuestras pruebas de referencia.

Debido a la implementación de PPT de AMD, estamos obteniendo resultados de potencia máxima muy consistentes entre varias generaciones de procesadores AMD. Debido a que los fabricantes de equipos originales juegan con la implementación de turbo de Intel, esencialmente a una potencia turbo máxima ilimitada, es por eso que vemos valores de carga completa muy por encima de 200 W.Mientras que Intel se mantiene en su proceso de 14nm más optimizado y AMD aprovecha los 7nm líderes de TSMC, junto con múltiples generaciones de DTCO, AMD tendrá ese liderazgo en eficiencia.

Rendimiento de CPU ST: SPEC 2006, SPEC 2017

SPEC2017 y SPEC2006 es una serie de pruebas estandarizadas que se utilizan para probar el rendimiento general entre diferentes sistemas, diferentes arquitecturas, diferentes microarquitecturas y configuraciones. El código debe compilarse y luego los resultados pueden enviarse a una base de datos en línea para su comparación. Cubre un rango de cargas de trabajo enteras y de punto flotante, y puede estar muy optimizado para cada CPU, por lo que es importante verificar cómo se compilan y ejecutan los puntos de referencia.

Ejecutamos las pruebas en un arnés construido a través del Subsistema de Windows para Linux, desarrollado por nuestro propio Andrei Frumusanu. WSL tiene algunas peculiaridades extrañas, con una prueba que no se ejecuta debido a un tamaño de pila fijo de WSL, pero para las pruebas similares es lo suficientemente bueno. SPEC2006 está en desuso a favor de 2017, pero sigue siendo un punto de comparación interesante en nuestros datos. Debido a que nuestros puntajes no son presentaciones oficiales, según las pautas de SPEC, tenemos que declararlos como estimaciones internas de nuestra parte.

Para los compiladores, usamos LLVM tanto para C / C ++ como para pruebas de Fortan, y para Fortran usamos el compilador Flang. La razón fundamental de utilizar LLVM sobre GCC son mejores comparaciones multiplataforma con plataformas que solo tienen soporte LLVM y artículos futuros donde investigaremos más este aspecto. No estamos considerando compiladores de código cerrado como MSVC o ICC.

clang version 10.0.0
clang version 7.0.1 (ssh://git@github.com/flang-compiler/flang-driver.git
24bd54da5c41af04838bbe7b68f830840d47fc03)

-Ofast -fomit-frame-pointer
-march=x86-64
-mtune=core-avx2
-mfma -mavx -mavx2

Nuestros indicadores del compilador son sencillos, con conmutadores ISA básicos, rápidos y relevantes para permitir instrucciones AVX2.

Cabe señalar que los requisitos para la licencia SPEC establecen que cualquier resultado de referencia de SPEC debe etiquetarse como “estimado” hasta que se verifique en el sitio web de SPEC como una representación significativa del rendimiento esperado. Esto lo hacen con mayor frecuencia las grandes empresas y los OEM para mostrar el rendimiento a los clientes, sin embargo, es bastante exagerado para lo que hacemos como revisores.

Comenzamos con SPEC2006, un punto de referencia heredado a estas alturas, pero que todavía tiene muy bien entendido el comportamiento de la microarquitectura para que analicemos el nuevo diseño del Zen3:

En SPECint2006, estamos viendo incrementos saludables en el rendimiento en todos los ámbitos para muchas de las pruebas. Particularmente destacable es el nuevo comportamiento 462.libquantum del Ryzen 9 5950X, que está publicando más del doble del rendimiento de su predecesor, probablemente gracias a la nueva caché mucho más grande, pero también al mayor rendimiento general de carga / almacenamiento del nuevo núcleo como así como las mejoras de memoria de la microarquitectura.

También estamos viendo grandes aumentos de rendimiento para 429.mcf y 471.omnetpp, que son sensibles a la latencia de la memoria: aunque el nuevo diseño en realidad no cambia tanto la latencia estructural de la DRAM, el manejo mucho mejorado e inteligente del nuevo núcleo de memoria a través de nuevos algoritmos de reemplazo de línea de caché, nuevos prefetchers, parecen tener un gran impacto en estas cargas de trabajo.

400.perlbench es interesante ya que no es realmente una carga de trabajo pesada de memoria o L3, sino que tiene mucha presión de instrucción. Creo que el gran impulso de Zen3 aquí podría deberse al nuevo manejo optimizado de la caché OP y a las optimizaciones, ya que eso tendría más sentido de todos los cambios en el nuevo diseño: es una de las pruebas que tiene una pérdida de caché L1I muy alta. Velocidad.

Una prueba más simple que se limita únicamente a la ejecución de números enteros y se ubica casi exclusivamente en el L1D es 456.hmmer, y aquí estamos viendo solo un aumento menor en el rendimiento solo lineal con el aumento de frecuencia de reloj del nuevo diseño, con solo un 1% de IPC edificación. Dado que Zen3 en realidad no cambia su ancho de ejecución de enteros en términos de ALU o ancho total de la máquina, tiene sentido no ver muchas mejoras aquí.

En SPECfp2006, estamos viendo aumentos más saludables en el rendimiento en todos los ámbitos, lo que se debe principalmente a la naturaleza más intensiva en memoria de las cargas de trabajo, y estamos viendo grandes aumentos de IPC en la mayoría de las pruebas debido al mayor L3 y al mejor capacidades de memoria del núcleo. 433.milc ve un aumento menor que los otros puntos de referencia y eso se debe a que tiene más ancho de banda de memoria DRAM. 482.spinx también está experimentando un aumento menor del 9% de IPC debido a que no consume tanta memoria.

En las puntuaciones generales de 2006, las nuevas piezas de la serie Ryzen 5000 muestran grandes aumentos de rendimiento generacional con márgenes muy superiores a los de la generación anterior, así como a la competencia más cercana. En comparación con el 3950X, el nuevo 5950X es un 36% más rápido en las cargas de trabajo enteras y un 29% más rápido en las cargas de trabajo de punto flotante, que son elevaciones masivas. AMD también está dejando atrás a Intel en términos de rendimiento aquí con una ventaja de rendimiento del 17% y el 25% frente al 10900K.

En el rendimiento por aumento de reloj, medido en el rendimiento máximo, estamos viendo una mejora media del 20,87% y una mejora media del 24,99% para la nueva microarquitectura Zen3 en comparación con el diseño Zen2 del año pasado. AMD todavía está bastante por detrás de A13 y A14 de Apple (revisión próximamente), pero eso es natural dado que casi el doble de ancho de microarquitectura del diseño de Apple, se ejecuta en frecuencias más bajas. Será interesante probar los dispositivos Apple Silicon Mac y compararlos con las nuevas piezas de AMD.

Pasando al nuevo SPECint2017, nuevamente vemos una gran mejora de Zen3 dependiendo de las diversas características de microarquitectura de las respectivas cargas de trabajo. 500.perlbench_r muestra de nuevo una mejora masiva del 37% de IPC para la nueva arquitectura, una vez más, es muy probable que se deba al nuevo diseño y las optimizaciones por parte del OP-cache del diseño Zen3.

520.omnetpp también muestra un 42% de aumento de IPC gracias a las tecnologías de memoria empleadas en el nuevo diseño. Las cargas de trabajo limitadas de rendimiento de ejecución como 525.x264 están experimentando aumentos más pequeños del 9,5% de IPC debido a que, en general, se han producido menos cambios en este aspecto de la microarquitectura.

En SPECfp2017, vemos una situación similar a las cargas de trabajo anteriores. Las cargas de trabajo vinculadas a la ejecución, como 508.namd o 538.imagick, están experimentando aumentos de IPC más pequeños en el rango del 9-6%. Del mismo modo, las cargas de trabajo con escasez de ancho de banda de DRAM, como 549.fotonik3d y 554.roms, también muestran aumentos más pequeños de IPC del 2,7% al 8,6%.

Las cargas de trabajo más híbridas que hacen un buen uso de las cachés están experimentando mayores mejoras de rendimiento en todos los ámbitos. Hasta un 35,6% máximo de IPC por 519.lbm.

En las cifras de rendimiento total de la suite SPEC2017, el nuevo Ryzen 5000 también brilla gracias a su frecuencia y aumentos de IPC. Generacionalmente, en las suites int2017 y fp2017, estamos viendo un aumento del rendimiento del 32% y el 25% con respecto al 3950X, que son cifras muy impresionantes.

En cuanto al IPC, al observar un histograma de todas las cargas de trabajo de SPEC, vemos una mediana del 18,86%, que está muy cerca de la cifra del 19% proclamada por AMD, y un promedio del 21,38%, aunque si descontamos libquantum, ese promedio desciende a 19,12%. Por lo tanto, las cifras de marketing de AMD están prácticamente validadas, ya que han alcanzado exactamente su cifra proclamada con la nueva microarquitectura Zen3.

En el panorama competitivo, esto ahora convierte a Zen3 en el líder indiscutible en el espacio x86, dejando atrás los viejos diseños de Intel Skylake y también mostrando más complejidad de diseño que los nuevos núcleos Sunny Cove y Willow Cove.

En general, la nueva serie Ryzen 5000 y la microarquitectura Zen3 parecen ganadores absolutos, y no hay duda de que se llevan la corona de rendimiento. AMD ha logrado esto a través de un aumento en la frecuencia, así como un notable aumento del 19% gracias a un diseño más inteligente.

Lo que espero ver de AMD en diseños futuros es un impulso más agresivo hacia un diseño de núcleo más amplio con saltos de IPC aún mayores. En cargas de trabajo que están más ligadas a la ejecución, Zen3 no es una mejora tan grande. El cambio de una caché L3 de 16 MB a 32 MB no es algo que se repita pronto en términos de magnitud de mejora, y también es muy dudoso que veamos aumentos de frecuencia significativos con las generaciones venideras. A medida que la Ley de Moore se está desacelerando, ir más amplio e inteligente parece ser la única forma de avanzar para mejorar el rendimiento.

Rendimiento de CPU MT: SPEC 2017

Si bien el rendimiento de un solo subproceso de Zen3 parece ser una victoria absoluta para las nuevas CPU de la serie Ryzen 5000, el rendimiento de varios subprocesos también es el otro aspecto importante de un diseño. Generalmente, lo que entra en juego mucho más para el rendimiento de subprocesos múltiples es la eficiencia energética del diseño. Como ninguno de los componentes empresariales o de consumo x86 actuales es capaz de ejecutar todos sus núcleos a la frecuencia máxima para un rendimiento máximo debido a las limitaciones de potencia de la plataforma, cualquier aumento de rendimiento resultante que podamos ver entre generaciones con un límite de potencia similar se debe a la potencia y ganancias de eficiencia energética entre los diseños.

Para AMD, estamos limitando las comparaciones detalladas aquí con el 3950X y el 5950X, que ambos tienen un PPT de 142W, lo que significa que esa es la potencia máxima máxima para la plataforma y cifras sostenidas observadas de 120-125W en cargas de trabajo reales. También estamos lanzando un 10900K para el contexto, pero dados los números de conteo de núcleos muy diferentes, no ofrece una comparación exacta de manzanas con manzanas.

Comenzando con SPECint2006, los aumentos de rendimiento para la nueva serie Ryzen 5000 aquí no parecen ser tan significativos en la mayoría de las pruebas, con aumentos muy por debajo de los de los puntos de referencia de un solo hilo.

La mayoría de las pruebas muestran un aumento del rendimiento del 10%, y la prueba con más memoria no muestra ninguna mejora. Algunas de las mejoras menores, como un aumento del 5% en 502.gcc, parecen bastante decepcionantes y muestran que la nueva plataforma no es un impulso tan grande para las cargas de trabajo de productividad.

En SPECfp2017, 510.parest y 527.cam4 se destacan como las dos cargas de trabajo con las mayores mejoras, y el resto de las cargas de trabajo tienen mejoras inferiores al 5% o incluso un rendimiento plano o más lento que el 3950X.


** Cifras preliminares que se volverán a probar debido a la configuración DIMM de memoria SR de 2x16GB vs 4x8GB SR, las puntuaciones mejorarán.

En general, la nueva serie Ryzen 5000 muestra una mejora del rendimiento bastante conservadora del 8-9% con respecto a las SKU de la generación anterior. La variante de 12 núcleos aquí muestra un impulso un poco mayor del 10-13%.

En este sentido, los nuevos chips parecen haber perdido la marca en términos de las afirmaciones de AMD de un 12% más de rendimiento por vatio para el nuevo 5950X y un 26% de mejor rendimiento por vatio para el 5900X; su marketing debería haberlo hecho mejor al explicar esos cifras, o simplemente ser más conservador con sus números. Esto tampoco es un buen augurio para los eventuales chips Zen3 Milan basados ​​en EPYC.

Prueba de configuración y #CPUOverload Benchmarks

De acuerdo con nuestra política de pruebas de procesadores, tomamos una placa base de categoría premium adecuada para el zócalo y equipamos el sistema con una cantidad adecuada de memoria que se ejecuta en la frecuencia máxima admitida por el fabricante. Esto también se suele ejecutar en subtiempo de JEDEC siempre que sea posible. Se observa que algunos usuarios no están interesados ​​en esta política, indicando que a veces la frecuencia máxima admitida es bastante baja, o hay memoria más rápida disponible a un precio similar, o que las velocidades JEDEC pueden ser prohibitivas para el rendimiento. Si bien estos comentarios tienen sentido, en última instancia, muy pocos usuarios aplican perfiles de memoria (ya sea XMP u otros) ya que requieren interacción con el BIOS.y la mayoría de los usuarios recurrirán a las velocidades admitidas por JEDEC; esto incluye tanto a los usuarios domésticos como a la industria que tal vez quieran reducir un centavo o dos del costo o mantenerse dentro de los márgenes establecidos por el fabricante. Siempre que sea posible, ampliaremos las pruebas para incluir módulos de memoria más rápidos, ya sea al mismo tiempo que la revisión o en una fecha posterior.

La suite 2020 #CPUOverload

Nuestras pruebas de CPU pasan por una serie de áreas principales. Cubrimos pruebas web utilizando nuestra versión no actualizable de Chromium, abriendo archivos PDF complicados, emulación, simulación cerebral, IA, conversión de imagen 2D a modelo 3D, renderizado (trazado de rayos, modelado), codificación (compresión, AES, video y HEVC), pruebas basadas en office y nuestras pruebas heredadas (retrocesos de otra generación de código, pero interesantes de comparar).

El sistema operativo Win10 Pro se prepara de antemano y ejecutamos una serie de comandos de edición del registro nuevamente para asegurarnos de que varias funciones del sistema estén apagadas y deshabilitadas al comienzo del conjunto de pruebas comparativas. Esto incluye deshabilitar Cortana, deshabilitar la funcionalidad GameDVR, deshabilitar el Informe de errores de Windows, deshabilitar Windows Defender tanto como sea posible, deshabilitar las actualizaciones y volver a implementar las opciones de energía y eliminar OneDrive, en caso de que brotaran alas nuevamente.

Nuestros lectores han solicitado varias de estas pruebas, y las hemos dividido en algunas categorías más de lo normal, ya que nuestros lectores han estado solicitando pruebas focales específicas para sus cargas de trabajo. Una ejecución reciente en un Core i5-10600K, solo para las pruebas de CPU, tardó alrededor de 20 horas en completarse.

Potencia
• Peak Power (y-Cruncher con el último AVX)
• Potencia de carga por núcleo usando POV-Ray

Oficina
• Agisoft Photoscan 1.3: conversión de 2D a 3D
• Tiempo de carga de la aplicación: GIMP 2.10.18 desde una instalación nueva
• Compilar pruebas (WIP)

Ciencias
• Movimiento de partículas 3D v2.1 (no AVX + AVX2 / AVX512)
• y-Cruncher 0.78.9506 (cálculo de división binaria optimizado para constantes matemáticas)
• NAMD 2.13: Dinámica molecular a nanoescala en la proteína ApoA1
• AI Benchmark 0.1.2 con TensorFlow (no optimizado para Windows)

Simulación
• Digicortex 1.35: simulación de estimulación cerebral
• Dwarf Fortress 0.44.12: Creación de un mundo de fantasía y paso del tiempo
• Dolphin 5.0: prueba de renderizado de Ray Tracing para el emulador de Wii

Representación
• Blender 2.83 LTS: programa de renderizado popular que utiliza el renderizado de cuadros PartyTug
• Corona 1.3: Benchmark de trazado de rayos
• Solo CPU de Crysis: ¿Puede ejecutar Crysis? ¿Qué, solo con la CPU a 1080p? Por supuesto
• POV-Ray 3.7.1: otra prueba de trazado de rayos
• V-Ray: otro renderizador popular
• CineBench R20: motor de renderizado Cinema4D

Codificación
• Handbrake 1.32: popular herramienta de transcodificación
• 7-Zip: software de compresión de código abierto
• Codificación AES: codificación acelerada de instrucciones
• WinRAR 5.90: popular herramienta de compresión

Legado
• CineBench R10
• CineBench R11.5
• CineBench R15
• 3DPM v1: versión ingenua de 3DPM v2.1 sin aceleración
• X264 HD3.0: punto de referencia de transcodificación clásico

Web
• Kraken 1.1: prueba web depreciada sin sucesor
• Octane 2.0: prueba más completa (pero también obsoleta sin sucesor)
• Velocímetro 2: prueba web basada en listas con diferentes marcos

Sintético
• GeekBench 4 y GeekBench 5
• Ancho de banda de memoria AIDA
• Velocidad de Linux OpenSSL (rsa2048 firmar / verificar, sha256, md5)
• LinX 0.9.5 LINPACK (cuando corresponda)

SPEC (estimado)
• SPEC2006 tasa-1T
• SPEC2017 rate-1T
• SPEC2017 rate-nT

Cabe señalar que debido a los términos de la licencia SPEC, debido a que nuestros resultados de referencia no son examinados directamente por el consorcio SPEC, tenemos que etiquetarlos como “estimados”. El punto de referencia todavía se ejecuta y obtenemos resultados, pero esos resultados deben tener la etiqueta ‘estimado’.

Otros
• Un análisis completo de rendimiento / latencia de instrucciones x86
• Latencia de núcleo a núcleo
• Latencia de caché a DRAM
• Rampa de frecuencia

Algunas de estas pruebas también tienen envoltorios de energía AIDA a su alrededor para proporcionar una idea de la forma en que se informa la energía a través de la prueba.

Benchmarks de juegos de CPU (GPU) 2020

En el pasado, hemos abordado el conjunto de puntos de referencia de GPU de varias formas diferentes. Hemos tenido una GPU para varios juegos en una resolución, o varias GPU toman algunos juegos en una resolución, luego, a medida que la automatización progresa hacia algo mejor, varias GPU toman algunos juegos en varias resoluciones. Sin embargo, según los comentarios, tener la mejor GPU de la que podamos conseguir más de una docena de juegos en varias resoluciones parece ser la mejor opción.

Normalmente, asegurar las GPU para esta prueba es difícil, ya que necesitamos varios modelos idénticos para las pruebas simultáneas, y muy rara vez un fabricante de GPU, o uno de sus socios OEM, está feliz de entregarme 3-4 + de los últimos y mejores. En ese aspecto, a lo largo de los años, tengo que agradecer a ECS por enviarnos cuatro GTX 580 en 2012, a MSI por enviarnos tres GTX 770 Lightning en 2014, a Sapphire por enviarnos múltiples tarjetas RX 480 y R9 Fury X en 2016, y en nuestra última suite de pruebas, MSI, por enviarnos tres tarjetas de juego GTX 1080 en 2018.

Para nuestras pruebas en la suite 2020, hemos asegurado tres GPU RTX 2080 Ti directamente de NVIDIA. Estas GPU se han optimizado con controladores y títulos de juegos, y dado lo raras que son nuestras actualizaciones, estamos agradecidos por obtener el hardware de alta gama. ( Vale la pena señalar que no actualizaremos a la variante RTX 3080 que salga en algún momento por un tiempo).

En cuanto al tema de las resoluciones, esto es algo que nos ha sido impredecible en el pasado. Algunos usuarios afirman que quieren ver la resolución más baja y las opciones de menor fidelidad, porque esto ejerce la mayor presión sobre la CPU, como una configuración ultra baja de 480p. En el pasado, hemos encontrado que esto no es realista para todos los casos de uso, e incluso si brinda la mejor oportunidad para una diferencia en los resultados, el punto real en el que se encuentra con una GPU limitada podría ser a una resolución más alta. En nuestro último conjunto de pruebas, pasamos de 720p Ultra Low a 1080p Medium, 1440p High y 4K Ultra. Sin embargo, nuestros lectores más vocales lo odiaban, porque incluso en un medio de 1080p, estábamos limitados por GPU en su mayor parte.

Entonces, con ese fin, los puntos de referencia esta vez intentan seguir el patrón básico siempre que sea posible:

• Resolución más baja con escalado más bajo, configuración más baja
• 2560×1440 con la configuración más baja (1080p donde no sea posible)
• 3840×2160 con la configuración más baja
• 1920×1080 en la configuración máxima

El punto (1) debería dar el escenario limitado de CPU final. Deberíamos ver ese aumento a medida que avanzamos a través de (2) 1440p y (3) 4K, con 4K bajo aún siendo bastante agotador en algunos títulos.

El punto (4) es esencialmente nuestra prueba del “mundo real”. El RTX 2080 Ti es excesivo para 1080p Máximo, y veremos que la mayoría de las CPU modernas superan el promedio de 60 FPS en este escenario.

Lo que será interesante es que para algunos títulos, 4K Low es más pesado que 1080p Maximum, y para otros títulos esa relación se invierte.

Para las pruebas de gráficos integrados, usamos las configuraciones (1) y (4) para ver dónde se encuentra la GPU con respecto al rendimiento de la CPU (1), así como también para confirmar qué tan cerca están los gráficos integrados de los juegos de 1080p adecuados (4).

Así que tenemos los siguientes puntos de referencia como parte de nuestro script, automatizados hasta el punto de ejecutar un solo botón y mostrar los resultados aproximadamente 10 horas después, por GPU. También se enumeran las resoluciones y configuraciones utilizadas.

Juegos sin conexión
• Chernobylite, 360p bajo, 1440p bajo, 4K bajo, 1080p máx.
• Civilization 6, 480p bajo, 1440p bajo, 4K bajo, 1080p máx.
• Deus Ex: humanidad dividida, 600p bajo, 1440p bajo, 4K bajo, 1080p máx.
• Final Fantasy XIV: 768p mínimo, 1440p mínimo, 4K mínimo, 1080p máximo
• Final Fantasy XV: 720p estándar, 1080p estándar, 4K estándar, 8K estándar
• World of Tanks: 768p mínimo, 1080p estándar, 1080p máximo, 4K máximo

Juegos en línea
• Borderlands 3, 360p VLow, 1440p VLow, 4K VLow, 1080p Badass
• F1 2019, 768p ULow, 1440p ULow, 4K ULow, 1080p Ultra
• Far Cry 5, 720p bajo, 1440p bajo, 4K bajo, 1080p Ultra
• Gears Tactics, 720p bajo, 4K bajo, 8K bajo 1080p Ultra
• Grand Theft Auto 5, 720p bajo, 1440p bajo, 4K bajo, 1080p máx.
• Red Dead Redemption 2, 384p mínimo, 1440p mínimo, 8K mínimo, 1080p máximo
• Strange Brigade DX12, 720p bajo, 1440p bajo, 4K bajo, 1080p Ultra
• Strange Brigade Vulkan, 720p bajo, 1440p bajo, 4K bajo, 1080p Ultra

Para cada uno de los juegos en nuestras pruebas, tomamos los tiempos de fotogramas donde podemos (los dos que no podemos son Chernobylite y FFXIV). Para estos juegos, en cada combinación de resolución / configuración, los ejecutamos durante tantos bucles en un límite de tiempo determinado (a menudo, 10 minutos por resolución). Resultados Luego se toman como velocidades de fotogramas promedio y 95 th percentiles.

Si hay desarrolladores de juegos involucrados con alguno de los puntos de referencia anteriores, comuníquese con ian@anandtech.com . ¡Tengo una lista de solicitudes para facilitar la evaluación comparativa de su título! Tengo un documento literal que he compilado que muestra lo que sería ideal, las mejores prácticas, quién lo hace correctamente y quién lo hace mal, etc.

El otro ángulo es DRM, y algunos títulos tienen límites de 5 sistemas por día. Esto puede limitar nuestras pruebas en algunos casos; en otros casos, tiene solución.

Pruebas de CPU: oficina y ciencia

Nuestro conjunto anterior de puntos de referencia de ‘oficina’ a menudo ha sido una mezcla de ciencia y sintéticos, por lo que esta vez queríamos mantener nuestra sección de oficina exclusivamente en el rendimiento del mundo real.

Agisoft Photoscan 1.3.3

El concepto de Photoscan consiste en traducir muchas imágenes 2D a un modelo 3D, por lo que cuanto más detalladas sean las imágenes y cuanto más tenga, mejor será el modelo 3D final tanto en precisión espacial como en precisión de textura. El algoritmo tiene cuatro etapas, con algunas partes de las etapas de un solo subproceso y otras de múltiples subprocesos, junto con cierta dependencia de memoria caché / allí también. Para algunas de las cargas de trabajo con subprocesos más variables, características como Speed ​​Shift y XFR podrán aprovechar las paradas de la CPU o el tiempo de inactividad, lo que brindará aceleraciones considerables en microarquitecturas más nuevas.

Para la actualización a la versión 1.3.3, el software Agisoft ahora admite la operación de línea de comandos. Agisoft nos proporcionó un conjunto de imágenes nuevas para esta versión de la prueba y un script de Python para ejecutarlo. Hemos modificado ligeramente la secuencia de comandos cambiando algunas configuraciones de calidad en aras de la duración de la suite de referencia, así como también ajustando cómo se registran los datos de tiempo finales. La secuencia de comandos de Python vuelca el archivo de resultados en el formato que elijamos. Para nuestra prueba obtenemos el tiempo de cada etapa del benchmark, así como el tiempo total.

Apertura de la aplicación: GIMP 2.10.18

Primero, hay una prueba que usa un monstruoso archivo xcf de múltiples capas para cargar GIMP. Si bien el archivo es solo una ‘imagen’, tiene tantas capas de alta calidad incrustadas que tardó más de 15 segundos en abrirse y ganar control en el portátil de rango medio que estaba usando en ese momento.

Lo que probamos aquí es la primera ejecución; normalmente, la primera vez que un usuario carga el paquete GIMP desde una instalación nueva, el sistema tiene que configurar algunas docenas de archivos que permanecen optimizados en la apertura posterior. Para nuestra prueba, eliminamos esos archivos optimizados configurados para forzar una “carga nueva” cada vez que se ejecuta el software. Resulta que GIMP realiza optimizaciones para cada subproceso de la CPU en el sistema, lo que requiere que los procesadores de mayor número de subprocesos tarden mucho más en ejecutarse.

Medimos el tiempo transcurrido desde que se solicita la apertura del software y hasta que el software se devuelve al sistema operativo para el control del usuario. La prueba se repite durante un mínimo de diez minutos o al menos 15 ciclos, lo que ocurra primero, descartándose los tres primeros resultados.

Ciencias

En esta versión de nuestro conjunto de pruebas, todas las pruebas centradas en la ciencia que no son trabajos de “simulación” están ahora en nuestra sección de ciencias. Esto incluye el movimiento browniano, el cálculo de los dígitos de Pi, la dinámica molecular y, por primera vez, estamos probando un punto de referencia de inteligencia artificial, tanto de inferencia como de entrenamiento, que funciona en Windows usando python y TensorFlow. Siempre que ha sido posible, estos puntos de referencia se han optimizado con lo último en instrucciones vectoriales, a excepción de la prueba de inteligencia artificial: nos dijeron que, si bien utiliza las bibliotecas de kernel de matemáticas de Intel, están optimizadas más para Linux que para Windows, por lo que da un resultado interesante. cuando se utiliza software no optimizado.

Movimiento de partículas 3D v2.1: No AVX y AVX2 / AVX512

Esta es la última versión de este benchmark diseñado para simular algoritmos científicos semi-optimizados tomados directamente de mi tesis de doctorado. Esto implica el movimiento aleatorio de partículas en un espacio 3D utilizando un conjunto de algoritmos que definen el movimiento aleatorio. La versión 2.1 mejora sobre la 2.0 al pasar las estructuras de partículas principales por referencia en lugar de por valor, y disminuyendo la cantidad de double-> float-> double recasts que el compilador estaba agregando.

La versión inicial de v2.1 es un binario C ++ personalizado de mi propio código, y los indicadores están en su lugar para permitir múltiples bucles del código con una longitud de referencia personalizada. De forma predeterminada, esta versión se ejecuta seis veces y envía la puntuación media a la consola, que capturamos con un operador de redirección que escribe en el archivo.

Para v2.1, también tenemos una versión AVX2 / AVX512 totalmente optimizada, que utiliza elementos intrínsecos para obtener el mejor rendimiento del software. Esto lo hizo un ex ingeniero de Intel AVX-512 que ahora trabaja en otro lugar. Según Jim Keller , solo hay un par de docenas de personas que entienden cómo extraer el mejor rendimiento de una CPU, y este tipo es uno de ellos. Para ser honesto, AMD también tiene una copia del código, pero no ha propuesto ningún cambio.

La prueba 3DPM está configurada para generar millones de movimientos por segundo, en lugar de tiempo para completar un número fijo de movimientos.

y-Cruncher 0.78.9506

Si le pregunta a alguien qué tipo de computadora tiene el récord mundial para calcular la mayor cantidad de dígitos de pi, puedo garantizar que una buena parte de esas respuestas podrían apuntar a una supercomputadora colosa construida en una montaña por un supervillano. Afortunadamente, nada podría estar más lejos de la verdad: la computadora con el registro es un servidor Ivy Bridge de cuatro sockets con 300 TB de almacenamiento. El software que se ejecutó para conseguirlo fue y-cruncher.

Construido por Alex Yee durante la última parte de una década y algo más, y-Cruncher es el software de elección para calcular miles de millones y billones de dígitos de las constantes matemáticas más populares. El software ha tenido el récord mundial de Pi desde agosto de 2010, y ha batido el récord un total de 7 veces desde entonces. También tiene registros de e , la proporción áurea y otros. Según Alex, el programa ejecuta alrededor de 500,000 líneas de código, y tiene múltiples binarios, cada uno optimizado para diferentes familias de procesadores, como Zen, Ice Lake, Sky Lake, todo el camino de regreso a Nehalem, utilizando el último SSE / AVX2 / Instrucciones de AVX512 donde encajan y luego optimizadas aún más para la forma en que se construye cada núcleo.

Para nuestros propósitos, estamos calculando Pi, ya que está más limitado al cálculo que a la memoria. En el modo multiproceso, optamos por 2.500 millones de dígitos. Ese valor de 2.500 millones de dígitos requiere ~ 12 GB de DRAM, por lo que está limitado a sistemas con al menos 16 GB.

Super-Pi

w-Prime

NAMD 2.13 (ApoA1): Dinámica molecular

Uno de los campos de la divulgación científica es el modelado de la dinámica de las proteínas. Al observar cómo la energía de los sitios activos dentro de una gran estructura de proteínas a lo largo del tiempo, los científicos detrás de la investigación pueden calcular las energías de activación necesarias para las posibles interacciones. Esto se vuelve muy importante en el descubrimiento de fármacos. La dinámica molecular también juega un papel importante en el plegamiento de proteínas y en la comprensión de lo que sucede cuando las proteínas se pliegan mal y qué se puede hacer para prevenirlo. Dos de los paquetes de dinámica molecular más populares que se utilizan en la actualidad son NAMD y GROMACS.

NAMD, o Dinámica molecular a nanoescala, ya se ha utilizado en una extensa investigación sobre el coronavirus en la supercomputadora Frontier. Las simulaciones típicas que utilizan el paquete se miden en cuántos nanosegundos por día se pueden calcular con el hardware dado, y la proteína ApoA1 (92,224 átomos) ha sido el modelo estándar para la simulación de dinámica molecular.

Afortunadamente, la computación puede ubicarse en una tasa típica de ‘nanosegundos por día’ después de solo 60 segundos de simulación, sin embargo, lo ampliamos a 10 minutos para tomar un valor más sostenido, ya que para ese momento la mayoría de los límites de turbo deberían superarse. La simulación en sí funciona con pasos de tiempo de 2 femtosegundos. Usamos la versión 2.13 ya que esta era la versión recomendada al momento de integrar este benchmark en nuestra suite. Las últimas compilaciones nocturnas que conocemos han comenzado a habilitar el soporte para AVX-512, sin embargo, debido a la consistencia en nuestra suite de referencia, estamos reteniendo con 2.13. Otro software con el que probamos tiene aceleración AVX-512.

AI Benchmark 0.1.2 con TensorFlow

Encontrar un punto de referencia de inteligencia artificial apropiado para Windows ha sido mi santo grial durante bastante tiempo. El problema es que la IA es una palabra de ritmo tan rápido y rápido que cualquier cosa que calcule este trimestre ya no será relevante en el próximo, y una de las métricas clave en este conjunto de evaluaciones comparativas es poder mantener los datos durante un largo período de tiempo. hora. Hemos tenido pruebas de referencia de IA en teléfonos inteligentes durante un tiempo, dado que los teléfonos inteligentes son un mejor objetivo para las cargas de trabajo de IA, pero también tiene sentido que todo en la PC también esté orientado a Linux.

Afortunadamente, sin embargo, la buena gente de ETH Zurich en Suiza ha convertido el punto de referencia de inteligencia artificial de su teléfono inteligente en algo que se puede usar en Windows. Utiliza TensorFlow, y para nuestros propósitos de referencia, hemos bloqueado nuestras pruebas en TensorFlow 2.10, AI Benchmark 0.1.2, mientras usamos Python 3.7.6.

El punto de referencia se ejecuta a través de 19 redes diferentes, incluidas MobileNet-V2, ResNet-V2, VGG-19 Super-Res, NVIDIA-SPADE, PSPNet, DeepLab, Pixel-RNN y GNMT-Translation. Todas las pruebas sondean tanto la inferencia como el entrenamiento en varios tamaños de entrada y tamaños de lote, excepto la traducción que solo hace inferencia. Mide el tiempo necesario para realizar una determinada cantidad de trabajo y, al final, escupe un valor.

Sin embargo, hay una gran advertencia para todo esto. Hablando con la gente de ETH, utilizan las Bibliotecas de Kernel de Matemáticas (MKL) de Intel para Windows y están viendo algunos inconvenientes increíbles. Me dijeron que MKL para Windows no funciona bien con varios subprocesos y, como resultado, cualquier resultado de Windows tendrá un rendimiento mucho peor que los resultados de Linux. Además de eso, después de un número determinado de subprocesos (~ 16), MKL se da por vencido y el rendimiento cae sustancialmente.

Entonces, ¿por qué probarlo? En primer lugar, porque necesitamos un punto de referencia de IA, y uno malo es mejor que no tener ninguno. En segundo lugar, si MKL en Windows es el problema, entonces al publicar la prueba, podría poner un arranque en algún lugar para que MKL se arregle. Con ese fin, nos quedaremos con el índice de referencia mientras sea factible.

Pruebas de CPU: simulación

La simulación y la ciencia se superponen mucho en el mundo de la evaluación comparativa, sin embargo, para esta distinción, nos estamos separando en dos segmentos principalmente en función de la utilidad de los datos resultantes. Los puntos de referencia que se incluyen en Ciencia tienen un uso distinto para los datos que generan; en nuestra sección de Simulación, estos actúan más como sintéticos, pero en algún nivel todavía intentan simular un entorno determinado.

DigiCortex v1.35

DigiCortex es un proyecto favorito para la visualización de la actividad neuronal y sinapsis en el cerebro. El software viene con una variedad de modos de referencia, y tomamos la pequeña referencia que ejecuta una simulación de sinapsis de neuronas 32k / 1.8B, similar a una pequeña babosa.

Los resultados de la salida se dan como una fracción de si el sistema puede simular en tiempo real, por lo que cualquier valor superior a uno es adecuado para el trabajo en tiempo real. El punto de referencia ofrece un modo ‘sin sinapsis sin disparo’, que en esencia detecta la DRAM y la velocidad del bus, sin embargo, tomamos el modo de disparo que agrega trabajo de CPU con cada disparo.

El software se envió originalmente con un punto de referencia que registraba los primeros ciclos y generaba un resultado. Entonces, mientras que los procesadores rápidos de múltiples subprocesos hicieron que el punto de referencia durara menos de unos pocos segundos, los procesadores lentos de doble núcleo podrían funcionar durante casi una hora. También existe el problema de que DigiCortex comience con un mapa de neurona / sinapsis base en ‘modo apagado’, lo que da un resultado alto en los primeros ciclos, ya que ninguno de los nodos está activo actualmente. Descubrimos que el rendimiento se estabiliza después de un tiempo (cuando el modelo está en uso activo), por lo que le pedimos al autor que permitiera una fase de “ calentamiento ” y que el punto de referencia fuera el promedio durante un segundo. tiempo de muestra.

Para nuestra prueba, le damos al punto de referencia 20000 ciclos para calentar y luego tomamos los datos durante los siguientes 10000 ciclos segundos para la prueba; en un procesador moderno, esto toma 30 segundos y 150 segundos respectivamente. A continuación, se repite un mínimo de 10 veces y se rechazan los tres primeros resultados. Los resultados se muestran como múltiplos de cálculos en tiempo real.

Fortaleza enana 0.44.12

Otra solicitud de larga data para nuestra suite de referencia ha sido Dwarf Fortress, un popular videojuego indie de gestión / roguelike, lanzado por primera vez en 2006 y que todavía se actualiza regularmente hoy, con el objetivo de un lanzamiento de Steam en algún momento en el futuro.

Emulando las interfaces ASCII de antaño, este título es una bestia bastante compleja, que puede generar entornos sujetos a milenios de gobierno, rostros famosos, campesinos y personajes y eventos históricos clave. Cuanto más te adentras en el juego, dependiendo del tamaño del mundo, más lento se vuelve, ya que tiene que simular más personajes famosos, más eventos mundiales y la forma natural en que las criaturas humanoides se apoderan de un entorno. Como una especie de virus.

Para nuestra prueba usamos DFMark. DFMark es un punto de referencia creado por vorsgren en los Bay12Forums que ofrece dos modos diferentes basados ​​en DFHack: generación mundial y embarque. Estas pruebas se pueden configurar, pero oscilan entre 3 minutos y varias horas. Después de analizar la prueba, terminamos eligiendo tres tamaños de generación mundial diferentes:

• Pequeño, un mundo de 65×65 con 250 años, 10 civilizaciones y 4 megabeasts
• Medium, un mundo de 127×127 con 550 años, 10 civilizaciones y 4 megabeasts
• Grande, un mundo de 257×257 con 550 años, 40 civilizaciones y 10 megabeasts

DFMark genera el tiempo para ejecutar una prueba determinada, por lo que esto es lo que usamos para la salida. Repetimos la prueba pequeña tantas veces como sea posible en 10 minutos, la prueba mediana tantas veces en 30 minutos y la prueba grande tantas veces en una hora.

Emulación Dolphin v5.0

Muchos emuladores a menudo están sujetos al rendimiento de la CPU de un solo subproceso, y los informes generales tienden a sugerir que Haswell proporcionó un impulso significativo al rendimiento del emulador. Este punto de referencia ejecuta un programa de Wii que traza una compleja escena 3D dentro del emulador Dolphin Wii. El rendimiento en este punto de referencia es un buen indicador de la velocidad de la emulación de la CPU Dolphin, que es una tarea intensiva de un solo núcleo que utiliza la mayoría de los aspectos de una CPU. Los resultados se dan en segundos, donde la propia Wii puntúa 1051 segundos.

Pruebas de CPU: renderizado

Las pruebas de renderizado, en comparación con otras, suelen ser un poco más sencillas de digerir y automatizar. Todas las pruebas arrojan algún tipo de puntaje o tiempo, generalmente de una manera obtenible que hace que sea bastante fácil de extraer. Estas pruebas son algunas de las más extenuantes de nuestra lista, debido a la naturaleza altamente enhebrada del renderizado y el trazado de rayos, y pueden consumir mucha energía. Si un sistema no está configurado correctamente para hacer frente a los requisitos térmicos del procesador, los puntos de referencia de renderizado es donde se mostrarían más fácilmente a medida que la frecuencia cae durante un período de tiempo prolongado. La mayoría de los puntos de referencia en este caso se vuelven a ejecutar varias veces, y la clave para esto es tener un tiempo de inactividad / espera adecuado entre los puntos de referencia para permitir que las temperaturas se normalicen desde la última prueba.

Blender 2.83 LTS

Una de las herramientas más populares para renderizar es Blender, ya que es un proyecto público de código abierto en el que cualquier persona en la industria de la animación puede participar. Esto se extiende a conferencias, uso en películas y realidad virtual, con un Blender Institute dedicado y todo lo que pueda esperar de un paquete de software profesional (excepto quizás un paquete de soporte de grado profesional). Al ser de código abierto, los estudios pueden personalizarlo de tantas formas como necesiten para obtener los resultados que necesitan. Termina siendo un gran objetivo de optimización tanto para Intel como para AMD en este sentido.

Para fines de evaluación comparativa, recurrimos a uno que representaba un fotograma de un proyecto detallado. La mayoría de las reseñas, como hemos hecho en el pasado, se centran en uno de los renders clásicos de Blender, conocido como BMW_27. Puede llevar desde unos pocos minutos hasta casi una hora en un sistema normal. Sin embargo, ahora que Blender ha pasado a un modelo de soporte a largo plazo (LTS) con la última versión 2.83, decidimos optar por algo diferente.

Usamos esta escena, llamada PartyTug at 6AM por Ian Hubert , que es la imagen oficial de Blender 2.83. Tiene un tamaño de 44,3 MB y utiliza algunas de las propiedades informáticas más modernas de Blender. Como es más complejo que el escenario de BMW, pero utiliza diferentes aspectos del modelo de cálculo, el tiempo de procesamiento es aproximadamente similar al anterior. Repetimos la escena durante al menos 10 minutos, tomando el tiempo promedio de las terminaciones realizadas. Blender ofrece una herramienta de línea de comandos para comandos por lotes y redirigimos la salida a un archivo de texto.

Corona 1.3

Corona se anuncia como un popular motor de renderizado fotorrealista de alto rendimiento para 3ds Max, con desarrollo también para compatibilidad con Cinema 4D. Para promocionar el software, los desarrolladores produjeron un punto de referencia descargable en la versión 1.3 del software, con una escena trazada por rayos que involucra un vehículo militar y mucho follaje. El software realiza múltiples pasadas, calculando la escena, la geometría, el preacondicionamiento y el renderizado, con el rendimiento medido en el tiempo para terminar el benchmark (la métrica oficial utilizada en su sitio web) o en rayos por segundo (la métrica que usamos para ofrecer un resultado más lineal escala).

El punto de referencia estándar proporcionado por Corona se basa en la interfaz: la escena se calcula y se muestra frente al usuario, con la capacidad de cargar el resultado en su base de datos en línea. Nos pusimos en contacto con los desarrolladores, quienes nos proporcionaron una versión sin interfaz que permitió la entrada de la línea de comandos y la recuperación de los resultados con mucha facilidad. Damos la vuelta al punto de referencia cinco veces, esperando 60 segundos entre cada una y tomando un promedio general. El tiempo para ejecutar este punto de referencia puede ser de alrededor de 10 minutos en un Core i9, hasta más de una hora en un procesador AMD 2014 de cuatro núcleos o Pentium de doble núcleo.

LuxMark

C-Ray

Keyshot

Unreal Engine Ligthning

PCMArk 10. Render y Visualizacion

Jugabilidad de Crysis solo para CPU

Uno de los memes más utilizados en los juegos de ordenador es “Can It Run Crysis?”. El juego original de 2007, construido en el motor Crytek por Crytek, fue anunciado como un título computacionalmente complejo para el hardware en ese momento y varios años después, lo que sugiere que un usuario necesitaba hardware gráfico del futuro para ejecutarlo. Avance rápido durante una década y el juego se ejecuta con bastante facilidad en las GPU modernas.

Pero, ¿podemos también aplicar el mismo concepto al renderizado puro de CPU? ¿Puede una CPU, por sí sola, renderizar Crysis? Desde que ingresaron al mercado 64 procesadores centrales, uno puede soñar. Así que creamos un punto de referencia para ver si el hardware puede hacerlo.

Para esta prueba, estamos ejecutando el punto de referencia de la GPU de Crysis, pero en modo de procesamiento de CPU. Esta es una prueba de 2000 cuadros, con configuraciones medias y bajas.

POV-Ray 3.7.1

Un elemento básico de referencia desde hace mucho tiempo, POV-Ray es otro programa de renderizado que es bien conocido por cargar cada hilo en un sistema, independientemente de los niveles de memoria caché y memoria. Después de un largo período en el que POV-Ray 3.7 fue el último lanzamiento oficial, cuando AMD lanzó Ryzen, el código base de POV-Ray de repente vio un rango de actividad tanto de AMD como de Intel, sabiendo que el software (con el punto de referencia incorporado) sería una herramienta de optimización para el hardware.

Tuvimos que poner una bandera en la arena cuando se trataba de seleccionar la versión que fuera justa tanto para AMD como para Intel, y aún relevante para los usuarios finales. La versión 3.7.1 corrige un error significativo en el código de principios de 2017 que se desaconsejó en los manuales de Intel y AMD con respecto a la escritura después de la lectura, lo que llevó a un buen aumento del rendimiento.

El punto de referencia puede tardar más de 20 minutos en un sistema lento con pocos núcleos, o alrededor de uno o dos minutos en un sistema rápido, o segundos con un EPYC de recuento doble de alto núcleo. Debido a que POV-Ray consume una gran cantidad de energía y corriente, es importante asegurarse de que el enfriamiento sea suficiente aquí y que el sistema permanezca en su estado de alta potencia. El uso de una placa base con un suministro de energía deficiente y un flujo de aire bajo podría crear un problema que no será obvio en algunas posiciones de la CPU si el límite de energía solo causa una caída de 100 MHz a medida que cambia los estados P.

V-Ray

Ya tenemos un par de renderizadores y trazadores de rayos en nuestra suite, sin embargo, el punto de referencia de V-Ray obtuvo un punto de referencia solicitado lo suficiente como para que lo pudiéramos implementar en nuestra suite. Construido por ChaosGroup, V-Ray es un paquete de renderizado 3D compatible con una serie de aplicaciones de imágenes comerciales populares, como 3ds Max, Maya, Undreal, Cinema 4D y Blender.

Ejecutamos la aplicación de referencia independiente estándar , pero de forma automatizada para extraer el resultado en forma de kilomuestras / segundo. Realizamos la prueba seis veces y tomamos un promedio de los resultados válidos.

Cinebench R20

Otro establo común de una suite de referencia es Cinebench. Basado en Cinema4D, Cinebench es una máquina de referencia especialmente diseñada que representa una escena con opciones de subprocesos únicos y múltiples. La escena es idéntica en ambos casos. La versión R20 significa que apunta a Cinema 4D R20, una versión un poco más antigua del software que actualmente se encuentra en la versión R21. Cinebench R20 se lanzó dado que la versión R15 había estado disponible durante mucho tiempo y, a pesar de la diferencia entre el punto de referencia y la última versión del software en el que se basa, los resultados de Cinebench a menudo se citan mucho en los materiales de marketing.

Los resultados de Cinebench R20 no son comparables a los de R15 o anteriores, porque tanto la escena que se usa es diferente, como las actualizaciones en la ruta del código. Los resultados se generan como una puntuación del software, que es directamente proporcional al tiempo empleado. Utilizando los indicadores de referencia para cargas de trabajo de una sola CPU y varias CPU, ejecutamos el software desde la línea de comando que abre la prueba, la ejecuta y descarga el resultado en la consola que se redirige a un archivo de texto. La prueba se repite durante un mínimo de 10 minutos tanto para ST como para MT, y luego se promedian las ejecuciones.

Pruebas de CPU: codificación

Uno de los elementos interesantes de los procesadores modernos es el rendimiento de la codificación. Esto cubre dos áreas principales: cifrado / descifrado para la transferencia segura de datos y transcodificación de video de un formato de video a otro.

En el escenario de cifrado / descifrado, cómo se transfieren los datos y por qué mecanismo es pertinente para el cifrado sobre la marcha de datos confidenciales, un proceso mediante el cual los dispositivos más modernos se inclinan por la seguridad del software.

La transcodificación de video como herramienta para ajustar la calidad, el tamaño de archivo y la resolución de un archivo de video se ha disparado en los últimos años, como por ejemplo, para proporcionar el video óptimo para los dispositivos antes del consumo o para los transmisores de juegos que desean cargar la salida de su cámara de video. en tiempo real. A medida que avanzamos hacia el video 3D en vivo, esta tarea solo se volverá más extenuante y resulta que el rendimiento de ciertos algoritmos es una función de la entrada / salida del contenido.

HandBrake 1.32

La transcodificación de video (codificación y decodificación) es un tema candente en las métricas de rendimiento a medida que se crea más y más contenido. La primera consideración es el estándar en el que se codifica el video, que puede ser sin pérdida o con pérdida, cambiar el rendimiento por el tamaño del archivo, cambiar la calidad por el tamaño del archivo, o todo lo anterior puede aumentar las tasas de codificación para ayudar a acelerar las tasas de decodificación. Junto a los códecs favoritos de Google, VP9 y AV1, hay otros que destacan: H264, el códec más antiguo, está prácticamente en todas partes y está diseñado para optimizarse para video de 1080p, y HEVC (o H.265) que tiene como objetivo proporcionar lo mismo. calidad como H264 pero con un tamaño de archivo menor (o mejor calidad para el mismo tamaño). HEVC es importante ya que 4K se transmite por aire, lo que significa que se deben transferir menos bits para obtener el mismo contenido de calidad.Hay otros códecs que llegan al mercado diseñados para casos de uso específicos todo el tiempo.

Handbrake es una herramienta preferida para la transcodificación, y las versiones posteriores utilizan grandes cantidades de API más nuevas para aprovechar los coprocesadores, como las GPU. Está disponible en Windows a través de una interfaz o se puede acceder a través de la línea de comandos, esta última facilita nuestras pruebas, con un operador de redirección para la salida de la consola.

Tomamos la versión compilada de este video de YouTube de 16 minutos sobre CPU rusas a 1080p30 h264 y lo convertimos en tres archivos diferentes: (1) 480p30 ‘Discord’, (2) 720p30 ‘YouTube’ y (3) 4K60 HEVC.

7-Zip 1900

La primera herramienta comparativa de compresión que utilizamos es el 7-zip de código abierto, que normalmente ofrece un buen escalado en varios núcleos. 7-zip es la herramienta de compresión más citada por los lectores como una de las que preferirían ver los puntos de referencia, y el programa incluye una herramienta de referencia incorporada tanto para la compresión como para la descompresión.

La herramienta se puede ejecutar desde el interior del software o mediante la línea de comandos. Tomamos la última ruta porque es más fácil de automatizar, obtener resultados y pasar por nuestro proceso. Los indicadores de línea de comando disponibles ofrecen una opción para ejecuciones repetidas, y la salida proporciona el promedio automáticamente a través de la consola. Dirigimos esta salida a un archivo de texto y regexizamos los valores requeridos para la compresión, descompresión y una puntuación combinada.

Codificación AES

Los algoritmos que utilizan codificación AES se han extendido por todas partes como una herramienta omnipresente para el cifrado. Una vez más, esta es otra prueba limitada de CPU, y las CPU modernas tienen vías AES especiales para acelerar su rendimiento. A menudo vemos escalado tanto en frecuencia como en núcleos con este punto de referencia. Usamos la última versión de TrueCrypt y ejecutamos su modo de referencia sobre 1 GB de datos en DRAM. Los resultados que se muestran son el promedio de GB / s de cifrado y descifrado.

WinRAR 5.90

Para el conjunto de pruebas de 2020, pasamos a la última versión de WinRAR en nuestra prueba de compresión. WinRAR en algunos sectores es más fácil de usar que 7-Zip, de ahí su inclusión. En lugar de utilizar un modo de referencia como hicimos con 7-Zip, aquí tomamos un conjunto de archivos representativos de una pila genérica

• 33 archivos de video, cada 30 segundos, en 1.37 GB,
• 2834 archivos de sitios web más pequeños en 370 carpetas en 150 MB,
• 100 pistas de música Beat Sabre y archivos de entrada, para 451 MB

Se trata de una mezcla de formatos comprimibles e incompresibles. Los resultados que se muestran son el tiempo necesario para codificar el archivo. Debido al almacenamiento en caché de DRAM, ejecutamos la prueba durante 20 minutos y tomamos el promedio de las últimas cinco ejecuciones cuando el punto de referencia está en un estado estable.

Para la automatización, utilizamos las herramientas de temporización internas de AHK desde el inicio de la carga de trabajo hasta que la ventana se cierra, lo que significa el final. Esto significa que los resultados están contenidos en AHK, con un promedio de los últimos 5 resultados que es bastante fácil de calcular.

Ajedrez. Stockfish 9

Resumen tomsHardware ST/MT

Pruebas de CPU: heredado y web

Para recopilar datos para compararlos con puntos de referencia anteriores, todavía mantenemos una serie de pruebas en nuestra sección ‘heredada’. Esto incluye todas las versiones principales anteriores de CineBench (R15, R11.5, R10), así como x264 HD 3.0 y la primera versión muy ingenua de 3DPM v2.1. No transferiremos los datos de la prueba anterior a Bench, de lo contrario, se llenaría con 200 CPU con un solo punto de datos, por lo que se llenará a medida que probamos más CPU como las demás.

Pruebas web: Kraken, Octane y velocímetro

La evaluación comparativa con herramientas web siempre es un poco difícil. Los navegadores cambian casi a diario y la forma en que se utiliza la web cambia aún más rápido. Si bien existe cierto margen para los puntos de referencia basados ​​en computación avanzados, la mayoría de los usuarios se preocupan por la capacidad de respuesta, lo que requiere un back-end sólido para trabajar rápidamente y proporcionarlo en el front-end. Los puntos de referencia que elegimos para nuestras pruebas web son esencialmente estándares de la industria, al menos una vez.

Cabe señalar que para cada prueba, el navegador se cierra y se vuelve a abrir uno nuevo con un caché nuevo. Usamos una versión fija de Chromium para nuestras pruebas con las capacidades de actualización eliminadas para garantizar la coherencia.

Mozilla Kraken 1.1

Kraken es un punto de referencia de 2010 de Mozilla y realiza una serie de pruebas de JavaScript. Estas pruebas son un poco más complicadas que las pruebas anteriores, y analizan la inteligencia artificial, la manipulación de audio, la manipulación de imágenes, el análisis json y las funciones criptográficas. El punto de referencia comienza con una descarga inicial de datos para el audio y las imágenes, y luego se ejecuta 10 veces dando un resultado cronometrado.

Repasamos la prueba de 10 ejecuciones cuatro veces (por lo que es un total de 40 ejecuciones) y promediamos los cuatro resultados finales. El resultado se da como tiempo para completar la prueba, y estamos alcanzando un límite asintótico lento con respecto a los procesadores IPC más altos.

Google Octane 2.0

Nuestra segunda prueba también está basada en JavaScript, pero utiliza mucha más variación de las técnicas JS más nuevas, como la programación orientada a objetos, la simulación del kernel, la creación / destrucción de objetos, la recolección de basura, las manipulaciones de matrices, la latencia del compilador y la ejecución de código.

Octane se desarrolló después de la interrupción de otras pruebas, con el objetivo de ser más similar a una web que las pruebas anteriores. Ha sido un punto de referencia popular, lo que lo convierte en un objetivo obvio para las optimizaciones en los motores de JavaScript. En última instancia, se retiró a principios de 2017 debido a esto, aunque todavía se usa ampliamente como una herramienta para determinar el rendimiento general de la CPU en una serie de tareas web.

Speedometer2: marcos de JavaScript

Nuestra prueba web más reciente es el Velocímetro 2 , que es una prueba sobre una serie de marcos de JavaScript para hacer tres cosas simples: crear una lista, habilitar cada elemento de la lista y eliminar la lista. Todos los marcos implementan las mismas señales visuales, pero obviamente las aplican desde diferentes ángulos de codificación.

Nuestra prueba pasa por la lista de marcos y produce una puntuación final indicativa de ‘rpm’, una de las métricas internas de referencia.

Repetimos sobre el punto de referencia durante una docena de bucles, tomando el promedio de los últimos cinco.

Pruebas heredadas

Pruebas de CPU: sintético

La mayoría de las personas en nuestra industria tienen una relación de amor / odio cuando se trata de pruebas sintéticas. Por un lado, a menudo son buenas para resúmenes rápidos de rendimiento y son fáciles de usar, pero la mayoría de las veces las pruebas no están relacionadas con ningún software real. Las pruebas sintéticas suelen ser muy buenas para profundizar en un conjunto específico de instrucciones y maximizar el rendimiento de ellas. Debido a las solicitudes de varios de nuestros lectores, tenemos las siguientes pruebas sintéticas.

Velocidad de Linux OpenSSL: SHA256

Uno de nuestros lectores se acercó a principios de 2020 y declaró que estaba interesado en ver las tasas de hash de OpenSSL en Linux. Afortunadamente, OpenSSL en Linux tiene una función llamada ‘velocidad’ que permite al usuario determinar qué tan rápido es el sistema para cualquier algoritmo de hash dado, así como también firmar y verificar mensajes.

OpenSSL ofrece una gran cantidad de algoritmos para elegir y, según una encuesta rápida de Twitter , lo reducimos a lo siguiente:

• rsa2048 firmar y rsa2048 verificar
• sha256 con un tamaño de bloque de 8K
• md5 con un tamaño de bloque de 8K

Para cada una de estas pruebas, las ejecutamos en modo de subproceso único y multiproceso. Todos los gráficos están en nuestra base de datos de referencia, Bench , y usamos los resultados de sha256 y md5 en las revisiones publicadas.

GeekBench 5

Como herramienta común para las pruebas multiplataforma entre dispositivos móviles, PC y Mac, GeekBench es un ejercicio definitivo de pruebas sintéticas en una variedad de algoritmos que buscan un rendimiento máximo. Las pruebas incluyen cifrado, compresión, transformada rápida de Fourier, operaciones de memoria, física de n cuerpos, operaciones matriciales, manipulación de histogramas y análisis de HTML.

Incluyo esta prueba debido a la demanda popular, aunque los resultados parecen demasiado sintéticos, y muchos usuarios a menudo ponen mucho peso detrás de la prueba debido al hecho de que se compila en diferentes plataformas (aunque con diferentes compiladores).

Tenemos resultados de GB5 y GB4 en nuestra base de datos de referencia . GB5 se introdujo en nuestro conjunto de pruebas después de haber probado ~ 25 CPU, por lo que los resultados son un poco esporádicos en comparación. Estos espacios se completarán cuando volvamos a probar cualquiera de las CPU.

Office

Adobe Suite

Da Vinci Resolve

Tesseract, Reconocimiento de Texto

Virtualizacion

Bases de Datos

Rendimiento Relativo CPU

Rendimiento/Coste

Juegos, sintéticos. Ryzen 5 5600X

Pruebas de juegos: Chernobylite

A pesar de la llegada de programas de televisión recientes como Chernobyl , que recrea la situación en torno al desastre nuclear de Chernobyl de 1986, el concepto de lluvia radiactiva y la ciudad de Pripyat han sido escenarios populares para varios juegos, en su mayoría juegos de disparos en primera persona. Chernobylite es un título independiente que juega con una experiencia de terror de supervivencia de ciencia ficción y utiliza una recreación escaneada en 3D de la Zona de Exclusión de Chernobyl real. Se trata de un combate desafiante, una combinación de exploración libre con elaboración y narración de historias no lineal. Aunque todavía está en acceso temprano, ya está recibiendo muchos premios.

Recogí Chernobylite cuando todavía estaba en acceso temprano y me impresionó su punto de referencia en el juego, que muestra una estructura de edificio compleja con muchos árboles y estructuras donde el alias se vuelve importante. El punto de referencia en el juego es una experiencia sobre rieles a través del escenario, que cubre escenas tanto en interiores como en exteriores; termina siendo una CPU muy limitada en la forma en que está diseñada. Hemos tomado una versión fuera de línea de Chernobylite para usar en nuestras pruebas, y estamos probando las siguientes combinaciones de configuraciones:

360p bajo, 1440p bajo, 4K bajo, 1080p máx.

Hacemos tantas ejecuciones en 10 minutos por combinación de resolución / configuración, y luego tomamos promedios.

Pruebas de juego: Civilization 6

Originalmente escrita por Sid Meier y su equipo, la serie Civilization de juegos de estrategia por turnos es un clásico de culto y muchas excusas para pasar la noche intentando que Gandhi te declare la guerra debido a un desbordamiento de enteros. A decir verdad, nunca jugué la primera versión, pero he jugado todas las ediciones desde la segunda hasta la sexta, incluida la cuarta con la voz del difunto Leonard Nimoy, y es un juego fácil de aprender, pero difícil de dominar.

Benchmarking Civilization siempre ha sido una especie de oxímoron: para un juego de estrategia por turnos, la velocidad de fotogramas no es necesariamente lo importante aquí e incluso en el estado de ánimo adecuado, algo tan bajo como 5 fotogramas por segundo puede ser suficiente. Sin embargo, con Civilization 6, Firaxis se volvió incondicional en la fidelidad visual, tratando de llevarte al juego. Como resultado, Civilization puede gravar los gráficos y las CPU a medida que aumentamos los detalles, especialmente en DirectX 12.

Para la automatización, Firaxis admite el punto de referencia automatizado en el juego desde la línea de comandos y genera un archivo de resultados con tiempos de fotogramas. Hacemos tantas ejecuciones en 10 minutos por combinación de resolución / configuración, y luego tomamos promedios y percentiles.

Pruebas de juegos: Deus Ex Mankind dividido

Deus Ex es una franquicia con un amplio nivel de popularidad. A pesar de que la versión Deus Ex: Mankind Divided (DEMD) se lanzó en 2016, a menudo se ha anunciado como un juego que grava la CPU. Utiliza Dawn Engine para crear un juego de acción en primera persona muy complejo con armas e interfaces basadas en la ciencia ficción. El juego combina elementos de primera persona, sigilo y juegos de rol, con el juego ambientado en Praga, que trata temas de transhumanismo, teorías de conspiración y un futuro cyberpunk. El juego permite al jugador seleccionar su propio camino (sigilo, maníaco armado) y ofrece múltiples soluciones a sus acertijos.

DEMD tiene un punto de referencia en el juego, una mirada sobre rieles alrededor de un entorno que muestra algunos de los efectos más impresionantes del juego, como iluminación, texturas y otros. Incluso en 2020, sigue siendo un escaparate gráfico impresionante cuando todo se eleva al máximo. Para este título, estamos probando las siguientes resoluciones:

El punto de referencia se ejecuta durante unos 90 segundos. Hacemos tantas ejecuciones en 10 minutos por combinación de resolución / configuración, y luego tomamos promedios y percentiles.

Pruebas de juego: Final Fantasy XIV

A pesar de ser un número menos que Final Fantasy 15, debido a que FF14 es un título en línea multijugador masivo, siempre hay paquetes de actualización anual que también brindan la oportunidad de actualizaciones gráficas. En 2019, FFXIV lanzó su expansión Shadowbringers y, al mismo tiempo, se lanzó un punto de referencia independiente oficial para que los usuarios comprendan qué nivel de rendimiento pueden esperar. Al igual que el punto de referencia FF15 que hemos estado usando durante un tiempo, esta prueba es una escena larga de 7 minutos de juego simulado dentro del título. Hay una serie de características gráficas interesantes, y ciertamente se parece más a un título de 2019 que a una versión de 2010, que es cuando salió por primera vez FF14.

Dado que se trata de un punto de referencia independiente, no tenemos que preocuparnos por las actualizaciones, y la idea de este tipo de pruebas para los usuarios finales es mantener la coherencia de la base del código.

Al igual que con los otros puntos de referencia, hacemos tantas ejecuciones hasta que hayan pasado 10 minutos por combinación de resolución / configuración, y luego tomamos promedios. Siendo realistas, debido a la duración de esta prueba, esto equivale a dos ejecuciones por configuración.

Pruebas de juego: Final Fantasy XV

Al llegar a la PC, Final Fantasy XV: Windows Edition recibió una revisión gráfica ya que se transfirió desde la consola. Como un juego de rol de fantasía con una larga historia, se muestran los frutos de la exitosa asociación de Square-Enix con NVIDIA. El juego utiliza el motor luminoso interno y, al igual que con otros juegos de Final Fantasy, impulsa la imaginación de lo que podemos hacer con el hardware que tenemos debajo. Con ese fin, FFXV fue uno de los primeros juegos en promover el uso de la ‘fotografía de paisajes de videojuegos’, debido en parte al gran detalle incluso a largo alcance, pero también con la integración del software Ansel de NVIDIA, que permitió una superresolución. imágenes y efectos de posprocesamiento que se aplicarán.

En preparación para el lanzamiento del juego, Square Enix optó por lanzar un punto de referencia independiente. El uso del punto de referencia independiente de Final Fantasy XV nos brinda una secuencia estandarizada larga para grabar, aunque debe tenerse en cuenta que su uso intensivo de la tecnología NVIDIA significa que la configuración Máxima tiene problemas: muestra los elementos fuera de la pantalla. Para solucionar esto, usamos el ajuste preestablecido estándar que no tiene estos problemas.

Para la automatización, el título acepta entradas de línea de comando tanto para la resolución como para la configuración, y luego se cierra automáticamente cuando termina. Al igual que con los otros puntos de referencia, hacemos tantas ejecuciones hasta que hayan pasado 10 minutos por combinación de resolución / configuración, y luego tomamos promedios. Siendo realistas, debido a la duración de esta prueba, esto equivale a dos ejecuciones por configuración.

Pruebas de juegos: World of Tanks

Aunque es diferente a la mayoría de los otros MMO o juegos en línea multijugador masivo que se juegan comúnmente, World of Tanks se desarrolla a mediados del siglo XX y permite a los jugadores tomar el control de una variedad de vehículos blindados de base militar. World of Tanks (WoT) es desarrollado y publicado por Wargaming, que tiene su sede en Bielorrusia, y la banda sonora del juego está compuesta principalmente por el compositor bielorruso Sergey Khmelevsky. El juego ofrece múltiples puntos de entrada, incluido un elemento de juego gratuito, además de permitir a los jugadores pagar una tarifa para abrir más funciones. Una de las cosas más interesantes de este MMO basado en tanques es que alcanzó el estado de eSports cuando debutó en los World Cyber ​​Games en 2012.

World of Tanks enCore es una aplicación de demostración para su nuevo motor gráfico escrito por el equipo de desarrollo de Wargaming. Con el tiempo, el nuevo motor principal se ha implementado en el juego completo mejorando las imágenes del juego con elementos clave como agua mejorada, flora, sombras, iluminación y otros objetos como edificios. La aplicación de demostración World of Tanks enCore no solo ofrece información sobre los cambios inminentes en el motor del juego, sino que también permite a los usuarios verificar el rendimiento del sistema para ver si el nuevo motor funciona de manera óptima en su sistema. Técnicamente, ahora hay disponible una versión de Ray Tracing del punto de referencia enCore, sin embargo, debido a que no se puede implementar de forma independiente sin el instalador, decidimos no usarla. Si eso se arregla, entonces podemos investigarlo.

El extraño es el ajuste preestablecido de 4K Max, porque el punto de referencia no tiene automáticamente una opción de 4K; para obtener esto, editamos el archivo ini de resoluciones aceptables y luego podemos seleccionar 4K. El punto de referencia genera su propio archivo de resultados, con tiempos de fotogramas, lo que facilita el análisis de los datos necesarios para promedios y percentiles.

Pruebas de juegos: Borderlands 3

Como gran fan de Borderlands, tener que sentarse y esperar seis meses para que expire la exclusiva de EPIC Store antes de que lo viéramos en Steam se sintió como mucho tiempo de espera. El cuarto título de la franquicia, si excluyes los juegos de estilo TellTale, BL3 expande el universo más allá de Pandora y su órbita, con el conjunto de héroes (más los de juegos anteriores) ahora navegando por la galaxia en busca de bóvedas y tesoros dentro. Personajes populares como Tiny Tina, Claptrap, Lilith, Dr. Zed, Zer0, Tannis y otros hacen apariciones mientras el juego continúa con su diseño de cel-shaded pero con la fidelidad gráfica mejorada. Borderlands 1 me dio mi primera experiencia con PhysX de segundo orden en el juego, y es un estándar alto que continúa hasta el día de hoy.

BL3 funciona mejor con acceso en línea, por lo que se archiva en nuestra sección de juegos en línea. BL3 es también una de nuestras descargas más importantes y requiere más de 100 GB. Como BL3 admite el escalado de resolución, estamos usando la siguiente configuración:

360p muy bajo, 1440p muy bajo, 4K muy bajo, 1080p rudo

BL3 tiene su propio punto de referencia en el juego, que recrea un conjunto de escenas sobre rieles con una variedad de actividades en cada una, como tiroteos, explosiones y vida silvestre. El punto de referencia genera sus propios archivos de resultados, incluidos los tiempos de fotogramas, que se pueden analizar para nuestros promedios / datos de percentiles.

Pruebas de juegos: F1 2019

Los juegos de carreras de F1 de Codemasters han sido puntos de referencia populares en la comunidad tecnológica, principalmente por su facilidad de uso y porque parecen aprovechar cualquier área de una máquina que podría ser mejor que otra. La edición 2019 del juego presenta los 21 circuitos del calendario de ese año e incluye una gama de modelos retro y DLC centrados en las carreras de Alain Prost y Ayrton Senna. Construido sobre EGO Engine 3.0, el juego ha sido criticado de manera similar a la mayoría de los juegos deportivos anuales, al no ofrecer suficientes actualizaciones de fidelidad gráfica temporada a temporada para que la inversión en el último título valga la pena, sin embargo, la edición 2019 renueva el modo Carrera. , con características como cambios de conductor durante la temporada que entran en la mezcla. La calidad de los gráficos esta vez también es excelente, incluso a 4K bajo o 1080p Ultra.

Para nuestra prueba, colocamos a Alex Albon en el Red Bull en la posición # 20, para una carrera seca de dos vueltas alrededor de Austin.

En términos de automatización, F1 2019 tiene un punto de referencia en el juego que se puede llamar desde la línea de comandos, y el archivo de salida tiene tiempos de fotogramas. Repetimos cada ajuste de resolución durante un mínimo de 10 minutos, tomando los promedios y percentiles.

Pruebas de juegos: Far Cry 5

El quinto título de la serie Far Cry de Ubisoft nos lleva directamente a los brazos poco acogedores de un culto militante armado en Montana, uno de los muchos medios de la nada en los Estados Unidos. Con un adversario carismático y enigmático, hermosos paisajes del estilo del noroeste de Estados Unidos y mucha violencia, es la tarifa clásica de Far Cry. Gráficamente intensivo en un entorno de mundo abierto, el juego se mezcla en acción y exploración con mucha configurabilidad.

Desafortunadamente, al juego no le gusta que cambiemos la resolución en el archivo de resultados cuando usamos ciertos monitores, recurriendo a 1080p pero manteniendo la configuración de calidad. Pero la escala de resolución funciona, por lo que decidimos fijar la resolución en 1080p y utilizar una variedad de factores de escala diferentes para obtener lo siguiente:

720p bajo, 1440p bajo, 4K bajo, 1440p máx.

Far Cry 5 genera un archivo de resultados aquí, pero ese archivo es un archivo HTML, que muestra un gráfico del FPS detectado. En ningún punto del archivo HTML contiene los tiempos de fotograma para cada fotograma, pero sí muestra los fotogramas por segundo, como un valor una vez por segundo en el gráfico. El gráfico en formato HTML es una serie de coordenadas (x, y) escaladas al mínimo / máximo del gráfico, en lugar de los datos sin procesar (segundo, FPS), por lo que, al usar expresiones regulares, elimino cuidadosamente los valores del gráfico, conviértalos a un formato (segundo, FPS) y tome nuestros valores de promedios y percentiles de esa manera.

Si alguien de Ubisoft quiere conversar sobre la construcción de una plataforma de referencia que no solo me ayude a mí, sino también a todos los demás miembros de la prensa tecnológica a construir nuestra plataforma de prueba de referencia para ayudar a nuestros lectores a decidir cuál es el mejor hardware para usar en sus juegos, comuníquese con a ian@anandtech.com . Algunas de las sugerencias que quiero darte te llevarán menos de medio día y es fácil utilizar la publicidad gratuita como referencia en los próximos dos años (o más).

Al igual que con las otras pruebas de juegos, ejecutamos cada combinación de resolución / configuración durante un mínimo de 10 minutos y tomamos los datos de fotogramas relevantes para promedios y percentiles.

Pruebas de juego: Gears Tactics

Recordar el Gears of War original trae una serie de recuerdos, algunos buenos y otros relacionados con el juego en línea. La última versión de la franquicia se lanzó cuando estaba armando esta suite de referencia, y Gears Tactics es un juego de estrategia por turnos de alta fidelidad con un extenso modo para un jugador. Al igual que con muchos juegos por turnos, hay una gran oportunidad para aumentar los efectos visuales, y aquí los desarrolladores han puesto mucho esfuerzo en la creación de efectos, algunos de los cuales parecen estar limitados por la CPU.

Gears Tactics tiene un punto de referencia en el juego, aproximadamente 2.5 minutos de juego de IA comenzando desde la misma posición pero usando una semilla aleatoria para las acciones. Al igual que los juegos de carreras, esto generalmente conduce a alguna variación en los datos de carrera a carrera, por lo que para este punto de referencia tomamos la media geométrica de los resultados. Una de las cosas más importantes que puede hacer Gears Tactics es la escala de resolución, que admite 8K, por lo que estamos probando las siguientes configuraciones:

720p bajo, 4K bajo, 8K bajo, 1080p Ultra

En cuanto a los resultados, el juego muestra una montaña de datos cuando finaliza el punto de referencia, como cuánto se limitó la CPU al punto de referencia y dónde, sin embargo, nada de eso se exporta nunca a un archivo que podamos usar. Es solo una captura de pantalla que tenemos que leer manualmente.

Si alguien del equipo de Gears Tactics quiere conversar sobre la creación de una plataforma de referencia que no solo me ayude a mí, sino también a todos los demás miembros de la prensa tecnológica, cree nuestra plataforma de pruebas de referencia para ayudar a nuestros lectores a decidir cuál es el mejor hardware para usar en sus juegos. , comuníquese con ian@anandtech.com . Algunas de las sugerencias que quiero darte te llevarán menos de medio día y es fácil utilizar la publicidad gratuita como referencia en los próximos dos años (o más).

Al igual que con los otros puntos de referencia, hacemos tantas ejecuciones hasta que hayan pasado 10 minutos por combinación de resolución / configuración. Para este punto de referencia, leemos manualmente cada una de las capturas de pantalla para cada combinación de calidad / configuración / ejecución. El índice de referencia no también dan 95 º percentiles y medias de trama, así que podemos usar estos dos puntos de datos.

Pruebas de juegos: GTA 5

La muy esperada iteración de la franquicia Grand Theft Auto llegó a los estantes el 14 de abril de 2015, con AMD y NVIDIA para ayudar a optimizar el título. En este punto, GTA V es muy antiguo, pero sigue siendo muy útil como punto de referencia: es una prueba complicada con muchas características con las que los títulos modernos todavía luchan. Con los rumores de un GTA 6 en el horizonte, espero que Rockstar haga que ese punto de referencia sea tan fácil de usar como este.

GTA no proporciona ajustes preestablecidos gráficos, pero abre las opciones a los usuarios y amplía los límites al llevar incluso los sistemas más difíciles al límite utilizando el motor de juego avanzado de Rockstar bajo DirectX 11. Si el usuario está volando alto en las montañas con largas distancias de dibujo o lidiar con basura variada en la ciudad, cuando se aumenta al máximo, crea imágenes asombrosas pero un trabajo duro tanto para la CPU como para la GPU.

Estamos usando la siguiente configuración:

720p bajo, 1440p bajo, 4K bajo, 1080p máx.

El punto de referencia del juego consta de cinco escenarios: cuatro tomas panorámicas cortas con diferentes efectos de iluminación y clima, y ​​una quinta secuencia de acción que dura alrededor de 90 segundos. Usamos solo la parte final del punto de referencia, que combina una escena de vuelo en un jet seguida de un paso en coche por el centro de la ciudad a través de varias intersecciones, seguido de una embestida de un camión cisterna que explota, provocando que otros coches también exploten. Esta es una mezcla de renderizado a distancia seguida de una secuencia de acción detallada de renderizado cercano, y el título, afortunadamente, escupe datos de tiempo de fotograma. El punto de referencia también se puede llamar desde la línea de comandos, lo que facilita su uso.

Hay una advertencia divertida con GTA. Si la CPU es demasiado lenta o tiene muy pocos núcleos, el punto de referencia se carga, pero no tiene tiempo suficiente para colocar los elementos en la posición correcta. Como resultado, por ejemplo, cuando se ejecuta nuestro sistema Sandy Bridge de un solo núcleo, el avión termina atascado en el medio de una intersección causando un atasco. Desafortunadamente, esto significa que el punto de referencia nunca termina, pero sigue siendo divertido.


Pruebas de juego: Red Dead Redemption 2

Es genial tener otro punto de referencia de Rockstar en la mezcla, y el lanzamiento de Red Dead Redemption 2 (RDR2) en la PC nos da la oportunidad de hacerlo. Sobre la base del éxito del RDR original, la segunda encarnación llegó a Steam en diciembre de 2019 y se lanzó primero en consolas. La versión para PC lleva el género del vaquero de mundo abierto al comienzo de la era moderna, con una amplia gama de gráficos y características impresionantes que se acercan inquietantemente a la realidad.

Para RDR2, Rockstar mantuvo la misma filosofía de referencia que con Grand Theft Auto V, con la referencia que consta de varias escenas de corte con diferentes efectos climáticos y de iluminación, con una escena final centrada en un entorno sobre rieles, solo que esta vez con atraco en una tienda. conduciendo a un tiroteo a caballo antes de cruzar un puente hacia lo desconocido. Afortunadamente, la mayoría de las opciones de línea de comandos de GTA V están presentes aquí, y el juego también admite escalado de resolución.

Para esa configuración de 8K, originalmente pensé que tenía el archivo de configuración en 4K y una escala de 1.0x, pero en realidad estaba establecido en 2.0x dando ese 8K. Por el simple hecho de hacerlo, decidí mantener la configuración de 8K.

Para nuestros resultados, revisamos cada configuración de resolución y configuración durante un mínimo de 10 minutos, antes de promediar y analizar los datos de tiempo de fotograma.

Pruebas de juego: Strange Brigade

Strange Brigade tiene su sede en el Egipto de 1903 y sigue una historia muy similar a la de la franquicia de películas Mummy. Este juego de disparos en tercera persona en particular es desarrollado por Rebellion Developments, que es más conocido por juegos como la serie Sniper Elite y Alien vs Predator. El juego sigue la búsqueda de Seteki, la Reina Bruja, que ha surgido una vez más y es la única ‘tropa’ que finalmente puede detenerla. El juego es cooperativo con una amplia variedad de niveles diferentes y muchos acertijos que deben resolver los agentes del Servicio Secreto coloniales británicos enviados para poner fin a su reinado de barbarie y brutalidad.

El juego es compatible con las API de DirectX 12 y Vulkan y alberga su propio punto de referencia integrado como una experiencia sobre rieles a través del juego. Por calidad, el juego ofrece varias opciones de personalización que incluyen texturas, suavizado, reflejos, distancia de dibujo e incluso permite a los usuarios habilitar o deshabilitar el desenfoque de movimiento, la oclusión ambiental y la teselación, entre otros. Strange Brigade es compatible con Vulkan y DX12, por lo que probamos en ambos.

La automatización de Strange Brigade es una de las más sencillas de nuestra suite: la configuración y la calidad se pueden cambiar mediante archivos .ini preparados previamente, y el punto de referencia se llama a través de la línea de comandos. La salida incluye todos los datos de tiempo de fotogramas.

Mas Pruebas de Juegos. TechSpot

Conclusión: AMD tiene a Ryzen en la cima

Al salir del otro extremo de esta revisión, es difícil creer hasta qué punto han crecido algunas de las cifras de rendimiento de AMD en los últimos cinco años. Incluso dentro de la familia Ryzen, podemos señalar los pasos agigantados por los que AMD es ahora el líder del mercado en rendimiento x86 puro.

La arquitectura Ryzen 5000 / ZEN3 es increíblemente gratificante. Es vacilante ver que AMD se las arregla para hacer que IPC vuelva a funcionar, pasando a una única arquitectura de 8 núcleos por dado, abordando el último bit de incertidumbre, el rendimiento de los juegos. Lo que fue un poco como el talón de Aquiles de Rzyen en el rendimiento del juego limitado de la CPU. No hay duda de que AMD ahora ofrece la serie de procesadores más rápida en el mercado de consumo y es imponente ver lo que lograron en solo tres años.

Ahora, no vamos a recomendarte que actualices si estás en Ryzen 3000. Pero en la serie 1000/2000 … bueno, ¿por qué no? La buena noticia es que las placas base Serie 400 admitirán estas CPU a partir de enero de 2021 con placas base seleccionadas. Y sí, AM4 ha recorrido un largo camino, está bien. Con futuros cambios en DDR5 y PCIe gen 5.0,Vemos quizás una serie de actualizaciones más (ZEN4, una actualización de ZEN3) para ser compatible con AM4, pero a partir de entonces seguramente se introducirá AM5.

Comencemos con algunos números de titulares.

+ 19% de ganancia de IPC confirmada

AMD nos cotizó una ganancia bruta de IPC de Zen2 a Zen3 de + 19%. AMD midió esto con 25 cargas de trabajo y ambos procesadores a 4.0 GHz, ejecutando memoria DDR4-3600. En comparación, probamos con puntos de referencia estándar de la industria a velocidades de reloj nominales y memoria compatible con JEDEC, y pudimos lograr con precisión ese número de + 19%.

Para agravar las ganancias de generación en generación de una era anterior a Ryzen, estamos viendo mejoras de + 114% en IPC, y si miramos del Zen original al Zen3, es una ganancia de ~ 41%.

En los puntos de referencia del mundo real, vimos una ganancia de rendimiento promedio de + 24%, mostrando tanto el aumento en IPC como el aumento de frecuencia que tienen las piezas Ryzen 5000.

5.0 GHz logrado en Ryzen

Las frecuencias turbo a menudo dependen de la configuración, y debido a que AMD usa una combinación de frecuencia turbo listada y refuerzo oportunista, la frecuencia turbo exacta puede ser difícil de precisar. Para el Ryzen 9 5950X de nivel superior, AMD enumera la frecuencia turbo como 4900 MHz para carga de un solo núcleo, sin embargo, en condiciones muy estándar, pudimos pasar eso a 5050 MHz. Profundizando en AGESA, este procesador en realidad tiene una configuración de ‘frecuencia máxima’ de 5025 MHz. Todos nuestros procesadores de la serie Ryzen 5000 ofrecen + 50-150 MHz por encima del turbo enumerado, lo que demuestra que estas partes todavía tienen algo de margen.

Como notamos en la revisión, AMD podría haber incluido una frecuencia turbo de 5 GHz, y sería una gran victoria para la compañía. Sin embargo, creo que la empresa (a) quiere centrarse más en el rendimiento y la ingeniería líderes en el mercado que no necesitan 5 GHz, y (b) si incluyeran 5 GHz, de repente sería el único mensaje que la gente recibiría de lanzamiento del producto. Al no incluir un 5 GHz explícito, también le da espacio a AMD para maniobrar para un producto futuro.

Nuevos WR en Cinebench 1T, rompiendo 10K en nT

Actualmente, a AMD le encanta presentar CineBench como una medida de rendimiento (Intel parece cambiar el tema, dependiendo de su posición), y uno de los principales anuncios de lanzamiento fue romper la barrera de los 600 puntos en el rendimiento de un solo subproceso. En ese momento, declaró que las tres partes principales podrían obtener este valor, mientras que el Ryzen 5 5600X estaba ligeramente por detrás.

En nuestras pruebas, obtuvimos una puntuación de al menos 600 en todos los procesadores. Esto es significativo, ya que los últimos procesadores Tiger Lake de Intel, con un turbo de 4.8 GHz con tanta potencia como pueden usar, solo obtuvieron 595 puntos. Los usuarios que quieren un Tiger Lake no pueden encontrar uno en una computadora de escritorio, mientras que el Ryzen 5 5600X básico es $ 300.

Otra victoria que vale la pena mencionar aquí, aunque no anunciada explícitamente por AMD, es romper la barrera de los 10000 puntos con el Ryzen 9 5950X en la prueba multiproceso. Lo logramos con la piel de nuestros dientes, y unos pocos cientos de puntos por encima de la ‘guía del revisor’ de AMD que acompaña a cada lanzamiento. Las únicas otras CPU que superan este valor son 205 W Xeons o Threadrippers, mientras que AMD lo hace dentro de la ventana de potencia máxima de 142 W.

Juegos: la caché es buena, pero depende del título

El rendimiento en los juegos siempre es un poco más difícil de precisar los números de rendimiento, según los títulos, las resoluciones, la tarjeta gráfica utilizada, la memoria y los controladores. AMD entró en Zen3 mostrando una ganancia de + 5-50% a 1080p High sobre Zen2 en varios títulos, con un promedio de 20-25%, junto con un liderazgo en rendimiento en comparación con el mejor desempeño de Intel.

No probamos a 1080p alto, sin embargo, tenemos dos métricas que vale la pena comparar. Ejecutamos nuestros juegos con un RTX 2080 Ti.

En el escenario puramente limitado por la CPU, con las resoluciones más bajas y la calidad más baja, vimos un aumento promedio de + 44% pasando de Zen2 a Zen3, de + 10% en el extremo inferior al + 80% en el extremo superior.

En 1080p máximo, vimos un aumento promedio de + 10% pasando de Zen2 a Zen3. Esto varió desde los puntos de referencia donde los resultados fueron iguales debido a que estaban limitados por la GPU, hasta algunas ganancias modestas de + 36% en más pruebas limitadas por la CPU.

Cuando comparamos AMD con Intel, AMD gana fácilmente las pruebas de resolución más baja limitadas por CPU de + 2% a + 52%, promediando alrededor de + 21% más de FPS. Sin embargo, en el máximo de 1080p, AMD e Intel intercambian golpes, oscilando de -4% a + 6% para AMD (excepto en nuestra prueba Civ6, que es una victoria de + 43% para AMD).

Como vimos en nuestra reciente revisión de Broadwell, tener acceso a grandes cantidades de caché de latencia más baja parece ser una buena manera de aumentar el rendimiento de los juegos. Al pasar de que cada núcleo tiene acceso a 16 MB a 32 MB, junto con las ganancias brutas de IPC, AMD está mostrando una buena mejora. En el frente competitivo, estamos viendo un campo de batalla más uniforme entre Intel y AMD a medida que se mejoran las configuraciones.

Impresiones generales de Zen 3 y Ryzen 5000

Una de las cosas emocionantes de probar un nuevo núcleo es descubrir todas las pequeñas peculiaridades y mejoras de las que no le informan. Ha sido interesante descubrir cómo se armó este núcleo, tanto de nuestros hallazgos como de las discusiones con los ingenieros de AMD.

Pasar a un CCX de 8 núcleos para esta generación fue una obviedad, con un fácil aumento en el rendimiento. Sin embargo, son los cambios en las unidades de ejecución y la carga / almacenamiento donde ocurre gran parte de la magia: aumentar a un pico de 3 cargas / ciclo y 2 tiendas / ciclo, dividir parte del trabajo de ALU / AGU, transiciones más finas desde el decodificador / op-cache a la cola de micro-op, y los precargadores con más ancho de banda ayudan a eso. Muchas de las mejoras en las instrucciones, como FMA de latencia más baja y DIV / IDIV más rápido, se escalarán bien a medida que avanzamos hacia los procesadores empresariales y EPYC.

Con AMD tomando la corona de rendimiento en casi el área en la que compite, la atención ahora se centra en el precio. Tener $ 300 como nivel de entrada para este nivel afectará a muchos usuarios que prefieren gastar $ 200 o menos, a pesar de que AMD tiene nueve de cada diez de los productos más vendidos de Amazon, solo dos de esas partes cuestan $ 300 o más. También habrá un impuesto para los primeros usuarios: se podría argumentar que pasar al primer trimestre, cuando AMD habilita las placas base de la serie 400, podría ser un mejor punto de partida para muchos usuarios.

Dicho esto, con Intel listo para lanzar Rocket Lake a fines del primer trimestre del próximo año con 8 núcleos, este mercado de menos de $ 300 estará listo para que cualquier APU AMD Zen3 entre y tome ese rango de precios. AMD nunca lanzó APU Zen2 en el mercado de consumo, lo que podría indicar un seguimiento rápido con Zen3. Mire este espacio: una APU Zen3 monolítica será emocionante.

El lanzamiento de Ryzen 5000 probablemente hará que un montón de personas en Intel sientan náuseas, ya que desde todos los ángulos, AMD ahora es más rápido. Así que la última parte por la que podrías molestarte con un proceso Ryzen se ha ido, estrictamente hablando desde el punto de vista del hardware y el rendimiento, por supuesto. No solo eso, AMD también ofrece una ventaja de infraestructura con compatibilidad total con PCIe Gen 4.0 en todo el ecosistema. Podría decirse que lo único que podemos etiquetar como derogación es el precio; AMD lo está impulsando agregando una prima adicional de 50 USD en la parte superior de toda la gama. Al final, aunque el mercado de consumo es brutal, si un producto es incluso 5 dólares más caro, la gente no lo comprará.

Sospecho que incluso a pesar de ese sobreprecio de 50 dólares,esta serie seguirá siendo un éxito descomunal. Has visto los números, ¿merece la pena? Bueno, sí, creemos que lo es. Además, tenemos que hablar de relatividad aquí. Una plataforma Intel HEDT con más de 10 núcleos hace dos años le costaría $ 1000 fácilmente solo por el procesador, ahora mismo puede comprar como una bestia de 12 núcleos por $ 549 o $ 799 por la parte ZEN3 de 16 núcleos. Para aliviar un poco el dolor de los precios, tengo algunas noticias positivas en este frente.

AMD incluirá Far Cry 6 con procesadores Ryzen 5000 seleccionados, de acuerdo con los términos y condiciones del programa de recompensas de AMD que figura en su sitio web. La promoción es válida hasta el 31 de diciembre; Far Cry 6 se lanzará el primer semestre de 2021. La promoción es válida hasta el 31 de diciembre; Far Cry 6 se lanzará el primer semestre de 2021. Pero ya se ha dicho suficiente sobre las monedas y el valor.

Realmente no podemos molestarnos por nada más, ya que tanto el Ryzen 5900X como el 5950X son gemas, nunca el rendimiento de un solo subproceso fue tan rápido, nunca el rendimiento de múltiples subprocesos fue tan rápido, nunca (para AMD) el rendimiento de los juegos fue tan rápido. Lo ha visto, en todo el espectro de posibilidades, desde la navegación web que se vuelve más rápida hasta muchas cargas de trabajo complicadas para la creación de contenido, AMD le ahorrará algo de tiempo en cualquier carga de trabajo, ya que en pocas palabras, es la serie de productos más rápida. El cambio a un diseño completo de 8 núcleos, en lugar de dos CCX de 4 núcleos, fue la elección correcta para el ZEN3. Sin embargo, AMD avanzó en muchos niveles en la arquitectura, trayendo ese IPC adicional por cada hilo utilizado. Quiero decir, CB20 puntúa en ~ 640 puntos, simplemente guau.

A fin de cuentas, estamos realmente impresionados con lo que AMD ha logrado aquí. Después de la desilusión de años de mejoras en el rendimiento de generación en generación más débiles frente a la competencia, AMD estableció el objetivo de superar la ganancia promedio anual de IPC de ~ 7%. Con + 19% de IPC en Zen3, Intel no tiene igual en este momento, ni siquiera Tiger Lake a 4.8 GHz, y ha perdido esa corona de un solo hilo.

AMD entregó lo prometido y Zen3 obtiene el premio de oro. No hay duda

Fuentes: Anandtech, TechPowerUp, Guru3D, TechSpot, TomsHardware

5 respuestas a «Revisión y análisis profundo de AMD Zen 3 Ryzen: 5950X, 5900X, 5800X y 5600X»

  1. Yo mientras les sigo leyendo y agradeciendo Tecnología al Día por ponerme al día y los pies en la tierra con los precios y el mercado que aqui anda ZOMBIE.

    Y para cuando vuelva a poder creo la cosa irá por ZEN 300 entre la pandemia y las demás pandemias jajaja

  2. Bueno, suerte a intel para el 2021, porque lo que queda de año se pueden quitar el sombrero y aplaudir, que no les queda de otra la verdad, Zen 3 para dolor de muchos y orgullo para otros (yo incluido) es una bestia, tanto para ocio como para trabajo, espero tener uno la verdad, aunque creo que cuando pueda desembolsillar para una pc nueva, ya estara AM5 o como lo llamen en la calle ><, the hype is real

    1. lo proximo de intel en teoria sale para marzo. pero viene limitado hasta 8 nucleos
      los calculos por encima dicen que se igualaria de nuevo en IPC a amd, pero en general quedan detras

      lo mas que promenten es una arquitectura que sale, de nuevo, en teria, para 2022. pero entonces amd podria estar ya en Zen4 y 5nm

      1. Verdad si para el 2022 Intel piensa responder fuerte sobre la mesa.
        Para esa fecha hasta Aple
        Tendría su propio ecosistema con ARM, posiblemente NVIDIA también y ni hablar de AMD a 5nm y menos con mejoras en su Arquitectura…

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *