Esta es la revisión que todos hemos estado esperando. Desde diciembre del año pasado, y especialmente desde CES, AMD nos ha estado mostrando sobre la nueva microarquitectura Zen 2 y la nueva serie de CPUs Ryzen 3000 de AMD. Al incorporar una arquitectura de CPU significativamente mejorada y construida utilizando el proceso de fabricación de última generación de TSMC, AMD ha continuado moviendose a toda velocidad en un momento en el que su rival Intel ha luchado para moverse. El resultado final es que si bien la primera y la segunda generación de CPUs Ryzen trataban de que AMD regresara a la competencia y se redujera la ventaja de rendimiento sustancial de Intel, la serie Ryzen 3000 es nada menos que el primer disparo de AMD en casi 13 años en una igualada (o derrota a) Intel en su propio juego en el mercado de CPU de escritorio. Es un gran momento para AMD y uno emocionante en la industria de la CPU en general.

(Este review esta conformado con texto y datos de Anandtech y Guru3D, y datos de TechPowerUp. El texto es traducido via GoogleTranslate, disculpar cualquier incongruencia)

Los nuevos chips Ryzen 3000 marcan el primer gran salto para AMD desde que introdujeron sus primeros procesadores Ryzen hace poco más de dos años . A diferencia de la serie Ryzen 2000 del año pasado, que fue una actualización menor y aportó algunos ajustes al nodo de microarquitectura y proceso, el Ryzen 3000 de este año es una actualización importante tanto para la arquitectura de la CPU como para el nodo de fabricación. Marca el cambio de AMD del proceso de 12 nm de GlobalFoundries al nodo de 7 nm más nuevo de TSMC. Pero lo que es más emocionante es cómo AMD pudo implementar este interruptor: el Ryzen 3000 no es solo un chip, sino una colección de chiplets no uniformes, que introducen este paradigma de diseño en un producto de consumo por primera vez.

Hoy, AMD lanza toda su nueva plataforma y línea de CPU, junto con la nueva serie Radeon RX 5700 basada en Navi. En términos de cobertura de la CPU, analizaremos de cerca el nuevo buque insignia, el Ryzen 3900X de $499 dólares, así como el Ryzen 7 3700X de 8 núcleos y $329 y su peculiar TDP bajo de 65W.

<a href="https://tecn.cubava.cu/files/2019/07/ryzen3000-tae1.png”>

AMD está lanzando 5 SKU diferentes hoy, con el Ryzen 9 3950X de 16 núcleos que se instalará en septiembre. Para el lanzamiento de hoy, AMD probó el R9 3900X y el R7 3700X, y los llevamos a dar una vuelta en el limitado tiempo que tuvimos con ellos, cubriendo todo lo que pudimos.

Comenzando en la parte superior tenemos el Ryzen 3900X, que es un diseño de 12 núcleos. De hecho, es el primer procesador de 12 núcleos en un socket de escritorio estándar, y es bastante único dentro de la pila de productos de AMD porque actualmente es el único SKU que aprovecha al máximo la arquitectura de chiplet más nueva de AMD. Mientras que todas las demás partes de Ryzen están compuestas por dos chiplets: el troquel de E / S base y una chiplet de CPU única: el 3900X viene con dos chiplets de CPU, otorgándole (algunos de) los núcleos adicionales y los 64MB de caché L3 que conlleva.

Curiosamente, mientras que AMD ha aumentado el recuento de núcleos en un 50% con respecto a su procesador estrella anterior, ha logrado mantener el TDP en el mismo 105 W que en el Ryzen 2700X. Además de esto, el chip se registra en 300MHz más rápido que el predecesor en términos de impulso de reloj, que ahora alcanza los 4.6GHz; incluso el reloj base se ha incrementado en 100MHz, llegando a 3.8GHz. Entonces, la gran pregunta es si el nuevo nodo de proceso de 7 nm y el Zen 2 son realmente tan eficientes, o ¿deberíamos esperar mayores números de potencia?

Mientras tanto, nuestro segundo chip del día es el nuevo Ryzen 3700X, que está configurado y posicionado como un modelo particularmente eficiente. Con un reloj de impulso de 4,4 GHz y un reloj base de 3,6 GHz, la parte aún debería ser notablemente más rápida que la Ryzen 2700X, sin embargo, AMD ha logrado convertir esta parte en un TDP de 65 W, lo que hará un análisis interesante.

Ejecución continuada

El lanzamiento de Zen 2 y Ryzen 3000 de hoy es otro paso adelante en la hoja de ruta de AMD. La compañía ha estado trabajando en una hoja de ruta de desarrollo muy ambiciosa para sus diseños de CPU, y Zen 2 es la primera oportunidad de la compañía para flexionar sus músculos y hacer una iteración completa de su diseño de núcleo de CPU.

Ejecutar en esta hoja de ruta ha sido importante para AMD, ya que les ayudó a cerrar la brecha de rendimiento con Intel, y porque ayudó a demostrar a los clientes (en particular a los hiperescaladores y las empresas) que Zen no fue una casualidad, y que la compañía puede continuar de manera confiable Para mejorar su tecnología. Esto es especialmente notable porque, mientras que su rival Intel no se ha detenido, toda la tecnología de escritorio de Intel durante los últimos 3 años se ha basado en la misma arquitectura central de Skylake y en las variaciones del excepcional proceso de 14nm de Intel. Esto eventualmente cambiará, ya que Intel pone su computadora de escritorio para 2020, pero en este momento AMD está avanzando cuando Intel no puede, lo que le permite a AMD sacar el máximo provecho de la mala suerte de Intel y atraer a los clientes en el proceso.

Y por supuesto, AMD no se hace aquí. Para los ingenieros de la compañía, los chips de hoy son el trabajo del año pasado, y la compañía está trabajando en la próxima generación del núcleo Zen 3. Zen 3 aún está a una generación completa, y hoy se trata de Zen 2, pero AMD está dejando claro que el Zen 2 tampoco es el final del camino, y que están trabajando para mejorar aún más la microarquitectura de su CPU y la plataforma en general. .

Grandes mejoras de rendimiento, particularmente para juegos

Los procesadores Ryzen de tercera generación prometen traer algunas mejoras de rendimiento notablemente grandes para los usuarios. Se dice que la microarquitectura de núcleo Zen 2 trae más del 10% de mejoras de IPC; esto, junto con las velocidades de reloj más altas, debe proporcionar algunas mejoras generacionales sólidas en una gran cantidad de cargas de trabajo. En particular, para los juegos, AMD afirma que deberíamos ver algunas mejoras importantes: se dice que el tamaño duplicado de la memoria caché L3 marcó una gran cantidad en muchos títulos de juegos, con AMD que reclama un ~ 20% o incluso un 30% de mejoras. en algunos títulos en comparación con la última generación Ryzen 2700X.

La competencia Ryzen 3000: Intel’s Coffee Lake Refresh

Posicionar la serie Ryzen 3000 contra la línea de Intel es una cuestión de rendimiento y precio. AMD ya había hecho comparaciones entre las nuevas SKU y las contrapartes de Intel en Computex, donde vimos comparaciones entre unidades con precios similares. Según la compañía, incluso el costoso procesador de escritorio de gama alta Skylake (HEDT) de Intel, el Core i9-9920X, no está completamente fuera de la línea de fuego del Ryzen 3900X.

Como resumen rápido de cómo están las cosas, en comparación con su predecesor inmediato, la actualización de Coffee Lake de Intel recibió un gran golpe en términos de frecuencias de reloj y recuentos de núcleos. Esto le permitió a Intel borrar cualquier ventaja de la serie Ryzen 2000 en el rendimiento de subprocesos múltiples, al mismo tiempo que mantiene un liderazgo cómodo en el rendimiento de un solo hilo.

Contra la serie Ryzen 3000, la alineación de Intel aparentemente ya no tendrá una ventaja de IPC. AMD no ha estado en una situación así desde el Athlon, hace 64 días y más de 15 años, lo que es un giro notable de los acontecimientos. Pero dicho esto, no se equivoque: IPC es solo la mitad de la ecuación para el rendimiento de un solo hilo, y la otra es la frecuencia bruta, y la alineación de Intel aún tiene una ventaja notable gracias a sus frecuencias pico de hasta 5 GHz. . Por lo tanto, asumir el liderazgo de rendimiento de un solo hilo de Intel (al menos de manera consistente) es una tarea difícil para la serie Ryzen 3000.

Mirando el precio y el posicionamiento de los chips, la gran pelea principal entre los procesadores de escritorio será entre el Ryzen 3900X a $ 484, y el i9-9900K a $ 484. Ambos de los cuales son los SKU más avanzados de sus respectivas plataformas informáticas de escritorio.

En este caso, AMD debería tener una ventaja significativa en términos del rendimiento de múltiples subprocesos de la nueva serie Ryzen 9, ya que puede emplear un 50% más de núcleos que Intel, y promete permanecer en un rango de TDP similar de 105W frente a 95W. Aún esperamos que el 9900K gane algunas cargas de trabajo que están más ligadas simplemente debido al cable de frecuencia de reloj de Intel, sin embargo, esto es algo que investigaremos más detalladamente en el próximo análisis de referencia.

El Ryzen 7 3700X es un SKU interesante. Con solo una chiplet CPU rellenada, la unidad tiene la mitad del caché L3 disponible en comparación con el Ryzen 9 3900X. Pero también tiene todos los núcleos de CPU dentro de su chiplet activo. En teoría, esto significa que los núcleos de la CPU tienen menos caché L3 global disponible para ellos, ya que tienen que compartirla con un núcleo adicional dentro de sus respectivos CCX.

Con una configuración de reloj base / boost de 3.6GHz / 4.4Ghz, esperamos que el 3700X supere a la generación anterior de 2700X en todos los escenarios. La competencia aquí basada en precios es el Core i7-9700K. Intel nuevamente debería tener una ventaja de rendimiento de un solo hilo gracias a sus relojes de 500 MHz más altos, pero tendremos que ver cómo ambos chips coinciden en las cargas de trabajo diarias.
La descripción general de Zen 2 µarch: Lea nuestro artículo dedicado

Ya hemos publicado un resumen y análisis de la microarquitectura de la microarquitectura Zen 2 después de nuestras sesiones informativas del Día de la Tecnología en junio, así que asegúrese de leer la pieza en preparación para análisis de pruebas adicionales en nuestra revisión de hoy:

AMD Zen 2 Microarquitectura Análisis: Ryzen 3000 y EPYC Roma

Cambios en la jerarquía de caché: L3 doble, memoria más rápida

Entre los cambios más grandes del Ryzen 3000, junto con la microarquitectura central mejorada, se encuentra la jerarquía de caché general del chip. El nuevo chiplet contiene CCXes con el doble de L3, ahora 16MB en lugar de 8MB.

Además, el diseño de chiplet con la introducción del dado CIO que alberga los nuevos controladores de memoria, sin duda, tendrá un impacto en la latencia de la memoria y el rendimiento del chip en general.

En el lado del controlador de memoria, en particular, AMD promete un diseño totalmente renovado que brinda un nuevo soporte para módulos DDR4 mucho más rápidos, con el chip por defecto categorizado como compatible con DDR4-3200, que es un bache sobre el soporte DDR-2933 del Ryzen 2000 series.

AMD había publicado una diapositiva interesante con respecto a la nueva compatibilidad más rápida con DDR que superaba con creces las velocidades 3200 admitidas oficialmente, y AMD afirma que los nuevos controladores pueden admitir hasta DDR4-4200 con facilidad y es posible lograr overclocking aún más alto las velocidades Sin embargo, hay un problema: para admitir DDR4 por encima de 3600, el chip cambiará automáticamente la relación de reloj de la estructura al infinito del reloj de 1:1 a 2:1.

Si bien esto no obstaculiza el ancho de banda de la memoria a los núcleos, ya que la nueva microarquitectura ha duplicado el ancho del bus del Infinity Fabric a 512 bits, agrega una cantidad notable de ciclos a la latencia general de la memoria, lo que significa que la gran mayoría de las cargas de trabajo, es mejor quedarse en o por debajo de DDR4-3600 con una relación 1: 1 MC: IF. Debe tenerse en cuenta que aún es posible mantener esta relación 1: 1 ajustándola manualmente a velocidades de MC más altas, sin embargo, la estabilidad del sistema ya no está garantizada, ya que en realidad también está haciendo overclocking de Infinity Fabric en este escenario.

Para este artículo no tuvimos tiempo suficiente para sumergirnos en el comportamiento de escalado de las diferentes velocidades de DRAM, lo que sí investigamos es una cuestión más arquitectónica de cómo exactamente la nueva arquitectura de chiplet y CIO die ha afectado la latencia de memoria de Zen2 y el rendimiento de la memoria.

Para brindar una mejor comprensión, estamos utilizando mi prueba de latencia de memoria personalizada que utilizo para las pruebas de SoC móvil y que cubrimos por primera vez en nuestra revisión del Galaxy S10 + y sus dos SoC . Hoy en día, las pruebas de latencia de la memoria son un tema complicado, ya que las microarquitecturas avanzan a gran velocidad y, en particular, las búsquedas previas pueden causar cifras a veces engañosas. De manera similar, más enfoques de fuerza bruta, como las pruebas aleatorias completas, contienen una gran cantidad de latencias fallidas de TLB que no representan la latencia estructural real del sistema. Nuestra suite de latencia personalizada, por lo tanto, no es una prueba de un solo número para todos, sino más bien una colección de pruebas que exponen más detalles del comportamiento de la memoria del sistema.

Las cifras publicadas en esta página se ejecutan en DDR4-3200CL16 en el Ryzen 3900X y 2700X en tiempos de 16-16-16-36, y el i9-9900K se ejecutó con DDR4-3200CL16 similar en tiempos de 16-18-18- 36.

Al observar las curvas de latencia de la memoria en un gráfico trazado lineal, vemos que hay algunas diferencias obvias más grandes entre el nuevo Ryzen 3900X y el Ryzen 2700X. Lo que inmediatamente llama la atención al cambiar entre los dos resultados es la nueva capacidad de caché L3 de 16MB que se duplica sobre los 8MB de Matisse. Debemos recordarnos que aunque el chip completo contiene 64 MB de caché L3, esto no es un caché unificado y un solo núcleo de CPU solo verá su propio caché L3 de CCX antes de ingresar a la memoria principal, lo que contrasta con el caché L3 de Intel. Donde todos los núcleos tienen acceso a la cantidad total.

Antes de entrar en más detalles en el siguiente gráfico, otra cosa que es obvia es que, aparentemente, la latencia DRAM del 3900X es un poco peor que la del 2700X. Entre los muchos patrones de prueba aquí, uno a tener en cuenta es la curva de “Estimación estructural”. Esta curva es en realidad una simple resta de las pruebas Thrash de TLB + CLR menos la figura de penalización de TLB. En el primero, estamos causando tanta presión de reemplazo de línea de caché como sea posible al golpear repetidamente la misma línea de caché dentro de cada página de memoria, y también tratar repetidamente de perder la TLB. En este último, todavía estamos golpeando el TLB fuertemente, pero siempre estamos usando una línea de caché diferente y, por lo tanto, tenemos un mínimo de presión en la línea de caché, lo que resulta en una estimación de la penalización de TLB. Restar el último del anterior nos da una estimación bastante buena de la latencia estructural real del chip y la memoria.

Ahora la gran pregunta es, ¿por qué hacerlo de esta manera? Me he dado cuenta de que con cada vez mejores captadores, es cada vez más difícil obtener buenos números de latencia de memoria. Si bien es posible simplemente deshabilitar los prefetchers en algunas plataformas, esa avenida no siempre está disponible.

Precisamente cuando observamos los otros diversos patrones en el gráfico, estamos viendo una gran diferencia entre el 3900X y el 2700X, con el 3900X mostrando latencias notablemente más bajas en algunos de ellos. Estas cifras son ahora el resultado de las nuevas captadoras previas del nuevo Zen2, que son capaces de reconocer mejor los patrones y extraer datos de la DRAM antes de que el núcleo de la CPU maneje esa dirección de memoria.

Al trazar los mismos datos en un gráfico logarítmico, es mejor que veamos algunos de los detalles.

En términos de la latencia de DRAM, parece que el nuevo Ryzen 3900X ha retrocedido en alrededor de 10 ns en comparación con los 2700X (Nota: simplemente tome el borde de ataque de las cifras de “Estimación estructural” como la mejor estimación) con ~ 74-75.5 ns contra ~ 65.7ns.

También parece que la memoria caché L3 de Zen2 también ha ganado algunos ciclos: un cambio de ~ 7.5ns a 4.3GHz a ~ 8.1ns a 4.6GHz significaría una regresión de ~ 32 ciclos a ~ 37 ciclos. Sin embargo, se esperaba un cambio, ya que la duplicación de la estructura de la memoria caché L3 tiene que venir con algunos compromisos de implementación, ya que nunca hay un almuerzo gratis. La latencia de la memoria caché L3 de Zen2 ahora es aproximadamente la misma que la de Intel, mientras que antes era más rápida en Zen+.

Otras características interesantes que vemos aquí es el aumento de la capacidad de la L2 TLB. Esto se puede ver en la curva de “Penalización TLB”, y la profundidad aquí corresponde a los detalles publicados de AMD de aumentar la estructura de 1536 páginas a 2048 páginas. Debe notarse que la capacidad de L3 ahora excede la capacidad de la TLB, lo que significa que un solo núcleo de CPU tendrá solo las mejores latencias de acceso de hasta 8 MB en la memoria caché antes de comenzar a recorrer la página. Un comportamiento similar lo vemos en el caché L2, donde la capacidad del L1 TLB solo cubre 256 KB del caché antes de tener que buscar entradas en el L2 TLB.

Otra característica muy interesante de la microarquitectura de AMD que contrasta con la de Intel, es el hecho de que AMD se adquiere previamente en el caché L2, mientras que Intel solo lo hace para la línea de caché más cercana. Tal comportamiento es un arma de doble filo, por un lado, los núcleos de AMD pueden tener mejores latencias a los datos necesarios, pero por otro lado, en el caso de una captación previa innecesaria, esto pone mucha más presión sobre la capacidad de caché L2, y En efecto, podría contrarrestar algunos de los beneficios de tener el doble de capacidad sobre el diseño de Intel.

Al pasar al ancho de banda de memoria de la jerarquía de caché, hay una nueva posibilidad obvia en el 3900X y Zen2: la inclusión de rutas de datos de 256 bits de ancho. La nueva AGU y los cambios de ruta significan que el núcleo ahora puede manejar la instrucción AVX de 256 bits una vez por ciclo, lo que se duplica sobre las rutas de datos de 128 bits de Zen y Zen +.

Así que mientras el ancho de banda de las operaciones de 256 bits en el Ryzen 2700X parecía idéntico a las variantes de 128 bits, las operaciones más amplias ahora en Zen2 duplican efectivamente el ancho de banda del núcleo. Esta duplicación del ancho de banda es evidente en el caché L1 (La prueba de inversión es igual a una prueba de copia de memoria), sin embargo, el aumento es solo de aproximadamente el 20% para los cachés L2 y L3.

Existe una interesante yuxtaposición entre el ancho de banda de caché L3 de AMD y el de Intel: AMD tiene esencialmente una ventaja del 60% en el ancho de banda, ya que el L3 de CCX es mucho más rápido que el L3 de Intel, cuando se accede a él desde un solo núcleo. En particular, las modificaciones de lectura-escritura dentro de una sola línea de caché (prueba CLflip) son significativamente más rápidas en los cachés L2 y L3 en comparación con el diseño central de Intel.

Más profundo en las regiones de DRAM, sin embargo, vemos que AMD aún está rezagado con respecto a Intel cuando se trata de la eficiencia del controlador de memoria, por lo que mientras el 3900X mejora el ancho de banda de la copia de 19.2GB / sa 21GB / s, aún permanece detrás del 22.9GB / del 9900K s. El ancho de banda de la tienda (ancho de banda de escritura) en la memoria también es un poco más bajo en las partes de AMD ya que el 3900X alcanza los 14.5GB/s en comparación con los 18GB/s de Intel.

Un aspecto en el que sobresale AMD es el paralelismo a nivel de memoria. MLP es la capacidad del núcleo de la CPU para “estacionar” los accesos de memoria cuando faltan los cachés, y esperar a que regresen más tarde. En el gráfico anterior vemos un número creciente de accesos de memoria aleatorios representados como líneas apiladas, con el eje vertical mostrando la aceleración efectiva del acceso en relación con un acceso único.

Si bien la capacidad de AMD y de MLP de Intel en la L2 es algo similar y alcanza 12, esto se debe a que estamos saturando el ancho de banda del caché en esta región y no podemos ir más rápido a través de más accesos. Sin embargo, en la región L3 vemos grandes diferencias entre los dos: mientras que Intel comienza con alrededor de 20 accesos en el L3 con una aceleración de 14-15x, los TLB y las estructuras centrales de soporte no pueden sostener esto correctamente en todo el L3 como es tener que acceder a otras rodajas L3 en el chip.

Sin embargo, la implementación de AMD parece ser capaz de manejar más de 32 accesos con una aceleración de 23x extremadamente robusta. De hecho, esta ventaja continúa en la región DRAM, donde aún vemos aceleraciones de hasta 32 accesos, mientras que Intel alcanza un máximo de 16.

La capacidad de MLP es extremadamente importante para poder en realidad ocultar las diversas latencias de jerarquía de memoria y aprovechar al máximo las capacidades de ejecución fuera de orden de una CPU. Los núcleos Zen de AMD aquí tienen aparentemente la mejor microarquitectura en este aspecto, con solo los núcleos de CPU móviles de Apple que tienen características comparables. Creo que esta fue una elección de diseño consciente de la microarquitectura, ya que AMD sabía que su diseño general de SoC y su futura arquitectura de chiplet tendrían que lidiar con latencias más altas, e hicieron todo lo posible para minimizar esa desventaja.

Entonces, mientras que los nuevos núcleos Zen2 parecen tener peores latencias, posiblemente un factor combinado de un controlador de memoria más rápido (las frecuencias más rápidas podrían haber tenido un costo de latencia en la implementación), un L3 más grande pero con ciclos adicionales, no es así. significa que las cargas de trabajo sensibles a la memoria verán gran parte de una regresión. AMD ha podido mejorar las captaciones previas del núcleo, y la latencia promedio de la carga de trabajo será menor debido a la duplicación de L3, y esto está en la parte superior de la microarquitectura del núcleo, que parece tener una capacidad MLP extraordinariamente buena para cada vez que hay una falta de caché, algo para mantener en mente a medida que investigamos más el rendimiento.

Placas base X570: PCIe 4.0 para todos

Una de las mayores adiciones al socket AM4 de AMD es la introducción de la interfaz PCIe 4.0. La nueva generación de placas base X570 marca el primer conjunto de chips de la placa madre del consumidor con PCIe 4.0 de forma nativa, que busca ofrecer a los usuarios un almacenamiento aún más rápido y un mejor ancho de banda para las tarjetas gráficas de la próxima generación en comparación con las iteraciones anteriores de la arquitectura GPU actual. Sabemos que los procesadores Zen 2 han implementado el nuevo proceso de fabricación de TSMC 7nm con el doble del caché L3 en comparación con el Zen 1. Este nuevo chiplet de IO centrado en el centro está allí independientemente del número de núcleos y utiliza la interconexión Infinity Fabric; El conjunto de chips AMD X570 usa cuatro líneas PCIe 4.0 para el enlace ascendente y el enlace descendente a la CPU IO die.

Al observar una comparación directa entre los conjuntos de chips AM4 de la serie AM4, el conjunto de chips X570 agrega líneas PCIe 4.0 a las X470 anteriores y la dependencia de X370 de PCIe 3.0. Un gran punto a favor del nuevo conjunto de chips X570 es más compatibilidad con USB 3.1 Gen2 con AMD, lo que permite a los fabricantes de placas base jugar con 12 carriles PCIe 4.0 flexibles e implementar las funciones que deseen. Esto incluye 8 x líneas PCIe 4.0, con dos bloques de PCIe 4.0 x4 para jugar, con los cuales los proveedores pueden agregar ranuras SATA, PCIe 4.0 x1 e incluso compatibilidad con 3 ranuras PCIe 4.0 NVMe M.2.

* Debido a dos variaciones diferentes del conjunto de chips X570, una con un 15 W y otra con un TDP de 11 W, la potencia adicional permite más carriles PCIe, por lo que mejor soporte de GPU en general. Un ejemplo es el modelo ASUS Pro WS X570-Ace.
** Por la misma razón que antes, agregar carriles PCIe adicionales al conjunto de chips aumenta naturalmente el consumo de energía.

Uno de los mayores cambios en el chipset está dentro de su arquitectura. El conjunto de chips X570 es el primer conjunto de chips que se fabrica internamente utilizando la IP de ASMedia, mientras que anteriormente con los conjuntos de chips X470 y X370, ASMedia lo desarrolló y produjo basándose en su arquitectura de 55 nm. Mientras pasaba de X370 a 6.8 W TDP a carga máxima, X470 mejoró en términos de consumo de energía a un TDP más bajo de 4.8 W. Para X570, esto se ha incrementado enormemente a un TDP de 11 W en sus modelos de consumidor, con 15 W Variante para sus modelos más profesionales y centrados en la empresa. La diferencia entre las dos variaciones de X570, aparte del consumo de energía, es que el conjunto de chips X570 de 15 W agrega líneas PCIe 4.0 adicionales que aparentemente aumentan el consumo de energía en comparación con los conjuntos de chips enfocados en PCIe 3.0 anteriores.

Otro cambio importante debido al mayor consumo de energía del conjunto de chips X570 en comparación con X470 y X370 es el enfriamiento requerido. Todos menos uno de la pila de productos lanzados cuenta con un disipador térmico de chipset enfriado activamente que se necesita debido al aumento en el consumo de energía cuando se usa PCIe 4.0 debido a los requisitos de implementación más complejos sobre PCIe 3.0. Si bien se espera que AMD trabaje para mejorar el TDP en las generaciones futuras al usar PCIe 4.0, los fabricantes obligan a implementar formas más avanzadas y efectivas de mantener los componentes en el refrigerador X570. Esto también se extiende a la entrega de energía ya que AMD anunció que un procesador de escritorio de 16 núcleos Ryzen 3950X se lanzará más adelante en el año, lo que significa que los fabricantes de placas base deben implementar mejores entregas de energía y mejores disipadores de calor capaces de mantener los procesadores TDP de 105 W eficiente.

El soporte de memoria también se ha mejorado con un IMC aparentemente mejor en la línea Ryzen 3000 en comparación con la serie de procesadores Ryzen 2000 y 1000. Algunos proveedores de placas base son velocidades publicitarias de hasta DDR4-4400 que hasta X570 no se conocían. X570 también marca un salto hasta DDR4-3200 desde DDR4-2933 en X470, y DDR4-2667 en X370. Como investigamos en nuestra pieza de escala de memoria Ryzen 7 en 2017, descubrimos que la Infinity Fabric Interconnect se adapta bien con la frecuencia, y es algo que analizaremos una vez que hayamos eliminado el lanzamiento del X570, y potencialmente Permita que los proveedores de placas madre trabajen en su firmware infantil para el nuevo silicio de 7 nm de AMD.

Optimizaciones de Windows

Uno de los puntos clave que ha sido una molestia en el lado de los procesadores que no son de Intel que utilizan Windows ha sido la optimización y la organización del programador en el sistema operativo. Hemos visto en el pasado cómo Windows no ha sido amable con los diseños de microarquitectura que no son Intel, como el diseño de módulo anterior de AMD en Bulldozer, la estrategia de CPU híbrida de Qualcomm con Windows en Snapdragon, y más recientemente con arreglos de múltiples matrices en Threadripper que introducir diferentes dominios de latencia de memoria en la computación del consumidor.

Obviamente, AMD tiene una relación cercana con Microsoft cuando se trata de identificar una topología central no regular con un procesador, y las dos compañías trabajan para asegurar que las asignaciones de hilo y memoria, sin la dirección dirigida por el programa, intenten aprovechar al máximo el sistema. Con la actualización del 10 de mayo a Windows, se han implementado algunas características adicionales para aprovechar al máximo la próxima microarquitectura Zen 2 y los diseños de silicona Ryzen 3000.

Las optimizaciones vienen en dos frentes, los cuales son razonablemente fáciles de explicar.

Agrupación de hilos

El primero es la asignación de hilos. Cuando un procesador tiene diferentes ‘grupos’ de núcleos de CPU, hay diferentes formas en que se asignan los subprocesos, todos los cuales tienen sus pros y sus contras. Los dos extremos para la asignación de hilos se reducen a la agrupación y expansión de hilos.

La agrupación de hilos es donde a medida que se generan nuevos subprocesos, se asignan a los núcleos directamente junto a los núcleos que ya tienen subprocesos. Esto mantiene los hilos muy juntos, para la comunicación hilo a hilo, sin embargo, puede crear regiones de alta densidad de potencia, especialmente cuando hay muchos núcleos en el procesador pero solo un par están activos.

La expansión del hilo es donde los núcleos se colocan lo más lejos posible entre sí. En el caso de AMD, esto significaría un segundo subproceso que se genera en un chiplet diferente, o un complejo de núcleo / CCX diferente, lo más lejos posible. Esto permite que la CPU mantenga un alto rendimiento al no tener regiones de alta densidad de potencia, lo que generalmente proporciona el mejor rendimiento turbo en varios subprocesos.

El peligro de la expansión de subprocesos es cuando un programa genera dos subprocesos que terminan en lados diferentes de la CPU. En Threadripper, esto podría incluso significar que el segundo subproceso estaba en una parte de la CPU que tenía una larga latencia de memoria, lo que provocaba un desequilibrio en el rendimiento potencial entre los dos subprocesos, incluso aunque los núcleos en los que estaban dichos subprocesos hubieran estado en el mayor frecuencia de turbo.

Debido a que el software moderno, y en particular los videojuegos, ahora generan múltiples hilos en lugar de depender de un solo hilo, y esos hilos necesitan hablar entre sí, AMD está pasando de una técnica de expansión de hilos híbrida a una técnica de agrupamiento de hilos. Esto significa que un CCX se llenará de hilos antes de que se pueda acceder a otro CCX. AMD cree que a pesar del potencial de alta densidad de potencia dentro de un chiplet, mientras que el otro podría estar inactivo, todavía vale la pena por el rendimiento general.

Para Matisse, esto debería permitir una mejora agradable para los escenarios de subprocesos limitados, y en la cara de la tecnología, los juegos. Será interesante ver cuánto afectará esto a las próximas CPU EPYC Rome o los futuros diseños de Threadripper. El único punto de referencia que AMD proporcionó en su explicación fue Rocket League a 1080p bajo, que reportó una ganancia de tasa de fotogramas de + 15%.

Cronometraje del reloj

Para cualquiera de nuestros usuarios familiarizados con nuestra microarquitectura Skylake de inmersión profunda, puede recordar que Intel introdujo una nueva función llamada Speed ​​Shift que permitió que el procesador se ajustara entre diferentes estados P de forma más libre, así como la aceleración desde el ralentí hasta una carga muy rápida. De 100 ms a 40 ms en la primera versión en Skylake, luego a 15 ms con Kaby Lake. Hizo esto devolviendo el control de estado P desde el sistema operativo al procesador, que reaccionó según el rendimiento y la solicitud de instrucciones. Con Zen 2, AMD ahora está habilitando la misma característica.

AMD ya tiene una mayor granularidad en sus ajustes de frecuencia sobre Intel, lo que permite diferencias de 25 MHz en lugar de 100 MHz. Sin embargo, la habilitación de un salto de frecuencia de rampa a carga más rápido ayudará a AMD cuando se trata de cargas de trabajo muy impulsadas por ráfagas. como WebXPRT (el favorito de Intel para este tipo de demostración). De acuerdo con AMD, la forma en que esto se ha implementado con Zen 2 requerirá actualizaciones de BIOS, además de pasar a la actualización de Windows del 10 de mayo, pero reducirá la rampa de frecuencia de ~30 milisegundos en Zen a ~1-2 milisegundos en Zen 2. Cabe señalar que esto es mucho más rápido que los números que Intel suele proporcionar.

El nombre técnico para la implementación de AMD incluye CPPC2, o Collaborative Power Performance Control 2, y las métricas de AMD indican que esto puede aumentar las cargas de trabajo de ráfaga y también la carga de aplicaciones. AMD cita una ganancia de rendimiento de + 6% en los tiempos de lanzamiento de la aplicación utilizando la sub-prueba de inicio de la aplicación PCMark10.

Seguridad endurecida para Zen 2

Otro aspecto de Zen 2 es el enfoque de AMD para elevar los requisitos de seguridad de los procesadores modernos. Como se ha informado, un buen número de las recientes explotaciones de canal lateral no afectan a los procesadores AMD, principalmente debido a cómo AMD administra sus búferes TLB que siempre han requerido comprobaciones de seguridad adicionales antes de que la mayor parte de esto se convirtiera en un problema. No obstante, para los problemas a los que AMD es vulnerable, ha implementado una plataforma de seguridad completa basada en hardware para ellos.

El cambio aquí viene para el bypass especulativo de la tienda, conocido como Spectre v4, que AMD ahora tiene hardware adicional para trabajar en conjunto con el sistema operativo o los administradores de memoria virtual, como los hipervisores, para poder controlar. AMD no espera ningún cambio en el rendimiento de estas actualizaciones. Los problemas más recientes, como Foreshadow y Zombieload, no afectan a los procesadores AMD.

Banco de pruebas y configuración

De acuerdo con nuestra política de pruebas de procesador, tomamos una placa base de categoría superior adecuada para el zócalo y equipamos el sistema con una cantidad adecuada de memoria que se ejecuta en la frecuencia máxima admitida por el fabricante. Esto también suele ejecutarse en sub-plazos JEDEC cuando sea posible.

Se observa que algunos usuarios no están interesados ​​en esta política, lo que indica que a veces la frecuencia máxima admitida es bastante baja, o que la memoria más rápida está disponible a un precio similar, o que las velocidades de JEDEC pueden ser prohibitivas para el rendimiento. Si bien estos comentarios tienen sentido, en última instancia, muy pocos usuarios aplican perfiles de memoria (ya sea XMP u otro), ya que requieren interacción con el BIOS, y la mayoría de los usuarios recurrirá a las velocidades compatibles con JEDEC, lo que incluye a los usuarios domésticos y la industria que quieran corte un centavo o dos del costo o manténgase dentro de los márgenes establecidos por el fabricante. Cuando sea posible, extenderemos las pruebas para incluir módulos de memoria más rápidos, ya sea al mismo tiempo que la revisión o una fecha posterior.

** La serie Ryzen 3000 ha sido probada en un entorno diferente.

Mitigaciones de seguridad

Los sistemas han aplicado los parches de mitigación Spectre y Meltdown donde corresponde, pero no los parches más nuevos para el nuevo conjunto de vulnerabilidades.

Producto

Datos de CPU-Z y AIDA

Actualización de la metodología de prueba del artículo (8 de julio):

Ejecutamos nuestros números de revisión originales con el último firmware disponible para la placa madre MSI MEG X570 ACE la semana pasada (versión 7C35v11). El sábado 6 de MSI compartió con nosotros un aviso sobre el lanzamiento de una nueva versión, que estuvo disponible para descargarnos el domingo 7, el día de lanzamiento y la fecha de publicación de la revisión.

Hemos tenido más tiempo para investigar el nuevo firmware y hemos descubierto cambios extremadamente grandes en el comportamiento del algoritmo de aumento de frecuencia. El nuevo firmware (Versión 7C35v12) para la placa base contiene el nuevo firmware ComboPI1.0.0.3.a (AGESA) de AMD.

Descubrimos los siguientes efectos medibles directos entre las dos versiones de firmware:

(Nota: esta es una prueba personalizada que utiliza una cadena de instrucciones fijas temporizadas de bucle de grano fino para derivar la frecuencia; muestra la frecuencia de un solo núcleo)

Notamos un cambio significativo en el comportamiento de impulso de la CPU, que ahora aumenta a frecuencias más altas, y en particular a una velocidad más rápida de inactividad, que se corresponde más correctamente con el comportamiento de impulso previsto y la latencia de AMD.

Actualmente estamos en el proceso de volver a ejecutar todos los números de nuestra suite y actualizar el artículo cuando sea necesario para reflejar el nuevo comportamiento de frecuencia.

Actualización de la metodología de prueba del artículo (9 de julio):
Hemos actualizado los números de referencia del artículo en el Ryzen 9 3900X. Hemos visto mejoras del 3-9% en las cargas de trabajo exclusivas de ST. Las cargas de trabajo de MT no han cambiado, el juego tuvo beneficios y aspectos negativos. Continuamos trabajando para actualizar los números de 3700X y completar las piezas faltantes.

Los resultados originales de BIOS son a partir de la primera publicación y están marcados con ** en los gráficos.

Actualización de la metodología de prueba del artículo (10 de julio):
También hemos actualizado nuestros resultados de Ryzen 7 3700X ahora.

Maikel: los números en las gráficas señalados con ** son los valores de las pruebas anteriores a aplicar el nuevo firmware. Aunqueen todos casos hay diferencias, solo he ido actualizando las gráficas donde se ve una diferencia mayor

SPEC2006 & 2017: Estándar de la industria – ST Performance

Un gran punto de conversación en torno a la nueva serie Ryzen 3000 es el nuevo rendimiento de subproceso único del nuevo núcleo Zen 2. Con el fin de investigar el tema de una manera más controlada con cargas de trabajo mejor documentadas, hemos recurrido al estándar de referencia SPEC estándar de la industria.

Investigaremos la serie de pruebas SPEC CPU2006 de la generación anterior, lo que nos dará un mejor contexto para las plataformas anteriores, así como la introducción de la nueva suite SPEC CPU2017. Debemos tener en cuenta que SPEC2006 ha quedado en desuso a favor de 2017, y también debemos mencionar que los puntajes publicados hoy se anotan como estimaciones, ya que no se han enviado oficialmente a la organización SPEC.

Para SPEC2006, seguimos usando la misma configuración que en nuestra suite móvil , es decir, todos los puntos de referencia de C / C ++, mientras que para SPEC2017 también preparé todas las pruebas de Fortran para una suite casi completa para sistemas de escritorio. Digo casi completo porque, debido a las limitaciones de tiempo, estamos ejecutando la suite a través de WSL en Windows. He comprobado que no hay diferencias notables en el rendimiento de Linux nativo (también estamos compilando de forma estática), sin embargo, un error en WSL es que tiene un tamaño de pila fijo, por lo que faltaremos 521.wrf_r de la colección SPECfp2017.

En términos de compiladores, opté por usar LLVM tanto para las pruebas C / C ++ como Fortran. Para Fortran, estamos usando el compilador Flang. La razón de usar LLVM sobre GCC es que las comparaciones entre plataformas sean mejores que las plataformas que solo tienen soporte de LLVM y artículos futuros donde investigaremos más este aspecto. No estamos considerando compiladores de código cerrado como MSVC o ICC.

clang versión 8.0.0-svn350067-1 ~ exp1 + 0 ~ 20181226174230.701 ~ 1.gbp6019f2 (troncal)
clang versión 7.0.1 (ssh: //git@github.com/flang-compiler/flang-driver.git
24bd54da5c41af04838bbe7b68f830840d47fc03)

-Afast -fomit-frame-pointer
-march = x86-64
-mtune = core-avx2
-mfma -mavx -mavx2

Las banderas de nuestro compilador son sencillas, con básicos, interruptores ISA rápidos y relevantes para permitir instrucciones AVX2.

El sistema Ryzen 3900X se ejecutó de la misma manera que el resto de nuestro artículo con DDR4-3200CL16, igual que con el i9-9900K, mientras que el Ryzen 2700X tenía DDR-2933 con tiempos CL16 16-16-16-38 similares.

En cuanto a los puntos de referencia int2006, las mejoras del nuevo Ryzen 3900X basado en Zen2 son bastante uniformes en comparación con el Ryzen 2700X basado en Zen +. Sin embargo, notamos que los aumentos de rendimiento son algo mayores en 403.gcc y 483.xalancbmk. No está claro de inmediato por qué los puntos de referencia no tienen una característica particular que se adapte a las mejoras de diseño de Zen2. Sin embargo, sospecho que está vinculado al L3 más grande. cache.

445.gobmk, en particular, es una carga de trabajo pesada para la sucursal, y el aumento del 32% en el rendimiento aquí se explicaría mejor por el nuevo predictor de ramificación TAGE adicional de Zen2, que puede reducir las fallas de la sucursal en general.

También es interesante que, aunque el Ryzen3900X obtuvo peores resultados de latencia de memoria que el 2700X, aún puede superar a este último en cargas de trabajo sensibles a la memoria, como 429.mcf, aunque el aumento de 471.omnetpp se encuentra entre los más pequeños de la suite.

Sin embargo, aún vemos que AMD tiene una desventaja general más grande para Intel en estas pruebas sensibles a la memoria, ya que el 9900K tiene grandes ventajas en 429.mcf, y al publicar una gran ventaja en el ancho de banda muy intensivo de la memoria 462.libquantum, las dos pruebas que pusieron La mayor presión sobre los cachés y el subsistema de memoria.

En los puntos de referencia de fp2006, ganamos algunos saltos más grandes por parte del Ryzen 3900X, particularmente en 482.sphinx3. Estas dos pruebas, junto con 450.soplex, se caracterizan por mayores fallas en la caché de datos, por lo que la caché de Zen2 de 16MB L3 definitivamente debe ser parte de la razón por la que vemos saltos más grandes.

Me pareció interesante que no veamos muchas mejoras en 470.lbm, aunque esta es una prueba que pesa mucho en el almacén de datos, por lo que habría esperado que la AGU de la tienda adicional de Zen2 beneficiara enormemente esta carga de trabajo. Debe haber algunas limitaciones de memoria de nivel superior, lo que está obstaculizando la prueba.

453.povray no es datos pesados ​​ni ramas pesadas, ya que es una de las cargas de trabajo más simples de la suite. Aquí depende principalmente del rendimiento del back-end de ejecución y la capacidad del front-end para alimentarlo lo suficientemente rápido como para ser los cuellos de botella. Entonces, mientras que el Ryzen 3900X proporciona un gran impulso con respecto al 2700X, aún está muy rezagado con respecto al 9900K, una característica que también vemos en la ejecución similar de cuello de botella 456.hmmer del conjunto de enteros.

En general, el 3900X es 20.8% más rápido en las pruebas de enteros y puntos flotantes de la suite SPEC2006, lo que corresponde a un aumento del 13% en el IPC, la métrica que AMD utiliza oficialmente para promover los aumentos microarquitectónicos Zen2.

Pasando a la suite de 2017, debemos aclarar que estamos usando las variaciones del índice de referencia de tarifas. Los puntos de referencia de velocidad y velocidad de la suite 2017 difieren entre sí en términos de cargas de trabajo. Las pruebas de velocidad se diseñaron para pruebas de un solo hilo y tienen una gran demanda de memoria de hasta 11 GB, mientras que las pruebas de velocidad fueron diseñadas para pruebas de procesos múltiples. Estamos utilizando las variaciones de tasa de los puntos de referencia porque no vemos ninguna diferencia grande entre las dos variaciones en términos de su caracterización y, por lo tanto, la escala de rendimiento entre ambas debería ser extremadamente similar. Además de eso, los índices de referencia de tasa toman hasta 5 veces menos tiempo (+1 hora frente a +6 horas), además de poder ejecutarlos en más plataformas de memoria limitada que planeamos hacer en el futuro.

En la suite int2017, estamos viendo diferencias y mejoras de rendimiento similares, aunque esta vez hay algunas cargas de trabajo que son un poco más limitadas en términos de sus mejoras de rendimiento en el nuevo Ryzen 3900X.

Desafortunadamente, no estoy tan familiarizado con las características exactas de estas pruebas como con la suite de 2006, por lo que debería realizarse un análisis más detallado en los próximos meses a medida que profundizamos en los contadores de microarquitectura.

En la suite fp2017, las cosas también son bastante uniformes. Lo suficientemente interesante aquí, en particular, AMD es capaz de saltar 9900K de Intel en muchas más cargas de trabajo, a veces ganando en términos de rendimiento absoluto y otras perdiendo.

En cuanto a los puntajes de rendimiento general, el nuevo Ryzen 3900X mejora un 18,1% con respecto al 2700X. A pesar de que se está cerrando la brecha en gran medida, es casi imposible superar el rendimiento absoluto de un solo subproceso del 9900K.

Al normalizar los puntajes para la frecuencia, vemos que AMD ha logrado algo que la compañía no ha podido reclamar en más de 15 años: ha superado a Intel en términos de IPC en general. En general, las mejoras de IPC sobre Zen + son del 10,5%, que es un poco más baja que la cifra del 13% para SPEC2006.

Ya conocemos la próxima microarquitectura Sunny Cove de Intel que, sin duda, debería poder recuperar la corona de IPC con relativa facilidad, pero la pregunta para Intel es si aún podrán mantener la corona de rendimiento absoluto de un solo hilo y seguir viendo. 5 GHz o velocidades de reloj similares con el nuevo diseño del núcleo.

Benchmarking Performance: Web Tests

Si bien es más importante el enfoque de los sistemas de factor de forma pequeño y bajo, los puntos de referencia basados ​​en la web son muy difíciles de estandarizar. Los navegadores web modernos se actualizan con frecuencia, sin recursos para deshabilitar esas actualizaciones, y como tal, existe una dificultad para mantener una plataforma común. La naturaleza acelerada del desarrollo del navegador significa que los números de versión (y el rendimiento) pueden cambiar de una semana a otra. A pesar de esto, las pruebas web son a menudo una buena medida de la experiencia del usuario: gran parte de lo que la mayoría del trabajo de oficina es hoy en día gira en torno a las aplicaciones web, en particular las aplicaciones de correo electrónico y oficina, pero también las interfaces y los entornos de desarrollo. Nuestras pruebas web incluyen algunas de las pruebas estándar de la industria, así como algunas pruebas populares pero más antiguas.

También hemos incluido nuestros puntos de referencia heredados en esta sección, que representan una pila de código más antiguo para los puntos de referencia populares.

Todos nuestros resultados de referencia también se pueden encontrar en nuestro motor de referencia, Bench .

WebXPRT 3: Tareas web modernas del mundo real, incluida la inteligencia artificial

La compañía detrás de las suites de pruebas de XPRT, Principled Technologies, ha lanzado recientemente la última prueba web, y en lugar de adjuntar un año al nombre, acaba de llamarlo ‘3’. Esta última prueba (cuando comenzamos con la suite) se ha desarrollado y desarrollado el espíritu de las pruebas anteriores: interacción del usuario, cómputo de la oficina, generación de gráficos, clasificación de listas, HTML5, manipulación de imágenes e incluso llega a algunas pruebas de inteligencia artificial.

Para nuestro punto de referencia, ejecutamos la prueba estándar que pasa por la lista de puntos de referencia siete veces y proporciona un resultado final. Realizamos esta prueba estándar cuatro veces, y tomamos un promedio.

Los usuarios pueden acceder a la prueba de WebXPRT en http://principledtechnologies.com/benchmarkxprt/webxprt/

WebXPRT 2015: HTML5 y Javascript Web UX Testing

La versión anterior de WebXPRT es la edición de 2015, que se centra en un conjunto ligeramente diferente de tecnologías web y marcos que se utilizan en la actualidad. Esta sigue siendo una prueba relevante, especialmente para los usuarios que interactúan con las aplicaciones web más recientes del mercado, de las cuales hay muchas. El desarrollo del marco web suele ser muy rápido, pero con una alta rotación, lo que significa que los marcos se desarrollan, se construyen, se utilizan y luego los desarrolladores pasan a la siguiente, y ajustar una aplicación a un nuevo marco es una tarea ardua y difícil, especialmente con Ciclos de rápido desarrollo. Esto deja muchas aplicaciones como ‘tiempo fijo’ y relevantes para la experiencia del usuario durante muchos años.

Similar a WebXPRT3, el punto de referencia principal es una carrera en sección repetida siete veces, con un puntaje final. Repetimos todo cuatro veces y promediamos esas puntuaciones finales.


Velocímetro 2: Frameworks JavaScript

Nuestra prueba web más reciente es Speedometer 2, que es una prueba acumulada sobre una serie de marcos de javascript para hacer tres cosas simples: construyó una lista, habilite cada elemento en la lista y elimine la lista. Todos los marcos implementan las mismas señales visuales, pero obviamente los aplican desde diferentes ángulos de codificación.

Nuestra prueba recorre la lista de marcos y produce una puntuación final indicativa de ‘rpm’, una de las métricas internas de los puntos de referencia. Informamos este puntaje final.

Google Octane 2.0: Core Web Compute

Una prueba web popular durante varios años, pero que ya no se actualiza, es Octane, desarrollado por Google. La versión 2.0 de la prueba realiza la mejor parte de dos docenas de tareas relacionadas con el cómputo, como expresiones regulares, criptografía, trazado de rayos, emulación y cálculos físicos de Navier-Stokes.

La prueba otorga una puntuación a cada subprueba y produce una media geométrica del conjunto como resultado final. Ejecutamos el índice de referencia completo cuatro veces y promediamos los resultados finales.

Mozilla Kraken 1.1: Core Web Compute

Incluso más viejo que Octane es Kraken, esta vez desarrollado por Mozilla. Esta es una prueba más antigua que realiza una mecánica computacional similar, como el procesamiento de audio o el filtrado de imágenes. Kraken parece producir un resultado altamente variable dependiendo de la versión del navegador, ya que es una prueba que está muy optimizada para.

El punto de referencia principal se ejecuta en cada una de las sub-pruebas diez veces y produce un tiempo promedio de finalización para cada ciclo, dado en milisegundos. Ejecutamos el índice de referencia completo cuatro veces y tomamos un promedio del tiempo empleado.

Análisis de pruebas web

En general, en las pruebas web, los nuevos Ryzen 3900X y 3700X funcionan muy bien con ambos chips que muestran mejoras bastante grandes con respecto al 2700X.

Estamos viendo un enfrentamiento bastante interesante contra el 9700K de Intel que lidera todos los puntos de referencia. La razón de esto es que SKU tiene SMT desactivado. La ventaja del rendimiento de subprocesos únicos de esto es que el núcleo de la CPU ya no tiene que compartir la estructura del caché µOP entre diferentes subprocesos, y tiene toda la capacidad dedicada a un subproceso. Las cargas de trabajo web, en particular, se encuentran entre las cargas de trabajo con mayor presión de instrucción, y se benefician enormemente de la desactivación de SMT en los núcleos modernos.

Si bien aún no teníamos tiempo para probar los nuevos 3900X y 3700X con SMT apagado, el núcleo y el caché de operaciones de AMD funcionan de la misma manera, ya que comparte la capacidad entre dos subprocesos, dividiéndolos estáticamente. Estoy bastante seguro de que veremos aumentos más grandes en los puntos de referencia web al desactivar SMT también, y nos aseguraremos de revisar este punto en particular en el futuro.

Rendimiento de la CPU: Pruebas del sistema

Nuestra sección de Pruebas del sistema se enfoca significativamente en las pruebas del mundo real, la experiencia del usuario, con un leve guiño al rendimiento. En esta sección cubrimos el tiempo de carga de aplicaciones, el procesamiento de imágenes, la física científica simple, la emulación, la simulación neural, el cálculo optimizado y el desarrollo de modelos 3D, con una combinación de software disponible y personalizado. Para algunas de estas pruebas, las suites más grandes como PCMark las cubren (publicamos esos valores en la sección de nuestra oficina), aunque las perspectivas múltiples siempre son beneficiosas. En todas nuestras pruebas explicaremos en profundidad qué se está probando y cómo lo estamos haciendo.

CPU-Z

Carga de la aplicación: GIMP 2.10.4

Uno de los aspectos más importantes sobre la experiencia del usuario y el flujo de trabajo es la rapidez con que responde un sistema. Una buena prueba de esto es ver cuánto tarda en cargarse una aplicación. La mayoría de las aplicaciones en estos días, cuando se encuentran en un SSD, se cargan de manera bastante instantánea, sin embargo, algunas herramientas de oficina requieren una precarga de activos antes de estar disponibles. La mayoría de los sistemas operativos también emplean el almacenamiento en caché, por lo que cuando cierto software se carga repetidamente (navegador web, herramientas de oficina), se puede inicializar mucho más rápido.

En nuestra última suite, probamos cuánto tiempo llevó cargar un PDF grande en Adobe Acrobat. Desafortunadamente, esta prueba fue una pesadilla para programar y no se transfirió a Win10 RS3 fácilmente. Mientras tanto, descubrimos una aplicación que puede automatizar esta prueba y la comparamos con GIMP, una popular herramienta gratuita de edición de fotos en línea de código abierto, y la principal alternativa a Adobe Photoshop. Lo configuramos para cargar una plantilla de diseño grande de 50 MB y realizar la carga 10 veces con 10 segundos entre cada una. Debido al almacenamiento en caché, los primeros 3-5 resultados suelen ser más lentos que el resto, y el tiempo de almacenamiento en caché puede ser inconsistente, tomamos el promedio de los últimos cinco resultados para mostrar el procesamiento de la CPU en la carga en caché.

La carga de aplicaciones suele estar limitada por un solo subproceso, pero vemos aquí que en algún momento también se limita al recurso central. Tener acceso a más recursos por subproceso en un entorno sin HT ayuda a los procesadores 8C / 8T y 6C / 6T a adelantarse a las dos partes de 5.0 GHz en nuestras pruebas.

Movimiento de partículas 3D v2.1: movimiento browniano

Nuestra prueba 3DPM es un punto de referencia creado especialmente para simular seis algoritmos diferentes de movimiento de partículas de puntos en un espacio 3D. Los algoritmos se desarrollaron como parte de mi doctorado, y aunque, en última instancia, se desempeñan mejor en una GPU, ofrecen una buena idea de cómo las diferentes microarquitecturas interpretan los flujos de instrucciones.

Una parte clave de los algoritmos es la generación de números aleatorios: usamos una generación relativamente rápida que termina implementando cadenas de dependencia en el código. La actualización sobre la primera versión ingenua de este código resuelta para el intercambio falso en los cachés, un gran cuello de botella. También estamos analizando las versiones AVX2 y AVX512 de este punto de referencia para futuras revisiones.

Para esta prueba, ejecutamos un conjunto de partículas en los seis algoritmos durante 20 segundos cada uno, con 10 segundos de pausa, e informamos la tasa total de movimiento de partículas, en millones de operaciones (movimientos) por segundo. Tenemos una versión no AVX y una versión AVX, con esta última implementando AVX512 y AVX2 siempre que sea posible.

Con una base de código no AVX, el 9900K muestra el IPC y las mejoras de frecuencia con respecto al R7 2700X, aunque en realidad no es un salto porcentual tan grande como podría imaginar. Los procesadores sin HT son rechazados un poco aquí.

Dolphin 5.0: Emulación de consola

Una de las pruebas solicitadas más populares en nuestra suite tiene que ver con la emulación de la consola. Ser capaz de elegir un juego de un sistema antiguo y ejecutarlo como se espera, depende de la sobrecarga del emulador: se necesita un sistema x86 significativamente más potente para poder emular con precisión una consola antigua que no sea x86, especialmente si el código para eso La consola fue hecha para abusar de ciertos errores físicos en el hardware.

Para nuestra prueba, usamos el popular software de emulación Dolphin y ejecutamos un proyecto de cómputo a través de él para determinar qué tan cerca de un sistema de consola estándar pueden emular nuestros procesadores. En esta prueba, una Nintendo Wii tomaría alrededor de 1050 segundos.

La última versión de Dolphin se puede descargar desde https://dolphin-emu.org/

DigiCortex 1.20: Sea Slug Brain Simulation

Este punto de referencia fue diseñado originalmente para la simulación y visualización de la actividad de las neuronas y las sinapsis, como se encuentra comúnmente en el cerebro. El software viene con una variedad de modos de referencia, y tomamos la pequeña referencia que ejecuta una simulación de sinapsis de neurona de 32k / 1.8B, equivalente a una Sea Slug.

Informamos los resultados como la capacidad de simular los datos como una fracción del tiempo real, por lo que cualquier cosa por encima de ‘uno’ es adecuada para el trabajo en tiempo real. De los dos modos, un modo de ‘no disparo’ que es DRAM pesado y un modo de ‘disparo’ que tiene trabajo de CPU, elegimos este último. A pesar de esto, el índice de referencia todavía se ve afectado por la velocidad de DRAM en una cantidad justa.

DigiCortex se puede descargar de http://www.digicortex.net/

y-Cruncher v0.7.6: Cómputo optimizado de microarquitectura

He sabido de y-Cruncher por un tiempo, como una herramienta para ayudar a calcular varias constantes matemáticas, pero no fue hasta que comencé a hablar con su desarrollador, Alex Yee, un investigador de NWU y ahora desarrollador de optimización de software, que no Se dio cuenta de que ha optimizado el software como loco para obtener el mejor rendimiento. ¡Naturalmente, cualquier simulación que puede durar más de 20 días puede beneficiarse de un aumento del rendimiento del 1%! Alex comenzó a y-cruncher como un proyecto de la escuela secundaria, pero ahora se encuentra en un estado en el que Alex se mantiene actualizado para aprovechar los últimos conjuntos de instrucciones antes de que estén disponibles en hardware.

Para nuestra prueba, ejecutamos y-cruncher v0.7.6 a través de todas las diferentes variantes optimizadas del binario, de un solo hilo y de varios hilos, incluidos los binarios optimizados AVX-512. La prueba consiste en calcular 250 m dígitos de Pi, y utilizamos las versiones de esta prueba de subprocesos múltiples y de subprocesos múltiples.

Los usuarios pueden descargar y-cruncher desde el sitio web de Alex: http://www.numberworld.org/y-cruncher/

Y aqui vemos perfectamente en acción la nueva implementación de AVX2 en Zen 2. Realizando un operacion de 256 bits por ciclo en lugar de dos de 128 en 2 ciclos, ha duplicado el rendimiento en cómputo vectorizado intesivo con respecto a Zen/Zen+ y básicamente igualado a Intel en este aspecto.

wPrime

Agisoft Photoscan 1.3.3: conversión de imagen 2D a modelo 3D

Uno de los ISV con los que hemos trabajado durante varios años es Agisoft, que desarrolla un software llamado PhotoScan que transforma una serie de imágenes 2D en un modelo 3D. Esta es una herramienta importante en el desarrollo y el archivo de modelos, y se basa en una serie de algoritmos de subprocesos múltiples y de subprocesos múltiples para pasar de un lado a otro del cálculo.

En nuestra prueba, tomamos v1.3.3 del software con un conjunto de datos de buen tamaño de 84 x 18 megapíxeles y lo empujamos a través de una variante de algoritmos razonablemente rápida, pero aún es más estricto que nuestra prueba de 2017. Informamos el tiempo total para completar el proceso.

El sitio web de Photoscan de Agisoft se puede encontrar aquí: http://www.agisoft.com/

Rendimiento de CPU: Pruebas de renderizado

La renderización es a menudo un objetivo clave para las cargas de trabajo del procesador, prestándose a un entorno profesional. También viene en diferentes formatos, desde la representación en 3D hasta la rasterización, como juegos o el trazado de rayos, e invoca la capacidad del software para administrar mallas, texturas, colisiones, aliasing, física (en animaciones) y descartar el trabajo innecesario. . La mayoría de los procesadores ofrecen rutas de código de CPU, mientras que algunos usan GPU y algunos entornos seleccionados usan FPGA o ASIC dedicados. Sin embargo, para los estudios grandes, las CPU siguen siendo el hardware elegido.

Corona 1.3: Performance Render

Un rendimiento avanzado basado en el renderizador para software como 3ds Max y Cinema 4D, el banco de pruebas Corona representa una escena generada como estándar bajo su versión de software 1.3. Normalmente, la implementación de la GUI del índice de referencia muestra la escena que se está construyendo, y permite al usuario cargar el resultado como un “tiempo para completar”.

Nos pusimos en contacto con el desarrollador que nos dio una versión de línea de comandos del índice de referencia que hace una salida directa de los resultados. En lugar de informar el tiempo, informamos el número promedio de rayos por segundo en seis ejecuciones, ya que la escala de rendimiento de un resultado por unidad de tiempo suele ser más fácil de entender visualmente.

El sitio web de Corona Benmark se puede encontrar en https://corona-renderer.com/benchmark

LuxMark v3.1: LuxRender a través de diferentes rutas de código

Como se indica en la parte superior, hay muchas formas diferentes de procesar los datos de procesamiento: CPU, GPU, Accelerator y otros. Además de eso, hay muchos frameworks y APIs para programar, dependiendo de cómo se usará el software. LuxMark, un punto de referencia desarrollado utilizando el motor LuxRender, ofrece varias escenas y API diferentes.

En nuestra prueba, ejecutamos la simple escena ‘Ball’ en las rutas de código de C ++ y OpenCL, pero en modo CPU. Esta escena comienza con una representación aproximada y mejora lentamente la calidad en dos minutos, dando un resultado final en lo que es esencialmente un promedio de “kilorays por segundo”.

POV-Ray 3.7.1: Trazado de rayos

El motor de trazado de rayos Persistence of Vision es otra herramienta de evaluación comparativa muy conocida, que se encontraba en un estado de hibernación relativa hasta que AMD lanzó sus procesadores Zen, a los que, de repente, tanto Intel como AMD estaban enviando código a la rama principal del proyecto de código abierto. Para nuestra prueba, usamos el punto de referencia incorporado para todos los núcleos, llamado desde la línea de comandos.

Blender

Cinebench 15

Cinebench 20

FryBench

vRay

IndigoBench

Rendimiento de la CPU: pruebas de codificación

Con el aumento de la transmisión, los vlogs y el contenido de video en general, las pruebas de codificación y transcodificación son cada vez más importantes. No solo hay más usuarios domésticos y jugadores que necesitan convertir los archivos de video en algo más manejable, con fines de transmisión o archivado, sino que los servidores que administran la salida también administran datos y archivos de registro con compresión y descompresión. Nuestras tareas de codificación se centran en estos escenarios importantes, con aportaciones de la comunidad para la mejor implementación de las pruebas del mundo real.

HandBrake

Handbrake, una popular herramienta de código abierto, es el software de conversión de video de cualquier cosa que cualquier persona usa como punto de referencia. El peligro siempre está en los números de versión y la optimización, por ejemplo, las últimas versiones del software pueden aprovechar AVX-512 y OpenCL para acelerar ciertos tipos de transcodificación y algoritmos. La versión que usamos aquí es un juego de CPU puro, con variaciones de transcodificación comunes.

Hemos dividido el Handbrake en varias pruebas, utilizando la grabación de una cámara web nativa Logitech C920 1080p60 (esencialmente una grabación de transmisión por secuencias), y las convertimos en dos tipos de formatos de transmisión y uno para archivar. Los ajustes de salida utilizados son:

720p60 a una velocidad de bits constante de 6000 kbps, configuración rápida, alto perfil
1080p60 a una velocidad de bits constante de 3500 kbps, configuración más rápida, perfil principal
1080p60 HEVC a 3500 kbps velocidad de bits variable, configuración rápida, perfil principal

Magix Vegas Pro

7-zip v1805: popular motor de codificación de código abierto

Fuera de nuestras pruebas de herramientas de compresión / descompresión, 7-zip es el más solicitado y viene con un punto de referencia incorporado. Para nuestro conjunto de pruebas, hemos sacado la última versión del software y ejecutamos el punto de referencia desde la línea de comandos, informando la compresión, descompresión y una puntuación combinada.

En este punto de referencia, se observa que los últimos procesadores de matrices múltiples tienen un rendimiento bimodal entre la compresión y la descompresión, con un buen desempeño en uno y un mal desempeño en el otro. También hay discusiones sobre cómo el Programador de Windows está implementando cada hilo. A medida que obtengamos más resultados, será interesante ver cómo se desarrolla esto.

Tenga en cuenta que si planea compartir el gráfico de compresión, incluya el de descompresión. De lo contrario solo presentarás media imagen.

WinRAR 5.60b3: Herramienta de archivo

Mi herramienta de compresión de elección es a menudo WinRAR, después de haber sido una de las primeras herramientas que usé en mi generación hace más de dos décadas. La interfaz no ha cambiado mucho, aunque la integración con los comandos de clic derecho de Windows siempre es una ventaja. No tiene una prueba incorporada, por lo que ejecutamos una compresión en un directorio establecido que contiene más de treinta archivos de video de 60 segundos y 2000 archivos pequeños basados ​​en la web a una tasa de compresión normal.

WinRAR es variable, pero también es susceptible de almacenamiento en caché, por lo que en nuestra prueba lo ejecutamos 10 veces y tomamos el promedio de los últimos cinco, dejando la prueba únicamente para el rendimiento de cálculo de CPU sin procesar.

Cifrado AES: Seguridad de archivos

Una serie de plataformas, en particular los dispositivos móviles, ahora ofrecen cifrado de forma predeterminada con sistemas de archivos para proteger los contenidos. Los dispositivos basados ​​en Windows también tienen estas opciones, a menudo aplicadas por BitLocker o software de terceros. En nuestra prueba de encriptación AES, usamos el TrueCrypt descontinuado para su punto de referencia integrado, que prueba varios algoritmos de encriptación directamente en la memoria.

Los datos que tomamos para esta prueba son el rendimiento combinado de cifrado / descifrado AES, medido en gigabytes por segundo. El software utiliza comandos AES para procesadores que ofrecen selección de hardware, pero no AVX-512.

Rendimiento de la CPU: Pruebas de oficina

El conjunto de pruebas de Office está diseñado para centrarse en más pruebas estándar de la industria que se centran en flujos de trabajo de oficina, reuniones del sistema, algunos sintéticos, pero también combinamos el rendimiento del compilador en esta sección. Para los usuarios que tienen que evaluar el hardware en general, estos son generalmente los puntos de referencia que la mayoría considera.

Física 3DMark: Física del juego dentro del juego

Junto a PCMark se encuentra 3DMark, la suite de prueba de juegos de Futuremark (UL). Cada prueba de juego consta de una o dos escenas pesadas de GPU, junto con una prueba de física que es indicativa de cuándo se escribió la prueba y la plataforma a la que se dirige. Las principales pruebas principales, en orden de complejidad, son la tormenta de hielo, la puerta de la nube, el Sky Diver, el Fire Strike y el Time Spy.

Algunas de las subpruebas ofrecen variantes, como Ice Storm Unlimited, que está dirigida a plataformas móviles con renderizado fuera de pantalla, o Fire Strike Ultra, que está dirigida a sistemas 4K de gama alta con muchas de las funciones adicionales activadas. Time Spy también tiene actualmente un modo AVX-512 (que podremos usar en el futuro).

Para nuestras pruebas, informamos en Bench los resultados de todas las pruebas de física, pero por el bien de la revisión, mantenemos la escena más exigente de cada escena: Ice Storm Unlimited, Cloud Gate, Sky Diver, Fire Strike Ultra y Time Spy .

A la prueba anterior de Tormenta de hielo no le gustó mucho el Core i9-9900K, empujándolo detrás del R7 1800X. Para las pruebas más modernas enfocadas en PC, la 9900K gana. La falta de HT está dañando las otras dos partes.

GeekBench4: Sintéticos

GeekBench 4, una herramienta común para las pruebas multiplataforma entre dispositivos móviles, PC y Mac, es un ejercicio de última generación en pruebas sintéticas en una gama de algoritmos que buscan el rendimiento máximo. Las pruebas incluyen cifrado, compresión, transformación rápida de Fourier, operaciones de memoria, física de n-cuerpos, operaciones de matriz, manipulación de histogramas y análisis de HTML.

Incluyo esta prueba debido a la demanda popular, aunque los resultados son demasiado sintéticos, y muchos usuarios a menudo ponen mucho peso detrás de la prueba debido a que se compila a través de diferentes plataformas (aunque con diferentes compiladores).

Registramos las puntuaciones de las subpruebas principales (Crypto, Integer, Floating Point, Memory) en nuestra base de datos de referencia, pero para la revisión publicamos los resultados generales de subprocesos múltiples y múltiples.

Benchmarking Performance: CPU Legacy Tests

3DPM v1: Variante de código ingenuo de 3DPM v2.1

La primera prueba heredada en la suite es la primera versión de nuestro punto de referencia 3DPM. Esta es la última versión ingenua del código, como si hubiera sido escrito por un científico sin conocimiento de cómo funciona el hardware de la computadora, los compiladores o la optimización (que de hecho, fue al principio). Esto representa un gran cuerpo de simulación científica en la naturaleza, donde obtener la respuesta es más importante que ser rápido (obtener un resultado en 4 días es aceptable si es correcto, en lugar de enviar a alguien por un año para aprender a codificar y obteniendo el resultado en 5 minutos).

En esta versión, la única optimización real estaba en los indicadores del compilador (-O2, -fp: rápido), compilándola en modo de lanzamiento y habilitando OpenMP en los bucles de cálculo principales. Los bucles no se configuraron para el tamaño de la función, y una de las ralentizaciones clave es el uso compartido falso en el caché. También tiene largas cadenas de dependencia basadas en la generación de números aleatorios, lo que conduce a un rendimiento relativamente bajo en microarquitecturas de cómputo específicas.

x264 HD 3.0: Prueba de Transcode más antigua

Esta prueba de transcodificación es muy antigua y fue utilizada por Anand en la época de los procesadores Pentium 4 y Athlon II. Aquí, un video estandarizado de 720p se transcodifica con una conversión de dos pases, con el punto de referencia que muestra los cuadros por segundo de cada pase. Este punto de referencia es de un solo hilo, y entre algunas microarquitecturas parece que realmente llegamos a un muro de instrucciones por reloj.

CineBench 11.5 y 10

Cinebench es una herramienta de evaluación comparativa ampliamente conocida para medir el rendimiento en relación con el software de animación Cinema 4D de MAXON. Cinebench se ha optimizado a lo largo de una década y se centra únicamente en la potencia de la CPU, lo que significa que si existe una discrepancia en las características de rendimiento puro, es probable que Cinebench muestre esa discrepancia. Podría decirse que otro software no hace uso de todas las herramientas disponibles, por lo que la relevancia del mundo real podría ser puramente académica, pero dada nuestra gran base de datos de Cinebench, parece difícil ignorar una pequeña prueba de cinco minutos. Ejecutamos la versión moderna 15 en esta prueba, así como la versión anterior 11.5 debido a nuestros datos anteriores.

Juegos

Juegos: World of Tanks enCore

Juegos: Shadow of War

Juegos: Ashes Classic (DX12)

Juegos: Strange Brigade (DX12, Vulkan)

Juegos: Grand Theft Auto V

Juegos: F1 2018

Juegos a 720(Guru3d)
Si bien pocos o nadie que que adquiera un procesadore de esto jugará a esta resolución, probar así es una forma de forzar al procesador, pues la gráfica (y más una tan potente) no tendra dificultad alguna en hacer su trabajo.

Juegos a 1080(Guru3d)

Juegos a 1440 (Guru3d)

Resumen juegos (TechPowerUp)

Consumo de energía y overclocking

El consumo de energía de los nuevos Ryzen 3900 y 3700X es de particular interés porque es un aspecto muy clave de los chipsets de nueva generación, y AMD promete algunas mejoras extremadamente grandes gracias al nuevo nodo de proceso de 7 nm, así como al diseño optimizado de chiplet.

Al comparar el chiplet Ryzen 3700X con el Ryzen 2700X de la generación anterior, estamos viendo algunas diferencias dramáticas en el consumo de energía del núcleo. En particular, el consumo de energía en la frecuencia pico respectiva de cada chip es notablemente diferente: aunque el nuevo 3700X tiene una velocidad de reloj más alta de 100MHz y por lo tanto está más arriba en la curva de potencia exponencial, logra mostrar un 32% de potencia absoluta más baja que el 2700X.

Debemos recordar que estamos hablando de poder absoluto general, y no de eficiencia del chip. Al tener en cuenta el rendimiento real a través del reloj superior, así como el mayor rendimiento por reloj de Zen2, las cifras de rendimiento / W para el nuevo 3700X deben ser significativamente más altas que su antecesor.

Lo que es curioso acerca del nuevo chip es la precisión con la que sigue sus limitaciones de potencia. El nuevo algoritmo de impulso en la serie Ryzen 3 es particularmente “oportunista” y tendrá las frecuencias más altas que pueda dentro de sus restricciones, sin importar la cantidad de núcleos de CPU.

Las restricciones son las siguientes:

Package Power Tracking (PPT) : el umbral de potencia que se permite entregar al zócalo.
Esto es 88W para los procesadores TDP de 65W y 142W para los procesadores TDP de 105W .
Corriente de diseño térmico (TDC) : la cantidad máxima de corriente suministrada por los reguladores de voltaje de la placa base cuando se encuentran bajo escenarios de restricción térmica (altas temperaturas)
Esto es 60A para procesadores TDP de 65W y 95A para procesadores TDP de 105W .
Corriente de diseño eléctrico (EDC) : Esta es la cantidad máxima de corriente en cualquier corto período de tiempo instantáneo que pueden ser entregados por los reguladores de voltaje de la placa base.
Esto es 90A para procesadores TDP de 65W y 140A para procesadores TDP de 105W .

Al observar el consumo total de energía del nuevo 3700X, el chip aparentemente está alcanzando y manteniendo las limitaciones PPT de 88W de la configuración predeterminada, y estamos midiendo el consumo máximo de 90W en todo el paquete.

Al observar más de cerca el nuevo Ryzen 9 3900X, primero tenemos que disfrutar de la gran cantidad de núcleos de este procesador.

Luego de eso, vemos que el consumo máximo de energía por núcleo de esta CPU es notablemente más alto que el del 3700X, lo que no es una sorpresa, ya que el chip tiene una velocidad de 200MHz más alta a 4.6GHz en comparación con “solo” 4.4GHz. Sin embargo, incluso con este reloj mucho más alto, el consumo de energía del 3900X sigue siendo notablemente más bajo que el del 2700X.

Al escalar los hilos y los núcleos, observamos un comportamiento de escalado similar, con la gran diferencia de que el 3900X mantiene un mayor consumo de energía por núcleo (y frecuencia) que el 3700X. Al cargar completamente el chip, estamos viendo una potencia de 118W en los núcleos de la CPU, mientras que la potencia del paquete está cayendo en los 142 W exactos que AMD describe como el límite PPT de los procesadores TDP de 105 W, como el 3900X.

Otra cosa a tener en cuenta en los resultados entre los resultados de 3700X y 3900X, es que la potencia no central en este último es bastante mayor. Esto realmente no debería ser una sorpresa ya que el procesador tiene un segundo chiplet que tendrá L3 e Infinity Fabric que usarán más potencia.

Al graficar los tres procesadores juntos, vemos dos aspectos principales: Nuevamente, el 3900X y el 3700X consumen notablemente menos energía que el 2700X, y el límite duro del 3700X cuando alcanza el límite PPT de 88W, mientras que el 3900X puede escalar más hasta alcanzar el límite máximo de 142W.

Al comparar las características de potencia de carga completa de ambos SKU, terminan siendo extremadamente competitivos en sus respectivas categorías. El límite duro de 90W del 3700X lo coloca en la parte inferior de las CPU que hemos usado en nuestras pruebas de hoy, lo que es bastante sorprendente ya que el chip está operando con 9700K y 9900K en todas nuestras cargas de trabajo de prueba, y el último chip El consumo de energía está muy por encima del 60% por encima de los 3700X.

El 3900X también es impresionante, dado que es una CPU de 12 núcleos. Al publicar mejoras sustanciales en el rendimiento de las contrapartes Threadripper de 12 núcleos, el 3900X aún logra ser mucho menos limitado térmicamente gracias a su consumo de energía mucho menor, alcanzando un máximo de 142W.

El aspecto más interesante del nuevo mecanismo de aumento de potencia oportunista de AMD se encuentra en una CPU que no pudimos probar hoy: el Ryzen 7 3800X. En el comportamiento del stock, el TDP de 105 W del chip debería permitir que se comporte mucho más como el 3900X cuando se trata de las frecuencias de conteo de subprocesos más altas, al menos hasta que alcance sus 8 núcleos en su chiplet único, lo que realmente podría ponerlo por delante. del 3700X en términos de cargas de trabajo de rendimiento de subprocesos múltiples.

Overclocking: PBO y All-Core

En POV-Ray, la ejecución del 3900X a una velocidad plana de 4.3GHz le otorga un aumento del rendimiento del 8.2% sobre el stock. Habilitar PBO no hace mucha diferencia en las cargas de trabajo de subprocesos múltiples para el 3900X ya que todavía está limitado por el límite PPT de 142W.

Desafortunadamente, no pudimos seguir investigando el aumento del límite de PPT para este artículo debido a restricciones de tiempo, así como a la versión de firmware actualmente no final para las placas base X570 de los proveedores.

Activar PBO aumentará el rendimiento de un solo hilo del 3900X en un pequeño porcentaje, con un puntaje ligeramente superior al de la configuración de stock. Naturalmente, el overclock plano de 4.3 GHz retrocederá en rendimiento ya que pierde una frecuencia pico de 300MHz en comparación con el stock.

Finalmente, una carrera Cinebench R15 MT muestra un comportamiento de subprocesos múltiples similar, con el overclock plano de 4.3GHz logrando una puntuación 9.2% mejor, mientras que el overclock PBO no puede aumentar aún más las frecuencias más allá de los límites de potencia predeterminados del chip.

Conclusión: Shy Of The Best, el ganador absoluto en general

En general, hemos estado esperando con impaciencia el lanzamiento de hoy durante meses, y durante todo este tiempo, AMD ciertamente nos ha dado altas expectativas para sus CPU de Ryzen de tercera generación. Al final del día, creo que AMD pudo cumplir todas sus promesas y cumplir todos los objetivos de rendimiento que necesitaban. Además, donde AMD lo mata es en términos de valor, ya que tanto el 3700X como el 3900X realmente ofrecen una excelente alternativa a la competencia.

El nuevo diseño Zen 2 µarch & Chiplet

La base para los nuevos procesadores Ryzen de 3ra generación es la nueva apuesta de alta recompensa de alto riesgo de AMD al alejarse de un solo dado monolítico a un diseño MCM (módulo de chip múltiple) basado en chiplet. Lo que esto ha permitido a AMD es maximizar las características de rendimiento de su diseño de 7 nm para los nuevos conjuntos de chips Ryzen 3000. Mientras tanto, tener los componentes de E/S y los controladores de memoria en un nodo de proceso de 12 nm no solo permite a AMD minimizar el costo de la plataforma, sino que también les permite optimizar el silicio para sus casos de uso específicos.

Los chips de CPU reales (¿CPUs?) Se fabrican en el nodo de proceso de 7 nm de borde de TSMC y AMD aparentemente ha podido aprovechar al máximo el proceso, no solo reduciendo el consumo de energía de los núcleos, sino también aumentando la frecuencia del reloj al mismo tiempo, aportando algunos impresionantes beneficios de eficiencia energética.

El nuevo diseño aparentemente hizo algunos compromisos, y vimos que la latencia de la memoria DRAM de esta nueva arquitectura del sistema es más lenta que la implementación monolítica anterior. Sin embargo, aquí también es donde las cosas se ponen interesantes. Aunque esta es una regresión teórica sobre el papel, cuando se trata del rendimiento real en cargas de trabajo, la regresión es esencialmente inexistente, y AMD puede mostrar mejoras incluso en las cargas de trabajo más sensibles a la memoria. Esto se debe a la microarquitectura mejorada del núcleo de la CPU Zen 2, con las nuevas captadoras previas mejoradas y los sobresalientes diseños de paralelismo de nivel de memoria (MLP). Para ayudar aún más a la memoria/ caché de AMD, la duplicación de la caché L3 de CCX de 8 MB a 16 MB, que en promedio termina con un mejor rendimiento de la memoria de la carga de trabajo.

Tampoco es que Zen 2 esté seguro del rendimiento de la memoria. Las mejoras en el front-end del núcleo de la CPU, como el nuevo predictor TAGE, y en particular la capacidad mucho mayor de la caché de operaciones, son muy visibles en algunas cargas de trabajo. También hemos visto que las nuevas rutas de datos vectoriales de 256 bits (AVX2) funcionan muy bien.

En la mayoría de las pruebas controladas, AMD ha hecho algo que no han podido lograr en casi 15 años, desde el final del reinado del Athlon 64 en 2005: es tener una microarquitectura de CPU con mayor rendimiento por reloj que la arquitectura líder de Intel. Zen 2 finalmente logra esta marca simbólica por el margen de un cabello, con el nuevo núcleo mejorando el IPC en un 10-13% en comparación con Zen+.

Dicho esto, Intel aún mantiene en gran medida la corona de rendimiento de un solo hilo en un pequeño porcentaje. Las frecuencias más altas alcanzadas por Intel, así como el liderazgo continuo y mayor en cargas de trabajo sensibles a la memoria, siguen siendo objetivos en los que AMD tiene que trabajar, y las futuras iteraciones Zen tendrán que seguir mejorando para tener una oportunidad en la corona de rendimiento ST.

Más allá de esto, es sorprendente que AMD haya podido lograr todo esto mientras consumía significativamente menos energía que el mejor chip de escritorio de Intel, todo gracias al nuevo nodo de proceso.

Rendimiento y productividad de la CPU de la oficina

Es en estas categorías donde se encuentran las fortalezas de AMD: En la mayoría de los puntos de referencia de nuestro sistema, AMD es más que capaz de superar los Core i7-9700K y i9-9900K de Intel en términos de rendimiento. Fue particularmente interesante ver que el nuevo Ryzens de tercera generación publica mejoras más grandes en las pruebas web, todo gracias a la memoria caché de operaciones mejorada y más grande de Zen 2.

En todo lo que es más que un poco de subprocesos múltiples, AMD también puede obtener la corona de rendimiento entre los procesadores de escritorio convencionales, gracias a su inclusión de 12 núcleos en su SKU superior, el Ryzen 3900X. Para el rendimiento total de MT, Intel aún puede superar esto con sus enormes chips HEDT de la serie X, pero estas partes generadas por el servidor se encuentran en una clase completamente diferente en cuanto a características y precio, y AMD tiene sus propias partes Threadripper para competir con eso. Todo esto significa que para los escenarios con muchas hebras, el 3900X gobierna la percha entre los verdaderos procesadores de escritorio.

Mientras tanto, incluso cuando AMD no tiene una ventaja de conteo de núcleos, como es el caso del Ryzen 3700X, el chip sigue siendo extremadamente competitivo. En general, el 3700X se encuentra entre los más costosos 9700K y 9900K cuando se trata de cargas de trabajo de múltiples subprocesos, y en ocasiones incluso supera al 9900K, un resultado respetable.

Rendimiento de juego

Cuando se trata de rendimiento de juego, el 9700K y el 9900K siguen siendo las CPU con mejor rendimiento del mercado. Incluso sin una ventaja de IPC, las altas velocidades de reloj de Intel y los elementos de apoyo, como el bus de anillo central, aún les brindan el mejor rendimiento en el tipo de escenarios de subprocesos ligeros y con hilos estrechamente seguidos por los juegos.

Dicho esto, las nuevas 3700X y 3900X están publicando enormes mejoras con respecto a las 2700X. Y podemos confirmar las afirmaciones de AMD de un rendimiento de hasta un 30-35% mejor en algunos juegos con respecto al 2700X. Así que AMD no se ha detenido.

En última instancia, aunque AMD aún está rezagado con respecto a Intel en cuanto al rendimiento de los juegos, la brecha se ha reducido enormemente, hasta el punto de que las CPUs de Ryzen ya no son algo que se debe descartar si desea tener una máquina de juegos de gama alta. La ventaja de rendimiento de Intel es bastante limitada aquí, y para los expertos en energía, AMD está brindando una mejor eficiencia en este punto, por lo que si bien no siempre ganan como la mejor opción, los Ryzens de tercera generación siguen siendo una opción viable que vale la pena considerando.

Todo empatado: una victoria para AMD

Lo que realmente hace que los ganadores de Ryzen 3700X y 3900X a mis ojos sean sus paquetes y rendimiento en general. Son excelentes en todos los aspectos, y AMD ha logrado mejorar enormemente algunos de los aspectos que más se quedaron atrás. Aunque AMD aún debe impulsar el rendimiento total de un solo subproceso en el futuro y continuar trabajando para mejorar el rendimiento de la memoria, están a la altura de Intel.

En las proximas semanas también veremos actualizaciones de BIOS, controladores y firmwares que seguro corregirán algunas deficiencias y harán moverse a algunos números hacia arriba.

Quizás los mejores argumentos para los modelos 3700X y 3900X sean su valor y su eficiencia energética. A $329, el 3700X parece particularmente emocionante, y los jugadores querrán tomar nota de que publica el mismo rendimiento de juego que el $499 3900X. Teniendo en cuenta que AMD también está enviando la CPU con el refrigerador Wrath Spire perfectamente razonable, esto también se suma al valor que usted obtiene si está preocupado por su presupuesto.

El 3900X esencialmente no tiene competencia real cuando se trata del rendimiento de subprocesos múltiples que es capaz de ofrecer. Aquí, el chip no solo supera a los diseños de escritorio de Intel, sino que también puede ir a la par con el escalón más bajo de las plataformas HEDT más especializadas de Intel. Incluso la propia línea Threadripper de AMD se vuelve irrelevante por debajo de 16 núcleos.

En general, si bien AMD aún tiene mucho camino por recorrer, nunca han estado tan cerca de Intel en más de una década. Esta ya no es la historia de la AMD que está tratando de ponerse al día con Intel; Esta es ahora la historia de AMD que, una vez más, es un rival formidable para Intel. Y, si la compañía también puede continuar ejecutando, deberíamos ver cosas aún más emocionantes en el futuro.

Actualización: Se ha docuemntado que driver de prueba para el chipset x570 hace subir el rendimiento hasta un 5% adicional. Estos drivers y los siguientes serán incluidos como viene siendo habitual dentro de la próxima actualización de Windows 10, por lo que los usuarios que no los tengan instalados es muy posible que sean advertidos de la descarga e instalación mediante Windows Update. Esto debería producirse desde un inicio por parte de AMD y Microsoft, pero suponemos que prefieren ser cautos y esperar al feedback de los usuarios con dichos drivers.

Fuentes: Anandtech, Guru3D, TechPowerUp, PCGamer,


7 commentarios

Richard · 9 julio, 2019 a las 10:05 am

si dos cosas una como intel saque algo expectacular con suny cove o sus esperados 10nm la competencia sera feroz

la otra en cuanto bajen los precios intel se va a vender como pan caliente los 9900k van a volar

arnova · 9 julio, 2019 a las 8:42 am

No creo que sea Bey Bey a Intel recuerda que estamos hablando de INTEL el que nos dejo con la boca habierta con los Core 2 Quad, yo digo que intel debe estar entretenida en otra cosa, pudiera ser el tema de sus graficas que esperan lanzar en el 2020 creo, en la tecnologia nueva que estan desarrollando para lo equipos electrodomesticos del hogar en lo que es la inteligencia artificial, de esto se hablo en Spargeek, si es verdad yo lo veo bien ya que AMD nunca se habia hacercado tanto y le daba tiempo a intel a desarrollar otras cosas, pero tambien Maikel una duda AMD a superado tambien la familia de los Xeon yo se que estos son para servidores pero bueno no se tengo duda

    Maikel · 9 julio, 2019 a las 8:58 am

    si, entretenida ordeñando $ con su hardware, jajaja
    esos son los EPYC, ya los anteriores estaban buenos y se vende bien,pero tenian un probelam por como funciona el acceso a la memoria que no los dejaba dar bein todo lo que podian, se ve igual en los treadripper. pero ya los nuevos no tienen ese problema ademas que en computo ahora dan hasta el doble que los anteriores. y estos se estan comprando en masa por las empresas (empezando por Amazon, Microsoft, Google y Apple), no solo por el rendiminto (excepto en lo que tiene que ver mcuho con memoria), consumo (meno que los Xeon, menos coste en refrigeracion en los datacenters), capacidades (expansion), densidad (mas procesaminto en el mismo espacio) y precio (mas baratos por muhco) tambien porque son mucho mas seguros que los de intel por todo lo que se ha visto desde el año pasado con los explotes de seguridad que tienen sus arquitecturas. en otras palabras, en 1 año, en el mercado de servidores AMD subio de menos de 1% a 10% del mercado y sigue subiendo, ahora esta en un 15-16% (en diversas combinaciones y tipos de trabajo, en datacenter puros esta en un 10%) y se preve que en 2 años este por el 25% o mas, es dcir en 3 años ir de menso de 1 a 25+% contra el que tiene dominio casi total del mercado
    aunque esto es cantidad en el mercado, otro asunto es de cuanto $$ se mueva en ese mercado cuanto gana cada uno. aqui intel va mas amplio todavia, primariamente por ser mas caro, a cada cpu vendido le sacan mas, amd lo que esta tratando es de alcanzar mas despliegue en el mercado, mas a lo chino,

Maikel · 8 julio, 2019 a las 12:28 pm

bueno… entonces… bye bye Intel? jajajaja

Maikel · 7 julio, 2019 a las 1:07 pm

Como ven, este review esta superlargo, me tomo tiempo armarlo, y mas que es a partir de 4 fuentes. ahora estoy con el de las RX5700 y 5700XT,no menos extenso, uff

    Vicente · 7 julio, 2019 a las 9:38 pm

    Gracias por el review, estaba siguiendo la noticia esta, sólo por amor a la tecnología, no es que me valla a comprar un ryzen jjj, se me acabaron los datos y pude leerlo hoy dia 7 gracias a ustedes.

      Maikel · 7 julio, 2019 a las 9:55 pm

      manana pongo el de las tarjetas graficas, es igual de largo o mas

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *