AMD Ryzen 9 5980HS Cezanne: Ryzen 5000 Mobile a prueba

Desde la introducción de AMD de su nuevo núcleo Zen 3 para usuarios de escritorio, se ha esperado con impaciencia la implementación para portátiles y usuarios móviles. En una sola generación, en el mismo proceso de fabricación, AMD extrajo un 19% más de rendimiento por reloj (verificamos), por lo que para cualquier sistema con limitación de energía, el rendimiento adicional suele ser muy bien recibido. AMD anunció su nueva familia de procesadores Ryzen 5000 Mobile a principios de año, con procesadores de 15W a 45W + en desarrollo, y los primeros sistemas móviles que saldrán al mercado en febrero. AMD nos envió un ejemplo máximo de Ryzen 5000 Mobile para la revisión de hoy, el Ryzen 9 5980HS de 35 W, que figura en el ASUS ROG Flow X13.

Ryzen 5000 Mobile: ocho núcleos Zen 3 y gráficos Vega 8

Para aquellos que no vieron el anuncio original hace un par de semanas , aquí hay un resumen de la familia Ryzen 5000 Mobile, así como los puntos clave del anuncio.

La serie de procesadores Ryzen 5000 Mobile es una actualización de la serie de procesadores Ryzen 4000 Mobile del año pasado. AMD co-diseñó ambas familias de procesadores para reutilizar partes clave del diseño del chip, lo que permite un tiempo de comercialización más rápido y un ciclo de actualización más rápido para los socios de fabricación de portátiles (OEM) de AMD, como Dell, HP, Lenovo y otros. . La principal diferencia entre los dos procesadores que encontrarán la mayoría de los usuarios es que el nuevo hardware utiliza ocho de los últimos núcleos de CPU Zen 3 de AMD, que es una actualización de los ocho núcleos Zen 2 del año pasado. Lo más destacado es el aumento del rendimiento bruto de + 19% cuando se comparan los dos con la misma frecuencia.

Debajo del capó, hay algunos cambios clave más que interesarán a los entusiastas. El nuevo diseño Zen 3 de 8 núcleos comparte una caché L3 combinada de 16 MB, que permite que cualquiera de los ocho núcleos acceda a la caché completa, lo que reduce la latencia a memoria principal (de 4 MB a 16 MB) en comparación con el diseño anterior que tenía dos clústeres de cuatro núcleos Zen 2, cada uno con 4 MB de caché.

El nuevo procesador tiene un tamaño de 180 mm2, frente a los 156 mm2 de la última generación, pero aún encaja en el mismo zócalo. Contiene 10,7 mil millones de transistores, frente a los 9,8 mil millones. Esto significa una disminución efectiva en la densidad de transistores, aunque sabemos que los núcleos Zen 3 son ligeramente más grandes que los núcleos Zen 2, y se han agregado algunas medidas de seguridad adicionales (más sobre esto en la página siguiente).

Los usuarios pueden estar molestos porque la nueva gama de procesadores solo presenta gráficos Vega 8, lo mismo que el diseño del año pasado, sin embargo, parte de la reutilización del silicio entra aquí, lo que permite que AMD llegue al mercado de manera oportuna. El diseño de Vega 8 en la generación anterior ya tuvo un gran impulso en eficiencia y frecuencia, y esta vez obtenemos otros +350 MHz en la gama alta. Los usuarios que quieran ver RDNA en un procesador móvil pueden tener que esperar más. La estrategia de reutilización de AMD puede prestarse a cambiar la CPU en una generación y la GPU en la siguiente; tendremos que esperar y ver.

Hay otros cambios de SoC, que veremos más adelante en esta revisión.

La familia Ryzen 5000 Mobile se divide en dos amplias gamas de productos, pero ambas usan el mismo silicio subyacente. En la parte superior se encuentran los procesadores tradicionales de la serie H de 45 W, destinados a los diseños de portátiles de productividad. Para esta generación, AMD está emparejando las piezas tradicionales de 45 W con una gama de modelos ‘HS’ de 35 W, optimizados para diseños más eficientes: esta será la segunda generación de procesadores de clase ‘HS’ de 35 W de AMD. AMD también está presentando una nueva gama de procesadores ‘HX’ de 45 W o más, lo que permitirá a los socios de AMD codiseñar soluciones de portátiles AMD de alto rendimiento y / o overclockeables.

Cuando se introdujo HS el año pasado con Ryzen 4000 Mobile, era un producto diseñado en conjunto solo por una asociación AMD-OEM que requería la aprobación de AMD para tener acceso a ellos. Este año, sin embargo, parecen ser parte de la pila completa, lo que indica quizás que la demanda de estos diseños HS fue mayor de lo esperado.

Los nuevos modelos HX están aquí para permitir sistemas de reemplazo de escritorio, estaciones de trabajo y juegos de alta gama, así como para permitir que los proveedores suministren al mercado computadoras portátiles con capacidad de overclock con suficiente enfriamiento. Las computadoras portátiles con overclocking no son un concepto nuevo (Intel lo ha estado haciendo por un tiempo), pero parece que los socios de AMD han solicitado piezas de mayor potencia para habilitar este mercado en AMD. El TDP oficial para estos procesadores es de más de 45 W, lo que demuestra que los socios pueden ajustar los valores de TDP sostenidos al norte de 45 W si es necesario, probablemente hasta 65 W según sea necesario. En el pasado, si los OEM querían seguir este camino, tendrían que construir un chasis portátil capaz de soportar un procesador de escritorio.

Hay una ligera desviación de la serie H normal, ya que no hay un procesador estándar ‘H’ Ryzen 9. El Ryzen 7 5800H se ubicará en la cima de ese mercado en particular, pero la forma en que funcionan estos sistemas de numeración significa que el Ryzen 7 todavía tiene los ocho núcleos completos y gráficos integrados rápidos. En ese caso, Ryzen 9, con solo los modelos HS y HX, es posiblemente para diseños más enfocados en ‘especialistas’.

AMD anuncia el Ryzen 9 5980HS como el mejor procesador para el rendimiento de juegos portátiles, mientras que el Ryzen 9 5980HX es ‘el mejor procesador móvil para juegos’. Como parte de los materiales del día del lanzamiento, AMD muestra el Ryzen 9 5980HS con una puntuación de 600 pts en Cinebench R20, lo que lo colocaría al mismo nivel de rendimiento que los procesadores Zen 3 de escritorio de AMD. No obtuvimos una puntuación de 600 en esta revisión con el R9 5980HS (obtuvimos una puntuación de 578).

Los procesadores tradicionales de 15 W, utilizados para portátiles ultradelgados y ligeros, forman parte de la serie Ryzen 5000 Mobile U-series. AMD está habilitando una serie de partes con núcleos Zen 3 actualizados, pero también presenta varios procesadores basados ​​en el diseño Zen 2 anterior, aunque con actualizaciones.

La forma más sencilla de identificar esto es con el dígito después del número 5. Los dígitos pares (5800, 5600, 5400) se basan en Zen 3, mientras que los dígitos impares (5700, 5500, 5300) son las versiones actualizadas de Zen 2. Mucho de los usuarios considerarán estos últimos procesadores idénticos a la generación anterior, sin embargo, hemos aprendido que hay una serie de diferencias clave que trataremos en un artículo aparte.

No obstante, AMD está promocionando el Ryzen 7 5800U superior como el procesador móvil más eficiente de la compañía hasta la fecha. Basado en una serie de mejoras en el diseño de silicio, AMD reclama una duración de batería de + 2 horas con un simple cambio de procesador de Ryzen 4000 a Ryzen 5000, incluso si todo lo demás en el chasis es el mismo. No obstante, AMD afirma que ha trabajado con empresas de controladores, proveedores de suministro de energía y diseñadores de portátiles para garantizar que aquellos OEM que quieran construir sistemas con más de 20 horas de duración de la batería tengan las herramientas para hacerlo. Sin embargo, otros OEM, particularmente para diseños de bajo costo o quizás modelos educativos, pueden cambiar libremente el procesador de antiguo a nuevo con solo una actualización de firmware, ya que tanto Ryzen 4000 como Ryzen 5000 son compatibles con pines.

En general, AMD está reclamando más de 150 diseños con Ryzen 5000 Mobile hasta ahora, un paso significativo desde los 100 diseños en Ryzen 4000 Mobile. Estos están configurados para incluir diseños de juegos de alta gama con las últimas tarjetas gráficas premium, un mercado en el que AMD ha tenido dificultades para ingresar hasta ahora.

Aquí hay una práctica tabla de nombres en clave de procesadores que podríamos usar en varias partes de esta revisión. Estos se refieren a los nombres de código internos de AMD para los diseños de silicio y actúan como una forma más fácil de hablar sobre el hardware sin hacer referencia constantemente a la marca (especialmente si se utiliza cierto silicio en varias gamas de productos).

Probando las afirmaciones de AMD: el portátil

Para esta revisión, AMD suministró el Ryzen 9 5980HS dentro de la computadora portátil ASUS ROG Flow X13 . Es uno de los diseños clave de AMD, con un procesador de grado 35 W en un diseño elegante destinado a la movilidad. Como revisor que en un año normal pasa mucho tiempo viajando, las especificaciones de la caja tienen mucho sentido para mi flujo de trabajo habitual.

El sistema cuenta con una pantalla con bisagras de 360º de 13,4 pulgadas, que como pantalla táctil IPS con una resolución de 3840×2400 (16:10, finalmente) funciona a 120 Hz con sincronización adaptativa, certificado por color Pantone y recubierto de Corning Gorilla Glass. La pantalla está clasificada para 116% sRGB, 86% Adobe y 85% DCI-P3.

Debajo del capó está ese procesador AMD Ryzen 9 5980HS, con ocho núcleos Zen 3 y dieciséis subprocesos, con una frecuencia base de 3.0 GHz y una frecuencia turbo de un solo núcleo de 4.8 GHz, con una potencia de 35 W. ASUS dice que compran las mejores versiones del 5980HS para el Flow X13 para garantizar el mejor rendimiento y duración de la batería. Este procesador tiene gráficos Vega 8, sin embargo, ASUS lo ha emparejado con un procesador de gráficos discretos GTX 1650 de 4 GB, lo que permite la aceleración CUDA y juegos de mayor rendimiento cuando es necesario.

Nuestra unidad viene con 32 GB de memoria LPDDR4X-4267, así como una unidad de almacenamiento Western Digital SN350 1TB PCIe 3.0 x4 NVMe. Ambos parecen ser la instalación estándar del Flow X13.

ASUS afirma que la batería de 62 Wh es buena para 18 horas de uso, y el Flow X13 es uno de los pocos dispositivos que admiten la entrega de energía USB Type-C de 100 W. ASUS afirma que el cargador incluido puede cargar la unidad del 0% al 60% en aproximadamente 39 minutos.

Otras características incluyen un teclado retroiluminado con teclas de flecha de tamaño uniforme, una salida HDMI de tamaño completo, así como un puerto USB 3.2 Gen 2 (10 Gbps) Tipo A, un puerto USB 3.2 Gen 2 (10 Gbps) Tipo C , un conector de 3,5 mm y un conector de salida PCIe 3.0 x8 personalizado para usar con la base de gráficos externa XG Mobile de ASUS . Esta base de gráficos personalizada puede venir con un RTX 3070/3080 de diseño personalizado y, junto con la potencia de los gráficos, también proporciona al sistema cuatro puertos USB tipo A, salidas HDMI / DP y Ethernet. Con esta base instalada, técnicamente el sistema tendría tres tarjetas gráficas.

Todo esto tiene un peso de 2,87 libras / 1,30 kg, todo por menos de 16 mm de grosor. Esta suele ser una categoría clave tanto para AMD como para Intel cuando se trata de movilidad combinada con productividad. ASUS aún no ha anunciado el precio del ROG Flow X13; el otro modelo de la gama se basa en el Ryzen 9 5900 HS, pero por lo demás es idéntico.

Esta revisión se centrará principalmente en el procesador en lugar del Flow X13, debido a limitaciones de tiempo (nuestra muestra llegó hace solo unos días). Sin embargo, vale la pena señalar que, como ocurre con la mayoría de los portátiles, el ROG Flow X13 viene con múltiples modos de potencia y rendimiento.

De hecho, hay dos: Silent y Performance. En cada modo hay diferentes valores para la temperatura inactiva, con el fin de mantener más bajo el ruido audible, y luego diferentes valores de potencia / térmicas para el turbo y el consumo de energía sostenido.

Estos dos difieren principalmente en el consumo sostenido de energía y los límites térmicos:

* La temperatura inactiva aquí es tan alta, como verá más adelante en la revisión, porque las palancas de alta frecuencia de AMD son muy agresivas, de modo que nuestras herramientas de monitoreo de sensores están activando modos de alta frecuencia, a pesar de la pequeña carga.

Prueba de las afirmaciones de AMD: Ryzen 9 5980HS

Al igual que en el lanzamiento de Ryzen 4000 Mobile, la unidad que nos ha proporcionado AMD es su procesador de la serie H, de primera línea pero más eficiente. Para la última generación fue el Ryzen 9 4900HS que se encuentra en el ASUS ROG Zephyrus G14. El Zephyrus G14 es un poco más grande que el ROG Flow X14 que tenemos hoy, pero la GPU también es mejor en el G14 (2060 vs 1650). Ambos procesadores tienen una potencia de 35 W y ambos muestran algunos de los mejores diseños con los que AMD quiere liderar al comienzo de una generación.

La principal competencia para estos procesadores es Tiger Lake de Intel. Hace un par de semanas, Intel anunció su nueva línea de procesadores H35, mediante la cual aumentan los procesadores de la serie U de 15 W hasta 35 W para un rendimiento adicional. No sabemos cuándo estarán esas unidades en el mercado (nos informarán pronto), sin embargo, hemos logrado asegurar un MSI Prestige 14 Evo que contiene el mejor procesador de la serie U de Intel (Core i7-1185G7) y permite un rendimiento sostenido. en 35 W.

Junto a estos números, también tenemos datos históricos de la plataforma de referencia Tiger Lake de Intel, que se ejecutó en modos de 15 W y 28 W.

Pero primero, analicemos las nuevas funciones de Ryzen 5000 Mobile.

Ryzen 5000 Mobile: actualizaciones de SoC

Si bien la página de introducción se centra principalmente en el cambio a los núcleos Zen 3, AMD ha explicado a AnandTech que hay muchos otros cambios en esta actualización que permiten tanto el rendimiento como la eficiencia, así como mejoras en la duración de la batería para los usuarios.

A partir de este punto, comenzaré a usar los nombres en clave de silicio, como

• Cezanne (Ryzen 5000 Mobile con Zen 3),
• Lucienne (Ryzen 5000 Mobile con Zen 2),
• Renoir (Ryzen 4000 Mobile, todos Zen 2),
• Vermeer (Ryzen 5000 Desktop, todos Zen 3),
• Matisse (Ryzen 3000 Desktop, todos Zen 2)

Caché doble y caché unificado para Cezanne

Para reiterar el cambio de SoC principal para Cezanne en comparación con Renoir, los ocho núcleos ahora tienen una caché unificada en lugar de dos segmentos de caché. Además de esto, el tamaño de la caché también se ha duplicado.

Esto es similar a lo que vimos en el escritorio, cuando AMD presentó Vermeer: ​​Vermeer con Zen 3 tenía una caché unificada sobre Matisse con Zen 2. En ese momento, AMD apuntaba a la caché unificada que permitía un mejor rendimiento de los juegos, ya que reducía el ‘ latencia efectiva ‘para las solicitudes de memoria de la CPU en esa región de caché combinada. Se espera que lo mismo sea cierto para el nuevo silicio Cezanne en Ryzen 5000 Mobile, y jugará un papel clave para permitir ese aumento de + 19% de IPC de generación en generación.

Controlador de memoria mejorado para Cezanne y Lucienne

Una de las métricas clave en los procesadores móviles es la capacidad de eliminar el exceso de energía, especialmente cuando se pasa de un estado activo a un estado inactivo. Todos los principales proveedores de silicio que fabrican procesadores para portátiles trabajan para habilitar estados de muy bajo consumo de energía para cuando los usuarios están inactivos, porque aumenta la duración de la batería.

Muchos usuarios estarán acostumbrados a las funciones que mantienen los núcleos del procesador en estados de bajo consumo de energía, o los gráficos, pero también parte de esto es la estructura de interconexión y el controlador de memoria. Uno de los nuevos desarrollos para Ryzen 5000, y tanto en Cezanne en Zen 3 como en Lucienne en Zen 2, es que AMD ha habilitado estados de bajo consumo más profundos para la interfaz de la capa física de memoria (PHY). Esto permite que el sistema ahorre energía cuando el subsistema de memoria no es necesario o en un período de baja actividad. Esto significa poner el tejido y la memoria en su propio plano de voltaje, pero también habilitar la lógica necesaria para llevarlo a una potencia más baja cuando está inactivo. AMD afirma que los reguladores de baja deserción (LDO) están configurados para permitir esta transición y, en determinadas circunstancias, permiten que se omita la PHY para reducir aún más el consumo de energía.

La compensación de tener una parte del procesador en un estado de tan bajo consumo de energía es el tiempo que se tarda en recuperarse del estado inactivo, que también es una métrica a tener en cuenta. AMD afirma que el diseño en Ryzen 5000 también permite una salida rápida a la actividad completa, lo que significa que los modos de alto rendimiento se pueden ingresar rápidamente.

También en el frente de la memoria, parecería que AMD está duplicando la capacidad de soporte tanto para LPDDR4X como para DDR4. Para esta generación, los sistemas Cezanne se pueden habilitar con hasta 32 GB de LPDDR4X-4267 (68,2 GB / s) o hasta 64 GB de DDR4-3200 (51,2 GB / s). Los beneficios de LPDDR4X son menor consumo de energía y mayor ancho de banda, mientras que DDR4 permite una mayor capacidad y un diseño potencialmente actualizable.

Control de voltaje por núcleo para Cezanne y Lucienne

De acuerdo con el mismo tema de ahorro de energía, no solo se debe administrar la periferia del núcleo para uso inactivo, sino que también se deben administrar los núcleos. En Ryzen 4000 Mobile, AMD tenía un sistema mediante el cual cada núcleo podía tener una frecuencia separada, lo que ahorraba algo de energía, pero el inconveniente era que todos los núcleos estaban en un solo plano de voltaje e incluso si un núcleo estaba inactivo cuando otro estaba muy pesado. cargados, todos los núcleos estaban funcionando a ese voltaje máximo. Esto cambia con todos los miembros de la familia Ryzen 5000 Mobile, ya que tanto Cezanne como Lucienne contarán con control de voltaje en un nivel por núcleo.

La diapositiva de AMD lo muestra mejor: los núcleos que funcionan a frecuencias más altas obtienen un voltaje más alto y los núcleos que están inactivos pueden reducir su voltaje para ahorrar energía. Uno de los principales límites para habilitar este tipo de perfil, además de tener el control para hacerlo en primer lugar, es hacerlo lo suficientemente rápido para que cuente para el consumo de energía, pero también para que sea transparente para el usuario. – los núcleos aún deben poder llegar a un estado de alta tensión / alta frecuencia en un tiempo adecuado. El diseño de AMD funciona con activadores del sistema operativo y enlaces de calidad de servicio para aplicar modos de alta frecuencia en un formato basado en tareas.

En los procesadores de escritorio de AMD, vimos que la introducción de una función llamada CPPC2 ayudó a habilitar esto, y lo mismo ocurre con los procesadores móviles, sin embargo, tomó otra generación para hacer los cambios de diseño y firmware requeridos.

Optimización de potencia y respuesta (CPPC2) para Cezanne y Lucienne

A medida que aceleramos hacia el futuro de la informática, será más importante aprovechar al máximo cada bit de silicio. Esto significa más control, más optimización y más especialización. Para Cezanne y Lucienne, AMD está implementando varias características de CPPC2 que se exhibieron por primera vez en el silicio de escritorio para intentar aprovechar al máximo el diseño del silicio.

‘Preferred Core’ es un término que se usa principalmente en el espacio del escritorio para indicar qué núcleo de CPU en el diseño puede turbo a la frecuencia más alta con la mejor potencia, y a través de una serie de enlaces del sistema operativo, el sistema ejecutará selectivamente todos los de un solo subproceso cargas de trabajo en ese núcleo asumiendo que no hay ninguna otra carga de trabajo presente. Anteriormente, los subprocesos podían rebotar para permitir una distribución térmica más equitativa: AMD ahora mantendrá selectivamente la carga de trabajo en un solo núcleo hasta que se activen los límites térmicos, lo que permite un rendimiento máximo y sin retrasos adicionales por el cambio de subprocesos. Para los sistemas overclockeables, esto generalmente también representa el mejor núcleo para aumentar la frecuencia, lo que se vuelve relevante para Ryzen 5000 Mobile y los nuevos procesadores de la serie HX.

Otra parte de CPPC2 es la selección de frecuencia, que reduce el tiempo de transición de baja frecuencia a alta frecuencia de 30 milisegundos a menos de 2 milisegundos. Esto equivale a un ajuste de frecuencia de 2 cuadros que se reduce a ajustes de subcuadros. Las consecuencias de esto permiten que las cargas de trabajo que ocurren durante menos de 30 milisegundos puedan aprovechar una frecuencia momentáneamente más alta y completarse más rápido; también permite que el sistema responda mejor al usuario, no solo en entornos inactivos a inmediatos, sino también en situaciones en las que la energía se distribuye a través del SoC y esas relaciones se ajustan para obtener el mejor rendimiento, como cuando el usuario está jugando.Además, la habilitación de transiciones de carga a inactiva del orden de 2 milisegundos mejora la duración de la batería al colocar el procesador en un estado de menor consumo de energía de manera más rápida y frecuente, como entre las pulsaciones de teclas del teclado.

La tercera parte de CPPC2 es la migración desde estados de energía heredados discretos dentro del sistema operativo. Con un sistema operativo que tiene un controlador adecuado (Windows 10 moderno y Linux), el control de frecuencia del procesador se devuelve del sistema operativo al procesador, lo que permite transiciones más precisas de cuándo se necesita rendimiento o ahorro de energía. Esto significa que en lugar de lidiar con los diversos estados de energía que solíamos hacer, el procesador tiene todo el espectro continuo de frecuencias y voltajes para habilitar, y analizará el flujo de trabajo para decidir cómo se distribuye esa energía (el sistema operativo puede dar pistas al procesador para ayudar en esos algoritmos).

Mejoras en la GPU en Cezanne y Lucienne: Vega 8 a Vega 8+

Como se mencionó en la página anterior, una de las críticas dirigidas a esta nueva generación de procesadores es que nuevamente obtenemos gráficos integrados Vega 8, en lugar de algo basado en RDNA. La razón principal de esto es la reutilización del diseño de AMD para permitir un tiempo de comercialización más rápido con Zen 3. El diseño Renoir de la generación anterior con Zen 2 y Vega 8 se construyó junto con Cezanne hasta el punto de que el primer muestras de Cezanne regresaron de la fábrica solo dos meses después del lanzamiento de Renoir.

Si miramos el cambio en los gráficos integrados desde el inicio de Ryzen Mobile. La primera generación de Raven Ridge se construyó en 14 nm, tenía gráficos Vega11 y tenía una frecuencia máxima de alrededor de 1200 MHz. Los gráficos en el diseño de Renoir se construyeron en 7nm y, a pesar del salto de Vega11 a Vega8, la eficiencia aumentó considerablemente y la frecuencia ya tenía un salto de hasta 1750 MHz. Otra generación después de Cezanne y Lucienne, y los gráficos obtienen otro impulso de eficiencia, lo que permite +350 MHz para un rendimiento adicional.

Parte de esta actualización se debe a ajustes y actualizaciones menores del proceso. AMD puede controlar mejor la regulación de voltaje para permitir nuevos mínimos, reducir la potencia, y ha habilitado un nuevo modelo de predicción sensible a la frecuencia para el rendimiento. Con los mayores controles de energía en el lado de la CPU y el SoC, esto significa que los gráficos integrados pueden acceder más fácilmente al presupuesto de energía, lo que permite un mayor consumo máximo de energía, lo que también ayuda a aumentar la frecuencia.

Tenga en cuenta que estas características se aplican tanto a Cezanne como a Lucienne, lo que significa que los productos Zen 2 en el Ryzen 5000 Mobile obtienen un aumento considerable en el rendimiento gráfico sobre Renoir aquí. En última instancia, es ese mercado de 15 W al que está dirigida esta actualización, dado que es probable que la serie H (incluidas HS y HX) se combine con tarjetas gráficas discretas.

A medida que AMD decida pasar de Vega a RDNA, es probable que veamos que algunos de los Cezanne se reutilicen, de modo que podamos ver Zen3 + RDNA en el futuro, o el chip GPU Zen 4 + combinado podría ser un actualización completa en todos los ámbitos. Todo esto es especulación, pero la directora ejecutiva de AMD, Lisa Su, ha declarado que poder reutilizar diseños de silicio como este es una parte clave de la filosofía del procesador móvil de la compañía en el futuro.

Actualizaciones de seguridad en Cezanne

Una de las características de Zen 3 es que habilita la última generación de actualizaciones de seguridad de AMD. La gran actualización en Zen 3 fue el agregado de la tecnología Control Flow Enforcement, conocida como CET. Aquí es donde el procesador creará pilas de sombras para las llamadas de retorno para garantizar que se invoquen las direcciones de retorno correctas al final de las funciones; de manera similar, los saltos y llamadas de rama indirecta se monitorean y protegen contra si un atacante intenta modificar hacia dónde se dirige una rama indirecta.

Tanto AMD como Intel han hablado de incluir la seguridad de Microsoft Pluton en sus procesadores, y podemos confirmar que ni Cezanne ni Lucienne tienen Pluton como parte del diseño. Tanto AMD como Intel han declarado que se integrará “en el futuro”, lo que parece sugerir que todavía podemos estar en una generación o dos más.

Actualizaciones del nodo de proceso en Cezanne y Lucienne

Quizás una de las actualizaciones más pequeñas esta vez, pero AMD ha declarado que tanto Cezanne como Lucienne usan las últimas actualizaciones de nodos intraproceso en N7 para estos productos. Si bien tanto Renoir de la generación anterior como estos dos usan el proceso N7 de TSMC, durante el ciclo de vida del nodo de fabricación se realizan cambios menores, a veces para reducir la densidad de defectos / aumentar el rendimiento, mientras que otras pueden ser actualizaciones de voltaje / frecuencia que permiten una mejor eficiencia o un sesgo hacia una mejor binning a una frecuencia diferente. Por lo general, estas adiciones son menores hasta el punto de no ser tan notables, y AMD no ha dicho mucho más allá de las “últimas mejoras”.

Pruebas de CPU: Microbenchmarks

Latencia de núcleo a núcleo

A medida que crece el número de núcleos de las CPU modernas, llegamos a un momento en el que el momento de acceder a cada núcleo desde un núcleo diferente ya no es una constante. Incluso antes de la llegada de los diseños de SoC heterogéneos, los procesadores construidos en anillos o mallas grandes pueden tener diferentes latencias para acceder al núcleo más cercano en comparación con el núcleo más lejano. Esto suena cierto especialmente en entornos de servidor de varios sockets.

Pero las CPU modernas, incluso las CPU de escritorio y de consumo, pueden tener una latencia de acceso variable para llegar a otro núcleo. Por ejemplo, en las CPU Threadripper de primera generación, teníamos cuatro chips en el paquete, cada uno con 8 subprocesos, y cada uno con una latencia de núcleo a núcleo diferente dependiendo de si estaba en la matriz o fuera de la matriz. Esto se vuelve más complejo con productos como Lakefield, que tiene dos buses de comunicación diferentes dependiendo de qué núcleo está hablando con cuál.

Si es un lector habitual de las revisiones de CPU de AnandTech, reconocerá nuestra prueba de latencia de núcleo a núcleo. Es una excelente manera de mostrar exactamente cómo se colocan los grupos de núcleos en el silicio. Esta es una prueba interna personalizada creada por Andrei, y sabemos que existen pruebas competitivas, pero creemos que la nuestra es la más precisa en cuanto a la rapidez con la que puede ocurrir un acceso entre dos núcleos.

El cambio de AMD de un diseño CCX dual de 4 núcleos a un CCX de 8 núcleos más grande es una característica clave de la nueva microarquitectura Zen3. Más allá de agregar los L3 separados para un gran grupo único en escenarios de un solo subproceso, los nuevos SoC móviles basados ​​en Cezanne también eliminan por completo las comunicaciones de núcleo a núcleo a través de la estructura infinita del SoC, ya que todos los núcleos del sistema son simplemente alojado dentro del L3 compartido.

Lo que es interesante ver aquí también es que las nuevas latencias monolíticas no son tan planas como en el diseño anterior, con latencias de pares de núcleos que varían de 16.8ns a 21.3ns, probablemente debido a la L3 mucho más grande de esta generación y a una mayor latencia de cable. para cruzar el CCX, así como diferentes frecuencias de refuerzo entre los núcleos. Se ha hablado sobre la naturaleza exacta de los cortes L3, ya sea que estén conectados en un anillo o en un escenario de todos para todos. AMD dice que es un todo para todos “eficaz”, aunque la topología exacta no es del todo. Tenemos alguna forma de malla con enlaces, más allá de un simple anillo, pero no un diseño completo. Esto se volverá más complejo si AMD agranda estos diseños.

Latencia de caché a DRAM

Esta es otra prueba interna construida por Andrei, que muestra la latencia de acceso en todos los puntos de la jerarquía de caché para un solo núcleo. Comenzamos con 2 KiB y probamos la latencia hasta 256 MB, que para la mayoría de las CPU se encuentra dentro de la DRAM (antes de comenzar a decir que el TR de 64 núcleos tiene 256 MB de L3, es solo 16 MB por núcleo, entonces en 20 MB estás en DRAM).

Parte de esta prueba nos ayuda a comprender el rango de latencias para acceder a un nivel dado de caché, pero también la transición entre los niveles de caché nos da una idea de cómo funcionan las diferentes partes de la microarquitectura de caché, como las TLB. A medida que los microarquitectos de CPU buscan formas interesantes y novedosas de diseñar cachés sobre cachés dentro de cachés, esta prueba básica resulta ser muy valiosa.

Al igual que con las partes de escritorio Ryzen 5000 Zen3, estamos viendo cambios extremadamente grandes en el comportamiento de latencia de la memoria del nuevo chip Cezanne, con AMD cambiando casi todo sobre cómo funciona el núcleo en sus cachés.

En las regiones L1 y L2, AMD ha mantenido los tamaños de caché iguales en 32KB y 512KB respectivamente, sin embargo, dependiendo del patrón de acceso a la memoria, las latencias resultantes son muy diferentes, ya que los ingenieros están empleando precapturadores de línea de caché adyacentes más agresivos y también emplean una política de reemplazo de línea de caché completamente nueva.

En la región L3 de 512 KB a 16 MB, bueno, el hecho de que estemos viendo esta jerarquía de caché cuadriplicada desde la vista de un solo núcleo es un beneficio importante de las tasas de aciertos de caché y beneficiará enormemente el rendimiento de un solo subproceso. La latencia real en términos de ciclos de reloj ha aumentado dada la estructura de caché mucho más grande, y AMD también ha ajustado y cambia el comportamiento dinámico de los prefetchers en esta región.

En el lado de la DRAM, el cambio más visible es nuevamente esta curva de latencia mucho más gradual, también como resultado de la nueva política de reemplazo de línea de caché de Zen3. Todos los sistemas probados aquí cuentan con memoria LPDDR4X-4266, y aunque la nueva plataforma Cezanne tiene una ligera ventaja con los tiempos, termina con una latencia inferior a 13 ns en el mismo punto de profundidad de prueba de 128 MB en DRAM, superando al sistema Renoir y empatando con Intel. Sistema de Tiger Lake.

Rampa de frecuencia

Tanto AMD como Intel en los últimos años han introducido características en sus procesadores que aceleran el tiempo desde que una CPU pasa de inactivo a un estado de alta potencia. El efecto de esto significa que los usuarios pueden obtener un rendimiento máximo más rápido, pero el mayor efecto en cadena de esto es la duración de la batería en los dispositivos móviles, especialmente si un sistema puede acelerar rápidamente y acelerar rápidamente, asegurando que permanece en el nivel más bajo. y el estado de energía más eficiente durante el mayor tiempo posible.

La tecnología de Intel se llama SpeedShift, aunque SpeedShift no se habilitó hasta Skylake.

Sin embargo, uno de los problemas con esta tecnología es que a veces los ajustes en la frecuencia pueden ser tan rápidos que el software no puede detectarlos. Si la frecuencia cambia en el orden de microsegundos, pero su software solo mide la frecuencia en milisegundos (o segundos), se perderán los cambios rápidos. No solo eso, como observador que prueba la frecuencia, podría estar afectando el rendimiento real del turbo. Cuando la CPU cambia de frecuencia, esencialmente tiene que pausar todos los cálculos mientras alinea la tasa de frecuencia de todo el núcleo.

Escribimos un extenso artículo de análisis de revisión sobre esto, llamado ‘ Alcanzando el Turbo: alineando la percepción con las métricas de frecuencia de AMD ‘, debido a un problema en el que los usuarios no estaban observando las velocidades máximas de turbo para los procesadores de AMD.

Solucionamos el problema haciendo que la frecuencia sondeara la carga de trabajo que causaba el turbo. El software es capaz de detectar ajustes de frecuencia en una escala de microsegundos, por lo que podemos ver qué tan bien un sistema puede llegar a esas frecuencias de refuerzo. Nuestra herramienta de rampa de frecuencia ya se ha utilizado en varias revisiones.

Nuestra rampa de frecuencia muestra que AMD, de hecho, pasa de inactivo a una alta velocidad en 2 milisegundos según CPPC2. Se necesita otro cuadro a 60 Hz (16 ms) para subir al turbo completo de la mente del procesador.

El consumo de energía

La naturaleza de informar sobre el consumo de energía del procesador se ha convertido, en parte, en una pesadilla distópica. Históricamente, el consumo máximo de energía de un procesador, tal como se compra, viene dado por su Potencia de diseño térmico (TDP o PL1). Para muchos mercados, como los procesadores integrados, ese valor de TDP todavía significa el consumo máximo de energía. Para los procesadores que probamos en AnandTech, ya sea de escritorio, portátil o empresarial, este no es siempre el caso.

Los procesadores modernos de alto rendimiento implementan una función llamada Turbo. Esto permite, generalmente por un tiempo limitado, que un procesador supere su frecuencia nominal. Exactamente hasta dónde llega el procesador depende de algunos factores, como el Turbo Power Limit (PL2), si la frecuencia máxima está codificada, las térmicas y la entrega de energía. Turbo a veces puede ser muy agresivo, lo que permite valores de potencia 2,5 veces superiores al TDP nominal.

AMD e Intel tienen diferentes definiciones para TDP, pero en términos generales se aplican de la misma manera. La diferencia radica en los modos turbo, los límites turbo, los presupuestos turbo y cómo los procesadores gestionan ese equilibrio de energía.

En términos simples, los fabricantes de procesadores solo garantizan dos valores que están vinculados: cuando todos los núcleos funcionan a la frecuencia base, el procesador debe funcionar a la clasificación TDP o por debajo de ella. Si bien los fabricantes muestran una calificación en la caja, los fabricantes de placas base a menudo la ignoran y usan sus propias configuraciones, basadas en las capacidades de la placa base, lo que hace que las calificaciones de los proveedores de CPU sean algo inútiles. Sin embargo, lo crucial es que los proveedores de CPU alientan activamente a los proveedores de placas base a hacer lo suyo, creando confusión en cuanto al consumo real de energía para la carga de trabajo y si la frecuencia en la caja es realmente la que obtendrá el usuario.

Para las computadoras portátiles, es incluso peor que las computadoras de escritorio. En una computadora portátil, el consumo de energía y el control de frecuencia son partes clave del espíritu del diseño, sin embargo, terminamos con opciones anidadas para el control de energía. Si bien el proveedor de la CPU tendrá sus propios niveles de control de energía en el firmware, el proveedor de la computadora portátil tendrá otro conjunto además de esto en el BIOS, y luego el sistema operativo tendrá otro conjunto además de esto, seguido de otra capa de proveedor de la computadora portátil. software. Sus tortugas todo el camino hacia abajo, y cada variación produce algo bastante diferente.

AMD recomienda que todos los niveles de energía se dejen donde están, y el usuario solo controla las opciones de energía del software del proveedor. En este caso ASUS ofrece dos modos: Silencioso y Rendimiento. Los mencionamos en la primera página de esta revisión y mostramos algunos números impares. Sería más sorprendente si solo mostrara la comparación.

Para empezar, simplemente voy a mostrar lo que hace una carga de CPU completa y sostenida de 10 minutos, primero en el modo de rendimiento.

P95 es una carga de trabajo AVX pesada para este procesador, y en el modo de rendimiento vemos el pico del procesador a 56 W durante un par de segundos, y luego activamos su modo turbo a 42 W durante 300 segundos. Durante este tiempo, estamos alrededor de 4000 MHz en los ocho núcleos y dieciséis subprocesos, y el enfriamiento del sistema lo mantiene alrededor de 80ºC. Una vez que han terminado los 300 segundos, el sistema disminuye lentamente a 35 W y 75ºC en el transcurso de 60 segundos, antes de alcanzar los 35 W. La frecuencia rebota tan bajo como 3200 MHz, probablemente en línea con las instrucciones de la prueba.

Ahora de manera similar, vayamos al mismo punto de referencia en modo ‘Silencioso’.

Esto se ve muy diferente. Aquí el sistema prioriza el ruido sobre cualquier otra cosa, y eso también significa reducir los voltajes y frecuencias hasta el punto de lo absurdo. No hay turbo del que hablar en esta carga de trabajo, y el sistema se reduce a 1400 MHz sostenido a 70ºC y 12 W. Estos siguen siendo los ocho núcleos, y el sistema todavía está silencioso, pero esa es la compensación en estos diseños.

Pasando a una carga de trabajo más fácil de usar, Agisoft, que es una combinación de ST y MT.

Al comienzo de la prueba, vemos el pico de potencia a 62 W durante uno o dos segundos, antes de bajar a un turbo de 300 segundos de alrededor de 42 W. Durante este tiempo, la frecuencia desciende a alrededor de 3650 MHz, antes de reducirse a 3400 MHz a medida que se agota el presupuesto del turbo y el sistema cae a 35 W para un modo sostenido. La segunda parte de la prueba, que es de subprocesos múltiples, comienza alrededor de 500 segundos y muestra una temperatura sostenida de alrededor de 81 ° C y una frecuencia oportunista con un pico de 4500 MHz, todo mientras se mantiene en 35 W. Hacia el final de la prueba, como comenzamos a mirar cargas de trabajo de un solo subproceso, el sistema alcanza un pico por encima de 60 W en dos ocasiones, pero también muestra 4500 MHz para la actividad ST. La temperatura de la CPU sube más a 90ºC cuando se usa el núcleo preferido, pero como es solo un núcleo, las térmicas se gestionan mejor y se ajustan en consecuencia.

La misma carga de trabajo en modo silencioso se mantiene en 12 W durante casi toda la prueba. Conseguimos un par de picos a 56 W, pero el sistema intenta permanecer silencioso y mantenerse alrededor de 68-69ºC reduciendo la frecuencia y la potencia. La CPU todavía intenta seguir siendo oportunista como podemos ver en el gráfico de frecuencia muy puntiagudo en verde, pero está en la región de 1700 MHz a 3300 MHz durante la mayor parte de la prueba. Entonces, si bien toma 2443 segundos en modo de rendimiento, la misma prueba toma 4059 segundos en modo silencioso.

Probablemente esto muestre la peor disparidad de rendimiento entre los dos. En muchas pruebas de CPU, como verá en esta revisión, las diferencias pueden ser menores. Muestra lo importante que es perfilar qué carga de trabajo está ejecutando y vigilar de cerca en qué modo de rendimiento se está ejecutando el sistema (no hay una señal clara sin verificar activamente el software).

Sin embargo, es suficiente decir que en estas pruebas, vemos un pico de 62-65 W en el Ryzen 9 5980HS. Para todos los efectos, es el más breve de los picos, y no vemos necesariamente ningún aumento térmico en la medida en que lo hacen otros 10 segundos de carga de trabajo a 42-45 W. El modo turbo sostenido durante 300 segundos es un modo turbo impresionante que permite frecuencias más altas en la mayoría de las cargas de trabajo, con solo las pruebas súper sostenidas que podrían estar más en casa en una estación de trabajo o una computadora portátil de 15 a 17 pulgadas, lo que hace que el procesador se active. 35 W TDP. También se reduce a las térmicas, y dado el diseño y las temperaturas que estamos viendo, la ROG Flex 13 es más una computadora portátil que una ‘computadora portátil’. Los usuarios que deseen usarlo en su regazo probablemente lo mejor sería crear un perfil térmico que mantenga la temperatura baja a expensas del ruido del ventilador.Cuando examinemos la computadora portátil con más detalle, cubriremos el problema del ruido del ventilador.

Para completar, aquí está el gráfico de Agisoft para el MSI Prestige 14 Evo en modo de rendimiento. Intel habilita un turbo de 60 segundos, en el que vemos 42-45 W, aunque el pico observado es de 53 W más adelante en la prueba. Vemos un modo sostenido de 35 W, con un promedio de 4000 MHz en los cuatro núcleos. Pero lo que quizás es preocupante es la temperatura, que se reporta como un promedio sostenido de 92-94ºC. Eso es bastante alto. Mientras que el Ryzen 9 5980HS tarda 2443 segundos en completar el punto de referencia, el sistema Intel tarda 3389 segundos.

Nuestro conjunto anterior de puntos de referencia de ‘oficina’ a menudo ha sido una mezcla de ciencia y sintéticos, por lo que esta vez queríamos mantener nuestra sección de oficina exclusivamente en el rendimiento del mundo real.

Agisoft Photoscan 1.3.3:

El concepto de Photoscan consiste en traducir muchas imágenes 2D a un modelo 3D, por lo que cuanto más detalladas sean las imágenes y cuanto más tenga, mejor será el modelo 3D final tanto en precisión espacial como en precisión de textura. El algoritmo tiene cuatro etapas, con algunas partes de las etapas de un solo subproceso y otras de varios subprocesos, junto con cierta dependencia de memoria caché / allí también. Para algunas de las cargas de trabajo con subprocesos más variables, características como Speed ​​Shift y XFR podrán aprovechar las paradas de la CPU o el tiempo de inactividad, lo que brindará aceleraciones considerables en microarquitecturas más nuevas.

Para la actualización a la versión 1.3.3, el software Agisoft ahora admite la operación de línea de comandos. Agisoft nos proporcionó un conjunto de imágenes nuevas para esta versión de la prueba y un script de Python para ejecutarlo. Hemos modificado ligeramente el guión cambiando algunas configuraciones de calidad en aras de la duración de la suite de referencia, así como también ajustando cómo se registran los datos de tiempo finales. La secuencia de comandos de Python vuelca el archivo de resultados en el formato que elijamos. Para nuestra prueba obtenemos el tiempo de cada etapa del benchmark, así como el tiempo total.

El nuevo sistema Zen 3 ofrece una pequeña velocidad con respecto a la generación anterior y una gran ventaja sobre la competencia de Intel aquí.

Apertura de la aplicación: GIMP 2.10.18

En primer lugar, se realiza una prueba con un monstruoso archivo xcf de varias capas para cargar GIMP por primera vez. Si bien el archivo es solo una ‘imagen’, tiene tantas capas de alta calidad incrustadas que tardó más de 15 segundos en abrirse y obtener el control del portátil de rango medio que estaba usando en ese momento. Esta prueba también es la ejecución en la que GIMP se optimiza a sí mismo y los requisitos de optimización se escalan linealmente con el número de subprocesos en el sistema.

Lo que probamos aquí es la primera ejecución; normalmente, la primera vez que un usuario carga el paquete GIMP desde una instalación nueva, el sistema tiene que configurar algunas docenas de archivos que permanecen optimizados en la apertura posterior. Para nuestra prueba, eliminamos los archivos optimizados configurados para forzar una “carga nueva” cada vez que se ejecuta el software. Resulta que GIMP realiza optimizaciones para cada subproceso de la CPU en el sistema, lo que requiere que los procesadores de mayor número de subprocesos tarden mucho más en ejecutarse. Por lo tanto, la prueba se ejecuta rápidamente en sistemas con menos subprocesos, sin embargo, también se necesitan núcleos rápidos.

Medimos el tiempo transcurrido desde que se solicita la apertura del software y hasta que el software se devuelve al sistema operativo para el control del usuario. La prueba se repite durante un mínimo de diez minutos o al menos 15 ciclos, lo que ocurra primero, y se descartan los primeros tres resultados.

Debido a los núcleos rápidos y la menor cantidad de subprocesos, Tiger Lake gana aquí, pero el nuevo procesador de AMD ofrece una buena velocidad del 10% de generación en generación.

Compilación de cadena de herramientas RISCV

Nuestra última prueba en nuestra suite es la compilación de RISCV Toolchain de la fuente Github. Este conjunto de herramientas permite a los usuarios crear software para una plataforma RISCV, sin embargo, las herramientas en sí deben construirse. Para nuestra prueba, estamos ejecutando una versión nueva y completa de la cadena de herramientas, incluida la vinculación desde stratch. Esto hace que la prueba no sea una prueba sencilla de una compilación actualizada por sí sola, sino que constituye la base de un análisis ab initio del rendimiento del sistema dada su gama de secciones de carga de trabajo de un solo subproceso y de varios subprocesos. Puede encontrar más detalles aquí .

Esta es una nueva prueba, por lo que todavía estamos completando puntos de datos con sistemas que todavía tenemos a mano.

Ciencias

En esta versión de nuestro conjunto de pruebas, todas las pruebas centradas en la ciencia que no son trabajos de “simulación” están ahora en nuestra sección de ciencias. Esto incluye el movimiento browniano, el cálculo de los dígitos de Pi, la dinámica molecular y, por primera vez, estamos probando un punto de referencia de inteligencia artificial, tanto de inferencia como de entrenamiento, que funciona en Windows usando python y TensorFlow. Siempre que ha sido posible, estos puntos de referencia se han optimizado con lo último en instrucciones vectoriales, a excepción de la prueba de inteligencia artificial; nos dijeron que si bien utiliza las bibliotecas de kernel de matemáticas de Intel, están optimizadas más para Linux que para Windows, por lo que da un resultado interesante. cuando se utiliza software no optimizado.

Movimiento de partículas 3D v2.1: No AVX y AVX2 / AVX512

Esta es la última versión de este benchmark diseñado para simular algoritmos científicos semi-optimizados tomados directamente de mi tesis de doctorado. Esto implica el movimiento aleatorio de partículas en un espacio 3D utilizando un conjunto de algoritmos que definen el movimiento aleatorio. La versión 2.1 mejora sobre la 2.0 al pasar las estructuras de partículas principales por referencia en lugar de por valor, y disminuyendo la cantidad de double-> float-> double recasts que el compilador estaba agregando.

La versión inicial de v2.1 es un binario C ++ personalizado de mi propio código, y los indicadores están en su lugar para permitir múltiples bucles del código con una longitud de referencia personalizada. De forma predeterminada, esta versión se ejecuta seis veces y envía la puntuación media a la consola, que capturamos con un operador de redirección que escribe en el archivo.

Para v2.1, también tenemos una versión AVX2 / AVX512 totalmente optimizada, que utiliza elementos intrínsecos para obtener el mejor rendimiento del software. Esto lo hizo un ex ingeniero de Intel AVX-512 que ahora trabaja en otro lugar. Según Jim Keller , solo hay un par de docenas de personas que entienden cómo extraer el mejor rendimiento de una CPU, y este tipo es uno de ellos. Para ser honesto, AMD también tiene una copia del código, pero no ha propuesto ningún cambio.

La prueba 3DPM está configurada para generar millones de movimientos por segundo, en lugar de tiempo para completar un número fijo de movimientos.

Tiger Lake de Intel tiene unidades AVX-512, por lo que están tan por delante en la prueba AVX máxima. Para AMD vs AMD, estamos viendo aproximadamente la misma puntuación entre la generación anterior Zephyrus y el nuevo Flow X13, sin embargo, en multiproceso, el Flow X13 parece retroceder ligeramente.

y-Cruncher 0.78.9506

Si le pregunta a alguien qué tipo de computadora tiene el récord mundial para calcular la mayor cantidad de dígitos de pi, puedo garantizar que una buena parte de esas respuestas podrían apuntar a una supercomputadora colosa construida en una montaña por un supervillano. Afortunadamente, nada podría estar más lejos de la verdad: la computadora con el registro es un servidor Ivy Bridge de cuatro sockets con 300 TB de almacenamiento. El software que se ejecutó para conseguirlo fue y-cruncher.

Construido por Alex Yee durante la última parte de una década y algo más, y-Cruncher es el software preferido para calcular miles de millones y billones de dígitos de las constantes matemáticas más populares. El software ha tenido el récord mundial de Pi desde agosto de 2010, y ha batido el récord un total de 7 veces desde entonces. También tiene registros de e , la proporción áurea y otros. Según Alex, el programa ejecuta alrededor de 500,000 líneas de código, y tiene múltiples binarios, cada uno optimizado para diferentes familias de procesadores, como Zen, Ice Lake, Sky Lake, todo el camino de regreso a Nehalem, usando el último SSE / AVX2 / Instrucciones AVX512 donde encajan y luego optimizadas aún más para la forma en que se construye cada núcleo.

Para nuestros propósitos, estamos calculando Pi, ya que está más limitado al cálculo que a la memoria. En el modo de un solo hilo, calculamos 250 millones de dígitos, mientras que en el modo multiproceso elegimos 2.500 millones de dígitos. Ese valor de 2.500 millones de dígitos requiere ~ 12 GB de DRAM, por lo que está limitado a sistemas con al menos 16 GB.

Intel aquí nuevamente se beneficia de AVX-512, sin embargo, para una gran prueba multiproceso, los ocho núcleos de AMD lo empujan hacia adelante. En comparación con el procesador AMD de la generación anterior, vemos aceleraciones significativas tanto para ST como para MT, lo que muestra los beneficios del nuevo núcleo Zen 3 y el sistema de caché.

NAMD 2.13 (ApoA1): Dinámica molecular

Uno de los campos de la divulgación científica es el modelado de la dinámica de las proteínas. Al observar cómo la energía de los sitios activos dentro de una gran estructura de proteínas a lo largo del tiempo, los científicos detrás de la investigación pueden calcular las energías de activación necesarias para las posibles interacciones. Esto se vuelve muy importante en el descubrimiento de fármacos. La dinámica molecular también juega un papel importante en el plegamiento de proteínas y en la comprensión de lo que sucede cuando las proteínas se pliegan mal y qué se puede hacer para prevenirlo. Dos de los paquetes de dinámica molecular más populares que se utilizan en la actualidad son NAMD y GROMACS.

NAMD, o Nanoscale Molecular Dynamics, ya se ha utilizado en una extensa investigación sobre el coronavirus en la supercomputadora Frontier. Las simulaciones típicas que utilizan el paquete se miden en cuántos nanosegundos por día se pueden calcular con el hardware dado, y la proteína ApoA1 (92,224 átomos) ha sido el modelo estándar para la simulación de dinámica molecular.

Afortunadamente, la computación puede ubicarse en una tasa típica de ‘nanosegundos por día’ después de solo 60 segundos de simulación, sin embargo, lo ampliamos a 10 minutos para tomar un valor más sostenido, ya que para ese momento la mayoría de los límites de turbo deberían superarse. La simulación en sí funciona con pasos de tiempo de 2 femtosegundos. Usamos la versión 2.13 ya que esta era la versión recomendada al momento de integrar este benchmark en nuestra suite. Las últimas compilaciones nocturnas que conocemos han comenzado a habilitar el soporte para AVX-512, sin embargo, debido a la consistencia en nuestro paquete de referencia, estamos reteniendo con 2.13. Otro software con el que probamos tiene aceleración AVX-512.

NAMD también ve buenas aceleraciones, y el procesador móvil de ocho núcleos está al alcance de ese procesador de escritorio de seis núcleos. Intel se queda atrás en la versión 2.13, mientras esperamos que el AVX-512 salga de las versiones alfa del software.

AI Benchmark 0.1.2 con TensorFlow

Encontrar un punto de referencia de inteligencia artificial apropiado para Windows ha sido mi santo grial durante bastante tiempo. El problema es que la IA es una palabra que se mueve tan rápido y de ritmo rápido que cualquier cosa que calcule este trimestre ya no será relevante en el próximo, y una de las métricas clave en este conjunto de evaluaciones comparativas es poder mantener los datos durante un largo período de tiempo. hora. Hemos tenido pruebas de referencia de IA en teléfonos inteligentes durante un tiempo, dado que los teléfonos inteligentes son un mejor objetivo para las cargas de trabajo de IA, pero también tiene sentido que todo en la PC también esté orientado a Linux.

Afortunadamente, sin embargo, la buena gente de ETH Zurich en Suiza ha convertido el punto de referencia de inteligencia artificial de su teléfono inteligente en algo que se puede usar en Windows. Utiliza TensorFlow, y para nuestros propósitos de referencia, hemos bloqueado nuestras pruebas en TensorFlow 2.10, AI Benchmark 0.1.2, mientras usamos Python 3.7.6.

El punto de referencia se ejecuta a través de 19 redes diferentes, incluidas MobileNet-V2, ResNet-V2, VGG-19 Super-Res, NVIDIA-SPADE, PSPNet, DeepLab, Pixel-RNN y GNMT-Translation. Todas las pruebas sondean tanto la inferencia como el entrenamiento en varios tamaños de entrada y tamaños de lote, excepto la traducción que solo hace inferencia. Mide el tiempo necesario para realizar una determinada cantidad de trabajo y, al final, escupe un valor.

Sin embargo, hay una gran advertencia para todo esto. Hablando con la gente de ETH, utilizan las Bibliotecas de Kernel de Matemáticas (MKL) de Intel para Windows y están viendo algunos inconvenientes increíbles. Me dijeron que MKL para Windows no funciona bien con varios subprocesos y, como resultado, cualquier resultado de Windows funcionará mucho peor que los resultados de Linux. Además de eso, después de un número determinado de subprocesos (~ 16), MKL se rinde y el rendimiento cae sustancialmente.

Entonces, ¿por qué probarlo? En primer lugar, porque necesitamos un punto de referencia de IA, y uno malo es mejor que no tener ninguno. En segundo lugar, si MKL en Windows es el problema, entonces al publicar la prueba, podría poner un arranque en algún lugar para que MKL se arregle. Con ese fin, nos quedaremos con el índice de referencia mientras sea factible.

Hay un buen salto para AMD aquí de generación en generación, adelantándolo a Tiger Lake. Sin embargo, con 15 W, Intel parece tener la ventaja.

Pruebas de CPU: simulación

La simulación y la ciencia se superponen mucho en el mundo de la evaluación comparativa, sin embargo, para esta distinción, nos separamos en dos segmentos, principalmente en función de la utilidad de los datos resultantes. Los puntos de referencia que pertenecen a la ciencia tienen un uso distinto para los datos que generan; en nuestra sección de simulación, estos actúan más como sintéticos, pero en algún nivel todavía están tratando de simular un entorno determinado.

DigiCortex v1.35

DigiCortex es un proyecto favorito para la visualización de la actividad neuronal y sinapsis en el cerebro. El software viene con una variedad de modos de referencia, y tomamos la pequeña referencia que ejecuta una simulación de sinapsis de neuronas de 32k / 1.8B, similar a una pequeña babosa.

Los resultados de la salida se dan como una fracción de si el sistema puede simular en tiempo real, por lo que cualquier valor superior a uno es adecuado para el trabajo en tiempo real. El punto de referencia ofrece un modo ‘sin sinapsis sin disparo’, que en esencia detecta la DRAM y la velocidad del bus, sin embargo, tomamos el modo de disparo que agrega trabajo de CPU con cada disparo.

El software se envió originalmente con un punto de referencia que registraba los primeros ciclos y generaba un resultado. Entonces, si bien los procesadores rápidos de múltiples subprocesos hicieron que el punto de referencia durara menos de unos pocos segundos, los procesadores lentos de doble núcleo podrían estar funcionando durante casi una hora. También existe el problema de que DigiCortex comience con un mapa de neurona / sinapsis base en ‘modo apagado’, lo que da un resultado alto en los primeros ciclos, ya que ninguno de los nodos está activo actualmente. Descubrimos que el rendimiento se estabiliza en un estado estable después de un tiempo (cuando el modelo está en uso activo), por lo que le pedimos al autor que permitiera una fase de ‘calentamiento’ y que el punto de referencia fuera el promedio durante un segundo. tiempo de muestra.

Para nuestra prueba, le damos al punto de referencia 20000 ciclos para calentar y luego tomamos los datos durante los siguientes 10000 ciclos segundos para la prueba; en un procesador moderno, esto toma 30 segundos y 150 segundos respectivamente. A continuación, se repite un mínimo de 10 veces y se rechazan los tres primeros resultados. Los resultados se muestran como múltiplos de cálculos en tiempo real.

DigiCortex parece haberle dado brillo a Zen 3, especialmente a los procesadores con un solo chiplet de núcleos. Intel parece no poder competir aquí.

Fortaleza enana 0.44.12

Otra solicitud de larga data para nuestra suite de referencia ha sido Dwarf Fortress, un popular videojuego independiente de gestión / roguelike, lanzado por primera vez en 2006 y que aún se actualiza regularmente hoy, con el objetivo de un lanzamiento de Steam en algún momento en el futuro.

Emulando las interfaces ASCII de antaño, este título es una bestia bastante compleja, que puede generar entornos sujetos a milenios de gobierno, rostros famosos, campesinos y personajes y eventos históricos clave. Cuanto más te adentras en el juego, dependiendo del tamaño del mundo, más lento se vuelve, ya que tiene que simular más personajes famosos, más eventos mundiales y la forma natural en que las criaturas humanoides se apoderan de un entorno. Como una especie de virus.

Para nuestra prueba usamos DFMark. DFMark es un punto de referencia creado por vorsgren en los Bay12Forums que ofrece dos modos diferentes basados ​​en DFHack: generación mundial y embarque. Estas pruebas se pueden configurar, pero oscilan entre 3 minutos y varias horas. Después de analizar la prueba, terminamos eligiendo tres tamaños de generación mundial diferentes:

DFMark genera el tiempo para ejecutar una prueba determinada, por lo que esto es lo que usamos para la salida. Repetimos la prueba pequeña tantas veces como sea posible en 10 minutos, la prueba media tantas veces en 30 minutos y la prueba grande tantas veces en una hora.

(3-2a) Fortaleza enana 0.44.12 Generación mundial 65×65, 250 años(3-2b) Fortaleza enana 0.44.12 World Gen 129×129, 550 años(3-2c) Fortaleza enana 0.44.12 Generación mundial 257×257, 550 años

DF ha sido históricamente un favorito de Intel, y no estamos viendo mucha aceleración para el Zen 3 móvil sobre el Zen 2 móvil aquí.

Emulación Dolphin v5.0

Muchos emuladores a menudo están limitados por el rendimiento de la CPU de un solo hilo, y los informes generales tienden a sugerir que Haswell proporcionó un impulso significativo al rendimiento del emulador. Este punto de referencia ejecuta un programa de Wii que traza una compleja escena en 3D dentro del emulador de Dolphin Wii. El rendimiento en este punto de referencia es un buen indicador de la velocidad de la emulación de la CPU Dolphin, que es una tarea intensiva de un solo núcleo que utiliza la mayoría de los aspectos de una CPU. Los resultados se dan en segundos, donde la propia Wii puntúa 1051 segundos.

La variante de 35W de Cezanne avanza aquí, igualando el procesador de escritorio y un salto de rendimiento considerable con respecto a la generación anterior Renoir.

Pruebas de CPU: renderizado

Las pruebas de renderizado, en comparación con otras, suelen ser un poco más sencillas de digerir y automatizar. Todas las pruebas arrojan algún tipo de puntuación o tiempo, generalmente de una manera obtenible que hace que sea bastante fácil de extraer. Estas pruebas son algunas de las más extenuantes de nuestra lista, debido a la naturaleza altamente enhebrada del renderizado y el trazado de rayos, y pueden consumir mucha energía. Si un sistema no está configurado correctamente para hacer frente a los requisitos térmicos del procesador, los puntos de referencia de renderizado es donde se mostraría más fácilmente a medida que la frecuencia cae durante un período de tiempo sostenido. La mayoría de los puntos de referencia en este caso se vuelven a ejecutar varias veces, y la clave para esto es tener un tiempo de inactividad / espera apropiado entre los puntos de referencia para permitir que las temperaturas se normalicen desde la última prueba.

Blender 2.83 LTS

Una de las herramientas más populares para renderizar es Blender, ya que es un proyecto público de código abierto en el que puede participar cualquier persona en la industria de la animación. Esto se extiende a conferencias, uso en películas y realidad virtual, con un Blender Institute dedicado y todo lo que pueda esperar de un paquete de software profesional (excepto quizás un paquete de soporte de grado profesional). Al ser de código abierto, los estudios pueden personalizarlo de tantas formas como necesiten para obtener los resultados que necesitan. Termina siendo un gran objetivo de optimización tanto para Intel como para AMD en este sentido.

Para fines de evaluación comparativa, recurrimos a una representación de un marco de un proyecto detallado. La mayoría de las revisiones, como hemos hecho en el pasado, se centran en uno de los renders clásicos de Blender, conocido como BMW_27. Puede llevar desde unos pocos minutos hasta casi una hora en un sistema normal. Sin embargo, ahora que Blender ha pasado a un modelo de soporte a largo plazo (LTS) con la última versión 2.83, decidimos optar por algo diferente.

Usamos esta escena, llamada PartyTug a las 6AM por Ian Hubert , que es la imagen oficial de Blender 2.83. Tiene un tamaño de 44,3 MB y utiliza algunas de las propiedades informáticas más modernas de Blender. Como es más complejo que la escena de BMW, pero usa diferentes aspectos del modelo de cálculo, el tiempo de procesamiento es aproximadamente similar al anterior. Repetimos la escena durante al menos 10 minutos, tomando el tiempo medio de las terminaciones realizadas. Blender ofrece una herramienta de línea de comandos para comandos por lotes y redirigimos la salida a un archivo de texto.

Intel pierde aquí debido al recuento de núcleos, pero AMD muestra un aumento pequeño pero no intrascendente en el rendimiento de generación en generación.

Corona 1.3

Corona se anuncia como un popular motor de renderizado fotorrealista de alto rendimiento para 3ds Max, con desarrollo también para compatibilidad con Cinema 4D. Para promocionar el software, los desarrolladores produjeron un punto de referencia descargable en la versión 1.3 del software, con una escena trazada por rayos que involucra un vehículo militar y mucho follaje. El software hace múltiples pasadas, calculando la escena, geometría, preacondicionamiento y renderizado, con el rendimiento medido en el tiempo para terminar el benchmark (la métrica oficial utilizada en su sitio web) o en rayos por segundo (la métrica que usamos para ofrecer una escala).

El punto de referencia estándar proporcionado por Corona se basa en la interfaz: la escena se calcula y se muestra frente al usuario, con la capacidad de cargar el resultado en su base de datos en línea. Nos pusimos en contacto con los desarrolladores, quienes nos proporcionaron una versión sin interfaz que permitió la entrada de la línea de comandos y la recuperación de los resultados con mucha facilidad. Damos la vuelta al punto de referencia cinco veces, esperando 60 segundos entre cada una y tomando un promedio general. El tiempo para ejecutar este punto de referencia puede ser de alrededor de 10 minutos en un Core i9, hasta más de una hora en un procesador AMD 2014 de cuatro núcleos o Pentium de doble núcleo.

Corona muestra un gran impulso para Cezanne en comparación con Renoir.

Jugabilidad solo con CPU de Crysis

Uno de los memes más utilizados en los juegos de computadora es ‘Can It Run Crysis?’. El juego original de 2007, construido en el motor Crytek por Crytek, fue anunciado como un título computacionalmente complejo para el hardware en ese momento y varios años después, lo que sugiere que un usuario necesitaba hardware de gráficos del futuro para ejecutarlo. Avance rápido durante más de una década, y el juego se ejecuta con bastante facilidad en las GPU modernas.

Pero, ¿podemos aplicar el mismo concepto al renderizado puro de CPU? ¿Puede una CPU, por sí sola, renderizar Crysis? Desde que ingresaron al mercado 64 procesadores de núcleo, uno puede soñar. Así que creamos un punto de referencia para ver si el hardware puede hacerlo.

Para esta prueba, estamos ejecutando el punto de referencia de GPU de Crysis, pero en modo de procesamiento de CPU.

Con estas resoluciones, estamos viendo un pequeño impulso para Cezanne. Detectamos un problema de rendimiento al ejecutar nuestra prueba de 320×200 en el que Cezanne obtiene una puntuación relativamente baja (20 FPS frente a Renoir a 30 FPS), por lo que estamos investigando ese problema de rendimiento.

POV-Ray 3.7.1

Un elemento básico de referencia desde hace mucho tiempo, POV-Ray es otro programa de renderizado que es bien conocido por cargar cada hilo en un sistema, independientemente de los niveles de memoria caché y memoria. Después de un largo período en el que POV-Ray 3.7 fue el último lanzamiento oficial, cuando AMD lanzó Ryzen, el código base de POV-Ray de repente vio un rango de actividad tanto de AMD como de Intel, sabiendo que el software (con el punto de referencia incorporado) sería una herramienta de optimización para el hardware.

Tuvimos que poner una bandera en la arena cuando se trataba de seleccionar la versión que fuera justa tanto para AMD como para Intel, y que siguiera siendo relevante para los usuarios finales. La versión 3.7.1 corrige un error significativo en el código de principios de 2017 que se desaconsejó en los manuales de Intel y AMD con respecto a la escritura después de la lectura, lo que dio lugar a un buen aumento del rendimiento.

El punto de referencia puede tardar más de 20 minutos en un sistema lento con pocos núcleos, o alrededor de uno o dos minutos en un sistema rápido, o segundos con un EPYC de recuento doble de alto núcleo. Debido a que POV-Ray consume una gran cantidad de energía y corriente, es importante asegurarse de que el enfriamiento sea suficiente aquí y que el sistema permanezca en su estado de alta potencia. El uso de una placa base con un suministro de energía deficiente y un flujo de aire bajo podría crear un problema que no será obvio en algunas posiciones de la CPU si el límite de energía solo causa una caída de 100 MHz a medida que cambia los estados P.

V-Ray

Ya tenemos un par de renderizadores y trazadores de rayos en nuestra suite, sin embargo, el punto de referencia de V-Ray obtuvo un punto de referencia solicitado lo suficiente como para que lo pudiéramos implementar en nuestra suite. Construido por ChaosGroup, V-Ray es un paquete de renderizado 3D compatible con una serie de aplicaciones de imágenes comerciales populares, como 3ds Max, Maya, Undreal, Cinema 4D y Blender.

Ejecutamos la aplicación de referencia independiente estándar , pero de forma automatizada para obtener el resultado en forma de kilomuestras / segundo. Realizamos la prueba seis veces y tomamos un promedio de los resultados válidos.

Otro buen golpe en el rendimiento aquí para Cezanne.

Cinebench R20

Otro establo común de una suite de referencia es Cinebench. Basado en Cinema4D, Cinebench es una máquina de referencia especialmente diseñada que procesa una escena con opciones de subproceso único y múltiple. La escena es idéntica en ambos casos. La versión R20 significa que apunta a Cinema 4D R20, una versión un poco más antigua del software que actualmente se encuentra en la versión R21. Cinebench R20 se lanzó dado que la versión R15 había estado disponible durante mucho tiempo y, a pesar de la diferencia entre el punto de referencia y la última versión del software en el que se basa, los resultados de Cinebench a menudo se citan mucho en los materiales de marketing.

Los resultados de Cinebench R20 no son comparables a los de R15 o anteriores, porque tanto la escena que se utiliza es diferente, como las actualizaciones en el baño de códigos. Los resultados se generan como una puntuación del software, que es directamente proporcional al tiempo empleado. Utilizando los indicadores de referencia para cargas de trabajo de una sola CPU y varias CPU, ejecutamos el software desde la línea de comandos que abre la prueba, la ejecuta y descarga el resultado en la consola que se redirige a un archivo de texto. La prueba se repite durante un mínimo de 10 minutos tanto para ST como para MT, y luego se promedian las ejecuciones.

No alcanzamos del todo el rendimiento promovido de AMD de 600 pts aquí en un solo hilo, y Tiger Lake de Intel no se queda atrás. De hecho, nuestro MSI Prestige 14 Evo, a pesar de estar listado como un procesador sostenido de 35W, no parece alcanzar los mismos niveles de potencia de un solo núcleo que nuestro diseño de referencia, y como resultado, el diseño de referencia de Intel está superando tanto a MSI como a ASUS en un solo hilo. Esto desaparece en multiproceso, pero es importante tener en cuenta que diferentes computadoras portátiles tendrán diferentes modos de energía de un solo núcleo.

Pruebas de CPU: codificación

Uno de los elementos interesantes de los procesadores modernos es el rendimiento de la codificación. Esto cubre dos áreas principales: cifrado / descifrado para la transferencia segura de datos y transcodificación de video de un formato de video a otro.

En el escenario de cifrado / descifrado, cómo se transfieren los datos y por qué mecanismo es pertinente para el cifrado sobre la marcha de datos confidenciales, un proceso mediante el cual los dispositivos más modernos se están inclinando por la seguridad del software.

La transcodificación de video como herramienta para ajustar la calidad, el tamaño del archivo y la resolución de un archivo de video ha experimentado un auge en los últimos años, como por ejemplo, al proporcionar el video óptimo para los dispositivos antes del consumo o para los transmisores de juegos que desean cargar la salida desde su cámara de video en tiempo real. A medida que pasamos al video 3D en vivo, esta tarea solo se volverá más agotadora y resulta que el rendimiento de ciertos algoritmos es una función de la entrada / salida del contenido.

HandBrake 1.32

La transcodificación de video (codificación y decodificación) es un tema candente en las métricas de rendimiento a medida que se crea más y más contenido. La primera consideración es el estándar en el que se codifica el video, que puede ser sin pérdida o con pérdida, cambiar el rendimiento por el tamaño del archivo, cambiar la calidad por el tamaño del archivo, o todo lo anterior puede aumentar las tasas de codificación para ayudar a acelerar las tasas de decodificación. Junto a los códecs favoritos de Google, VP9 y AV1, hay otros que destacan: H264, el códec más antiguo, está prácticamente en todas partes y está diseñado para ser optimizado para video de 1080p, y HEVC (o H.265) que tiene como objetivo proporcionar lo mismo. calidad como H264 pero con un tamaño de archivo menor (o mejor calidad para el mismo tamaño). HEVC es importante ya que 4K se transmite por aire, lo que significa que se deben transferir menos bits para obtener el mismo contenido de calidad.Hay otros códecs que llegan al mercado diseñados para casos de uso específicos todo el tiempo.

Handbrake es una herramienta preferida para la transcodificación, y las versiones posteriores utilizan grandes cantidades de API más nuevas para aprovechar los coprocesadores, como las GPU. Está disponible en Windows a través de una interfaz o se puede acceder a través de la línea de comandos, y esta última facilita nuestras pruebas, con un operador de redirección para la salida de la consola.

Tomamos la versión compilada de este video de YouTube de 16 minutos sobre CPU rusas a 1080p30 h264 y lo convertimos en tres archivos diferentes: (1) 480p30 ‘Discord’, (2) 720p30 ‘YouTube’ y (3) 4K60 HEVC.

Los subprocesos ganan, aunque la diferencia de + 30 W con el procesador de escritorio con dos núcleos menos no se puede revisar. Casi aunque.

7-Zip 1900

La primera herramienta comparativa de compresión que utilizamos es el 7-zip de código abierto, que normalmente ofrece un buen escalado en varios núcleos. 7-zip es la herramienta de compresión más citada por los lectores como una de las que preferirían ver los puntos de referencia, y el programa incluye una herramienta de referencia incorporada tanto para la compresión como para la descompresión.

La herramienta se puede ejecutar desde el interior del software o mediante la línea de comandos. Tomamos la última ruta porque es más fácil de automatizar, obtener resultados y pasar por nuestro proceso. Los indicadores de línea de comando disponibles ofrecen una opción para ejecuciones repetidas, y la salida proporciona el promedio automáticamente a través de la consola. Dirigimos esta salida a un archivo de texto y regexizamos los valores requeridos para la compresión, descompresión y una puntuación combinada.

Codificación AES

Los algoritmos que utilizan codificación AES se han extendido por todas partes como una herramienta omnipresente para el cifrado. Una vez más, esta es otra prueba limitada de CPU, y las CPU modernas tienen vías AES especiales para acelerar su rendimiento. A menudo vemos escalado tanto en frecuencia como en núcleos con este punto de referencia. Usamos la última versión de TrueCrypt y ejecutamos su modo de referencia en 1 GB de datos en DRAM. Los resultados que se muestran son el promedio de GB / s de cifrado y descifrado.

Para nuestra prueba AES aquí, en realidad tuvimos una pequeña regresión en el rendimiento. Esto podría significar que hay impactos de rendimiento adicionales al acceder a la unidad AES esta vez, o que la DDR4 de menor latencia del Zephyrus está superando al LPDDR4 en nuestro Flow X13.

WinRAR 5.90

Para el conjunto de pruebas de 2020, pasamos a la última versión de WinRAR en nuestra prueba de compresión. WinRAR en algunos sectores es más fácil de usar que 7-Zip, de ahí su inclusión. En lugar de usar un modo de referencia como hicimos con 7-Zip, aquí tomamos un conjunto de archivos representativos de una pila genérica

• 33 archivos de video, cada 30 segundos, en 1.37 GB,
• 2834 archivos de sitios web más pequeños en 370 carpetas en 150 MB,
• 100 pistas de música Beat Sabre y archivos de entrada, para 451 MB

Se trata de una mezcla de formatos comprimibles e incompresibles. Los resultados que se muestran son el tiempo necesario para codificar el archivo. Debido al almacenamiento en caché de DRAM, ejecutamos la prueba durante 20 minutos y tomamos el promedio de las últimas cinco ejecuciones cuando el punto de referencia está en un estado estable.

Para la automatización, utilizamos las herramientas de temporización internas de AHK desde que se inicia la carga de trabajo hasta que se cierra la ventana que indica el final. Esto significa que los resultados están contenidos dentro de AHK, con un promedio de los últimos 5 resultados que es bastante fácil de calcular.

Otro pequeño aumento de rendimiento para WinRAR.

Pruebas de CPU: heredado y web

Para recopilar datos para compararlos con puntos de referencia anteriores, todavía mantenemos una serie de pruebas en nuestra sección ‘heredada’. Esto incluye todas las versiones principales anteriores de CineBench (R15, R11.5, R10), así como x264 HD 3.0 y la primera versión muy ingenua de 3DPM v2.1. No transferiremos los datos de las pruebas anteriores a Bench, de lo contrario, se llenaría con 200 CPU con solo un punto de datos, por lo que se llenará a medida que probamos más CPU como las demás.

La otra sección aquí son nuestras pruebas web.

Pruebas web: Kraken, Octane y velocímetro

La evaluación comparativa con herramientas web siempre es un poco difícil. Los navegadores cambian casi a diario y la forma en que se utiliza la web cambia aún más rápido. Si bien existe cierto margen para los puntos de referencia basados ​​en computación avanzados, la mayoría de los usuarios se preocupan por la capacidad de respuesta, lo que requiere un back-end sólido para trabajar rápidamente y proporcionarlo en el front-end. Los puntos de referencia que elegimos para nuestras pruebas web son esencialmente estándares de la industria, al menos una vez.

Cabe señalar que para cada prueba, el navegador se cierra y se vuelve a abrir uno nuevo con un caché nuevo. Usamos una versión fija de Chromium para nuestras pruebas con las capacidades de actualización eliminadas para garantizar la coherencia.

Mozilla Kraken 1.1

Kraken es un punto de referencia de 2010 de Mozilla y realiza una serie de pruebas de JavaScript. Estas pruebas son un poco más complicadas que las pruebas anteriores, y analizan la inteligencia artificial, la manipulación de audio, la manipulación de imágenes, el análisis json y las funciones criptográficas. El punto de referencia comienza con una descarga inicial de datos para el audio y las imágenes, y luego se ejecuta 10 veces dando un resultado cronometrado.

Repasamos la prueba de 10 ejecuciones cuatro veces (por lo que es un total de 40 ejecuciones) y promediamos los cuatro resultados finales. El resultado se da como tiempo para completar la prueba, y estamos alcanzando un límite asintótico lento con respecto a los procesadores IPC más altos.

Google Octane 2.0

Nuestra segunda prueba también está basada en JavaScript, pero utiliza mucha más variación de las técnicas JS más nuevas, como la programación orientada a objetos, la simulación del kernel, la creación / destrucción de objetos, la recolección de basura, las manipulaciones de matrices, la latencia del compilador y la ejecución de código.

Octane se desarrolló después de la interrupción de otras pruebas, con el objetivo de ser más similar a una web que las pruebas anteriores. Ha sido un punto de referencia popular, lo que lo convierte en un objetivo obvio para las optimizaciones en los motores JavaScript. En última instancia, se retiró a principios de 2017 debido a esto, aunque todavía se usa ampliamente como una herramienta para determinar el rendimiento general de la CPU en una serie de tareas web.

Velocímetro 2: marcos de JavaScript

Nuestra prueba web más reciente es el Speedometer 2 , que es una prueba sobre una serie de marcos de JavaScript para hacer tres cosas simples: crear una lista, habilitar cada elemento de la lista y eliminar la lista. Todos los marcos implementan las mismas señales visuales, pero obviamente las aplican desde diferentes ángulos de codificación.

Nuestra prueba pasa por la lista de marcos y produce una puntuación final indicativa de ‘rpm’, una de las métricas internas de referencia.

Repetimos sobre el punto de referencia durante una docena de bucles, tomando el promedio de los últimos cinco.

Pruebas heredadas

Pruebas de CPU: sintéticas y SPEC

La mayoría de las personas en nuestra industria tienen una relación de amor / odio cuando se trata de pruebas sintéticas. Por un lado, a menudo son buenos para resúmenes rápidos de rendimiento y son fáciles de usar, pero la mayoría de las veces las pruebas no están relacionadas con ningún software real. Las pruebas sintéticas suelen ser muy buenas para profundizar en un conjunto específico de instrucciones y maximizar el rendimiento de ellas. Debido a las solicitudes de varios de nuestros lectores, tenemos las siguientes pruebas sintéticas.

Velocidad de Linux OpenSSL: SHA256

Uno de nuestros lectores se acercó a principios de 2020 y declaró que estaba interesado en ver las tasas de hash de OpenSSL en Linux. Afortunadamente, OpenSSL en Linux tiene una función llamada ‘velocidad’ que permite al usuario determinar qué tan rápido es el sistema para cualquier algoritmo hash dado, así como firmar y verificar mensajes.

OpenSSL ofrece una gran cantidad de algoritmos para elegir y, según una encuesta rápida de Twitter , lo redujimos a lo siguiente:

Para cada una de estas pruebas, las ejecutamos en modo de subproceso único y multiproceso. Todos los gráficos están en nuestra base de datos de referencia, Bench , y usamos los resultados de sha256 en las revisiones publicadas.

GeekBench 5

Como herramienta común para las pruebas multiplataforma entre dispositivos móviles, PC y Mac, GeekBench es un ejercicio definitivo de pruebas sintéticas en una variedad de algoritmos que buscan un rendimiento máximo. Las pruebas incluyen cifrado, compresión, transformada rápida de Fourier, operaciones de memoria, física de n-cuerpos, operaciones matriciales, manipulación de histogramas y análisis de HTML.

Desafortunadamente, no vamos a incluir los resultados de Intel GB5 en esta revisión, aunque puede encontrarlos dentro de nuestra base de datos de referencia. La razón detrás de esto se debe a la aceleración AVX512 de la prueba AES de GB5; esto causa una diferencia sustancial en el rendimiento en cargas de trabajo de un solo subproceso que, por lo tanto, la prueba secundaria sesga por completo cualquiera de los resultados de Intel hasta el punto de literalmente absurdo. AES no es tan importante como una carga de trabajo del mundo real, por lo que el hecho de que oscurece el resto de las subpruebas de GB5 hace que las comparaciones de puntajes generales con las CPU Intel con AVX512 instalado sean irrelevantes para sacar conclusiones. Esto también es importante para futuras comparaciones de CPU de Intel, como Rocket Lake, que tendrá AVX512 instalado. Los usuarios deben pedir ver las puntuaciones de las subpruebas o una versión de GB5 donde se elimine la prueba AES.

Para aclarar el punto sobre AES. El Core i9-10900K puntúa 1878 en la prueba AES, mientras que 1185G7 puntúa 4149. Si bien no estamos necesariamente en contra del uso de aceleradores, especialmente dado que el futuro se basará en cuántos y cuán eficientes funcionan estos aceleradores (podemos argumentan si AVX-512 es eficiente en comparación con el silicio dedicado), el problema surge de una prueba combinada como GeekBench en la que condensa varias pruebas diferentes (alrededor de 20) en un solo número del que se pretende sacar conclusiones. Si una prueba se acelera lo suficiente como para sesgar el resultado final, entonces, en lugar de ser una representación de un conjunto de pruebas, esa única prueba se convierte en la conclusión a instancias de las demás, y es en ese punto que la prueba debe eliminarse y colocarse por sí mismo.GeekBench 4 tenía pruebas de memoria que se eliminaron para Geekbench 5 por razones similares, y si hubiera una sexta iteración de GeekBench, nuestra recomendación es que la criptografía se elimine por razones similares. Hay cientos de algoritmos de criptografía para optimizar, pero en el caso de que una prueba popular se enfoque en un solo algoritmo, entonces se convierte en un objetivo de optimización y pierde sentido cuando el ecosistema más amplio usa abrumadoramente otros algoritmos de criptografía.que luego se convierte en un objetivo de optimización y deja de tener sentido cuando el ecosistema más amplio utiliza abrumadoramente otros algoritmos de criptografía.que luego se convierte en un objetivo de optimización y deja de tener sentido cuando el ecosistema más amplio utiliza abrumadoramente otros algoritmos de criptografía.

Pruebas de CPU: SPEC

SPEC2017 y SPEC2006 es una serie de pruebas estandarizadas que se utilizan para probar el rendimiento general entre diferentes sistemas, diferentes arquitecturas, diferentes microarquitecturas y configuraciones. El código debe compilarse y luego los resultados pueden enviarse a una base de datos en línea para su comparación. Cubre un rango de cargas de trabajo enteras y de punto flotante, y puede estar muy optimizado para cada CPU, por lo que es importante verificar cómo se compilan y ejecutan los puntos de referencia.

Ejecutamos las pruebas en un arnés construido a través del Subsistema de Windows para Linux, desarrollado por nuestro propio Andrei Frumusanu. WSL tiene algunas peculiaridades extrañas, con una prueba que no se ejecuta debido a un tamaño de pila fijo de WSL, pero para las pruebas similares es lo suficientemente bueno. SPEC2006 está en desuso a favor de 2017, pero sigue siendo un punto de comparación interesante en nuestros datos. Debido a que nuestras puntuaciones no son presentaciones oficiales, de acuerdo con las pautas de SPEC, tenemos que declararlas como estimaciones internas de nuestra parte.

Para los compiladores, usamos LLVM tanto para C / C ++ como para pruebas de Fortan, y para Fortran usamos el compilador Flang. La razón fundamental de utilizar LLVM sobre GCC son mejores comparaciones multiplataforma con plataformas que solo tienen soporte LLVM y artículos futuros donde investigaremos más este aspecto. No estamos considerando compiladores de código cerrado como MSVC o ICC.

clang versión 10
clang versión 7.0.1 (ssh: //git@github.com/flang-compiler/flang-driver.git 24bd54da5c41af04838bbe7b68f830840d47fc03)

-Fast -fomit-frame-pointer
-march = x86-64
-mtune = core-avx2
-mfma -mavx -mavx2

Nuestros indicadores del compilador son sencillos, con conmutadores ISA básicos, rápidos y relevantes para permitir instrucciones AVX2. Decidimos construir nuestros binarios SPEC en AVX2, lo que pone un límite a Haswell en cuanto a la edad que podemos tener antes de que caigan las pruebas. Esto también significa que no tenemos binarios AVX512, principalmente porque para obtener el mejor rendimiento, el intrínseco AVX-512 debe ser empaquetado por un experto adecuado, como con nuestro punto de referencia AVX-512. Todos los principales proveedores, AMD, Intel y Arm, son compatibles con la forma en que estamos probando SPEC.

Cabe señalar que los requisitos para la licencia SPEC establecen que cualquier resultado de referencia de SPEC debe etiquetarse como “estimado” hasta que se verifique en el sitio web de SPEC como una representación significativa del rendimiento esperado. Esto lo hacen con mayor frecuencia las grandes empresas y los OEM para mostrar el rendimiento a los clientes, sin embargo, es bastante exagerado para lo que hacemos como revisores.

Para cada uno de los objetivos de SPEC que estamos haciendo, SPEC2006 rate-1, SPEC2017 speed-1 y SPEC2017 speed-N, en lugar de publicar todos los datos de prueba separados en nuestras revisiones, los vamos a condensar en algunos datos interesantes puntos. Los valores completos por prueba se encuentran en nuestra base de datos de referencia .

IGP: pruebas de juegos de 720p

Probar nuestra muestra de Cezanne para gráficos integrados es una espada de doble filo: AMD espera que esta CPU se combine con una solución discreta en casi todos los entornos de portátiles, mientras que los diseños de mini PC pueden ser una combinación de integrados y discretos. Los gráficos integrados en este silicio están más orientados a los procesadores de la serie U a 15 W, y ahí es donde se encuentran las optimizaciones. También encontramos un entorno similar cuando probamos Renoir a 35 W el año pasado.

Para habilitar los gráficos integrados en nuestro sistema ASUS ROG Flex X13, deshabilitamos la GTX 1650 a través del administrador de dispositivos. Esto obliga al sistema a ejecutarse en los gráficos Vega 8 en el interior, que para este procesador funciona a 2100 MHz, un salto de +350 MHz con respecto a la generación anterior basado en la administración de energía mejorada y mejoras menores de fabricación. Hicimos lo mismo con los otros sistemas de nuestra suite de pruebas.

Los gráficos integrados a lo largo de los años se han ido construyendo desde algo apenas utilizable en un entorno de escritorio 2D hasta un hardware que puede ejecutar competitivamente los títulos de eSports más populares con buenas resoluciones, configuraciones medias y velocidades de fotogramas reproducibles. En nuestra revisión reciente de las APU de escritorio Ryzen 4000G de AMD , notamos que estas eran las mejores APU de escritorio que el dinero podía comprar, retenidas en este punto principalmente por el ancho de banda de la memoria, pero aún permitiendo un buen rendimiento. En última instancia, los gráficos integrados de hoy en día han canibalizado el mercado de GPU de menos de $ 100, y este tipo de procesadores funcionan muy bien en versiones de bajo presupuesto. Todavía hay un camino por recorrer en rendimiento, y al menos los procesadores móviles ayudan en ese sentido a medida que más sistemas avanzan hacia sistemas de memoria LPDDR4X que ofrecen un mejor ancho de banda de memoria.

Para nuestras pruebas de gráficos integrados, utilizamos nuestra configuración más baja para nuestras comparaciones de juegos. Por lo general, esto significa la configuración más baja de resolución y fidelidad de gráficos que podemos conseguir, lo que, para ser honesto, sigue siendo mucho mejor visualmente que cuando jugaba Counter Strike 1.5 con mi netbook de doble núcleo a finales de la década de 2000. A partir de ahí, el objetivo es mostrar un buen rendimiento gráfico vinculado con el rendimiento de la CPU para ver dónde están los límites: incluso a 720p en configuraciones bajas, algunos de estos procesadores todavía tienen gráficos limitados.

A pesar de que el Ryzen 9 5980HS tiene memoria LPDDR4X y frecuencia adicional, la mejora del rendimiento frente al Ryzen 9 4900HS es relativamente mediocre: algunos FPS en el mejor de los casos, o perdiendo algunos FPS en el peor. Esto es a excepción de GTA, donde el aumento es más de ~ 20%, con los núcleos Zen 3 ayudando más aquí. En la mayoría de las pruebas, es una victoria fácil contra la mejor solución X e de Intel , excepto en Gears Tactics, que se alinea fuertemente con la solución Intel.

Con todo lo dicho, como se mencionó, es más probable que las partes de Ryzen 9 aquí se combinen con soluciones de gráficos discretos. El ASUS ROG Flow X13 que estamos usando hoy tiene una GTX 1650, mientras que el ASUS Zephyrus G14 con el 4900HS tiene un RTX 2060. Estos escenarios son los que realmente dictan la solución de enfriamiento en estos sistemas, así como cómo se usan ambos en las cargas de trabajo. que requiere rendimiento de CPU y GPU.

Para cualquier usuario confundido sobre por qué ejecutamos con esta configuración; Estos son nuestros ajustes de clase ‘IGP’ bajos en nuestro formato de prueba de CPU Gaming. Como se mencionó en nuestro nuevo artículo de CPU Suite a mediados del año pasado, nuestras pruebas de CPU Gaming tienen cuatro conjuntos de configuraciones: 720p bajo (o más bajo), 1440p bajo, 4K bajo y 1080p máximo. El segmento por encima de nuestro nivel más bajo en nuestra suite es 1440p, que para muchas de estas GPU integradas pondría los números en los dos dígitos bajos, si no más bajos, algo que hemos hecho en el pasado a quejas masivas sobre por qué molestarnos con números de velocidad de fotogramas tan bajos. El punto aquí es trabajar desde una velocidad de fotogramas máxima, ver si el juego se puede jugar para empezar, y luego detectar en qué parte del juego puede estar el cuello de botella; en algunas de estas pruebas todavía estamos lidiando con cuellos de botella de GPU / DRAM. He jugado CSS1.5 y otros juegos en una fiesta Lan en netbooks AMD de doble núcleo a fines de la década de 2000, teniendo que usar paquetes de textura de baja resolución para que se pueda reproducir incluso a 20 FPS. Todavía me divertí muchísimo. A partir de estos números, puede ver las mejores velocidades de fotogramas posibles para un título y motor determinados, y trabajar desde allí. Proporciona un punto de partida para más direcciones. De todos modos, estos procesadores se combinan más a menudo con soluciones discretas, lo que hace que las discusiones sobre el rendimiento de IGP sean casi algo triviales en comparación con el resto de los datosProporciona un punto de partida para más direcciones. De todos modos, estos procesadores se combinan más a menudo con soluciones discretas, lo que hace que las discusiones sobre el rendimiento de IGP sean casi algo triviales en comparación con el resto de los datosProporciona un punto de partida para más direcciones. De todos modos, estos procesadores se combinan más a menudo con soluciones discretas, lo que hace que las discusiones sobre el rendimiento de IGP sean casi algo triviales en comparación con el resto de los datos/

Centrándose en experiencias premium

El problema con la estrategia de portátiles de AMD durante la década de 2010 fue que la mayoría de los usuarios veían la marca como una implementación de bajo presupuesto, con bajo rendimiento y bajas especificaciones. Tanto AMD como sus socios OEM fueron cómplices de ayudar en esta proyección, utilizando pantallas TN de 1366×768 y discos duros mecánicos lentos. Hubo una serie de ciclos de retroalimentación negativa que impidieron que un buen sistema móvil AMD llegara al mercado, y los únicos triunfos clave en el diseño fueron las ventas corporativas masivas. Con el lanzamiento del primer Ryzen Mobile hacia el final de la década, AMD finalmente tuvo un producto de rendimiento digno de atención, y la compañía ha tenido una mejora constante de generación en generación, convenciendo a sus socios OEM para que vengan y aprovechen la mejora del rendimiento para sus clientes.

Los mínimos históricos de AMD en esa década de 2010 fueron el rendimiento, las especificaciones y la duración de la batería. Con Ryzen 4000 Mobile, de la última generación, AMD tenía un producto que podía disipar todas esas suposiciones, y vimos elogios de la crítica sobre dispositivos como el Lenovo Slim 7 Yoga y el ASUS Zephyrus G14. De nuestra revisión de la nueva generación de hoy, Ryzen 5000 Mobile, toda la estrategia que está jugando AMD finalmente se ha enfocado.

AMD declaró que los procesadores Ryzen 5000 Mobile de nueva generación estaban en el laboratorio y en funcionamiento solo dos meses después del lanzamiento de Ryzen 4000 Mobile. AMD hizo que ambos conjuntos de procesadores fueran compatibles con pines, lo que permitió a los socios OEM crear diseños que podrían usarse para cualquiera de las familias de procesadores. La clave aquí de la que me he dado cuenta es que el objetivo final de AMD con estos era construir una sólida familia Ryzen 5000 Mobile, y Ryzen 4000 Mobile era una opción para que los socios dieran pequeños pasos, pero el objetivo principal era Ryzen 5000, con Zen 3. .La declaración de AMD de que ya tiene más de 150 diseños de sistemas en funcionamiento con Ryzen 5000 Mobile, otro + 50% sobre la generación anterior, junto con esta estrategia de tener una cadencia predecible regular de productos a través de la reutilización de diferentes elementos de hardware muestra por qué Ryzen 5000 Mobile es importante para la empresa.Con los recientes problemas de suministro de AMD también, creemos que AMD ha estado almacenando estos procesadores Ryzen 5000 Mobile para permitir un sólido lanzamiento de la plataforma en el primer y segundo trimestre con stock para todos los OEM.

Lo que probamos hoy es uno de los buques insignia de AMD para su lanzamiento, el Ryzen 9 5980HS dentro del ASUS ROG Flow X13. Esta es una computadora portátil ultraportátil para juegos de menos de 16 mm con una GPU discreta de rango medio instalada, una impresionante pantalla IPS con certificación Pantone 4K 16:10, memoria LPDDR4X de 32 GB y un SSD NVMe de 1 TB. También tiene una sensación y un diseño ejecutivos, lo que indica que tanto AMD como ASUS quieren llevar esta plataforma a sus clientes más premium. Dejamos una revisión completa de la computadora portátil para una fecha posterior, centrémonos en el rendimiento del procesador en su interior.

El salto de Zen 2 a Zen 3 en el espacio móvil para AMD es más que simplemente poner los nuevos núcleos. El ajuste de caché de un caché L3 dividido de 4 + 4 MB a un caché L3 unificado de 16 MB permite una latencia más efectiva y menos dependencia de ir constantemente a la memoria principal; AMD también es agresivo con las políticas de captura previa de L3 para impulsar el rendimiento. Podemos ver que el CCX único de 8 núcleos tiene una baja latencia de comunicación de núcleo a núcleo, lo que demuestra que las cargas de trabajo de nivel entusiasta se beneficiarán en más de un sentido.

AMD también está acumulando mejoras para ayudar con la energía, como habilitar diferentes niveles de voltaje por núcleo y un controlador de memoria más eficiente. El control de voltaje por núcleo es algo que toda CPU moderna debe tener (o al menos islas de CPU) para obtener el mejor rendimiento de la batería. AMD está emparejando esto con su soporte CPPC2, y los usuarios se beneficiarán de un rendimiento muy rápido de inactivo a turbo para una respuesta inmediata.

Para nuestro conjunto de pruebas, casi todas nuestras pruebas muestran una mejora para la nueva serie Ryzen 5000 Mobile, algunas considerablemente: nuestra prueba de compilación es + 12%, la representación de Corona es + 18%, la emulación Dolphin + 17%, NAMD + 8% , Licuadora + 6%. Para nuestra sorpresa, nuestro punto de referencia SPEC2006 1T es + 32%, acelerado considerablemente por la caché L3 de 16 MB, pero también porque estas CPU también admiten modos turbo de mayor potencia instantánea que la generación anterior. Esto permite algunos números de rendimiento competitivos contra la plataforma Tiger Lake de Intel en pruebas enfocadas en un solo hilo (AMD gana en multiproceso con bastante facilidad).

Todas estas actualizaciones centrales, así como los triunfos en el diseño que permiten un mejor hardware bajo el capó, colocan a la serie Ryzen 5000 Mobile de AMD en una buena posición para impulsar una generación de máquinas, especialmente a medida que más y más de nosotros trabajamos desde casa. Cuando Intel se encontraba en un período de alta demanda durante 2018 y 2019, Intel se centró en soluciones premium para obtener la mayor cantidad de ingresos: Los datos financieros de Intel de la semana pasada mostraron que la compañía estaba vendiendo cada vez más portátiles y Chromebooks de gama baja centrados en la educación, ahora que la demanda se había reducido. Podemos aplicar algo similar a la situación actual de AMD: el silicio de AMD tiene una gran demanda para 2021, por lo que el objetivo de AMD este año parecería ser más máquinas de gama media, comerciales premium y entusiastas. Para reafirmar esto, AMD también ha prometido que veremos portátiles este año emparejados con las tarjetas gráficas móviles más potentes, lo que permitirá a los jugadores de alto rendimiento pasarse a AMD. Sin duda tendremos un número en nuestras manos durante el año, especialmente cuando salgan a la venta a partir de febrero.

Pruebas de TechSpot

Acelerado

Juego

Resumen comaprativo

Una respuesta a «AMD Ryzen 9 5980HS Cezanne: Ryzen 5000 Mobile a prueba»

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *