Revisión del AMD Threadripper 3990X de 64 núcleos

El reciente renacimiento de AMD como la opción de rendimiento en el mercado x86 de alta gama ha sido excelente para los consumidores, permitiendo una segunda oferta en la parte superior del mercado. Donde Intel ofrece 28 núcleos, AMD ofrece 24 y 32 piezas centrales para el escritorio de gama alta, y para frotar sal en la herida, ahora hay una oferta de 64 núcleos. Esta CPU no es barata: el Ryzen Threadripper 3990X cuesta $3990 en el comercio minorista, más que cualquier otro procesador de escritorio de gama alta en la historia, pero con él AMD tiene como objetivo proporcionar el mejor procesador de consumo de un solo socket que el dinero pueda comprar. Lo ponemos a prueba, y aunque destruye a la competencia, existen algunos problemas al tener tantos núcleos en un solo sistema.

Quiero rendimiento, cuáles son mis opciones

El nuevo AMD Ryzen Threadripper 3990X es un procesador de 64 núcleos y 128 hilos diseñado para el mercado de computadoras de escritorio de alta gama. La CPU es una variante de la línea de procesadores Enterprise EPYC de AMD, que ofrece más frecuencia y un mayor presupuesto de energía, pero menos canales de memoria, menos PCIe y menor capacidad de memoria. El 3990X está en esa cúspide entre el consumidor y la empresa en función de sus características y costo, y finalmente competirá contra ambos. En el papel, los usuarios que no necesariamente necesitan todas las 64 funciones principales de EPYC pueden recurrir al 3990X, mientras que los consumidores que necesitan más de 32 núcleos también lo verán aquí. Vamos a probar contra ambos.

El TR3990X es parte de la familia Threadripper 3000, y se asociará con sus hermanos de 32 y 24 núcleos para combinarse con las nuevas placas base TRX40. A pesar del mismo socket que los Threadrippers de la generación anterior, AMD rompió la compatibilidad de la placa base esta vez para admitir PCIe 4.0 desde la CPU al chipset, lo que permite configuraciones de mayor ancho de banda para controladores adicionales. Hemos cubierto las 12 placas base TRX40 en el mercado en nuestra descripción general de la placa base y el conjunto de chips , con una gran cantidad de modelos que se centran en el soporte para PCIe 4.0 x16 3x, placa base Ethernet multi-gigabit, Wi-Fi 6, y uno incluso agregando Thunderbolt 3)


Placa madre ASUS ROG Zenith II Alpha, construida para 3990X

Todas las CPU de la familia Threadripper 3000 admiten un total de 64 carriles PCIe 4.0 de la CPU y otros 24 del conjunto de chips (sin embargo, cada uno de ellos utiliza ocho carriles para comunicarse entre sí). Hay cuatro canales de memoria, que admiten hasta memoria DDR4-3200, y cada CPU tiene un TDP nominal de 280 W. Hemos probado las 3970X y 3960X cuando se lanzaron esas CPU; puede leer la reseña aquí .

La nueva CPU, la 3990X, tiene un precio considerable de $1 por ‘X’ (porque se llama 3990X y cuesta $3990, ¿entiendes?). Con 64 núcleos, tiene una frecuencia base nominal de 2.9 GHz y un turbo de 4.3 GHz. En nuestras pruebas, vimos que la frecuencia de un solo núcleo alcanzaba los 4,35 GHz, por encima del turbo nominal, y el turbo de todos los núcleos alrededor de 3,45 GHz.


CPU-Z que muestra 4.341 GHz

Threadripper 3rd gen

Los procesadores Threadripper son CPU basadas en la arquitectura Ryzen. Los chips ZEN2 que conoce de los procesadores ‘regulares’ de la serie Ryzen 3000. La arquitectura Zen 2 es un avance de Zen, y Zen tenía algunos cuellos de botella que debían tratarse. Estos se resuelven en este diseño y, al mismo tiempo, gracias a los transistores más pequeños de 7 nm, agregan funcionalidad adicional en lugares importantes. Hay diferencias entre los tres niveles de caché. El caché de instrucciones L1 se ha vuelto más pequeño a 32 Kbytes, el caché de datos es el mismo que la última generación, 32 Kbytes, ambos por núcleo, por supuesto. Si bien se han realizado muchos cambios de E / S para facilitarlo, básicamente en el chip verá cuatro (y ocho para 64 núcleos) chips de procesador Ryzen de 8 núcleos sentados alrededor de un gran chip de E / S, todo en un paquete.

Esto significa que estos procesadores se configuran de forma 8 + 8 + 8 + 8 + 8 + 8 + 8 + 8 (8×8) para el 3990X de 64 núcleos. Los chips del procesador son físicamente similares, idénticos incluso al diseño Ryzen 3000 / ZEN2 de 8 núcleos, es el mismo chip que se usa. Sin embargo, hay una distinción: las matrices de 8 núcleos se han ordenado para obtener los núcleos de mejor rendimiento con el voltaje más bajo posible.

El caché L2 es el mismo a 512 kBytes por núcleo, sin embargo, el caché L3 se duplicó de Gen2 moviéndose a 32MB L3. En retrospectiva, AMD redujo el caché de instrucciones L1 de 64 kB a 32 kB. La caché de instrucciones contiene las instrucciones x86 que se recuperan de la memoria para su procesamiento. Sin embargo, al darle a este caché más entradas y salidas, asociativo de 8 vías en lugar de asociativo de 4 vías, compensará esa elección de diseño. Además, al optimizar los algoritmos para las instrucciones de búsqueda previa y aumentar los cachés en otros niveles (como el caché L3), el efecto del caché de instrucciones más pequeño es limitado. El caché de datos L1 era de 32 kB en Zen y permanece en 32 kB para Zen 2. Sin cambios es el caché L2, que todavía es de 512 kB por núcleo. Los núcleos comparten el caché L3 y ese ha duplicado su tamaño. Se dividen cuatro núcleos en un grupo llamado núcleo complejo (CCX). La generación anterior de procesadores Zen tenía 8 MB de caché L3, esto se ha duplicado a la friolera de 16 MB de caché L3 y 32 MB por CCD. ¿Por qué se duplicaron los cachés L3? Bueno, AMD necesitaba abordar las latencias para acceder a la memoria de trabajo para hacer frente al diseño del chiplet, por lo que el controlador de memoria se encuentra físicamente en un chip diferente, ergo un caché L3 duplicado. Aumentar cualquier tipo de caché es costoso. Ocupa una parte sustancial del presupuesto de transistores disponible, aquí es donde 7nm ayuda mucho.

Diseño de chiplet

Comenzando en la arquitectura Zen 2, AMD se movió hacia un diseño de chiplet. Los chips de múltiples matrices que contienen sus núcleos de CPU se combinan con múltiples chips en un solo paquete. Entonces, para Threadripper 3000, serían cuatro chips de procesador interconectados por un chip IO, ese chip IO es similar al chipset IC. Es una de las muchas respuestas para poder luchar contra la Ley de Moore, ahora y en el futuro. AMD ya estaba usando la tecnología para conectar múltiples procesadores en Threadripper y, para servidores, Epyc. En realidad, también Intel con Kaby Lake-G. Los chiplets son múltiplos de chips reunidos en un dispositivo que forma el chip real. Los chiplets con Zen 2 cuentan con un chip de E / S junto con chiplets de CPU de 7 nm (cada uno con ocho núcleos por chip). Para poder lograr eso, AMD ha estado actualizando su Infinity Fabric que conecta los diferentes chips que contienen los núcleos. Las CPU actuales de Epyc, Ryzen y Threadripper están conectadas a través de Infinity Fabric. Con la arquitectura Zen 2, AMD coloca un chip de matriz de E / S que se encuentra en el medio, que está conectado a cuatro matrices de 8 núcleos y, con la parte de 64 núcleos, una asombrosa cantidad de ocho matrices de 8 núcleos. Estos chiplets de CPU AMD están conectados a través de Infinity Fabric (los cables de interconexión que los conectan a todos). ¿Por qué diseños de chiplet? Uno de los problemas más importantes a la hora de fabricar grandes matrices de CPU / GPU monolíticas es que los rendimientos disminuyen casi exponencialmente y los costos aumentan debido a las matrices que no funcionan. Múltiples chips más pequeños en un paquete tienen mayores rendimientos, menos pérdidas y, por lo tanto, pueden ser más rentables.

La familia de procesadores Ryzen Threadripper

En el mercado, verá los procesadores Ryzen series 3000 3, 5, 7, 9 y ahora Threadripper series 3000 basados ​​en la arquitectura ZEN2. Es simple y simple y, como siempre, funciona como la mejor manera de entender el posicionamiento del producto. A continuación, una descripción general de la línea Threadripper.

Desbloqueado y cargado

Todos los procesadores Threadripper están desbloqueados. Sin embargo, las placas base también necesitan un conjunto de chips que esté desbloqueado, pero el TRX40 cubre todo eso. Sin embargo, tenga en cuenta que todos los núcleos overclocks en tantos núcleos … digamos que le aconsejamos que se adhiera al enfriamiento por agua adecuado y deje que XFR2 haga lo suyo, ya que el overclocking ya no es una opción con muchos núcleos en estos días. A pesar de ese hecho, lo intentaremos más adelante en el artículo.

Con los procesadores Gen3 Threadripper llegó TREX. TRX40 es específicamente para Threadripper 3000 y productos futuros. Era imperativo para AMD aprovechar al máximo Threadripper 3000 y, por lo tanto, querían duplicar el enlace PCIe Gen 4.0 entre el procesador y el chipset de la placa base. Este chipset tiene un enlace PCIe 4.0 x8, que es inaudito y crea enormes posibilidades para cosas como el almacenamiento. Entonces, ese ancho de banda entre el procesador y el chipset se ha cuadruplicado en comparación con la plataforma Threadripper actual. Como resultado, hay mucho más ancho de banda disponible para todas las opciones de E / S que ofrece el conjunto de chips. Lo que también notará es un aumento adicional en los carriles PCIe Gen4, 72 carriles disponibles en la plataforma Threadripper 3000. Threadripper 3000 trae 64 carriles PCIe Gen4 a la mesa, 8 de ellos han sido reservados para el enlace del chipset y luego el enlace del chipset trae otros 24 enlaces PCIe Gen 4 a la mesa con 8 reservados para esa interconexión. En total, está buscando 88 carriles, con 72 carriles disponibles para el usuario final. El socket se ha denominado sTRX4. Hoy verás una serie de anuncios de placas base, los nuevos procesadores y plataformas Threadripper estarán disponibles para el 25 de noviembre. Entonces sí, PCIe Gen 4.0 en todas partes. El socket se ha denominado sTRX4, el chipset TRX40.

Memoria DDR4 de cuatro canales

El soporte DDR4 de AMD es bueno en estos días y con Zen 2 se ha vuelto grandioso: prácticamente todas las marcas son compatibles, con un aumento en el soporte de frecuencia y una caída en la latencia. Obviamente, obtienes soporte de memoria de cuatro canales con la clasificación predeterminada más lenta a 3200 MHz / 3200MT / s (JEDEC). Al igual que Ryzen 3000, un multiplicador 2: 1 se enciende en DDR4-3733 o frecuencias más altas, así que tenga en cuenta que tendrá un efecto en la velocidad a la que los diversos complejos centrales dentro de la CPU pueden comunicarse entre sí. Para la memoria en sí, ahora puede contener 256 GB con 4×8 Single Rank admitido de fábrica a 3200 MHz. Por supuesto, la memoria utilizada en la práctica real puede ir más rápido, de hecho, utilizaremos un kit CL16 de 64 GB a 3600 MHz de Corsair (Dominator) en la plataforma. Incluso puede ir a 256 GB en una configuración de doble rango de 8×32, sin embargo, aquí la especificación JEDEC cae a 2667 MHz (pero puede ejecutar frecuencias más altas).

¿Cuál es la diferencia entre la memoria Single y Dual Rank es una pregunta que recibimos a menudo. Hablando en teoría, la memoria Single Rank es más rápida que la memoria Dual Rank; cuando una computadora accede a la memoria Single Rank, explicada de manera extremadamente simple, significa que solo tiene que dar la vuelta a ‘su’ pista una vez, mientras que con Dual Rank tendría que dar la vuelta a la pista dos veces, ya que es un circuito separado. Véalo como dos DIMM DDR4 en una PCB DIMM.

• Un DIMM de rango único tiene un conjunto de chips de memoria a los que se accede mientras escribe o lee desde la memoria. Un DIMM de rango doble es similar a tener dos DIMM de rango único en el mismo módulo, con solo un rango accesible a la vez. También hay un DIMM Quad Rank en estos días, efectivamente, dos DIMM Dual Rank en el mismo módulo. Solo se puede acceder a un rango a la vez.
• Los DIMM de rango doble y cuádruple proporcionan la mayor capacidad con la tecnología de memoria existente. Por ejemplo, si la tecnología DRAM actual admite DIMM de rango único de 8 GB, un DIMM de rango doble sería de 16 GB y un DIMM de rango cuádruple sería de 32 GB.

La idea principal detrás de la clasificación de la memoria: agrupar más memoria en un módulo de una sola ranura, disminuyendo el número de bancos necesarios. Los rangos tienen más que ver con la densidad y los precios que con el rendimiento real. Obviamente, siempre consulte con el fabricante de su placa base si los módulos DDR4 son compatibles, a menudo ofrecen una lista QVL. Además, ECC DDR4 es compatible con la plataforma Threadripper.

Endurecimiento de la CPU

AMD ha asegurado aún más su tecnología en hardware, hay un endurecimiento Zen 2 para los exploits Specter v4 integrados en el procesador, lo cual es una noticia increíble. Los procesadores AMD son menos susceptibles a otros problemas de seguridad como Meltdown, Foreshadow y MDS.

¿A quién va dirigido este CPU?

No todos necesitan 64 núcleos, y AMD ha sido muy claro al respecto en sus mensajes. A pesar de que el 3990X es parte de la línea de computadoras de escritorio de gama alta de AMD, ya que está abriendo nuevos caminos en el conteo y el precio del núcleo, va más allá de la gama alta, esencialmente eclipsando el mercado de prosumidores / servidores. Esto significa usuarios (y empresas) que pueden amortizar y justificar el costo del hardware, ya que les permite completar proyectos (y, por lo tanto, contratos) más rápido. Para un usuario que necesita crear algo, en lugar de hacer 25 prototipos por semana, hacer 100 por semana hace que su flujo de trabajo sea mucho más completo, y este es el tipo de usuario que AMD persigue.

Granjas de renderizado que se ejecutan en CPU será un ejemplo clave. AMD ya ha promovido el hecho de que varios estudios de animación y efectos visuales que producen efectos en películas de gran éxito han estado ejecutando muestras de ingeniería de los procesadores Threadripper de 64 núcleos para títulos que ya están en el mercado. Luego están las casas de producción y los arquitectos de videojuegos, que desean crear prototipos de modelos de demostración rápidamente y acortar el tiempo para crear cada prototipo, algo que es posible que no se pueda hacer en la GPU (y no está acelerado por AVX-512).

El 3990X con 64 núcleos cuesta $3990, el doble del costo del 3970X con sus 32 núcleos a $1999. Duplicar los núcleos es un paso obvio, sin embargo, no hay un aumento en el ancho de banda de memoria o en los carriles PCIe, por lo que los usuarios deben asegurarse de que la CPU sea el cuello de botella de su carga de trabajo.

Si ponemos el 3990X contra el EPYC 7702P, la oferta de socket único de 64 núcleos en el lado empresarial, entonces el 3990X tiene una ventana térmica más alta (280W vs 200W) para permitir frecuencias más altas (2.9 / 4.3 vs 2.0 / 3.35) y es más barato ($3990 frente a $4425), pero solo tiene la mitad de los canales de memoria (solo 4 en comparación con 8), la mitad de los carriles PCIe (solo 64 en comparación con 128) y no tiene soporte de memoria registrada. La pregunta aquí es si la carga de trabajo que está viendo el usuario requiere más memoria / PCIe para el EPYC, o más rendimiento bruto de la CPU para el Threadripper.

Luego está la competencia contra los procesadores Intel. En el mercado de computadoras de escritorio de gama alta, Intel no tiene nada para competir, con el producto máximo en 18 núcleos. Ofrece una parte de estación de trabajo de 28 núcleos, el W-3175X, que está desbloqueado, con un TDP de 255W, seis canales de memoria, 44 carriles PCIe 3.0, a un alto costo de $2999. Luego están las CPU del servidor: si queremos paridad con los 64 núcleos del 3990X, necesitamos usar un solo Xeon Platinum 9282 con 56 núcleos, que no está disponible sin un gran contrato y tiene un precio desconocido ($25k + ?), o doble Xeon Platinum 8280, con dos lotes de 28 núcleos, a un precio de bandeja de $20018.

Estamos probando contra el 8280 dual y el W-3175X también. Tenga en cuenta que nuestros resultados de 2×8280 provienen de una revisión anterior, por lo que no se han ejecutado en algunos de nuestros puntos de referencia más nuevos .

Esta reseña

En esta revisión, queremos cubrir el Threadripper 3990X en términos de frecuencia, temperatura, potencia y rendimiento. Hay una gran advertencia que tenemos que discutir en términos de elección del sistema operativo, que veremos en las próximas páginas. Pero nuestros principales puntos de comparación dependen de si usted es un consumidor que busca un escritorio más rápido o un usuario empresarial que busca un reemplazo de servidor alternativo. Cubriremos ambos ángulos aquí.

Exhibición de productos

Echemos un vistazo. Sí, no es tu procesador promedio en una caja, ¿eh? AMD selecciona el 2% superior de los chips y los usa para Threadripper Gen3. Obviamente, AMD está utilizando un paquete EPYC y agrega tantos chips como sea necesario. Una vez más, el difusor de calor se ha soldado, por lo que no se recomienda soltarlo. Con el kit AMD (y los kits de venta minorista) se incluye una herramienta / llave Torx. Es muy fácil de usar y evita aplicar una fuerza excesiva al asegurar el procesador Threadripper. Básicamente, abra la ranura y retire un marcador de posición de plástico, deslice la CPU, luego empuje hacia abajo la cubierta y se pegará en la posición que necesita. En ese zócalo, notará 1, 2 y 3 en los tornillos. Empiezas en 1, apriétalo un poco. Luego 2 y 3. Luego asegúrelo en esa configuración 1-2-3. La llave Torx aplicará la cantidad justa de presión. Una vez sentado, obviamente desea aplicar un poco de enfriamiento y sí, utilice refrigeración líquida o al menos un kit LCS adecuado o un enfriador basado en Heatpipe realmente bueno. Aplique un poco de grasa térmica, opto por un poco en el medio y una gota aproximadamente en las ubicaciones de los chips. Esa metodología nunca me ha fallado. No seas tímido con la pasta térmica, es una gran superficie para cubrir.

CPU-Z

Y aquí tenemos capturas de pantalla de CPU-Z del procesador Ryzen Threadripper sentado, armado, listo y esperando en la placa base, echemos un vistazo. Entonces, todo se ve bien. Si está interesado, puede descargar CPU-Z aquí . Después de tomar capturas de pantalla, actualizamos a una actualización de BIOS más nueva con el último firmware (AGESA) disponible para nosotros.

Frecuencia, temperatura y potencia

Se harán muchas preguntas sobre la frecuencia, la temperatura y la potencia de este chip: dividir 280W en todos los núcleos puede dar como resultado una frecuencia baja de todos los núcleos y requerir un consumo de corriente súper alto, o dados informes recientes de CPU AMD no cumplir con sus frecuencias turbo nominales. Queríamos poner nuestros datos aquí en la mitad delantera de la revisión para abordar esto de inmediato.

Mantuvimos esta prueba simple: utilizamos nuestro nuevo punto de referencia NAMD, un solucionador de cálculo de dinámica molecular, que es una carga de trabajo de ejemplo para un sistema con tantos núcleos. Es una carga pesada de todo núcleo que gira continuamente alrededor de la prueba ApoA1 simulando tantos picosegundos de movimiento molecular como sea posible. Ejecutamos un registrador de frecuencia y térmico, dejamos el sistema inactivo durante 30 segundos para alcanzar un estado estable inactivo, y luego activamos el punto de referencia hasta alcanzar un estado estable.

Para las frecuencias vimos un ‘inactivo’ de ~3600 MHz, que luego aumentó a 4167 MHz cuando comenzó la prueba, y un promedio de 3463 MHz en todos los núcleos durante los primeros 6 minutos más o menos de la prueba. Vimos un punto bajo de frecuencia de 2935 MHz, sin embargo, en este contexto, lo que importa es el promedio.

Para las térmicas en el mismo punto de referencia, usando nuestro enfriador de líquido de circuito cerrado Thermaltake Riing 360, vimos 35ºC reportados en la CPU en reposo, que aumentó a 64ºC después de 90 segundos más o menos, y un estado estable después de cinco minutos a 68ºC. Este es un escenario ideal, debido a que el sistema está en un banco de pruebas abierto, pero lo que hay que tener en cuenta aquí es que, a pesar de la alta potencia general de la CPU, la potencia por núcleo no es tan alta.

Este es nuestro conjunto de pruebas habitual para la potencia por núcleo, sin embargo, lo he condensado horizontalmente ya que tener los 64 núcleos es un poco demasiado. En las cargas bajas, vemos que los primeros núcleos toman 8-10W de potencia cada uno, para 4.35 GHz, sin embargo, en el otro extremo de la escala, las CPU apenas tocan 3.0 W cada una, para 3.45 GHz. En este extremo del espectro, definitivamente estamos viendo que los núcleos Zen 2 de AMD funcionan en un punto muy eficiente, y eso incluso sin los 280 W, dado que se requieren alrededor de 80-90 W para el chipset y la estructura infinita entre chips: todos 64 núcleos, funcionando a casi 3.5 GHz, para alrededor de 200W. A partir de estos datos, necesitamos al menos 20 núcleos activos para alcanzar los 280 W completos del procesador.

Podemos comparar estos valores con otros procesadores AMD Threadripper, así como con los Ryzens de gama alta:

El 3990X exhibe un valor de potencia por núcleo mucho más bajo que cualquiera de las otras CPU, lo que significa una frecuencia por núcleo más baja, pero no está tan lejos: menos de la mitad de la potencia por solo 400 MHz menos . Aquí es donde entra en juego la eficiencia real de estas CPU.

Mostramos el consumo de energía basado en toda la PC (placa base / procesador / tarjeta gráfica / memoria / SSD). Este número depende y variará según la placa base (IC / controladores / wifi / Bluetooth adicionales) y PSU (eficiencia). Tenga en cuenta que medimos TODA la PC, no solo el consumo de energía del procesador. Su PC promedio puede diferir de nuestros números si agrega unidades ópticas, HDD, tarjetas de sonido, etc.

Las medidas de consumo de energía diferirán según la PC y la configuración. Sus componentes conectados usan energía, pero su placa base también puede tener circuitos integrados adicionales instalados, como un controlador de audio, chips de terceros, controladores de red, controladores SATA adicionales, controladores USB adicionales, etc. Todas estas partes consumen energía, por lo que estos resultados son una indicación subjetiva. A continuación, enfatizamos todos los núcleos de la CPU al 100% y, por lo tanto, mostramos el consumo máximo de energía. A menos que transcodifique el video con el software adecuado, su consumo de energía promedio será mucho menor.

Puedes ver lo que AMD hizo allí, ralentizar los núcleos para mantener ese TDP de 280 vatios en línea. Puede ser mucha energía, pero el consumo de energía para toda la PC convertida por núcleo hace que este sea uno de los procesadores más eficientes en energía disponibles en el mercado.

Normalmente, más núcleos equivalen a más consumo de energía, acumulación, período. Sin embargo, cuando tenemos en cuenta toda la PC (placa base / chipset / GPU / memoria / etc.) y hacemos hincapié SOLO en todos los núcleos de la plataforma, y ​​dividimos eso por la cantidad de núcleos, notará una imagen mucho más bonita, el Threadripper 3000 procesadores están entre los más amigables con el consumo de energía para su presupuesto de plataforma de muchos núcleos. Impresionante, ¿eh?

Temperaturas

La razón por la que no registramos los resultados de temperatura es que necesitaríamos aplicar el mismo enfriamiento una y otra vez en todas las plataformas. Además, los enfriadores (RPM del ventilador) reaccionan de manera diferente a TDP y variables como BIOS.

No se puede negar, AMD realizó un binning serio y ajustó ese TDP perferctly. 64 núcleos / 128 hilos crean mucho calor. Bajo una carga estresada en todos los núcleos (CPU AIDA), nos desplazamos en un delta de 75 grados C. Aplicamos una unidad Enermax LCS de 240 mm con la configuración predeterminada de RPM del ventilador. Necesitarás un enfriamiento adecuado para domar a la bestia, pero en general eso es bastante milagroso de observar.

Los núcleos más rápidos

A la luz de las frecuencias de reloj Turbo anunciadas en la plataforma Ryzen, queremos mostrarle los núcleos más rápidos a los que se puede llegar con unos pocos o uno o varios hilos. Nuestro procesador 3990X alcanza 4350 MHz y puede hacerlo en múltiples núcleos, anunciados es de 4300 Mhz.

Destacando todos los núcleos

El reloj base de este procesador es de 2900 MHz, lo que significa que si todos los núcleos están estresados, lo peor a lo que puede recurrir es esa frecuencia (en condiciones normalizadas). Entonces, cuando colocamos carga en los 64 núcleos, podemos ver que el procesador logra mantenerse por encima de ese valor, lo cual es bueno. Y, por supuesto, el multiplicador y la frecuencia serán mucho más bajos cuando esté inactivo, nuevamente esto está bajo carga.

El problema de Windows y de subprocesos múltiples (debe leerse)

Desafortunadamente, no todo es tan sencillo como instalar Windows 10 y comenzar una aventura de 128 hilos. La mayoría de los usuarios domésticos que tienen Windows suelen tener versiones de Windows 10 Home o Windows 10 Pro, que son bastante ubicuas incluso entre los usuarios de estaciones de trabajo. El problema que tienen estos sistemas operativos tiene su fea cabeza cuando superamos los 64 hilos. Para que quede claro, Microsoft nunca esperó que los sistemas domésticos (o incluso la mayoría de las estaciones de trabajo) superaran esta cantidad, y en cierta medida son correctos.

Cada vez que Windows experimenta más de 64 subprocesos en un sistema, los separa en grupos de procesadores. La forma en que se hace esto es muy rudimentaria: de los núcleos e hilos enumerados, los primeros 64 van al primer grupo, los segundos 64 van al siguiente grupo, y así sucesivamente. Esto se observa más fácilmente yendo al administrador de tareas e intentando establecer la afinidad de un programa en particular:

Con nuestro procesador de 64 núcleos, cuando se habilita el subprocesamiento múltiple simultáneo, obtenemos un sistema con 128 subprocesos. Esto se divide en dos grupos, como se muestra arriba.

Cuando el sistema está en este modo, se vuelve muy complicado que la mayoría del software funcione correctamente. Cuando se inicia un programa, se insertará en uno de los grupos de procesadores en función de la carga; si un grupo está ocupado, el programa se generará en el otro. Cuando el programa se ejecuta dentro del grupo, a menos que sea consciente del grupo de procesadores, solo puede acceder a otros subprocesos del mismo grupo. Esto significa que si un programa de subprocesos múltiples puede usar 128 subprocesos, si no está construido con grupos de procesadores en mente, entonces solo puede generar con acceso a 64.

Si esto le suena familiar, puede que haya oído hablar de NUMA, o arquitectura de memoria no uniforme. Esto ocurre cuando los núcleos de la CPU en el sistema pueden tener latencias diferentes a la memoria principal, como dentro de un sistema de doble socket: puede ser rápido acceder a la memoria directamente conectada a su propio núcleo, pero puede ser mucho más lento si un núcleo necesita acceder a la memoria conectada a la otra CPU física. Los grupos de procesadores son una forma de evitar esto, para evitar que los hilos salten de CPU a CPU. El único problema aquí es que a pesar de tener 128 subprocesos en el 3990X, ¡todo es una CPU!

En Windows 10 Pro, esto se convierte en un problema. Podemos mirar directamente al Administrador de tareas:

Aquí vemos que los 64 núcleos y 128 hilos se cargan con una carga artificial. Sin embargo, el número importante aquí es el recuento de sockets. El sistema cree que tenemos dos zócalos, solo porque tenemos una gran cantidad de hilos en el sistema. Este es un gran dolor, y la fuente de muchas ralentizaciones en algunos puntos de referencia.

(Curiosamente, los últimos chips Xeon Phi de Intel con 72 núcleos livianos y HT de 4 vías para 288 hilos aparecen como cinco zócalos. ¿Cómo es eso para el dolor?)

Por supuesto, hay una solución simple para evitar todo esto: deshabilitar el subprocesamiento múltiple simultáneo. Esto significa que todavía tenemos 64 núcleos, pero ahora solo hay un grupo de procesadores.

Todavía tenemos la mayor parte del rendimiento en el chip (y lo veremos más adelante en los puntos de referencia). Sin embargo, parte del rendimiento se ha perdido: si quisiera 64 subprocesos, ahorraría algo de dinero y obtendría los 32 núcleos. Parece que no hay una manera fácil de evitar esto.

Pero luego recordamos que hay diferentes versiones de Windows 10.

Microsoft vende al por menor Windows 10 Home, Windows 10 Pro, Windows 10 Pro para estaciones de trabajo, y también podemos encontrar claves para Windows 10 Enterprise a la venta. Cada uno de estos, además de las limitaciones de características habituales basadas en el mercado, también tienen limitaciones en los recuentos y sockets del procesador. En el diagrama anterior, podemos ver dónde dice que Windows 10 Home está limitado a 64 núcleos (subprocesos), mientras que las versiones Pro / Education van hasta 128 y luego Workstation / Enterprise a 256. También hay Windows Server.

Ahora la cuestión es que Workstation y Enterprise están construidas con múltiples grupos de procesadores en mente, mientras que Pro no. Esto se debe a los ajustes del planificador, que no son evidentes de inmediato sin profundizar en los elementos más finos del diseño. Vimos diferencias significativas en el rendimiento.

Para ver las diferencias, hicimos las siguientes comparaciones:

• 3990X con 64 C / 128 T (SMT activado), Win10 Pro vs Win10 Ent
• Gana 10 Pro con 3990X, SMT activado vs SMT desactivado

Este no es solo un caso del efecto que SMT tiene en el rendimiento general: la forma en que el programador y el sistema operativo funcionan para hacer que los núcleos estén disponibles y distribuir el trabajo son factores importantes.

En 3DPM, con código estándar no experto, la diferencia entre SMT activado y desactivado es del 8,6%, sin embargo, pasar a Enterprise recupera la mitad.

Cuando pasamos al código AVX sintonizado a mano, se pueden usar los subprocesos adicionales y cada subproceso obtiene un aumento de velocidad de 2x. Aquí la versión Enterprise nuevamente tiene una pequeña ventaja sobre el Pro.

DigiCortex es un punto de referencia más vinculado a la memoria, y vemos aquí que deshabilitar SMT obtiene una ganancia masiva ya que libera la comunicación de CPU a memoria. Enterprise recupera la mitad de esa ganancia mientras mantiene SMT habilitado.

Photoscan es una prueba de subprocesos variable, pero tener SMT deshabilitado brinda el mejor rendimiento con cada subproceso que tiene más recursos de barril. Nuevamente, W10 Enterprise divide la diferencia entre SMT de encendido y apagado.

Nuestra mayor diferencia estaba en nuestras nuevas pruebas NAMD. Aquí el código está acelerado por AVX2, y la diferencia a tener en cuenta es con SMT On, pasar de W10 Pro a W10 Ent es una velocidad masiva de 8.3x. En Pro normal, notamos que al generar 128 subprocesos, solo se ubicarían en 16 núcleos reales, o menos, con los otros núcleos no utilizados. En el modo SMT-Off, vimos que se usaban más núcleos, pero el puntaje todavía parecía ser el mismo que un 3950X. No fue hasta que nos mudamos a W10 Enterprise que todos los subprocesos realmente se estaban utilizando.

En el extremo opuesto de la escala, Corona puede aprovechar los diferentes grupos de procesadores. Vemos la mejora de SMT apagado a SMT encendido, y luego otro pequeño salto a Enterprise.

De manera similar en nuestra prueba de Blender, tener grupos de procesadores no fue un problema, y ​​Enterprise obtiene un pequeño salto.

POV-Ray se beneficia de tener SMT deshabilitado, independientemente de la versión del sistema operativo.

Mientras que Handbrake (debido a la aceleración AVX) obtiene una gran mejora en Windows 10 Enterprise

¿Cuál es el veredicto?

De nuestros datos de prueba multiproceso, solo puede haber dos conclusiones. Una es deshabilitar SMT, ya que parece aumentar el rendimiento en la mayoría de los puntos de referencia, dado que la mayoría de los puntos de referencia no entienden qué son los grupos de procesadores. Sin embargo, si tiene que tener SMT habilitado, no use Windows 10 Pro normal: use Pro para estaciones de trabajo (o Enterprise) en su lugar. Al final del día, esta es la trampa en el uso de hardware que está bordeando la línea de ser de nivel empresarial: también evita la línea con la activación de licencias de software empresarial. Afortunadamente, el software de estación de trabajo con licencia absoluta por núcleo todavía es casi inexistente, a diferencia del dominio del servidor .

En última instancia, esto nos pone en un pequeño dilema para nuestras comparaciones de CPU a CPU en las siguientes páginas. Normalmente ejecutamos nuestras CPU en W10 Pro con SMT habilitado, pero a partir de estos puntos de referencia está claro que en cada escenario multiproceso, no obtendremos el mejor resultado. Es posible que tengamos que ver cómo probamos procesadores> 16 núcleos en el futuro y ejecutarlos en Windows 10 Enterprise. En las siguientes páginas, incluiremos los datos de W10 Pro y W10 Enterprise para completar.

AMD 3990X contra CPUs Prosumer

El primer grupo de consumidores que estarán interesados ​​en este procesador serán aquellos que busquen actualizarse al mejor paquete HEDT de consumidor / prosumidor disponible en el mercado. El precio de $3990 es una gran barrera de entrada, pero estos usuarios e individuos probablemente pueden amortizar el costo del procesador durante su vida útil. Con ese fin, hemos seleccionado una serie de procesadores HEDT estándar que están cerca en términos de precio / número de núcleos, así como también en el Core i9-9900KS de 8 núcleos a 5.0 GHz y el Xeon W-3175X desbloqueado de 28 núcleos .

El 3990X está más allá de cualquier precio en este nivel, e incluso en los sistemas de mayor costo para el consumidor, $1000 podría ser la diferencia entre obtener dos o tres GPU en un sistema. Tiene que haber grandes ventajas al pasar del núcleo 32 al núcleo 64.

Corona es un punto de referencia clásico de “más subprocesos significa más rendimiento”, y si bien el 3990X no consigue una escala perfecta en los 32 núcleos, casi está allí.

El 3990X obtiene nuevos récords en nuestra prueba Blender, con aceleraciones considerables en comparación con el otro hardware TR3.

Photoscan es una prueba de rosca variable, y las CPU AMD aún ganan aquí, aunque 24 núcleos hasta 64 núcleos se desempeñan dentro de aproximadamente un minuto el uno del otro en esta prueba de 20 minutos. El mejor hardware de consumo de Intel está a unos minutos de retraso.

y-cruncher es una prueba acelerada AVX-512, por lo que aquí gana 28 núcleos de Intel con AVX-512. Curiosamente, los 128 núcleos del 3990X se interponen en el camino aquí, probablemente el tiempo de generación de tantos hilos se está sumando al tiempo total.

GIMP es una prueba de subproceso único diseñada para abrir el programa, y ​​el chip de 5.0 GHz de Intel es el mejor aquí. el hardware de 64 núcleos no es tan malo aquí, aunque los datos de W10 Enterprise tienen el mejor resultado.

Sin ningún código ajustado a mano, entre cargas de trabajo de 32 núcleos y 64 núcleos en 3DPM, en realidad hay un ligero déficit en 64 núcleos.

Pero cuando introdujimos el código sintonizado a mano, las CPU AVX-512 avanzan por un margen considerable.

Cubrimos Digicortex en la última página, pero parece que los diferentes grupos de hilos en W10 Pro están guardando mucho el 3990X. Con SMT deshabilitado, puntuamos más cerca de 3x aquí.

Luxmark es un programa acelerado AVX2, y tener más núcleos aquí ayuda. Pero vemos poca ganancia de 32C a 64C.

Como vimos en la última página, POV-Ray prefirió tener SMT apagado para el 3990X, de lo contrario no hay beneficio sobre la CPU de 32 núcleos.

AES recibe un ligero golpe sobre el núcleo 32, sin embargo, no tanto como la diferencia de precio 2x lo haría creer.

Como vimos en la página anterior, W10 Enterprise hace que nuestra prueba de Handbrake aumente, pero en W10 Pro el 3990X pierde terreno frente al 3950X.

Y qué tal una prueba de juego simple: sabemos que 64 núcleos son excesivos para los juegos, así que aquí hay una prueba de arranque de CPU. No hay mucho entre el 3990X y el 3970X, pero las CPU de alta frecuencia de Intel son las mejores aquí.

Veredicto

Hay muchas situaciones en las que el salto desde la CPU de AMD de 32 núcleos de $1999, la 3970X, hasta la CPU de $3990 de 64 núcleos solo ofrece la ganancia tangible más pequeña. Eso no es un buen augurio. Sin embargo, los puntos de referencia que obtienen las mayores ganancias pueden alcanzar una escala casi perfecta, lo que hace que el 3990X sea una actualización fantástica. Sin embargo, esas pruebas son pocas y distantes entre sí. Si estas fueran las opciones, el dinero inteligente está en el 3970X, a menos que pueda ser absolutamente claro que el software que ejecuta puede beneficiarse de los núcleos adicionales.

AMD 3990X contra CPU empresariales de $20k

Para aquellos que buscan una CPU de reemplazo de servidor, el gran punto de discusión de AMD aquí es que para obtener 64 núcleos en el hardware Intel es relativamente difícil. La mejor manera de llegar allí es con un sistema de doble socket, que presenta dos de sus chips de 28 núcleos en una pieza considerable de $10ka. El argumento de AMD es que los usuarios pueden consolidarse en un solo socket, pero también tienen un mejor soporte de memoria, PCIe 4.0 y ningún problema de dominio de memoria cruzada.

Desafortunadamente, no pude contactar con nuestros CPUs Rome de Johan a tiempo para esta revisión, sin embargo, tengo datos de varias configuraciones de Intel Xeon duales que hice hace unos meses, incluido el sistema de $20k.

Esta vez con Corona, la competencia está pisando los talones de las CPU de 64 núcleos de AMD, pero incluso $20k de hardware no pueden igualarla.

La versión no AVX de 3DPM pone el hardware Zen 2 al frente, con todo lo demás esperando en las alas.

Cuando agregamos el código AVX-512 sintonizado a mano, la situación cambia: los 56 núcleos de Intel obtienen casi 2.5 veces el puntaje de AMD, a pesar de tener menos núcleos.

A Blender no parece gustarle la latencia de acceso adicional de los sistemas 2P.

Para la codificación AES, ya que el punto de referencia toma lugar de la memoria, parece que ninguna de las CPU de Intel puede igualar AMD aquí.

Para la prueba combinada de 7 zip, hay poca diferencia entre los 32 núcleos y los 64 núcleos de AMD, pero hay saltos considerables por encima del hardware de Intel.



Otra serie de pruebas

CineBench 15

CB15 admite sistemas con hasta 256 subprocesos. El rendimiento de los procesadores y las tarjetas gráficas se determina, como de costumbre, en función de las escenas 3D. Una selección de resultados de la prueba permite una clasificación aproximada del beneficio de su propio sistema. La prueba de CPU es una escena con alrededor de 280,000 polígonos utilizados, mientras que la prueba de GPU basada en OpenGL viene con aproximadamente un millón de polígonos, texturas de alta resolución y varios efectos. Los resultados se emitirán en puntos finales (CPU) y fps (GPU). Según los desarrolladores, el software ha sido “ampliamente desarrollado para explotar el rendimiento del nuevo hardware como sea posible”. Como era de esperar, los resultados no son comparables con los de versiones anteriores. Notarás que aún necesitamos agregar varios procesadores, todo a su debido tiempo. Notarás que el rendimiento de un solo núcleo pinta una imagen completamente diferente aquí.

CineBench 20

Maxon lanzó su benchmark Cinebench R20, más capaz de lidiar con los procesadores con muchos subprocesos. Necesita una PC con al menos 4 GB de memoria y compatibilidad con el conjunto de instrucciones SSE3. Maxon afirma que Cinebench R20 ahora usa cuatro veces la memoria y ocho veces la potencia de cálculo de la CPU en comparación con Cinebench R15.

Rendimiento del procesador – Blender 2.81a

Con los procesadores obteniendo más hilos y núcleos casi exponencialmente cada año, ahora hemos agregado Blender, v2.81a. Disparamos dos renders intensivos, BMW27 y Classroom. Al software le gustan muchos núcleos e hilos.

Creación de contenido POV-Ray 3.7

POV-Ray es 3.7 introducido; con soporte para multiprocesamiento simétrico (SMP) para permitir que el procesador aproveche múltiples procesadores. Poco antes del embargo de esta revisión, se suministró una nueva compilación, lo que abrió el soporte del procesador de 64 núcleos. Y eso ciertamente se nota.

Rendimiento – SpecWorkstation 3

Más de 30 cargas de trabajo que contienen casi 140 pruebas en el ejercicio de referencia SPECworkstation 3 CPU, gráficos, E / S y ancho de banda de memoria. Las cargas de trabajo se dividen en categorías de aplicaciones que incluyen medios y entretenimiento (animación 3D, renderizado), desarrollo de productos (CAD / CAM / CAE), ciencias de la vida (médicas, moleculares), servicios financieros, energía (petróleo y gas), operaciones generales, y computación GPU.

Había introducido esto específicamente para crear grandes cargas de trabajo relacionadas con la industria en sistemas de muchos núcleos, ya que resultó que el software escalaba perfectamente hasta 32 núcleos, pero aún no está listo para 64 núcleos / 128 hilos.

CPU-Z Benchmark

CPU-Z ofrece una medición de rendimiento bastante buena para probar el rendimiento de la CPU RAW, el rendimiento se mide tanto como el rendimiento de un solo núcleo y el núcleo de múltiples subprocesos. Ofrece una manera rápida y fácil de ver rápidamente el rendimiento de SMT de subprocesos múltiples y subprocesos múltiples. Pruébelo usted mismo, es fácil de usar. Aquí hay algunos números, acumularemos y actualizaremos más resultados con el tiempo.

Puntos de referencia: De/Compression – 7-Zip Multi-thread

En este segmento de los puntos de referencia, veremos las aplicaciones de software de compresión. Usaremos 7-ZIP y analizaremos el rendimiento de compresión y descompresión. 7-Zip es un archivador de subprocesos múltiples, especialmente en descompresión que se muestra excepcionalmente bien.

Puntos de referencia: Google Chrome – Kraken y Jetstream Browser

Agregamos este punto de referencia, ya que es una cosa subestimada, es lo que hacemos todo el tiempo en la PC, por lo tanto, estamos presentando una prueba de rendimiento del navegador adecuada. El benchmark Mozilla Kraken-browser aplica múltiples cálculos complejos basados ​​en javascript. Esto le brindará una buena visión general del rendimiento del navegador. Probamos con la última iteración de Google Chrome. JetStream es un conjunto de pruebas de referencia de JavaScript centrado en las aplicaciones web más avanzadas. Los puntajes más grandes son mejores. Para Jetstream, está claro que le gustan los procesadores no SMT (hyperthreaded).

Creación de contenido: FryRender

FryRender es un marco de referencia para todos, no solo para usuarios de 3D; cualquiera, desde integradores de hardware o revisores de hardware hasta jugadores incondicionales. Desde su concepción, FryRender ha sido diseñado con el objetivo de ser el motor más musculoso de su categoría. Como resultado, y después de varios años de intenso desarrollo, el núcleo de FryRender no permite que se desperdicie un solo ciclo de CPU. Sus rutinas se han escrito para que sean eficientes en caché y para aprovechar al máximo las nuevas capacidades de subprocesamiento múltiple presentes en las arquitecturas de CPU modernas. Al ser una aplicación altamente optimizada y extremadamente intensiva en matemáticas (principalmente en coma flotante) que hace un uso muy eficiente de la memoria caché del sistema, creemos que FryRender es la herramienta casi perfecta para medir cuánta ‘potencia de cálculo bruta’ tiene una computadora capaz de entregar.

FryRender utiliza un máximo de 32 hilos

Si se está preguntando qué pasa con los últimos resultados de FryBench, ya mencioné que será difícil encontrar software que pueda admitir más de 32 subprocesos. FryBench admite precisamente eso, 32 hilos y el 3970X tiene una frecuencia base más alta.

Rendimiento: V-Ray, Vray NEXT e Indigo 4.0

V-Ray es una aplicación independiente para probar la velocidad de procesamiento de su hardware. Los resultados se muestran en el modo de tiempo de renderizado. La aplicación independiente incluye una sola escena de GPU y una sola escena de CPU. V-Ray es una aplicación de software de representación de imágenes generada por computadora desarrollada por la compañía búlgara Chaos Group. Es un complemento comercial para aplicaciones de software de gráficos de computadora 3D de terceros y se utiliza para visualizaciones y gráficos de computadora en industrias tales como medios, entretenimiento, producción de películas y videojuegos, diseño industrial, diseño de productos y arquitectura. El software admite subprocesos múltiples y mega, no está limitado incluso por 64 subprocesos.

Indigo Renderer es un procesador de GPU y CPU imparcial y fotorrealista dirigido a la máxima calidad de imagen, simulando con precisión la física de la luz. Rendimiento de renderizado de última generación, materiales y modelos de cámaras: todo se simplifica mediante un enfoque fotográfico interactivo
con pocos ajustes abstractos, lo que le permite concentrarse en la iluminación y componer sus imágenes.

Trazado de Rayos Corona

Esta herramienta es muy fácil de usar, simplemente guarde, extraiga y ejecute el archivo descargable desde su sitio y comenzará y le dará automáticamente resultados al final que luego podemos usar para comparar el rendimiento entre las CPU. Los sistemas de grado de estación de trabajo con hasta 72 subprocesos de CPU se pueden utilizar en este punto de referencia, lo que significa que se hizo teniendo en cuenta los subprocesos pesados, lo que lo hace adecuado para probar CPU con recuentos de núcleos de CPU pequeños y grandes.

Transcodificación de video

La transcodificación de video es adecuada para sistemas que tienen más núcleos de CPU. La codificación / transcodificación al formato x.264 es una de las tareas más intensivas que puede realizar un procesador. En esta prueba codificamos un avance h.264 DTS 1080P a Matroska x.264 con 5.1 canales AC3. Este software es bueno para comparar la CPU y la memoria. Compute sabiamente este título también le permite probar características como AVX y OpenCL. Sin embargo, estamos probando el rendimiento bruto del procesador en este momento.

Handbrake ejecuta 16 núcleos

El número que se muestra es el número de cuadros procesados ​​por segundo promediados durante el proceso de codificación. Cuanto mayor sea el número, más rápido es el rendimiento. Es exactamente en aplicaciones como estas donde los procesadores con más núcleos realmente brillan, ya que todos se utilizan al máximo.

Realmente es frustrante ver que esta herramienta todavía está atascada en un número limitado de hilos utilizables.

Rendimiento – Creación de video – Vegas PRO

Magix Vegas Pro: este software profesional de edición de video Vegas Pro es un paquete de software de edición de video para edición no lineal. Originalmente desarrollado como un editor de audio, finalmente se convirtió en un NLE para video y audio desde la versión 2.0. Originalmente desarrollado como un editor de audio, finalmente se convirtió en un NLE para video y audio desde la versión 2.0. Vegas presenta edición de audio y video multipista en tiempo real en pistas ilimitadas, secuencia de video independiente de la resolución, efectos complejos y herramientas de composición, soporte de audio de 24 bits / 192 kHz, soporte de efectos VST y DirectX, y mezcla de sonido envolvente Dolby Digital . Hasta la versión 10, Vegas Pro se ejecuta en Windows 7, Windows 8 y Windows 10 y es multiproceso. Para nuestra sesión de referencia, enviamos a XAVC S Long 3840×2160 – 59.94p, una codificación muy pesada. La codificación asistida con tarjeta de video está deshabilitada.

Este software soporta 16 hilos

Esta es una prueba del mundo real, no sintética y se basa en nuestro propio contenido y preferencias. Tomamos una grabación del juego de dos minutos, agregamos una pista de audio. El contenido se crea con esa nueva pista de audio mezclada allí, además de aplicar dos filtros de mejora de video fp32 para contraste y nitidez.

Teniendo en cuenta que Vegas Pro utiliza un máximo de 16 subprocesos y el 3960X tiene un reloj base todo núcleo ligeramente más rápido, gana con un pequeño margen.

Puntuación de la CPU 3DMark Time Spy

3DMark se centra en las dos áreas más críticas para el rendimiento de los juegos: la CPU y la GPU. Con la aparición de configuraciones multipaquete y multinúcleo tanto en el lado de la CPU como de la GPU, la escala de rendimiento de estas áreas se ha ampliado y, en consecuencia, los efectos visuales y de juego posibles gracias a estas configuraciones son muy variados.

La prueba de CPU de Time Spy predeterminada no escala más allá de los procesadores con 10 o más subprocesos.

Esto hace que cubrir todo el espectro de los juegos en 3D sea una tarea difícil. Es multi-core y multi-threading consciente. La prueba estándar de Time Spy está limitada a 10 núcleos de CPU. Si un procesador tiene turbobins más rápidos en estos 10 núcleos, ahí es donde brillará. Entonces, a este respecto, el procesador sigue funcionando notablemente bien.

Veredicto

En nuestras pruebas aquí (más en nuestra base de datos de referencia), el 3990X de AMD obtendría la corona sobre las ofertas de socket dual de Intel. Lo único que realmente me impide darlo es la misma razón por la que hubo dudas en la página anterior: no hace lo suficiente para diferenciarse de la propia CPU de 32 núcleos de AMD. Donde AMD gana es en que ‘el dinero es un problema menor’, donde el uso de una CPU de 64 núcleos con un solo socket puede ayudar a consolidar sistemas, ahorrar energía y ahorrar dinero. Las CPU de Intel tienen un TDP de 205W cada una (más si decides usar el turbo, que hicimos aquí), que totaliza 410W, mientras que AMD alcanzó un máximo de 280W en nuestras pruebas. Técnicamente, el 2P de Intel tiene acceso a más carriles PCIe, pero los carriles PCIe de AMD son PCIe 4.0, no PCIe 3.0, y con el interruptor correcto puede alimentar mucho más que Intel (si está ahorrando 16k, entonces un interruptor es maní).

Reconocemos que nuestras pruebas aquí no son de ninguna manera una prueba exhaustiva de las cargas de trabajo a nivel de servidor, pero para la base de usuarios a la que apunta AMD, tomaríamos el núcleo 64 (o incluso el núcleo 32) en la mayoría de las circunstancias en dos Intel 28 CPU centrales, y gaste el dinero extra en memoria, almacenamiento o un par de GPU grandes y gordas.

Resumen de rendimiento (relativo en%)

Los valores de rendimiento relativo promedio en porcentajes son siempre un poco peligrosos de incluir, ya que la acumulación de números puede tener un efecto más positivo o negativo en muchas variables, como el número de núcleos que admite una aplicación, y a algunos programas simplemente les gustan los relojes más rápidos y menos hilos o favorece una cierta microarquitectura. Los números promediados en esta página sirven, por lo tanto, como un índice relativo correspondiente. Si bien no es preciso para algunos gráficos de destino (ya que el software difiere), muestra un índice de lo que razonablemente se puede esperar para su experiencia en el mundo real en relación con el rendimiento. Con el tiempo, este conjunto de resultados se acumulará.

El cuadro siguiente es una gráfica de tesis/experimental, es básicamente un pronóstico de lo que podrían convertirse en los mejores procesadores de juegos en los próximos años si se tienen en cuenta ciertas variables. Suponemos subjetivamente que los juegos en 2020 y posteriores harán un buen uso de hasta aproximadamente 10 núcleos o hilos de CPU. Si tiene una CPU de varios núcleos con Turbo Bins más rápidos (por ejemplo, un procesador de ocho núcleos que puede ejecutar 4.5 GHz en muchos de sus núcleos en oposición a otro proceso de 8 núcleos que hace lo mismo a 4000 Mhz, o un procesador de 8 núcleos proc con mejor IPC), luego en esta tabla puedes ver qué procesador sería el mejor para futuros juegos. Sin embargo, recuerde que está buscando el mejor rendimiento probable de la CPU para los juegos una vez que se entrelazan correctamente, no el rendimiento relativo del juego.

Prueba de overclocking

Si incluso puede ordenar y pagar el 3990X, debe gastar cerca de 4000 dólares. Con 64 núcleos y las temperaturas predeterminadas que hemos visto, hicimos la llamada para al menos intentar un poco de ajuste, pero no con voltajes agregados para mantener esa temperatura en línea. Ahora, obviamente, es un poco tonto overclockear 64 núcleos con un ajuste completo, pero puedes y no dejar que nadie te diga que Threadrippers no se puede ajustar. Normalmente, la frecuencia de reloj de todos los núcleos caerá hacia 2900 MHz si hay utilización de carga en todos los hilos. Entonces, incluso ajustar todos los núcleos a 3200 MHz, ayudaría en tal escenario. Con los voltajes predeterminados, alcanzamos una velocidad de reloj estable de 3.5 e incluso 3.6 GHz (en los 64 núcleos). Sin embargo, somos capaces de arrancar en Windows y ejecutar algunas pruebas (¡aunque no es estable a largo plazo!) A 3800 MHz.

Permítanme reiterar que el overclocking de un procesador como este nos parece imposible. Aplicamos un kit simple LCS de 240 mm de Enermax. Anteriormente obtuvimos 24.6K puntos en CB20 MT y ahora alcanzamos casi 30K puntos. Sustancialmente obtuvimos un ~ 20% extra en rendimiento.

Sin embargo, lo que lo asustará es el ‘Ryze’ del consumo de energía con los 64 núcleos a 3800 MHz y carga completa. Eso es el doble de lo que era inicialmente. Entonces, la pregunta no es “¿puedes overclockear procesadores Threadripper?“, sino más bien, “¿realmente quieres overclockear?“.

Conclusiones

Al describir lo que AMD está trayendo a la mesa es un enigma, hay tantos superlativos que se me ocurren que ni siquiera sé por dónde empezar. Cada vez que recibimos un nuevo Threadripper, y los revisamos todos desde gen1, siguen mejorando cada vez más. Quiero decir que entré en el 3990X, encendí la PC, cargué el perfil XMP 3600 MHz y arranqué en Windows, literalmente desde el primer día de prueba de este sistema, no ha tenido ningún problema ni hipo. Teniendo en cuenta que inserté probablemente el procesador más espectacular (desde un punto de vista de diseño) del año 2020 en este sistema, eso solo es un hecho asombroso. Simplemente funciona Honestamente, esperaba problemas … aplicaciones que no se inician, cosas extrañas de TDP, pero nada: este procesador de 64 núcleos usa exactamente la misma cantidad de energía que la versión de 32 núcleos. Obviamente, el compromiso es una frecuencia base más baja, pero una vez que esos 64 pequeños bichos entran en acción, el trabajo en equipo que ponen en juego aplasta cualquier cosa y todo. De acuerdo, sus aplicaciones deben ser capaces de subprocesar mega. Como ha visto en toda nuestra suite de referencia, algunos títulos todavía están atascados en 16 hilos como máximo.

Esto es y era de esperarse. Pero aquí también, muchas aplicaciones realmente entraron en vigencia, y los resultados son más que suficientes para hacer una diferencia sustancial. Sí, los chips 8x de 8 núcleos y un chip IO crearán sus propios problemas en términos de eficiencia, escala y latencia, pero AMD pudo manejarlo y mantener los posibles efectos de ineficiencia al mínimo. Y ahora entiendo más claramente por qué AMD fue tan difícil al presionar PCIe Gen 4.0, ya que los carriles internos son tan rápidos que puede unir esos chips 8x de 8 núcleos y ese chip IO y aún así ofrecer un procesador que es terriblemente capaz. Nunca, ningún consumidor ha podido comprar un procesador de 12, 16, 24, 32 y ahora 64 núcleos en este rango de precios, ya que era exclusivo de un mercado de servidores muy caro dominado por Intel. Lo diré nuevamente, este es un procesador disponible en el mercado de consumo, pero obviamente está destinado a aquellos que necesitan realizar creación de contenido, virtualización, animación, edición de video, modelado y renderizado con trazado de rayos. Es tan impresionante y diverso lo que AMD aporta a la mesa que necesito dividir esta página de conclusiones en varios capítulos.

El arte de construir una buena CPU es el equilibrio: desea algo que sea rápido para flujos individuales de instrucciones y datos, pero también rápido para múltiples flujos. Necesita algo que también sea eficiente en el consumo de energía, de alto rendimiento y que se pueda armar con bastante facilidad, con un software que ya puede aprovechar lo que ha hecho.

“Las oportunidades se multiplican a medida que se aprovechan”.

AMD ha tenido éxito en un momento en que su competidor ha tenido problemas. Cuando AMD lanzó su hardware Zen 2 a través de sus líneas de productos Ryzen y EPYC, basadas en los 7 nm de TSMC, la Dra. Lisa Su, CEO, declaró en entrevistas a AnandTech que:

Hemos ejecutado nuestra hoja de ruta de los últimos cinco años y la estamos ampliando a los próximos 5 años, todo mientras asumimos que nuestra competencia será competitiva e incluso superando sus objetivos públicos“.

En un momento en que Intel está luchando con su proceso de fabricación de 10 nm, AMD apunta a donde debería haber estado Intel si se hubiera ejecutado a tiempo. El hecho de que Intel haya sufrido problemas ha beneficiado a AMD, y sus últimas CPU Ryzen y EPYC han recibido grandes elogios. El seguimiento de estos ha sido Threadripper, y las dos primeras CPU Threadripper basadas en Zen 2 fueron bastante buenas. Incluso utilicé la palabra ‘baño de sangre’ en la revisión, fue tan impresionante en comparación con lo que Intel tenía para ofrecer.

Con este tercer procesador Threadripper 3000, el 3990X, AMD espera capitalizar sus éxitos. El concepto aquí es relativamente simple: más de lo mismo. Duplique los núcleos Zen 2 de alto rendimiento, a frecuencias ligeramente más bajas por núcleo, para la misma potencia: si un usuario tiene la carga de trabajo correcta, entonces es el procesador ideal.

Y ahí dentro le gusta el quid de esta CPU; ¿Cuál es la carga de trabajo correcta?

Actuación

Si la aplicación de software admite subprocesos de 64/128, no hay nada que detenga a este procesador al arrancar subprocesos y escupir números serios que harán que sus cejas se frunzan, y algo más. Como se mencionó, hay ocho chips de 8 núcleos en el paquete con un chip IO, ahora se los conoce como chiplets. Un producto tan complejo traerá algunos problemas de latencia y escala en juego. Pasar de 32 a 64 núcleos no va a duplicar el rendimiento si el software puede manejarlo, sin embargo, las cosas aumentarán bastante. La cuestión es que cosas como la latencia han sido abordadas por los enormes cachés integrados y las rápidas interfaces de interconexión PCIe 4.0. Sin embargo, AMD quería realmente apegarse al TDP de 280 vatios. Escuche atentamente, las partes centrales 24, 32 y 64 tienen el mismo TDP. Eso es notable, ya que la parte de 32 núcleos tiene cuatro chips de CPU, la parte de 64 núcleos tiene ocho de ellos. Entonces, la escala no es del 100% ya que el reloj base se redujo. Ese reloj base es el enigma de la escala. Entonces, si todos los núcleos están estresados, el 3970X de 32 núcleos los tendría a 3.7 GHz, mientras que el 3990X de 64 núcleos está a 2.9 GHz. La diferencia de 800 Mhz puede no parecer una cantidad extrema, sin embargo, eso es una diferencia de 64x 800 Mhz. Y esa es su respuesta a cualquier pregunta de escala que pueda tener. ¿Hay menos hilos activos? Es entonces cuando el Turbo de hasta 4.3 GHz volverá a funcionar. Es algo hermoso de observar realmente. Nunca mis pruebas han sido tan rápidas, quiero decir que tuvimos que actualizar varios títulos en el paquete de software para poder pasar 32 hilos, pero has visto los números de Cinebench 20, Vray NEXT y MAYA, simplemente no hay nada que compita en un solo socket, ni siquiera en el mercado de servidores.

TRX40 y PCIe Gen4 hasta el final

TRX40 se mantiene firme, desliza la parte de 64 núcleos y simplemente funciona. El conjunto de chips está sobrecargado con funciones, y todo con PCIe Gen 4.0, incluida la interconexión cuádruple entre el conjunto de chips y la CPU. Con ese enlace PCIe 4.0 x8, eso es inaudito y sin precedentes incluso en el segmento de servidores. Un procesador Threadripper 3000 trae 64 carriles PCIe Gen 4 a la mesa, 8 de los cuales han sido reservados para el enlace del chipset y luego el enlace del chipset trae otros 24 enlaces PCIe Gen 4 a la mesa con 8 reservados para esa interconexión. Eso es 88 carriles PCIe Gen 4 en total y, por lo tanto, 72 carriles disponibles para el usuario final.

Estabilidad

En realidad, ya mencioné eso en el primer párrafo, pero introdujimos el procesador de 64 núcleos, cargamos el BIOS y activamos XMP y desde entonces hemos estado listos. No se trata de una sola falla o caída, la plataforma es abrumadoramente estable. Hay poco más que podría decir o escribir aquí realmente.
Juego de azar

Sí, juegos … No esperaba mucho de eso. Es decir, si gastas 3990 USD en un procesador de 64 núcleos para jugar, entonces eres un tonto. Sin embargo, necesitamos revertir eso; si tienes cargas de trabajo complejas y te gustaría poder jugar un juego de vez en cuando, bueno, ya has visto los números. Todo lo que comienza en Full HD está totalmente bien. En palabras de alguien famoso, sí puedes. Obviamente habrá juegos que no funcionarán con 48, 64, 128 hilos disparados contra ellos, tuvimos uno (Far Cry 5 funcionó bastante mal y, como tal, se dejó de lado), el resto estaba realmente bien y más -a rendimiento “normal” de nivel Ryzen. Pero claro, es probable que haya algunos escenarios en los que el juego no tenga idea de lo que está mirando. Afortunadamente, siempre puedes tomar el software Ryzen Master de AMD, lo que te permite cambiar a un modo de juego y tener núcleos limitados habilitados que te permiten abrir la compatibilidad con todos y cada uno de los juegos. El rendimiento en sí mismo es bueno, pero seguramente no es la razón por la que compraría un procesador con tantos núcleos. Pero, de nuevo … tasas de fotogramas muy, muy, muy decentes.

La memoria

Threadripper es totalmente compatible con la mayoría de la memoria, incluso a partir de 3200, 3466, 3600 MHz y hacia arriba. Le recomendamos que se adhiera a 3600 MHz como máximo con algunos tiempos ajustados. Tenga en cuenta que ahora tiene memoria de cuatro canales disponible, duplicando el ancho de banda de la memoria. Entonces, a la larga, en cuanto a memoria, se beneficiará un poco más de la memoria de latencia más baja en comparación con la memoria de frecuencia más rápida. Para aquellos que virtualizan mucho y ejecutan bases de datos, también hay compatibilidad de memoria ECC. En general, 3200 MHz CL14 o 3600 MHz CL16 sería mi recomendación. Probamos tanto con Zenith II Extreme como con la nueva revisión Alpha (tiene mejoras para ir aún más rápido en el subsistema de memoria). Usamos un kit Corsair de 64 GB a 3600 MHz CL16, después de habilitar el XMP estábamos listos para comenzar y todo listo. Entonces, la compatibilidad y la estabilidad de la memoria fueron realmente buenas. Si está considerando una plataforma como esta, consulte la lista QVL del fabricante de la placa base para conocer los DIMM de memoria compatibles adecuados.

El ajuste

Puede ajustar el procesador, pero también comprenderá la complicación de ejecutar 64 núcleos en un modo overclocked de núcleo completo. Eso generará calor y un tremendo consumo de energía. Seguramente no está dispuesto a estropear ese procesador de 3990 USD que ya funciona tan rápido. Sí, no vamos a recomendar ningún overclocking. Pero si lo desea, requerirá paciencia, buen enfriamiento, mucho esfuerzo y una fuente de alimentación realmente capaz.

“Conócete a ti mismo y ganarás todas las batallas”

Uno de los puntos de conversación continuos sobre las nuevas CPU es si el ecosistema está listo para ellas, especialmente con AMD que aumenta el conteo de núcleos cada vez más. No tiene sentido tener un millón de núcleos si todo está escrito para unos pocos núcleos; no todos ejecutan mil copias de la misma carga de trabajo al mismo tiempo. Desafortunadamente, esto es lo que sucedió aquí con el 3990X. Estamos en una situación en la que solo unos pocos paquetes de software (que probamos) funcionan muy bien con la CPU, pero también es el sistema operativo el que está detrás.

En nuestras revisiones, prefiero Windows por comodidad, pero también porque gran parte de la base de usuarios está en Windows. Normalmente utilizamos Windows 10 Pro, pero debido a que esta CPU tiene 128 subprocesos totales, la versión normal de Windows 10 Pro tiene problemas: tuvimos que pasar a Windows 10 Enterprise para ver la diferencia. La alternativa era deshabilitar el subprocesamiento múltiple simultáneo, volviendo a un subproceso por núcleo, que en realidad funcionó muy bien para muchas pruebas, pero también dejó algo de rendimiento sobre la mesa. Sugerimos que los usuarios de 3990X que normalmente tienen Windows 10 Pro hagan una de estas dos cosas: deshabilitar SMT o usar Win10 Pro para estaciones de trabajo / Enterprise. Este problema se debe a cómo Windows rastrea los grupos de procesadores, un adagio de plataformas multi-socket, que no debería aplicarse aquí, pero debido a que está codificado en el sistema operativo cuando tenemos más de 64 hilos, es un dolor.

Luego también está el problema de la carga de trabajo: vimos una serie de pruebas, como Corona, Blender e incluso NAMD, que funcionan muy bien, lo que apunta a que el procesamiento científico y el procesamiento se benefician de un procesador de conteo de núcleos tan alto. Sin embargo, otros programas, como 7-zip, LuxMark, Photoscan y otros, no vieron mucha (si alguna) una mejora en el rendimiento en comparación con la propia CPU de 32 núcleos de AMD.

He escuchado a muchos ingenieros de silicio decir que agregar núcleos ayuda, pero agregar frecuencia ayuda a todo. La pregunta entonces es si se enfoca en cargas de trabajo que pueden escalar mejor (más núcleos) o si la ampliación (más frecuencia) es una mejor solución. O terminamos con CPU de destino para uno u otro, o una combinación de CPU que intenta hacer ambas cosas.

“[El] que desea luchar primero debe contar el costo”

En esta revisión evaluamos dos direcciones para el 3990X de 64 núcleos de AMD. El primero fue a nivel de consumidor / prosumidor, buscando mejorar su sistema de escritorio de alta gama. El segundo fue a nivel empresarial, mirando hacia abajo para ver si esa CPU de 64 núcleos realmente vale la pena en comparación con un sistema de doble socket. La conclusión puede sorprenderte. (Puede que no)

Para la primera etapa, el nivel de consumidor / prosumidor, nuestra conclusión es que la utilidad del 3990X es limitada. Además de algunas instancias seleccionadas (como se mencionó, Corona, Blender, NAMD), el Threadripper de 32 núcleos por la mitad del precio realizado a la par o con margen. Para este mercado, ahorrar $2000 entre el núcleo de 64 núcleos y el de 32 núcleos puede generar fácilmente otro RTX 2080 Ti para la aceleración de la GPU, y esta sería probablemente la opción preferida. A menos que ejecute esas pruebas específicas (o similares), elija el núcleo 32 y gaste el dinero en otro lugar. Aparte del conteo central, hay poco para diferenciar las dos partes.

La segunda etapa, el nivel empresarial, se convierte en una tarea fácil para consolidar un sistema de doble socket en una sola CPU AMD: el costo de desembolso inicial es sustancialmente menor y los costos de energía a largo plazo también entran en juego. Esto es lo que a la empresa le gusta combinar en ‘Costo total de propiedad’ o TCO. El TCO y la ventaja de rendimiento de AMD aquí es evidente en los puntos de referencia y los precios. La situación se vuelve un poco más complicada cuando comparamos qué CPU AMD elegir: por lo general, un mercado de servidores quiere memoria RDIMM, que solo proviene de los procesadores EPYC. La diferencia entre el EPYC 7702P de 64 núcleos y el Threadripper 3990X es menor en términos de costo (menos de $500), y cada CPU tiene sus beneficios: EPYC obtiene más carriles PCIe (128 frente a 64) y más memoria (RDIMM de 8 canales frente a 4 canales) UDIMM), mientras que Threadripper obtiene mejores frecuencias (2900/4300 vs 2000/3350) para un TDP más alto (280W vs 200W). Desde la perspectiva del servidor, si necesita más IO o más memoria, obtenga el EPYC; de lo contrario, Threadripper merece consideración.

La conclusión

Despertar por la mañana y caminar junto a esa bestia de 128 hilos continuamente me dan ganas de susurrarle un poco de conversación sucia, hombre, esa cosa es sexy. Ya dije en el primer párrafo que me faltan superlativos para este producto. Sin embargo, nos queda una última cosa para discutir, para quién es este producto. Se lanza en el dominio del consumidor y SOHO y, sí, el mercado será pequeño. De todos modos, AMD lanzó la parte de 64 núcleos, quizás un poco para voltear el dedo de Intel, pero en realidad hay una base de instalación / usuario para este producto. Codificar video o renderizar 3D en 64 núcleos es una locura. Representar cargas de trabajo que normalmente demoran 24 horas podría terminar demorando tres horas. Por lo tanto, la productividad del ecosistema y su carga de trabajo aumentan fácilmente en un factor de 5 a 8 (necesito tener en cuenta la escala de rendimiento).

Si puedo poner en juego otro ejemplo, este procesador de 64 núcleos es un sueño de virtualización. Quiero decir, instale Proxmox en un SSD NVMe rápido, y si tiene esa memoria de 256 GB instalada, puede crear 16 servidores VPS de cuatro núcleos, cada uno con 16 GB de memoria. Piensa en eso por un segundo y date cuenta de lo flexible y casi loco que es con un reloj base de 2.9 GHz. Quiero decir, para Intel necesitas un procesador Xeon de muchos núcleos para poder lograrlo, a menudo ejecutando 2.1 GHz por núcleo y el doble para cuadruplicar el costo. Esa carga de trabajo también tiene un TDP increíble, quiero decir que la potencia de nuestro sistema a plena carga era de aproximadamente 400 vatios, dividida por 64 núcleos, lo que tiene un costo de 7 vatios por núcleo. Para comparar un poco, para el Core i9 9900KS ese valor es de 30 vatios por núcleo y 18 vatios por núcleo para el Core i9 10980. Entonces, mientras que la clasificación TDP de 280 vatios haría que las cejas de cualquiera fruncieran el ceño, la realidad es mucho más simple, relativamente Hablando, este procesador está gestionando su eficiencia energética extremadamente bien. Por cierto, esos 7 vatios nuevamente, se basan en la potencia total del sistema. También miro el consumo de energía en el chip, y por núcleo, estamos viendo 2.5 vatios bajo carga. Pero nuevamente, medimos la potencia necesaria para toda la plataforma. Enfriamiento y temperaturas entonces, hemos visto todos los núcleos estresados ​​trayendo una temperatura de carga en el dominio de 75 grados C, que para 64 núcleos es bastante excelente. Aplicamos un kit LCS de 280 mm, pero eso es más que suficiente. En relación con eso, debe recordar que este es un procesador TDP de 280W, por lo que simplemente necesita un enfriador capaz de 280W.

Al final, los procesadores más grandes de Threadripper sirven a la porción más pequeña del mercado pero tienen el mayor efecto en ese mismo mercado. Para nosotros, la gente común, los procesadores Threadripper pueden no tener ningún sentido, quiero decir que puede obtener uno para alardear y divertirse si lo desea, nadie lo tendrá en su contra. Sin embargo, la realidad es que los procedimientos como los que se muestran hoy son ORO para las empresas y los prosumidores que necesitan PC altamente enhebrados para cargas de trabajo complejas y exigentes. El Ryzen Threadripper 3990X se venderá a 3990 USD, que es una gran cantidad de dinero, seguro. Pero aun así, tiene valor, ya que nunca los procesadores mega-core han sido tan baratos, tan flexibles y tan rápidos.

6 respuestas a «Revisión del AMD Threadripper 3990X de 64 núcleos»

  1. En unas 128 Gb de Ram para el de 32 núcleos y 64 hilos
    Y con una bestia gráfica de compañía.
    Escenas complejísimas de construir, archi trucadas para visualizar ya no debieran serlo.

  2. HOLA,esto no tiene nada q ver con la noticia pero alguien sabe de si el programa overwolf c puede encontrar en algun ftp de la red nacional, y si alguien lo tiene por favor si ahi alguna forma de hacermelo llegar???

  3. Este golpe fue principalmente dirigido para los cpu Xeon de Intel, cuando comparas precio y rendimiento es my claro quien es el ganador(AMD por si no quedo claro).

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *