Electromigración: por qué el AMD Ryzen Current Boosting no matará tu CPU

Donde existe la voluntad de obtener un rendimiento adicional de una CPU, a menudo hay una manera. Ya sea a través del overclocking del usuario final o de los proveedores de placas base que ajustan la configuración para mejorar el rendimiento de sus existencias, al final del día todos quieren un mejor rendimiento y por una multitud de razones. Sin embargo, este impulso insaciable para un rendimiento máximo significa que algunos de estos ajustes y ajustes pueden comenzar a bordear las líneas de lo que está ‘en especificación’. Y como resultado, a veces vemos métodos para aumentar el rendimiento del procesador que claramente cumplen sus promesas, pero tal vez a expensas de las térmicas o la longevidad.

Con este fin, recientemente ha salido a la luz que los proveedores de placas base han estado aprovechando una configuración en las placas base AMD para tergiversar la corriente entregada a la CPU. Los vendedores de placas base, supuestamente, han descubierto una forma de engañar al procesador para que piense que su consumo de energía está dentro de los parámetros normales (cuando no es así), y el desarrollador de HWInfo ha determinado una forma de calcular la desviación entre el valor de consumo de energía reportado a la CPU contra el medido por el controlador VRM.

HWInfo introdujo en su última actualización una nueva lectura de sensor que revela si nuestra placa base está engañando al procesador AMD Ryzen de 3ª Gen para que piense que su consumo de energía está dentro de los parámetros normales, mientras que de hecho se le está suministrando más energía para ofrecer una mayor estabilidad con las frecuencias Turbo o el overclocking. Estas “mejoras” aprovechan el hecho de que un procesador AMD Ryzen depende del controlador VRM de la placa madre para la telemetría de consumo de energía, por lo que el coprocesador de gestión de energía del procesador puede ajustar las frecuencias Turbo para mantenerse dentro de los límites de consumo de energía establecidos por AMD.

Este sensor se llama “Power Reporting Deviation”, y es un valor porcentual entero. La desviación del 95-105% puede ser interpretada como un comportamiento normal, donde la placa base respeta las especificaciones de AMD. Cualquier cosa fuera de este rango podría indicar un aumento de potencia a nivel de la placa madre diseñado para maximizar el rendimiento incluso de los procesadores que los usuarios prefieren que funcionen a velocidades de stock.

Al hacerlo, pueden aumentar el margen de potencia del procesador y, en última instancia, permiten un mayor rendimiento a costa de mayores térmicas. Para estar seguros, este tipo de ajustes no es nuevo, pero los eventos recientes han llevado a una gran confusión sobre lo que está sucediendo exactamente y cuáles son las ramificaciones para los procesadores AMD Ryzen. Entonces, para tratar de aclarar las cosas, aquí está nuestra opinión sobre la situación.

La forma antigua: espectro extendido, mejora de múltiples núcleos, PL2

Uno de los temas comunes que he notado a lo largo de mi tiempo en AnandTech como nuestro editor de placas base y ahora nuestro editor de CPU es la medida en que los proveedores de placas base irán para obtener un mayor rendimiento sobre la competencia. Fuimos el primer punto de venta en revelar características como MultiCore Enhancement , en agosto de 2012, lo que condujo a frecuencias de núcleo más altas que las especificadas, o en algunos casos, overclocks directos. Pero la historia de los proveedores de placas base que ajustan y ajustan las características para el rendimiento se remonta más allá de eso, como las variaciones con la frecuencia base de 100 MHz a 104.7 MHz con el Spread Spectrum , lo que lleva a un mayor rendimiento en los sistemas que pueden soportarlo.

Más recientemente, en las plataformas Intel, hemos visto a los proveedores aumentar sus límites de potencia turbo para que la placa base pueda mantener el turbo más alto mientras el mundo permanezca en existencia, solo porque los proveedores de la placa base están diseñando la entrega de potencia para soportar eso. En las últimas semanas, también hemos encontrado ejemplos de placas base que ignoran los nuevos requisitos de Thermal Velocity Boost de Intel, que es algo en lo que profundizaremos más en un artículo futuro.

En resumen, los proveedores de placas base quieren ser los mejores, y eso a menudo significa superar los límites de lo que se considera la “especificación básica” del procesador. Como hemos discutido regularmente sobre temas como este con los límites de potencia turbo de Intel, la diferenciación entre una ‘especificación’ y una ‘configuración recomendada’ puede ser bastante borrosa: para Intel, la potencia turbo que figura en los documentos es una configuración recomendada, y cualquier valor que la placa base esté configurada técnicamente ‘en especificación’. El punto en el que Intel considera que hace overclocking es si aumenta la frecuencia turbo máxima.

Ajustar AM4 por encima y más allá

Así que ahora pasamos a las noticias del día, con los fabricantes de placas base que ahora intentan ajustar las placas base Ryzen basadas en AMD para impulsar un mayor rendimiento. Como se explica a fondo en los foros de HWiNFO por The Stilty resumido aquí, las plataformas AM4 suelen tener tres limitadores definidos: Package Power Tracking (PPT), que indica el umbral de potencia que se puede entregar al zócalo; Corriente de diseño térmico (TDC), que es la corriente máxima entregada por los reguladores de voltaje de las placas base bajo límites térmicos; y Corriente de diseño eléctrico (EDC), que es la corriente máxima en cualquier momento que pueden suministrar los reguladores de voltaje. Algunos de estos valores se comparan con las métricas derivadas internamente en la CPU o externamente en la entrega de energía, para ver si estos límites se han activado.

Para calcular la medición de potencia basada en software con la que se compara PPT, el coprocesador de administración de energía toma el valor de la corriente del controlador de administración del regulador de voltaje. Este no es un valor real de corriente, sino un valor adimensional (0 a 255) diseñado para representar 0 = 0 amperios, y 255 = amperios máximos que los VRM pueden manejar. El coprocesador de administración de energía en la CPU realiza su cálculo de energía (potencia en vatios = voltaje en voltios multiplicado por corriente en amperios).

El rango de valores adimensionales debe calibrarse en un diseño por placa base, en función de los componentes utilizados (VRM, controladores), así como el trazado, las capas de la placa y la calidad del diseño. Para obtener un valor de escala exacto para este rango adimensional, un proveedor de placas base debe sondear con precisión los valores correctos y luego escribir el firmware para usar esa tabla de búsqueda en los cálculos de potencia del sistema.

Esto significa que hay una manera potencial de jugar con la forma en que el sistema interpreta el valor de potencia máxima del procesador. Los proveedores de placas base pueden reducir este valor adimensional de la corriente para hacer que el procesador y el coprocesador de administración de energía piensen que hay menos energía en la CPU y, como resultado, el limitador de seguimiento de energía del paquete (PPT) aún no ha sido logrado, y se puede suministrar más potencia. Esto permite que el procesador funcione más allá de lo previsto originalmente por AMD.

Esto tiene efectos secundarios. El procesador consumirá más energía, principalmente en forma de amplificadores aumentados, lo que generará más calor y mayores térmicas. Debido a que el procesador se está moviendo aún más (al permitir que consuma más potencia de la que informa el software), el procesador también funcionará mejor en los puntos de referencia.

Como señala The Stilt, si está ejecutando una CPU con un TDP base de 105 W y un valor PPT de 142 W, en circunstancias normales, debería esperar ver que la CPU informa una potencia de 142 W en la configuración de stock. Sin embargo, si el valor de corriente adimensional es solo el 75% de su corriente del mundo real, entonces el consumo de energía del mundo real es en realidad ~ 190 W, que es el valor de 142 W dividido por el factor de 0,75. Suponiendo que ninguno de los otros límites ha sido alcanzado (TDC, EDC), el procesador solo reportará el 75% de la potencia PPT original, causando mucha confusión.

¿Está fuera de especificación?

Si consideramos que PPT, TDC y EDC son las especificaciones generales de AMD para el consumo de energía y el consumo de corriente, entonces sí, esto está fuera de especificación. Sin embargo, PPT, por su propia naturaleza, va más allá de TDP, por lo que nos adentramos en este misterioso mundo de cómo definir “turbo”, similar a lo que hemos cubierto en detalle con Intel.

Como hemos comentado anteriormente, en Intel land, la potencia máxima consumida mientras está en modo turbo solo la proporciona Intel a los proveedores de placas base como un “valor recomendado”. Como resultado, los chips Intel realmente aceptarán cualquier valor para ese límite de potencia máxima, incluidos valores razonables como 200 W o 500 W, pero incluso valores irrazonables como 4000 W. La mayoría de las veces (y dependiendo del procesador) un chip podría alcanzar otros límites primero; pero para los modelos de gama alta, ciertamente vale la pena seguirlo. Mientras tanto, la duración del turbo, Tau, que define qué tan grande es el cubo de energía que Turbo puede extraer, también se puede extender: en lugar del valor predeterminado de entre 8 y 56 segundos, Tau se puede extraer a lo que efectivamente es una cantidad infinita de hora. Según Intel, todo esto está dentro de las especificaciones,si los fabricantes de la placa base pueden construir placas que puedan proporcionarla.

Lo que Intel considera fuera de especificación es cuando la CPU va más allá de las frecuencias enumeradas en las tablas turbo para Turbo Boost 2.0 (o TBM 3.0, o Thermal Velocity Boost). Cuando el procesador funciona por encima de la frecuencia definida por las tablas turbo, Intel considera este overclocking y no tiene la obligación de cumplir con la garantía del chip.

El problema es que si bien podemos intentar trasplantar las mismas reglas a la situación de AMD, AMD realmente no usa Turbo Tables como tal. Los procesadores AMD funcionan al intentar ofrecer la frecuencia más alta posible dados los límites de potencia y corriente en un momento dado. A medida que se amplían más núcleos, la potencia por núcleo disminuye y la frecuencia general disminuye. Entramos en las minucias del seguimiento de envolvente de frecuencia, que puede volverse más complejo dado que AMD puede funcionar en pasos de 25 MHz en lugar de pasos de 100 MHz como Intel.

AMD también usa características que empujan la frecuencia de un chip por encima de la frecuencia turbo que se detalla en la página de especificaciones. Si quisieras discutir estrictamente sobre aquellos que están haciendo overclocking, y a juzgar por el número en la caja, podría muy bien serlo. AMD borra a propósito las líneas aquí, pero la ventaja es a menudo más rendimiento.

¿Está mi CPU en riesgo?

Para responder a la gran pregunta de inmediato, no, su CPU no está en riesgo. Para los usuarios habituales con suficiente enfriamiento funcionando a la frecuencia de inventario, no hay ningún problema que importe dentro de la vida útil esperada del producto.

La mayoría de los procesadores x86 modernos vienen con una garantía de tres años para piezas en caja al por menor, o se venden como piezas OEM con una garantía de un año. Pasados ​​esos períodos de soporte, aunque AMD o Intel no reemplazarán el procesador en caso de falla, se espera que la mayoría de los procesadores vivan en el rango de más de 15 años. Todavía estamos muy contentos de poder probar CPU viejas en placas madre viejas, a pesar de que han estado fuera de servicio durante mucho tiempo (y la mayoría de las veces, son los viejos condensadores de la placa madre los que tienden a explotar, no la CPU).

Cuando una oblea de CPU sale de la línea de fabricación, la compañía obtiene un informe de confiabilidad sobre esos procesadores, lo que ayuda a tener una idea de las posibles vías para agrupar esas CPU. Esto incluirá elementos como la respuesta de voltaje / frecuencia, pero también en relación con la electromigración.

Además del daño físico o la desactivación de los límites térmicos y la cocción de la CPU, la forma principal para que un procesador moderno deje de funcionar es a través de la electromigración . Este es el acto de los electrones que se abren paso a través de los cables en un procesador y chocan muy ligeramente con el silicio (y otros elementos) en ese cable para sacarlos de la red cristalina. Es en sí mismo un evento bastante raro (cuánto tiempo han estado sus cables en su casa, por ejemplo), sin embargo, a pequeña escala puede afectar el cambio en el funcionamiento de un procesador.

Al mover un átomo de silicio fuera de lugar en una red cristalina, la sección transversal del cable, en ese punto, se reduce. Esto aumenta la resistencia, ya que la resistencia es inversamente proporcional al área de la sección transversal del cable. Si se sacan suficientes átomos de silicio de su lugar, el cable se desconecta y el procesador ya no se puede usar.

La cantidad de electromigración aumenta bajo ciertas condiciones: temperatura, uso y voltaje. Una de las principales formas de superar la mayor resistencia es aumentar el voltaje, lo que a su vez aumenta la temperatura del procesador. Se convierte en un circuito de retroalimentación negativa durante la vida útil del procesador.

Con mayor voltaje (energía por electrón) y mayor densidad de corriente (electrones por unidad de área), esto significa que hay más posibilidades de que ocurra un evento de migración de electrones. Esto puede empeorar a temperaturas más altas, y todos estos elementos actúan como factores diferentes cuando se trata de la cantidad de electrones que podrían tener suficiente energía para permitir un evento de electromigración. Para cualquiera que estudie cinética de reacción, este es un principio similar a la concentración pero con una energía variable por incidente.

Entonces esto es malo, ¿verdad? Bueno, solía ser. A medida que los fabricantes de procesadores y los fabricantes de semiconductores han iterado a través del diseño de puertas lógicas en procesadores CMOS y FinFET, se han implementado contramedidas activas para reducir los niveles de electromigración (o reducir el efecto de los niveles de electromigración). A medida que reducimos los nodos del proceso y los voltajes disminuyen, también se vuelve menos problemático: el hecho de que los cables también disminuyan en el área tiene el efecto contrario. Pero como se mencionó, los fabricantes ahora toman medidas para reducir el efecto de la electromigración dentro de un procesador.

La electromigración no ha sido un problema para la mayoría de los productos semiconductores de consumo durante un tiempo considerable. La única vez que personalmente me he visto afectado por problemas de electromigración es cuando poseía un Core i7-2600K 2011 basado en Sandy Bridge, que solía usar para competiciones de overclocking a 5.1 GHz en algunos escenarios de enfriamiento extremo. Finalmente llegó a un punto, después de un par de años, donde necesitaba más voltaje para funcionar en stock.

Pero ese era un procesador que corrí hasta el borde irregular. Los equipos modernos están diseñados para funcionar durante una década o más. Lo que estamos viendo con estos números, si bien hay un aumento de las térmicas debido al aumento de potencia, en realidad no es un cambio considerable. En el informe de The Stilt, debido a que el procesador ve que tiene un margen de potencia adicional, entonces aumenta ligeramente el voltaje para obtener los +75 MHz adicionales que el presupuesto permitirá, lo que aumenta el voltaje promedio de 1.32 voltios a 1.38 voltios durante un CineBench R20 ejecutar. El voltaje pico, que es muy importante para la electromigración, solo se mueve de 1,41 voltios a 1,42 voltios. La potencia total se incrementó en 25 W, lo que supone unos 30 A más. No es algo del orden de un cambio en el orden de magnitud.

Entonces, si termino con una placa base que ajusta este valor actual percibido, ¿bloqueará mi procesador? No. No, a menos que tenga algo más gravemente mal con su configuración (como las térmicas). Dentro de la vida útil de ese producto, y la próxima década después, no es probable que marque la diferencia. Y como se indicó anteriormente, incluso si esto afectó la electromigración a gran escala, los fabricantes de procesadores han incorporado mecanismos para enfrentarlo. La única forma de monitorearlo activamente, como usuario final, sería observar sus valores de voltaje promedio y pico en el transcurso de los años, y ver si el procesador se ajusta automáticamente para compensarlo.

Quizás valga la pena mencionar que el valor actual adimensional no es ajustable por el usuario final, es algo que la placa base controla a través de las actualizaciones del BIOS. Si usted es un usuario que hace overclocks, está haciendo más hacia la electromigración de lo que este ajuste lo hará. Para aquellos preocupados por las térmicas, sospecho que ya están monitoreando y ajustando los límites de su BIOS según sea necesario para su sistema.

Cómo verificar si mi placa base lo está haciendo

Primero, debe ejecutar un sistema de inventario. Cambiar cualquiera de los PPT / TDC / EDC regulares ya significa que el sistema se está ajustando, por lo que solo debemos centrarnos en los usuarios que se ocupan de los sistemas de existencias.

A continuación, adquiera la última versión de HWiNFO y una prueba que provoque una carga del 100% en el sistema, como CineBench R20.

Dentro de HWiNFO, hay una métrica llamada “Desviación de informes de potencia de CPU”. Observe ese número mientras el sistema está a plena carga. Una placa base normal debería decir ‘100%’, mientras que una placa base con un valor actual / VRM ajustado ajustado indicará algo por debajo del 100%.

Solo para aclarar, esta métrica solo es válida:

• Si su CPU AMD Ryzen se ejecuta con la configuración de stock completa en el BIOS. Sin OC, sin ajustes en los límites de potencia o corriente.
• Cuando su CPU está funcionando a una carga completa del 100%, como Cinebench.

Si su procesador no cumple con estos dos requisitos, entonces el valor de la desviación de informes de potencia no significa nada. Si dice menos del 100%, entonces su placa base se ve afectada. Por favor háznoslo saber en los comentarios más abajo.

¿Cuáles son mis opciones?

Si su placa base está exprimiendo el procesador, pero está contento con el rendimiento térmico de su enfriador y el consumo de energía en la pared, entonces disfrute del rendimiento adicional. Incluso si es solo 75 MHz.

AMD no necesariamente necesita comentar sobre el asunto, ya que este es un problema con los fabricantes de placas base. Los usuarios pueden querer probar el fabricante de su placa base y solicitar una actualización del BIOS. Los usuarios que quieran devolver sus placas base deberán consultar a su distribuidor, ya que puede depender de dónde se haya comprado.

Dado que aunque parece romper las especificaciones PPT, en realidad no va más allá de las especificaciones de frecuencia (que están mal definidas), puede ser similar a cómo los fabricantes de placas base juegan con los límites de potencia en los sistemas Intel, lo que significa que es algo eso es “justo ahí”. Aunque probablemente sería útil obtener una opción de BIOS para habilitarla / deshabilitarla.

Fuente: Anandtech

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *