Revisión y análisis profundo de Intel Tiger Lake 11th Gen Core i7-1185G7

El gran lanzamiento de portátiles para Intel este año es Tiger Lake, su próxima plataforma de 10 nm diseñada para emparejar una nueva arquitectura gráfica con una alta frecuencia agradable para el rendimiento que los clientes en este espacio requieren. Durante las últimas semanas, hemos cubierto la microarquitectura presentada por Intel en su último Día de la Arquitectura Intel 2020, así como el lanzamiento formal de la nueva plataforma a principios de septiembre. La pieza que faltaba del rompecabezas era en realidad probarlo, para ver si podía coincidir con la plataforma muy progresiva que ofrece actualmente Ryzen Mobile de AMD. Hoy es esa revisión, con uno de los portátiles de diseño de referencia de Intel.

Como un tigre surcando el hielo

El sistema que tenemos a mano es uno de los sistemas de diseño de referencia de Intel, que es muy similar al Sistema de desarrollo de software (SDS) que probamos para Ice Lake el año pasado. El portátil que nos enviaron se fabricó en conjunto con uno de los socios OEM de Intel y está destinado a actuar como un sistema de ejemplo para otros OEM. Esto es ligeramente diferente al sistema de desarrollo de software, que era principalmente para los desarrolladores de software de las grandes empresas (piense en Adobe) para la optimización del código, pero el principio sigue siendo el mismo: un sistema de alta potencia sobreconstruido para térmicas y ventiladores potentes. Estos sistemas no son minoristas, por lo que el ruido y la duración de la batería no forman parte de la ecuación de nuestras pruebas, pero también significa que el rendimiento que probamos debería ser uno de los mejores que la plataforma tiene para ofrecer.

Nuestra muestra de revisión de diseño de referencia implementa el procesador de nivel superior Tiger Lake ‘Core 11 th Gen’ de Intel, el Core i7-1185G7. Este es un procesador de cuatro núcleos con hyperthreading, que ofrece ocho subprocesos en total. Este procesador también tiene los nuevos gráficos X e -LP de tamaño completo , con 96 unidades de ejecución que funcionan hasta 1450 MHz.

No he mencionado la frecuencia del procesador o el consumo de energía, porque para esta generación Intel está decidiendo ofrecer sus procesadores móviles con una variedad de velocidades y alimentaciones compatibles. Para complicar el problema, Intel, por definición, solo lo ofrece públicamente en la forma mix-max, mientras que aquellos de nosotros que estamos interesados ​​en los datos preferiríamos ver una escala móvil.

En este caso, el Core i7-1185G7 se ofrecerá a los OEM con puntos de diseño térmico (TDP) de 12 W a 28 W. Un OEM puede elegir el mínimo, el máximo o algo intermedio, y una de las cosas molestas. sobre esto es que, como usuario, sin un equipo que mida la potencia de la CPU, no podrá saberlo, ya que los OEM no brindan esta información a los revendedores cuando promocionan los portátiles.

Para este diseño de referencia, se ha construido para ofrecer ambos, por lo que, en efecto, se parece más a un diseño de 28 W para un rendimiento máximo y para evitar problemas térmicos.

A 12 W, Intel enumera una frecuencia base de 1.2 GHz, mientras que a 28 W, Intel enumera una frecuencia base de 3.0 GHz. Desafortunadamente, Intel no enumera el valor que creemos que es más valioso, 15 W, lo que permitiría comparaciones más justas con el hardware Intel de la generación anterior, así como con la competencia. Después de probar la computadora portátil, podemos confirmar que el valor de 15 W programado en el silicio (por lo que estamos desconcertados por qué Intel no nos lo diría) es 1.8 GHz.

En escenarios de 12 W y 28 W, el procesador puede turbo hasta 4.8 GHz en un núcleo / dos subprocesos. Este sistema fue construido para que las térmicas o la energía no sean un problema, por lo que la CPU puede aumentar a 4.8 GHz en ambos modos. No solo eso, sino que el consumo de energía en los modos turbo está limitado a 55 W, para cualquier configuración de TDP. El presupuesto de turbo para el sistema aumenta con el punto de diseño térmico del procesador, por lo que cuando está en modo de 28 W, también funcionará durante más tiempo. Observamos esto en nuestras pruebas, y puede encontrar los resultados en la sección de potencia de esta revisión.

El diseño de referencia

Intel muestreó su diseño de referencia a varios medios de prensa para realizar pruebas. Tuvimos aproximadamente 4 días con el dispositivo antes de que tuviera que ser devuelto, lo suficiente para cubrir algunas áreas clave como el mejor rendimiento de la CPU y la GPU, cambios de microarquitectura en la estructura del núcleo y la caché, y algunos puntos de referencia estándar de la industria.

Hubo algunas advertencias y condiciones previas para esta revisión, similar a nuestra prueba inicial del sistema de desarrollo de Ice Lake, porque este no es un dispositivo minorista. Los ventiladores estaban completamente encendidos y la pantalla tenía un brillo fijo. Intel tampoco solicitó ninguna prueba de duración de la batería, porque el sistema no ha sido optimizado para la energía de la misma manera que lo haría un dispositivo minorista; sin embargo, como solo teníamos un préstamo de revisión de 4 días, eso significaba que la prueba de duración de la batería no era posible de todos modos. Intel tampoco solicitó fotografías del interior del chasis, porque nuevamente este no era un dispositivo minorista optimizado. Las fotografías de silicio que ve en esta revisión han sido proporcionadas por Intel.

Cuando los equipos regionales de relaciones públicas de Intel comenzaron a burlarse del diseño de referencia en Twitter (por ejemplo, Reino Unido, Francia), inicialmente pensé que se trataba de un sistema basado en Honor debido al bisel biselado azul como el Magicbook que revisé a principios de año. Esta no es una máquina Honor, sino uno de los OEM más grandes conocidos por su combinación de diseños comerciales y de juegos.

Teclado grande, teclas estilo chiclet y pantalla de 1080p. Para los puertos, este diseño solo tiene dos Tipo-C, los cuales se pueden usar para alimentación o DisplayPort-sobre-Tipo C. El diseño usa la apertura de la pantalla para actuar como un soporte para el cuerpo principal de la máquina.

En la parte posterior hay una gran ventilación para el flujo de aire. En las condiciones de la muestra de revisión, no podemos tomar fotografías del interior, sin embargo, está claro que este sistema se construyó con una dGPU adicional en mente. Intel no pudo comentar si el OEM con el que se asoció usará esto como un diseño final para cualquiera de sus sistemas, dados algunos de los elementos adicionales agregados al diseño para permitir su uso como plataforma de referencia.

Para la construcción completa del sistema, se equipó con el módulo Intel AX201 Wi-Fi 6, así como con un SSD Samsung PCIe 3.0 x4.

Los primeros dispositivos que se comercializarán con Core i7-1185G7 tendrán LPDDR4X-4266 (32 GB) o DDR4-3200 (64 GB). Intel anunció que estos chips también son compatibles con LPDDR5-5400, y confirmamos con los ingenieros que esta revisión inicial de silicio está diseñada para LPDDR5, sin embargo, todavía está en proceso de validación. Junto con el alto costo de LPDDR5, Intel espera sistemas LP5 un poco más tarde en el ciclo de vida del producto, probablemente en el primer trimestre de 2021.

Sobre el almacenamiento: Tiger Lake técnicamente es compatible con PCIe 4.0 x4 desde el procesador. Esto se puede usar para una GPU o SSD, pero Intel lo ve principalmente para un almacenamiento rápido. Dada la prevalencia de SSD PCIe 4.0 en el mercado, era curioso ver los diseños de referencia sin una unidad PCIe 4.0 correspondiente. La razón oficial de Intel para no equipar el sistema con una unidad de este tipo fue en la línea de ‘ no han estado en el mercado por mucho tiempo y por eso no pudimos validar a tiempo’. Esto es inmediato y dolorosamente ridículo: las unidades habilitadas para PCIe 4.0 x4, integradas en el controlador E16 de Phison, han estado en el mercado durante seis meses. Informamos sobre ellos el año pasado en Computex. Para ser claros, el argumento de Intel aquí no es simplemente que no tuvo tiempo suficiente para validarlo, es la combinación del tiempo de validación más el argumento de que las unidades no han estado en el mercado el tiempo suficiente para su validación. Esto está mal. Si las unidades solo hubieran estado en el mercado durante 6-8 semanas, tal vez estaría de acuerdo con ellas, pero decirlo cuando las unidades han estado fuera de servicio durante más de 24 semanas me sorprende.

La verdadera razón por la que este sistema no tiene una unidad PCIe 4.0 x4 es porque las unidades E16 consumen demasiada energía. El E16 se basa en el controlador SSD PCIe 3.0 E12 de Phison, pero con el PCIe 3.0 eliminado y el PCIe 4.0 agregado, sin muchos ajustes en el lado de cómputo del controlador o el punto de eficiencia del silicio. Como resultado, las unidades basadas en E16 pueden puntuar hasta 8 W para un rendimiento máximo de 5 GB / s. Una unidad PCIe 4.0 x4 diseñada correctamente desde cero debería poder alcanzar los 8 GB / s en el pico teórico, preferiblemente en esa ventana de 2-4 W.

Agregar un SSD PCIe 4.0 de 8 W a un portátil, como hemos dicho desde su lanzamiento, es una mala idea. La mayoría de las computadoras portátiles no tienen los requisitos de enfriamiento para un SSD tan hambriento de energía, lo que causa puntos calientes y sobrecarga térmica, pero también el efecto en la duración de la batería sería fácilmente perceptible. Si Intel hubiera dicho que ‘ las unidades PCIe 4.0 x4 actuales en el mercado no son adecuadas debido al alto consumo de energía de las soluciones actuales, sin embargo, las unidades futuras serán mucho más adecuadas’ , habría estado de acuerdo con ellas como una razón válida para no hacerlo. usando uno en el diseño de referencia. Tiene sentido, sin duda tiene más sentido que la primera razón que se dio por no estar en el mercado el tiempo suficiente para la validación.

Más allá de todo esto, para cuando las computadoras portátiles Tiger Lake lleguen al mercado, es probable que estén disponibles nuevas unidades construidas en los controladores E18 de Phison y Elpis PCIe 4.0 de Samsung. Sería una pregunta interesante si estos estarán disponibles en cantidades suficientes para la implementación de portátiles, por lo que es probable que veamos una combinación de SSD NVMe habilitados para PCIe 3.0 y PCIe 4.0. Espero que los fabricantes de equipos originales y los revendedores identifiquen cuáles se están utilizando en el punto de venta u ofrezcan diferentes variantes de SKU entre PCIe 3.0 y PCIe 4.0, pero yo no pondría dinero en ello.

Prioridad a la energía

El funcionamiento normal en una computadora portátil es que el procesador se ofrezca en un punto de diseño térmico específico, y cualquier cambio en el plan de energía en el sistema operativo afectará el tiempo que el sistema usa su modo turbo o los requisitos para ingresar a estados de mayor energía. Esto se debe a que la mayoría de los portátiles están diseñados para optimizarse en torno a ese único punto de diseño térmico.

En nuestro sistema de desarrollo de Ice Lake (y en algunos diseños OEM seleccionados, como el Razer Stealth), el control deslizante de potencia mientras estábamos en el modo de potencia ‘Balanceado’ nos permitió elegir entre un modo de potencia de 15 W y un modo de potencia de 25 W, ajustando la frecuencia base (y posteriormente el presupuesto turbo) del procesador. El chasis se construyó para los modos de mayor potencia y permitía a cualquiera que usara el sistema de desarrollo ver el efecto del rendimiento entre los dos puntos de diseño térmico.

Para nuestro diseño de referencia de Tiger Lake, tenemos un ajuste similar en juego. El control deslizante de potencia puede elegir entre el modo de 15 W o el modo de 28 W (tenga en cuenta que esto es diferente del modo de 12 W a 28 W que debe ofrecer el Tiger Lake de Intel, lo cual me pareció extraño por omitirlo, pero bueno en el sentido de que podríamos hacer comparaciones de 15W a 15W). También hay una tercera opción: 28 W con Dynamic Tuning de Intel habilitado, también conocido como Adaptix.

Dynamic Tuning / Adaptix de Intel es una forma para que el sistema administre con más cuidado la potencia del turbo y los límites de potencia según la carga de trabajo en cuestión. Con Adaptix habilitado, la idea es que la potencia se pueda administrar de manera más inteligente, dando un perfil de turbo más largo, así como un mejor turbo extendido de todos los núcleos donde el chasis es capaz. Intel siempre ha declarado que Adaptix es una optimización a nivel de OEM y no estaba habilitada en nuestro sistema de prueba de Ice Lake debido a que ese sistema no se optimizó de la misma manera.

Sin embargo, para nuestro sistema Tiger Lake se ha habilitado, al menos en el modo de 28 W. Técnicamente, Adaptix podría habilitarse en cualquier punto de diseño térmico, incluso a 12 W, pero en todos los casos debería ofrecer un mejor rendimiento en línea con lo que el chasis puede proporcionar y el OEM se siente seguro. Todavía sigue siendo una herramienta de optimización habilitada por OEM, e Intel cree que el 28 W con modo Adaptix en el diseño de referencia debería mostrar Tiger Lake en su mejor momento.

Más información más adelante en la revisión.

Esta reseña

Como primer vistazo al desempeño de Tiger Lake, nuestro objetivo con esta revisión es confirmar las afirmaciones que ha hecho Intel. La nueva plataforma tiene nuevas características e Intel ha promovido su desempeño frente a la competencia y la generación anterior. También entraremos en detalles de microarquitectura.

La página dos será una breve introducción a las actualizaciones fundamentales de Tiger Lake: la transición a la tecnología ‘SuperFin’ de 10 nm, la frecuencia mejorada y los gráficos. También cubriremos el núcleo en comparación con Ice Lake, así como los cambios de nivel de SoC, como el caché y los bloques de hardware actualizados.

Luego pasaremos a los nuevos datos. La página tres cubrirá los cambios menores en el núcleo cuando se trata de instrucciones, así como actualizaciones de seguridad. También cubriremos el rendimiento de la caché, la latencia y una parte clave de la informática moderna en el aumento de frecuencia en la página cuatro.

Para la parte de consumo de energía de la cobertura, la voy a cubrir en dos paréntesis: cómo se compara Intel con su propia generación anterior a 15 W, luego pasaré a la diferencia entre un Tiger Lake de 15 W y un Tiger Lake de 28 W, que será un tema recurrente a lo largo de esta revisión.

En el anuncio de Intel para Tiger Lake, la compañía enfrentó la versión de 28 W de Tiger Lake con la mejor configuración térmica y de potencia en un procesador AMD de 15 W; veremos si esas comparaciones de rendimiento realmente se mantienen, o si es simplemente una táctica de distracción para mostrar que Intel tiene la ventaja al usar casi el doble de potencia.

También cubriremos nuestro paquete de referencia de juegos de CPU, probado tanto a 1080p como máximo como mínimo a 720p. Intel hizo grandes afirmaciones sobre su nueva arquitectura de gráficos Xe-LP contra AMD, por lo que veremos cómo se comparan, tanto en los modos Tiger Lake de 15 W como Tiger Lake de 28 W.

SuperFin de 10 nm, Willow Cove, Xe y nuevo SoC

Dentro del procesador ‘Tiger Lake’ de 11.ª generación de Intel hay cuatro núcleos ‘Willow Cove’, 96 unidades de ejecución de gráficos construidas con la microarquitectura Xe-LP, todo ello además de la última tecnología de fabricación SuperFin de 10 nm de Intel. Debido a que cada parte de este procesador ha tenido actualizaciones, incluso tratar de explicarlo en una sola oración puede ser engorroso. En su mayor parte, Intel ha cubierto una serie de detalles relacionados con todas estas características en los eventos de agosto y septiembre, en el Día de la Arquitectura de Intel 2020 y el anuncio del núcleo de la 11a generación, que recapitularemos aquí antes de realizar nuestras propias pruebas.

Superfin de 10 nm

El diseño de Tiger Lake de Intel se ha habilitado a través de su última actualización de nodo de proceso de fabricación. Esta es una nueva versión del proceso de 10 nm de Intel, e Intel afirma que esta actualización es similar a una ‘transición de nodo completo’, como si Intel estuviera ofreciendo un nuevo proceso de fabricación en conjunto. Para respaldar esta afirmación, Intel dice que la nueva generación de 10 nm ofrece un rendimiento de transistores de 17-18% mejor en comparación con la generación anterior de 10 nm, equivalente a las cuatro actualizaciones que aplicó a 14 nm durante varios años, pero al mismo tiempo. Esto es algo bueno: mejor rendimiento, una ventana de frecuencia y voltaje más amplia, y potencialmente una mejor densidad, todo mientras se usa el mismo hardware de fabricación.

Intel está llamando a su nueva mejora de nodo de proceso ‘SuperFin’, basada en dos de los cambios de diseño clave que la compañía ha utilizado.

En las capas inferiores de la pila, Intel está introduciendo un nuevo conjunto de materiales de barrera para permitir barreras más delgadas, lo que también ayuda a reducir la resistencia de las vías hasta en un 30% al permitir que el metal de cada vía sea una proporción mayor del tamaño fijo. La reducción de la resistencia mejora el rendimiento de la interconexión entre las capas de metal.

En los niveles superiores, Intel está introduciendo un nuevo condensador SuperMIM (metal-aislante-metal). Intel afirma que este nuevo diseño ofrece un aumento de 5 veces en la capacitancia sobre un límite MIM estándar de la industria dentro del mismo espacio. Esto genera una reducción de voltaje que finalmente conduce a un rendimiento drásticamente mejorado del producto y del transistor. Intel afirma que se trata de un diseño pionero / líder en la industria, habilitado mediante la deposición cuidadosa de nuevos materiales Hi-K en capas delgadas, de menos de 0,1 nm, para formar una superrejilla entre dos o más tipos de materiales.

Además de esto, un nuevo diseño FinFET de tercera generación de alto rendimiento, habilitado a través de un mejor proceso de generación de puertas y una fuente / drenaje de menor resistencia, es lo que Intel ha declarado que habilitará productos futuros. Todo combinado, contra un proceso base de 10 nm (Intel no especifica cuál, aunque la mayoría de los analistas asumen que se trata de Cannon Lake, el OG de 10 nm), Intel está promoviendo un rendimiento de transistores entre un 17 y un 18% mejor con el SuperFin.

En el futuro, todos los productos construidos en este proceso se llamarán ’10nm SuperFin’. En el lenguaje original de 10 nm, esto era 10 ++. Tenga en cuenta que 10 ++ se renombró como 10+ en CES 2020, por lo que este es el segundo cambio de nombre. Para evitar confusiones, Intel ha proporcionado un anillo decodificador para mantener a todos actualizados:

(Pre-10nm: Cannon Lake)
10 nm: Cuaderno de Ice Lake, Ice Lake Xeon, Snow Ridge
SuperFin de 10 nm: Tiger Lake, productos Xe-LP (DG1, SG1)
Superfina mejorada de 10 nm: productos Sapphire Rapids Xeon, Xe-HP (1-4 mosaicos)

Después de 10ESF, deberíamos ver a Intel pasar a su proceso y productos de 7 nm.

Tiger Lake: Willow Cove

La nueva microarquitectura de los núcleos principales de la CPU se llama Willow Cove y es una actualización de la generación anterior de Sunny Cove. Intel afirma una mejora del rendimiento del 10-20% de generación en generación, sin embargo, es importante entender que esto no es una ganancia de reloj por reloj, sino más bien una afirmación de rendimiento máximo.

En términos de una ganancia de reloj por reloj, Intel en general ha dicho en nuestros informes técnicos que Willow Cove solo tendrá mejoras menores debido a la estructura de caché (más sobre eso a continuación). Aparte de la caché, hay algunos cambios para lidiar con la seguridad y los ataques de canal lateral, pero no hay otros cambios en el diseño central para tener en cuenta. Descubrimos algunas actualizaciones de rendimiento para instrucciones específicas, que veremos más adelante en la revisión, pero esencialmente a menos que el núcleo sea sensible al caché L2 / L3, los usuarios no deben esperar ver una diferencia de rendimiento de reloj por reloj.

De donde proviene el aumento del rendimiento del 10-20% de Tiger Lake es tanto la eficiencia del rendimiento como el rendimiento máximo. Debido al diseño SuperFin y una nueva biblioteca de transistores de alto rendimiento, Intel afirma haber permitido que el núcleo Willow Cove sea más eficiente en cada frecuencia en comparación con la generación anterior, pero también amplía el rango de frecuencia. Donde la generación anterior se limitó a alrededor de 4.0 GHz, el nuevo Tiger Lake, tal como se lanzó, puede llegar a 4.8 GHz. Según nuestras conversaciones con los ingenieros de Intel, puede llegar incluso más alto.

Aparte del ajuste de frecuencia, el mayor cambio dentro del núcleo es la jerarquía de caché.

La caché privada L2 obtiene la mayor actualización, con un aumento de tamaño del + 150%. Tradicionalmente, aumentar el tamaño de la caché al doble reducirá la tasa de errores en √2, por lo que el aumento de 2.5x debería reducir las pérdidas de caché L2 en ~ 58%. La otra cara de la moneda es que los cachés más grandes a menudo tienen latencias de acceso más largas, por lo que esperaríamos que la nueva L2 sea un poco más lenta. Después de muchas solicitudes, Intel dijo que su caché L2 tenía una latencia de 14 ciclos, lo que podemos confirmar, lo que lo hace solo +1 ciclo sobre la generación anterior. Es bastante impresionante duplicar el tamaño de la caché y solo agregar un ciclo de latencia. La caché también es ahora una caché no inclusiva.

El L3 también recibe una actualización, de dos maneras. El tamaño ha aumentado para los procesadores de mayor número de núcleos, de 2 MB por núcleo a 3 MB por núcleo, lo que aumenta la tasa de aciertos de la línea de caché L3 para los accesos a la memoria. Sin embargo, Intel ha reducido la asociatividad de 16 vías a 8 MB por chip 4C a 12 vías a 12 MB por chip 4C, lo que reduce la tasa de aciertos de la línea de caché, pero mejora el consumo de energía y la latencia de caché L3. Hay cierta pérdida general del ciclo de latencia L3, sin embargo, debido al aumento de tamaño, Intel cree que hay una ganancia neta de rendimiento para aquellas cargas de trabajo que tienen cuellos de botella de capacidad L3.

Para la mayoría de los usuarios, el ajuste en el tamaño de la caché y la latencia no debería ser específicamente perceptible. Al discutir con Intel, reconocen que algunas cargas de trabajo específicas se beneficiarán, sin embargo, estos cambios se realizaron desde un punto de vista de diseño de SoC de nivel superior. Opinamos que esto podría haberse hecho para ayudar con la fabricación o la densidad térmica, o puede dar lugar a productos futuros. Intel, al igual que otras empresas, realiza muchos análisis de carga de trabajo de los clientes sobre dónde están los cuellos de botella de la caché y, en última instancia, diseña la próxima generación de núcleos para atender lo que supone que será la principal combinación de cargas de trabajo cuando se trata del mercado.

Tiger Lake: Xe -LP

Una gran parte de la comparación de Tiger Lake / Ice Lake será la diferencia de rendimiento en los gráficos. Mientras que Ice Lake tiene 64 unidades de ejecución de gráficos Gen11, Tiger Lake tiene 96 unidades de ejecución pero de la nueva arquitectura X e -LP. Además de eso, está la nueva pila de transistores SuperFin que promete impulsar las frecuencias (y ventanas eléctricas) mucho más altas, lo que hace que Tiger Lake sea más escalable que antes. Donde los gráficos Gen11 vieron frecuencias de hasta 1100 MHz, los diseños iniciales de Xe-LP con Tiger Lake están a 1450 MHz. Intel se ha burlado de que las futuras versiones de X e -LP (probablemente la tarjeta discreta DG1) llegarán a 1750-1800 MHz.

Dentro de los núcleos gráficos de Intel, hablamos de ALU, o Unidades Aritméticas Lógicas. Estas ALU a menudo pueden hacer varias cosas, como matemáticas con números enteros (números enteros), matemáticas con números de coma flotante (fracciones) o matemáticas extendidas (como trigonometría).

En el sistema de gráficos Ice Lake Gen11, cada una de las 64 unidades de ejecución consistía en un diseño de 8 ALU con un conjunto de cuatro para FP / INT y el otro conjunto de cuatro para FP / Extended Math.

Para X e -LP, cada una de las 96 unidades de ejecución tiene 10 ALU y se dividen de manera diferente: las primeras 8 son para FP / INT y las últimas 2 son para matemáticas extendidas. El 8 FP / INT en los nuevos gráficos admite los tipos de datos INT16 (a doble velocidad) e INT32, así como las nuevas instrucciones DP4a pueden acelerar las cargas de trabajo de inferencia INT8. Las nuevas unidades de ejecución ahora también funcionan en pares: dos UE compartirán un solo bloque de control de subprocesos para ayudar con el despacho coordinado de cargas de trabajo.

Los gráficos también tienen su propia caché L3, que tiene una unión en la interconexión de anillo utilizada dentro de Tiger Lake. Con el fin de ayudar a acelerar aún más las cargas de trabajo de gráficos, Intel ha duplicado el ancho de banda de la interconexión en anillo al darle esencialmente al SoC dos anillos, que admiten transferencias bidireccionales de 2x32B / ciclo.

En general, Intel reclama un rendimiento de gráficos de hasta 2x con el nuevo Xe-LP en comparación con el Gen11 anterior. Pasar de 64 UE a 96 UE daría inmediatamente un rendimiento de + 50%, y luego el aumento de 1100 MHz a 1450 MHz es otro 32%. Juntos, representarían un aumento del rendimiento del 98%, y todas las demás cosas escalarían por igual (ancho de banda de memoria y demás).

Tiger Lake: medios y visualización

Tiger Lake será el primer soporte oficial de Intel para el códec AV1 en modo de decodificación, e Intel también ha duplicado su rendimiento de codificación / decodificación para otros códecs populares. Esto significa una canalización de video de 12 bits basada en hardware completa para compatibilidad con reproducción HDR y 8K60.

El soporte de pantalla para Tiger Lake también se amplía con cuatro canales de pantalla 4K. Las conexiones a través de DP1.4, HDMI 2.0, Thunderbolt 4 y USB4 Type-C simultáneamente es la forma en que Intel espera que los usuarios operen si se necesitan las cuatro salidas a la vez. El motor de visualización también admite HDR10, color BT2020 de 12 bits, Adaptive Sync y soporte para monitores de hasta 360 Hz.

Otros ajustes de SoC

Hay algunos otros elementos sobre Tiger Lake que se conocen a nivel de SoC que también deben tenerse en cuenta.

Tiger Lake ahora es compatible con LPDDR4X-4266 (32 GB máx.) Y DDR4-3200 (64 GB máx.), Lo que supone una ligera mejora con respecto a la generación anterior de Ice Lake en el lado LPDDR4X. El silicio también está diseñado para admitir LPDDR5-5400, sin embargo, es poco probable que veamos dispositivos con LPDDR5 hasta el año nuevo debido a los requisitos de validación adicionales y al costo adicional actual que trae LPDDR5. Intel discutió con sus socios y ellos prefirieron que Intel priorizara la validación LPDDR4X para empezar. Intel nos ha dicho que el soporte LPDDR5 en el silicio actual, pendiente de la validación completa, no requiere un nuevo paso de silicio.

También relacionado con la memoria, el nuevo silicio ahora es compatible con Total Memory Encryption. TME ha sido una característica popular de los nuevos diseños de silicio en los últimos tiempos y permite a los usuarios de dispositivos móviles tener los datos almacenados en la memoria en un sistema físicamente seguro contra ataques de hardware. En otros sistemas, se nos ha dicho que una función como TME, cuando se implementa correctamente, solo da un impacto de rendimiento del 1-2% en el peor de los casos más habitual: Intel no ha proporcionado números equivalentes hasta el momento. Dado el tipo de función que es, sospechamos que TME podría ser más una función de producto habilitada para vPro, sin embargo, tendremos que aclarar eso.

Una pregunta que a todo el mundo le gusta hacer es el tamaño del dado. Sacamos unas pinzas y medimos 13,49 x 10,70 mm = 144,34 mm2. Esto está bastante cerca de nuestra estimación de CES de las fotografías de obleas, donde supusimos 146,10 mm2 (~ 1,2% de error).

Nuevas instrucciones y seguridad actualizada

Cuando se lanza una nueva generación de procesadores, junto con el diseño físico y los cambios de diseño realizados, esta suele ser la oportunidad de optimizar también el flujo de instrucciones, aumentar el rendimiento y mejorar la seguridad.
Instrucciones básicas

Cuando Intel nos dijo por primera vez en nuestras sesiones informativas que, en general, aparte de los cachés, el nuevo núcleo era idéntico a la generación anterior, estábamos algo confundidos. Normalmente vemos algo así como una función matemática común que se acelera en las ALU, pero no, los únicos cambios adicionales realizados fueron por seguridad.

Como parte de nuestras pruebas de referencia normales, hacemos un barrido completo de instrucciones, que cubre el rendimiento y la latencia de todas las instrucciones admitidas (conocidas) dentro de cada una de las principales extensiones x86. Encontramos algunas mejoras menores en Willow Cove.

• CLD / STD – Borrado y configuración de la bandera de dirección de datos – La latencia se reduce de 5 a 4 relojes
• REP STOS * – Almacenes de cadenas repetidas – Mayor rendimiento de 53 a 62 bytes por reloj
• CMPXCHG16B – comparar e intercambiar bytes – latencia reducida de 17 relojes a 16 relojes
• LFENCE – serializa instrucciones de carga – rendimiento de 5 / ciclo a 8 / ciclo

Hubo dos regresiones:

• REP MOVS * – Movimientos repetidos de cadenas de datos – Rendimiento reducido de 101 a 93 bytes por reloj
• SHA256MSG1 – Programación de mensajes SHA256 – rendimiento de 5 / ciclo a 4 / ciclo

Vale la pena señalar que Willow Cove, aunque admite instrucciones SHA, no tiene ningún tipo de aceleración SHA basada en hardware. En comparación, el núcleo Tremont Atom de menor potencia de Intel tiene aceleración SHA, al igual que los núcleos Zen 2 de AMD, e incluso los núcleos de VIA y los núcleos de empresa conjunta Zhaoxin de VIA. Le pregunté a Intel exactamente por qué los núcleos Cove no tienen aceleración SHA basada en hardware (ya sea porque el rendimiento actual es suficiente, o el tiempo, la potencia o el área de la matriz), pero aún no he recibido una respuesta.

Desde el punto de vista del rendimiento de las instrucciones x86 puro, Intel tiene razón en que no hay muchos cambios aquí. En comparación, el salto de Skylake a Cannon Lake fue más grande que esto.

Seguridad y CET

Por el lado de la seguridad, Willow Cove ahora habilitará la tecnología Control-Flow Enforcement Technology (CET) para proteger contra un nuevo tipo de ataque. En este ataque, la metodología aprovecha las instrucciones de transferencia de control, como devoluciones, llamadas y saltos, para desviar el flujo de instrucciones a un código no deseado.

CET es la combinación de dos tecnologías: Shadow Stacks (SS) y Indirect Branch Tracking (IBT).

Para devoluciones, Shadow Stack crea una segunda pila en otra parte de la memoria, mediante el uso de un registro de puntero de pila de sombras, con una lista de direcciones de retorno con seguimiento de página, si se llama a la dirección de retorno en la pila y no coincide con la dirección de retorno esperado en la pila de sombras, el ataque será atrapado. Las pilas de sombras se implementan sin cambios de código, sin embargo, será necesario programar una administración adicional en caso de un ataque.

Se agregan nuevas instrucciones para la administración de la página de la pila de sombras:

• INCSSP: incrementa el puntero de la pila de sombras (es decir, para desenrollar la pila de sombras)
• RDSSP: lee el puntero de la pila de sombras en un registro de propósito general
• SAVEPREVSSP / RSTORSSP: guardar / restaurar la pila de sombras (es decir, cambio de hilo)
• WRSS: escribir en la pila de sombras
• WRUSS: Escribir en pila de sombras de usuario
• SETSSBSY: Establecer el indicador de ocupado de pila de sombras en 1
• CLRSSBSY: Borra el indicador de ocupado de pila de sombras a 0

El seguimiento indirecto de rama se agrega para defenderse contra objetivos de salto / llamada mal dirigidos equivalentes, pero requiere que se cree software con nuevas instrucciones:

• ENDBR32 / ENDBR64: termina una rama indirecta en modo de 32 bits / 64 bits

Los detalles completos sobre el CET de Intel se pueden encontrar en la Especificación CET de Intel .

En el momento de la presentación, teníamos la impresión de que CET estaría disponible para todos los procesadores de Intel. Esto está disponible actualmente en las vistas previas internas de Windows 10. No estoy seguro de la compatibilidad con Linux en este momento.

Actualización: Intel se ha comunicado para decir que su texto que implica que CET era vPro solo estaba mal redactado. Lo que pretendía decir era ‘Todas las CPU son compatibles con CET, sin embargo, vPro también proporciona seguridad adicional, como Intel Hardware Shield’.

Aceleración de IA: AVX-512, Xe-LP y GNA2.0

Uno de los grandes cambios para Ice Lake la última vez fue la inclusión de un AVX-512 en cada núcleo, lo que permitió la aceleración vectorial para una variedad de rutas de código. Tiger Lake conserva la unidad de instrucción AVX-512 de Intel, con soporte para las instrucciones VNNI introducidas con Ice Lake.

Es fácil argumentar que dado que AVX-512 ha existido durante varios años, particularmente en el espacio del servidor, aún no lo hemos visto propagarse a la ecosfera del consumidor de ninguna manera; la mayoría de los esfuerzos para AVX-512 han sido principalmente por empresas de software en estrecha colaboración con Intel, aprovechando los propios gurús vectoriales y programadores ninja de Intel. De las aproximadamente 19-20 herramientas de software que a Intel le gusta promover como aceleradas por IA, solo un puñado se enfoca en la unidad AVX-512, y algunas de esas herramientas están dentro del mismo título de software (por ejemplo, Adobe CC).

Recientemente ha habido un alboroto famoso con el creador de Linux Linus Torvalds sugiriendo que ‘ AVX-512 debería sufrir una muerte dolorosa’ , citando que AVX-512, debido a la densidad de cómputo que proporciona, reduce la frecuencia del núcleo y elimina área de la matriz y presupuesto de energía del resto del procesador que podría gastarse en cosas mejores. Intel mantiene su decisiónmigrar AVX-512 a sus procesadores móviles, indicando que sus clientes clave están acostumbrados a ver instrucciones compatibles en su cartera de procesadores desde el servidor al móvil. Intel dio a entender que AVX-512 ha sido una victoria en su negocio de HPC, pero que la plataforma del consumidor necesitará tiempo para aprovechar los beneficios. Algunos de los usos más importantes hasta ahora para la aceleración AVX-512 para el consumidor han sido para funciones específicas en Adobe Creative Cloud, o mejora de imagen de IA con Topaz.

Intel ha habilitado una nueva funcionalidad de instrucción de AI en Tiger Lake, como DP4a, que es una adición de Xe-LP. Tiger Lake también tiene un Acelerador Neural Gaussiano 2.0 actualizado, que según Intel puede ofrecer 1 Giga-OP de inferencia dentro de un milivatio de potencia, hasta 38 Giga-Ops a 38 mW. El GNA se utiliza principalmente para el procesamiento del lenguaje natural o palabras de activación. Para permitir la aceleración de IA a través de las unidades AVX-512, los gráficos Xe-LP y el GNA, Tiger Lake es compatible con el último paquete DL Boost de Intel y el próximo kit de herramientas OneAPI.

Arquitectura de caché: el efecto de aumentar L2 y L3

Aunque el núcleo de Willow Cove no trae tantas mejoras en la microarquitectura del núcleo real, una gran actualización para el diseño es el nuevo subsistema de memoria gracias a un cambio bastante significativo en las cachés del diseño.

Intel ha realizado algunos cambios importantes en las cachés L2, así como en los segmentos de caché L3: ambos han crecido considerablemente y se ha modificado la exclusividad de su línea de caché.

Los cachés L1-D y L1-I en Willow Cove siguen siendo los mismos que el diseño anterior de Sunny Cove, lo que significa que conservan sus diseños asociativos de 48 KB de 12 vías para el caché de datos, respectivamente, el diseño asociativo de 32 KB de 8 vías para el caché de instrucciones.

Donde las cosas difieren significativamente es en la L2. Esta vez, Intel ha rediseñado por completo esta parte del núcleo y ha aumentado la capacidad en un 150% al aumentarla de 512 KB a 1280 KB. Además, la capacidad utilizable real ha aumentado aún más entre generaciones a medida que el nuevo diseño ahora pasa de incluir las cachés L1 a un diseño no inclusivo.

Los compromisos que se hicieron al aumentar el caché en esta gran cantidad se encuentran en la asociatividad, que ahora aumenta de 8 vías a 20 vías, lo que probablemente disminuye las fallas de conflicto para la estructura.

En el lado de L3, también ha habido un cambio en la microarquitectura ya que el tamaño de la porción de caché por núcleo ahora aumenta de 2 MB a 3 MB, totalizando 12 MB para un diseño de Tiger Lake de 4 núcleos. Aquí Intel realmente redujo la asociatividad de 16 vías a 12 vías, probablemente aumentando los errores de conflicto de línea de caché y disminuyendo el paralelismo de acceso.

Cuando observamos el i7-1185G7 en nuestra herramienta de prueba de latencia personalizada, notamos inmediatamente los cambios en la estructura de la caché al comparar los resultados con un diseño de generación anterior, como el i7-1065G7 basado en Ice Lake.

Lo primero a tener en cuenta aquí sobre los resultados es la frecuencia de los núcleos, así como las configuraciones de DRAM del sistema: la parte de Tiger Lake registró hasta 4800MHz y presentó LPDDR4X-4266 con 36-39-39 tiempos, mientras que se midieron las cifras de Ice Lake en un Surface Laptop 3, con reloj a 3900MHz y LPDDR4X-3733 32-34-34.

En el lado L1 de las cosas, como se esperaba, no vemos muchos cambios en la latencia más allá del aumento de la frecuencia del reloj, lo que reduce los tiempos de acceso de 1.3ns a 1.04ns.

Pasar a la caché L2 es donde las cosas se vuelven interesantes. Las cifras de tiempo de acceso absoluto bajan de 3.3 a 2.9ns, pero el núcleo de Willow Cove ahora extiende este tiempo de acceso a una profundidad más profunda hasta 1.25MB, exactamente como esperaríamos dada la estructura más grande de la caché de esta generación.

Las latencias de acceso no se extienden exactamente a 12 MB porque a partir de 8 MB estamos excediendo la cobertura de L2 TLB, momento en el que el núcleo tiene que recorrer la página, incurriendo en mayores penalizaciones de latencia.

Intel no ha cambiado los TLB de esta generación, y aún mantiene un TLB L1 de 64 páginas, lo que significa que a partir de una profundidad de 256 KB (en páginas de 4 KB), estamos viendo un aumento en los tiempos de acceso para patrones de acceso que no alcanzan el TLB de primer nivel.

En la L3 estamos obteniendo algunos resultados interesantes, tanto positivos como negativos. Lo positivo, por supuesto, es la profundidad enormemente aumentada de la caché que ahora ve latencias de buen acceso extendidas alrededor de la marca de 10-12 MB. Lo que aparentemente no es tan bueno es el hecho de que las cifras de latencia absoluta aquí no son realmente diferentes a las de Ice Lake, y terminan siendo casi idénticas a pesar de que el diseño de Tiger Lake tiene una frecuencia hasta un 23% más alta. Esta es una señal de que las latencias de acceso al ciclo del diseño han aumentado bastante en esta generación.

En las profundidades más profundas que alcanzan la DRAM, las cosas se mejoran enormemente para el nuevo diseño de Tiger Lake: el acceso aleatorio completo a una profundidad igual de 160 MB aquí en los gráficos mejora de 130ns a 98ns. Es cierto que estamos usando diferentes configuraciones de DRAM entre las dos plataformas de prueba y el sistema Tiger Lake usa un 14% más de memoria con frecuencia de reloj, pero tiene peores tiempos. Las mejoras de latencia reales van mucho más allá de la diferencia teórica de latencia de acceso a DRAM, así que lo que creo que está sucediendo aquí es que Intel ha realizado algunas mejoras en su subsistema de memoria y controladores de memoria.

Estamos viendo un ligero cambio en las latencias del patrón de acceso en comparación con Ice Lake, especialmente en el patrón “R por R página” que permanece dentro de una sola página de memoria antes de pasar a la siguiente, con latencias de acceso un 30% mejores que en Lago de hielo. Esto sí señala algunos cambios estructurales reales en el lado del controlador de memoria, ya que de lo contrario el comportamiento del prefetcher al menos no ve ningún cambio en absoluto, y las cosas son bastante similares a lo que hemos visto en Skylake.

Lo que también es interesante para el nuevo diseño es que los patrones de transmisión lineal sencillos han experimentado una ligera degradación, aumentando de 3.516ns a 4.277ns en el nuevo núcleo. Es probable que esto sea un efecto secundario de los ciclos de caché agregados en los cachés de nivel inferior del nuevo núcleo de Willow Cove.

Al traducir el gráfico de latencia de nanosegundos a ciclos centrales, vemos los cambios estructurales generacionales entre los diseños de Sunny Cove y Willow Cove.

La caché L1D permanece igual con una latencia de 5 ciclos, que sigue siendo una degradación de 1 ciclo sobre los núcleos Skylake.

El L2 aparentemente ha aumentado de 13 ciclos a 14 ciclos en Willow Cove, lo cual no es tan malo considerando que ahora es 2.5 veces más grande y su asociatividad ha aumentado. Es interesante contrastar esto con otros cachés de tamaño similar en la industria: el núcleo Neoverse N1 de Arm tiene un caché de 1 MB con una latencia de 11 ciclos, mientras que su nuevo núcleo X1 lo reduce a 10 ciclos. Por supuesto, los diseños de Intel tienen un reloj mucho más alto, pero el diseño del competidor aún terminaría con mejores tiempos de acceso absoluto.

La latencia del ciclo de caché L3 es un poco decepcionante, ya que estamos viendo esencialmente una degradación de ciclo de +9 sobre el diseño anterior. Esto explica las latencias de acceso anteriores que, en esencia, permanecieron iguales a pesar de que los relojes del núcleo son un 23% más altos.

Finalmente, echando un vistazo rápido a las cifras de ancho de banda de un solo núcleo, estamos viendo si ha habido cambios estructurales significativos en este aspecto del diseño.

En el lado L1 de las cosas, las cosas son un poco extrañas ya que las cifras no aumentan como se esperaba con la frecuencia del reloj, la carga pura y el ancho de banda de almacenamiento son de hecho más altos, pero los patrones de copia de memoria son menores de lo esperado. En las regiones L2 y L3 podemos ver claramente el aumento de la profundidad de los cachés. El L2 escala bien con un aumento cercano al 19% en el ancho de banda que está en línea con el repunte del reloj.

El L3 no escala tan bien, ya que las copias de memoria entre líneas de caché aquí son solo un 5% más rápidas que en Ice Lake, probablemente debido al aumento de las latencias de acceso de los cachés.

En la región de DRAM, estamos viendo un gran cambio en el comportamiento de la nueva microarquitectura, con un ancho de banda de carga enormemente mejorado desde un solo núcleo, aumentando de 14.8GB / S a 21GB / s. El ancho de banda de la tienda pura se reduce ligeramente de 14,8 GB / sa 13,5 GB / s, pero eso no es muy importante como métrica para x86, ya que el núcleo primero tiene que leer la memoria antes de escribir en ella, a diferencia de algunas de las no temporales. optimizaciones de escritura que hemos visto en los procesadores Arm.

Más importante aún, las copias de memoria entre las líneas de caché y las lecturas y escrituras de memoria dentro de una línea de caché han mejorado respectivamente de 14,8 GB / sy 28 GB / sa 20 GB / sy 34,5 GB / s. Eso es una mejora del 35% en el ancho de banda de copia, lo cual es bastante significativo.

En general, los nuevos núcleos de Willow Cove y el subsistema de memoria de Tiger Lake parecen una especie de bolsa mixta. Los tamaños de caché aumentados son ciertamente bienvenidos para cargas de trabajo que tienen una huella de memoria más grande; sin embargo, los cambios en la caché L3 de Intel parecen haber venido con algunos compromisos mayores cuando se trata de latencia. En el lado positivo, las latencias de acceso a DRAM y el ancho de banda parecen haber mejorado drásticamente en el nuevo diseño, y aquí parece que Intel hizo algunas buenas mejoras en la estructura, así como en los controladores de memoria de Tiger Lake.

Las travesuras de Intel con el TDP lastiman a todos

Cada vez que nos acercamos a hablar sobre el consumo de energía de las computadoras portátiles en una nueva generación de procesadores Intel, descubrimos que las metas se han movido. La física del consumo de energía y la refrigeración son siempre las mismas (en este universo), sin embargo, encontramos que el punto focal de marketing del consumo de energía de Intel ha cambiado una vez más, causando más confusión de la que creo que está justificada. Tiger Lake, en este caso, no es una excepción.

Para Tiger Lake, Intel ofrece dos conjuntos de procesadores, al igual que las generaciones anteriores. Estos solían llamarse la serie U, basada en 15 vatios, y la serie Y, en 4.5 / 7/9 vatios; sin embargo, para Tiger Lake las designaciones U e Y ya no se usarán. Esta vez, los usuarios deberán comprender completamente la lista de SKU de productos de Intel para poder entenderla. Buena suerte, abuela.

Lo que solía llamarse la serie U es ahora, desde la perspectiva de la ingeniería más que del marketing, conocido como el empaque del producto ‘UP3’. Estos procesadores UP3 se pueden identificar de dos maneras: primero, el nombre del procesador tiene un ‘5’ antes de la G, como Core i7-1185G7; segundo, por el rango de TDP de 12-28 vatios.

Esta vez, Intel no le da a la histórica serie U un valor de TDP fijo, sino que le da un rango de valores, indicando que ‘TDP es una métrica pobre’ para el tipo de sistemas en los que entran estos chips. A pesar de esta afirmación, Intel sigue adelante y cita la frecuencia base de los procesadores UP3 como el valor máximo de 28 W.

Para cualquiera que no esté capacitado para leer los nombres de productos de Intel, uno podría equivocarse fácilmente al comparar la generación anterior de Ice Lake con las nuevas piezas de Tiger Lake. De repente, el típico procesador ‘U-Series’ de 15 W, como el Core i7-1065G7, estaba a 1.3 GHz, pero ahora es reemplazado por el Core i7-1185G7, con una frecuencia base de 3.0 GHz. Los nombres son muy similares, y solo hay una brecha de una generación, así que ¡qué increíble salto en una generación! ¿Correcto? ¿¿Correcto??

Para empeorar las cosas, los valores de la frecuencia base de 28 W están codificados en la cadena del procesador de los productos. Para cualquiera que busque el CPUID para uno de estos procesadores, ese valor de 28 W es lo que verá, incluso si el producto es un portátil sin ventilador que funciona a 12 W. Para dar algo de crédito, Intel en su base de datos en línea también proporciona el frecuencia base en el valor TDP más bajo también. Pero esto no está codificado en la cadena del procesador como lo está el valor de 28 W.

Uno podría perdonar a Intel si también proporciona el valor de 15 W para estos nuevos procesadores en la base de datos en línea. Esto permitiría a los entusiastas y personas influyentes clave comprender la cartera de productos en una comparación de manzanas con manzanas con la generación anterior en este soporte de la serie U. Sin embargo, esto no se proporciona . No fue hasta que obtuve mi muestra de revisión, encontré el valor yo mismo y luego devolví la muestra que Intel me dio este valor para el procesador único que había probado. Hasta aquí parece que la empresa quiere llegar para ‘eliminar’ este concepto de TDP y consumo de energía.

Entonces, ¿qué obtenemos si miramos la propia base de datos de procesadores de Intel?

• Frecuencia base en el valor PL1 más bajo
• Frecuencia base en el valor PL1 más alto
• Frecuencia turbo máxima a un valor PL2 no dado

Las métricas que Intel omite incluyen:

• La frecuencia base en el valor de 15 W de la serie U (para UP3)
• El valor PL2 para el que se define la frecuencia máxima de turbo
• El número de núcleos en los que es válida la frecuencia máxima de turbo
• La frecuencia turbo cuando todos los núcleos están cargados

Intel a veces, cuando se lanzan productos, proporciona ese valor final de un turbo de núcleo completo. Sin embargo, los usuarios tendrán que estar buscando cobertura en lugares como AnandTech en ese momento, ya que no está en la página del producto en Intel.

Los otros tres valores enumerados como no proporcionados no se nos proporcionan, incluso cuando se solicitan, y la respuesta común es “estos valores son propietarios”. Esto es a pesar del hecho de que la mayoría de estos valores se pueden descubrir fácilmente teniendo el hardware a mano y probando la salida relevante. Es poco probable que una salida tenga uno de cada procesador para descubrir estos datos y proporcionar una tabla, e incluso entonces eso solo importa si un usuario puede encontrarlo, ya que no está en el sitio web de Intel. Desde mi punto de vista, y le he dicho a Intel esto innumerables veces, ofrecería una imagen más completa (y un mejor mensaje de marketing de que Intel se preocupa por su audiencia entusiasta que se preocupa por esto) si los datos se proporcionaran en su totalidad.

Si esa mezcla de datos no lo confundió, ¿cómo es esto para completar? Intel también anunció los procesadores equivalentes de la serie Y, que tienen un empaque de estilo UP4. Intel enumeró estos productos con un rango de TDP de 7 vatios a 15 vatios, y la base de datos en línea tiene la frecuencia base de estos valores. Pero en las tablas de especificaciones de lanzamiento de productos, para colmo de males, Intel proporcionó la frecuencia base para estos procesadores en 9 vatios, lo que permite una comparación de manzanas con manzanas. Imagínate. Puede ser comprensible cuando hay alguna inconsistencia en los detalles entre productos de diferentes unidades de negocios de la misma empresa, sin embargo, estos dos grupos de procesadores de clientes no podrían estar más juntos, dado que se citan en la misma tabla en la misma diapositiva de la misma. presentación.

(A veces, cosas como esta se captan durante los informes previos a la prensa y se arreglan para el anuncio público, sin embargo, Intel decidió no informar previamente a ninguna prensa esta vez).

Resumen de TDP, PL1, PL2

Para cualquier lector nuevo, esa sección anterior puede parecer muy compleja. El consumo de energía, en un nivel alto, debería ser algo muy simple de discutir. La energía entra, luego la energía se corta; solía ser tan simple como esto. Sin embargo, extraer el máximo rendimiento del hardware, así como enfocar el rendimiento en áreas donde es más vital (como turbo), lo ha vuelto complejo. Discutir elementos como el consumo de energía y los puntos de diseño térmico ha sido un proceso iterativo durante la última década. Para aquellos que no han profundizado en el tema antes, aquí hay un breve resumen, principalmente con respecto a Intel.

La definición de Intel de TDP, o el punto de diseño térmico, no significa el consumo máximo de energía del procesador como lo hace con algunos de la competencia.

El punto de diseño térmico de un procesador Intel es una medida del enfriamiento esperado requerido para que ese procesador funcione dentro del funcionamiento normal a su frecuencia base con una carga alta. El TDP tiene las unidades de vatios, por la cantidad de joules de energía por segundo que se necesita eliminar del sistema para mantener el funcionamiento normal.

Debido a que el TDP está en vatios, el TDP a menudo se equipara al consumo de energía de ese procesador. Esta simplificación es, para nuestros propósitos, una identidad válida para hacer, ya que estamos lidiando con la refrigeración que necesita un procesador.

Con eso en mente, Intel define el TDP como el consumo de energía de un procesador a una frecuencia mínima garantizada con una carga de trabajo sostenida y muy exigente dentro de un entorno adecuado. Lo que eso significa es que si tiene una gran carga de trabajo de cálculo (como renderizado) y siempre que su sistema no esté en algún lugar anormal (como en un horno o en el polo norte / sur), el procesador no superará el TDP valor por el consumo de energía, así como ofrecer la frecuencia mínima establecida con esa energía; si no lo hace, Intel respetará su garantía y la reemplazará.

Normalmente nos referimos a la clasificación TDP de Intel como el ‘consumo de energía sostenido’ para la frecuencia base dada. A veces se lo denomina “nivel de potencia 1” o PL1 de ese procesador. Entonces, por ejemplo, el procesador Tiger Lake que estamos probando hoy admite un rango de valores de TDP, como 12 W, con una frecuencia mínima dada, en este caso 1200 MHz a 12 W. Debido a que Tiger Lake ofrece un rango de valores de TDP, puede complicarse; cubriremos esto en un momento.

Junto al valor PL1, estos procesadores también tienen un valor PL2. Esto se conoce comúnmente como el consumo máximo de energía mientras el procesador está funcionando en un modo de rendimiento turbo y el valor de PL2 es más alto que PL1. Intel rara vez cita un valor oficial para PL2 cuando anuncia un producto, pero siempre anuncia la frecuencia asociada con PL2, que es una frecuencia turbo máxima. Debido a que el modo turbo es un modo de tiempo limitado, estas frecuencias se alcanzan durante eventos de experiencia del usuario, como tocar una pantalla, cargar software o incluso al presionar teclas. En medio de estos acontecimientos en la experiencia de usuario, el sistema se mueve a menudo fuera del modo turbo para ahorrar energía, y puede hacerlo dentro de 1/60 º de segundo.

La frecuencia asociada con este PL2 es, por tanto, una frecuencia de tiempo limitada, en lugar de una frecuencia sostenida, y también puede estar limitada por la cantidad de núcleos a los que se puede aplicar en cualquier momento. Esta es también la frecuencia que aparece en la caja o computadora portátil, junto con el valor PL1, que algunos usuarios sienten que no es un reflejo genuino de un rendimiento sostenido.

PL2 también se utiliza en la fase inicial de una carga de trabajo de alto rendimiento. Aparte de las consideraciones térmicas, Intel también tiene una métrica llamada Tau, en segundos, que es una medida de cuánto tiempo se puede mantener el modo turbo PL2 para una carga de trabajo de “alto rendimiento típico”. Por lo tanto, si un PL2 tiene una potencia de 50 W, con una Tau de 10 segundos, entonces el “presupuesto turbo” es de 500 julios de energía. Si la carga de trabajo es más extenuante que la métrica de Intel, entonces el tiempo real para turbo puede ser más corto ya que se usa ese presupuesto de 500 julios. El presupuesto se repone si se necesita menos de PL1 (el cálculo real es más complejo, basado en una ventana de tiempo promedio ponderado exponencial, pero tiene el mismo principio).

Para resumir:

• PL1, o TDP, es el consumo de energía sostenido para una frecuencia mínima dada
• PL2, o turbo, es el consumo máximo de energía para una frecuencia máxima en un modo turbo
• Un modo turbo puede ser un evento de experiencia del usuario o la fase inicial de una carga de trabajo de alto rendimiento.
• Tau es una medida de tiempo de cuánto tiempo se puede mantener PL2 en una carga de trabajo de alto rendimiento
• Tau se basa en una carga de trabajo típica de alto rendimiento definida por Intel

Como se señaló anteriormente, el PL1 de un procesador puede ser un rango de valores. Sin embargo, cuando el procesador entra en un producto, se establece en un valor fijo en ese rango. Este valor suele estar determinado por el tipo de producto (portátil delgado y ligero, vs portátil para juegos, por ejemplo).

Más allá de esto, Intel señala que sus valores sugeridos para PL2 y Tau son solo recomendaciones. Los fabricantes de portátiles son libres de elegir los valores de PL2 y Tau que consideren suficientes para el sistema que están construyendo. Como hemos visto en algunos diseños sin ventilador, PL2 y Tau pueden ser increíblemente pequeños, mientras que en una computadora de escritorio, Tau podría ser efectivamente infinito.

Métricas de Tiger Lake

¿Cómo influye esto en Tiger Lake? Para esta revisión, tenemos el Core i7-1185G7. Intel nos da los siguientes valores en su base de datos en línea:

• A 12 W TDP, la frecuencia base garantizada es de 1200 MHz
• A 28 W TDP, la frecuencia base garantizada es 3000 MHz
• En modo turbo, la frecuencia pico será de 4800 MHz.

Se dieron algunos detalles más en el momento en que se lanzó el procesador:

• La frecuencia máxima de 4800 MHz es válida solo cuando se carga un núcleo
• La frecuencia máxima es 4300 MHz cuando se carga más de un núcleo
• El consumo máximo de energía en el modo turbo es de ~ 50 W *

* Cabe señalar que la última cifra no se proporcionó directamente, sino a través del análisis de los datos de consumo de energía proporcionados en la plataforma de diapositivas que acompaña al lanzamiento. El valor de 50 W es válido independientemente del modo TDP que esté en juego.

De probar el Core i7-1185G7 que tenemos, también podemos proporcionar el siguiente punto de datos:

A 15 W TDP, la frecuencia base garantizada es de 1800 MHz

Desafortunadamente, no tenemos información sobre los otros procesadores UP3 Tiger Lake.

Comparación del consumo de energía: TGL a TGL

En la primera página de esta revisión, mencioné que nuestro diseño de referencia de Tiger Lake ofrece tres modos de energía diferentes para que los clientes de Intel puedan tener una idea del rendimiento que pueden esperar ver si construyen para las diferentes opciones de TDP sostenidas. Los tres modos que nos ofrecieron fueron:

• TDP de 15 W (base 1.8 GHz), sin Adaptix
• 28 W TDP (base 3.0 GHz), sin Adaptix
• 28 W TDP (base 3.0 GHz), Adaptix habilitado

Adaptix de Intel es un conjunto de tecnologías que incluye Dynamic Tuning 2.0, que implementa bucles de retroalimentación DVFS además de algoritmos supuestamente entrenados por IA para ayudar al sistema a entregar energía a las partes del procesador que más lo necesitan, como CPU, GPU, interconexión. o aceleradores. En realidad, lo que vemos sobre todo es que reduce la frecuencia en línea con los bloqueos de acceso a la memoria, manteniendo alta la utilización pero reduciendo la potencia, prolongando los modos turbo.

Carga de trabajo de cómputo

Cuando colocamos estos tres modos en una carga de trabajo con una combinación de accesos de memoria y cómputo AVX-512 pesados, se observa lo siguiente.

Tenga en cuenta que, debido a limitaciones de tiempo, esta es la única prueba que ejecutamos con Adaptix habilitado.

Se trata de una carga de trabajo fija para calcular 2.500 millones de dígitos de Pi, que tarda entre 170 y 250 segundos y utiliza tanto AVX-512 como 11,2 GB de DRAM para ejecutarse. Ya podemos sacar conclusiones.

En los tres modos de potencia, el límite de potencia del modo turbo (PL2) es aproximadamente el mismo en alrededor de 52 vatios. A medida que el sistema continúa con el modo turbo, la energía consumida se reduce hasta que se agota el presupuesto de energía, y el modo de 28 W tiene un poco más del doble del presupuesto de energía del modo de 15 W.

Adaptix claramente funciona mejor así, y aunque inicialmente sigue la misma tendencia a la baja que el modo normal de 28 W, se nivela sin llegar a una frecuencia ‘base’ en absoluto. Alrededor de la marca de 150 segundos (120 segundos después de la prueba), hay una caída lo suficientemente grande seguida de una línea plana que probablemente indicaría un modo de energía sostenida derivada térmicamente, que ocurre a 33 vatios.

El tiempo total para completar esta prueba fue:

• Core i7-1185G7 a 15 W: 243 segundos
• Core i7-1185G7 a 28 W: 191 segundos
• Core i7-1185G7 a 28 W Adaptix: 174 segundos

En este caso, pasar de 15 W a 28 W da un 27% de aceleración, mientras que Adaptix es un 40% de aceleración total.

Sin embargo, esta velocidad adicional tiene el costo de la energía total consumida. Con la mayoría de los procesadores, el punto de máxima eficiencia es cuando el sistema está inactivo, y aunque estos procesadores tienen un buen rango de alta eficiencia, cuando se solicitan las frecuencias máximas, nos encontramos en el peor de los casos. Debido a que este punto de referencia mide la potencia a lo largo del tiempo, podemos integrarlo para obtener el consumo total de energía de referencia:

• Core i7-1185G7 a 15 W: 4082 julios
• Core i7-1185G7 a 28 W: 6158 julios
• Core i7-1185G7 a 28 W Adaptix: 6718 julios

Esto significa que para el 27% de rendimiento adicional, se utiliza un 51% de potencia adicional. Para Adaptix, ese 40% de rendimiento adicional significa un 65% más de potencia. Esta es la compensación con los procesadores más rápidos, y esta es la razón por la que la administración de la batería en los sistemas móviles es tan importante: si una tarea es de menor prioridad y se puede ejecutar en segundo plano, entonces esa es la mejor manera de hacerlo para conservar la energía de la batería. . Esto significa cosas como la recuperación de correo electrónico, la sincronización del servidor o la generación de miniaturas. Sin embargo, debido a que los usuarios exigen que el menú de inicio aparezca INMEDIATAMENTE, los eventos de experiencia del usuario siempre se ponen al máximo y luego el sistema pasa rápidamente a inactivo.

Carga de trabajo ISV profesional

En nuestra segunda prueba, colocamos nuestras herramientas de monitoreo de energía en Photoscan de Agisoft. Esta prueba es algo así como una prueba de cálculo, dividida en cuatro algoritmos; sin embargo, algunas secciones son más escalables que otras. Normalmente, en esta prueba, veríamos que algunas secciones se basan en el rendimiento de un solo subproceso, mientras que otras secciones usan AVX2.

Esta es una prueba más larga, por lo que el turbo inmediato es un factor menos importante en todo el punto de referencia. Para la primera sección, el sistema parece contento con sentarse en los respectivos TDP, pero la segunda sección muestra un aumento y disminución más variable a medida que el presupuesto de energía se gana momentáneamente y luego se agota inmediatamente.

Haciendo las mismas matemáticas que antes,

• A 15 W, el punto de referencia tomó 4311 segundos y consumió 64854 julios.
• A 28 W, el punto de referencia tomó 3330 segundos y consumió 92508 julios.

Para un punto de referencia que tarda aproximadamente una hora, un aumento del rendimiento del + 30% es bastante considerable, sin embargo, se produce a expensas de un + 43% de potencia. Esta es una relación mejor que la primera carga de trabajo de cómputo, pero aún muestra que 28 W está más lejos del punto de eficiencia ideal de Tiger Lake.

Tenga en cuenta que el gráfico de potencia en el tiempo que obtenemos para Agisoft en un procesador móvil se ve muy diferente al de un procesador de escritorio , ya que un núcleo de procesador móvil puede superar el presupuesto de TDP con menos subprocesos.

Esto lleva a la dicotomía de los casos de uso de dispositivos móviles con respecto al marketing que se lleva a cabo para estos productos: como parte del lanzamiento de Tiger Lake, Intel estaba promoviendo su uso para transmisión, flujos de trabajo profesionales como Adobe, edición de video y creación de contenido, y Aceleración de IA. Todas estas son cargas de trabajo de alto rendimiento, en comparación con la navegación web o el trabajo básico de oficina. En parte porque Tiger Lake se basa en la última tecnología de procesos, además de ofrecer los núcleos de CPU y GPU de mejor rendimiento de Intel, el producto se lanzará en el mercado de dispositivos premium para los profesionales y prosumidores que puedan aprovecharlo.

Comparación de 15W TGL con 15W ICL y 15W Renoir

A pesar del alboroto con los números de 28 W en Tiger Lake, sospechamos que la mayoría de los fabricantes de equipos originales seguirán colocando el hardware dentro del chasis construido para el mercado de ultraportátiles de 15 W. Aquí es donde la mayoría de los OEM de Intel han tenido éxito durante la última década, ya que los requisitos de enfriamiento más bajos permiten un diseño más fácil de usar. Con 28 W, hay más de una transición hacia computadoras portátiles que tienen opciones de gráficos discretos, y la principal empresa que ha logrado ofrecer portátiles de 28 W sin gráficos discretos ha sido Apple: la mayoría de los socios de Intel, si quieren gráficos discretos, finalice mirando los procesadores de 45 W con más núcleos.

Entonces, en ese sentido, nuestra batalla principal debería ocurrir entre los productos fabricados para 15 W. Con ese fin, hemos podido unir los tres que dominarán las ofertas de esta temporada navideña: Ice Lake, Tiger Lake y Renoir de AMD.

• Para nuestro sistema Ice Lake, tenemos Microsoft Surface Laptop 3 . Esto tiene el Core i7-1065G7 de cuatro núcleos de primera línea, junto con 16 GB de LPDDR4X-3733. Base 1.3 GHz, Turbo 3.9 GHz. Debido a que se trata de un diseño OEM, Microsoft ha determinado los valores PL1 y PL2, por lo que pueden ser diferentes de un diseño “base”, sin embargo, estos son datos de un sistema real.

• El sistema Tiger Lake es nuestro diseño de referencia de Intel, que ejecuta el Core i7-1185G7 de cuatro núcleos en modo TDP de 15 W. Tiene 16 GB de LPDDR4X-4266. Base 1.8 GHz, Turbo 4.8 GHz.

• Nuestro sistema AMD Renoir es uno de los ejemplos más premium del Ryzen Mobile de AMD en un factor de forma de 15 W, el Lenovo Yoga Slim 7 con el procesador Ryzen 7 4800U de ocho núcleos. Incluso cuando se configura en el modo de rendimiento más alto, el sistema sigue funcionando con un consumo de energía sostenido de 15 W. Viene equipado con 16 GB de LPDDR4X-4266. Base 1.8 GHz, Turbo 4.2 GHz.

Carga de trabajo de cómputo

Para nuestras comparaciones de 15 W, podemos volver a mirar los mismos puntos de referencia que en la página anterior. Primero está y-Cruncher, una carga de trabajo de cómputo AVX2 / AVX512 que asigna tareas a la CPU y la memoria al calcular 2.500 millones de dígitos de Pi, y requiere ~ 11 GB de DRAM.

Como vimos en la página anterior, nuestro sistema Tiger Lake en verde a 15 W turbos hasta ~ 53 vatios antes de bajar muy rápidamente a 15 W para el resto de la prueba.

El Microsoft Surface Laptop 3, en virtud de un sistema OEM, tiene un comportamiento diferente: se turbos durante más tiempo, se establece en un límite de turbo corto de 25 W, y luego, después de unos dos minutos, se reduce a 20 W. El sistema aparece de manera oportunista. Aumente el consumo de energía hasta el final de la prueba, probablemente debido a la detección de margen térmico adicional.

El procesador AMD Renoir no tiene un turbo tan alto, alcanzando un máximo de solo 38,9 W.En el transcurso de los próximos 100 segundos o más lento, vemos una pequeña rampa hacia abajo a poco menos de 30 vatios, antes de una disminución más constante de más de 30 segundos a 15 W , antes de permanecer a 15 W para la prueba completa. El Renoir aquí tiene ocho núcleos en lugar de cuatro, pero ejecuta código AVX2 en lugar de AVX-512.

Los resultados son los siguientes:

• Ice Lake: 233 segundos, durante 6072 julios, con un promedio de 26,1 W
• Tiger Lake: 241 segundos para 4082 julios, con un promedio de 17.0 W
• Renoir: 234 segundos para 5386 julios, con un promedio de 23,0 W

Los tres sistemas realizan la prueba en aproximadamente la misma cantidad de tiempo, sin embargo, el sistema Tiger Lake está muy por delante en eficiencia. Tiger Lake reduce efectivamente un tercio de la energía del sistema Ice Lake de la generación anterior. No esperábamos tanto salto de Ice Lake a Tiger Lake, pero parece que Intel ha hecho algunos trabajos en la unidad AVX-512 y está poniendo en uso ese nuevo transistor de alto rendimiento.

Carga de trabajo ISV profesional

Pasando a la prueba de Agisoft, como se mencionó en la página anterior, esta es una imagen 2D a un flujo de trabajo de modelado 3D donde el algoritmo viene en cuatro etapas, algunas de las cuales prefieren un rendimiento completo de múltiples subprocesos, mientras que otras son más sensibles a la frecuencia y la memoria.

Primero, Renoir termina en casi la mitad del tiempo, principalmente debido al hecho de que tiene el doble de núcleos: no hay una ruta de código AVX-512 en esta prueba, por lo que todos los procesadores dependen de una combinación de SSE, AVX, y quizás algo de AVX2. Aparte de eso, el comportamiento turbo de Renoir es muy interesante: obtenemos casi 10 minutos de rendimiento superior al básico antes de que el algoritmo se establezca en una rutina, rondando los 22 W. Porque esta prueba no ataca las unidades vectoriales con tanta fuerza como En la prueba anterior, puede darse el caso de que el sistema Renoir pueda gestionar un poco mejor la distribución de energía entre los ocho núcleos, lo que permite un turbo más alto.

Entre Ice Lake y Tiger Lake, según el gráfico, parecería ser una doble victoria para Tiger Lake, terminando en menos tiempo pero también consumiendo menos energía. Los resultados son:

• 15 W Renoir: 2842 segundos para 62660 julios
• Lago de hielo de 15 W: 4733 segundos para 82344 julios
• 15 W Tiger Lake: 4311 segundos para 64854 julios

En este caso, es una victoria para Renoir: mucho menos tiempo y mejor potencia para arrancar, derivado de los ocho núcleos construidos en TSMC 7nm. Tiger Lake todavía representa un buen salto sobre Ice Lake, ofreciendo un 10% más de rendimiento con solo el 79% de la potencia, o un aumento del 13% en la eficiencia del rendimiento.

Rendimiento de CPU ST: SPEC 2006, SPEC 2017

SPEC2017 y SPEC2006 es una serie de pruebas estandarizadas que se utilizan para probar el rendimiento general entre diferentes sistemas, diferentes arquitecturas, diferentes microarquitecturas y configuraciones. El código debe compilarse y luego los resultados pueden enviarse a una base de datos en línea para su comparación. Cubre un rango de cargas de trabajo enteras y de punto flotante, y puede estar muy optimizado para cada CPU, por lo que es importante verificar cómo se compilan y ejecutan los puntos de referencia.

Ejecutamos las pruebas en un arnés construido a través del Subsistema de Windows para Linux, desarrollado por nuestro propio Andrei Frumusanu. WSL tiene algunas peculiaridades extrañas, con una prueba que no se ejecuta debido a un tamaño de pila fijo de WSL, pero para las pruebas similares es lo suficientemente bueno. SPEC2006 está en desuso a favor de 2017, pero sigue siendo un punto de comparación interesante en nuestros datos. Debido a que nuestros puntajes no son presentaciones oficiales, según las pautas de SPEC, tenemos que declararlos como estimaciones internas de nuestra parte.

Para los compiladores, usamos LLVM tanto para C / C ++ como para pruebas de Fortan, y para Fortran usamos el compilador Flang. La razón fundamental de utilizar LLVM sobre GCC son mejores comparaciones multiplataforma con plataformas que solo tienen soporte LLVM y artículos futuros donde investigaremos más este aspecto. No estamos considerando compiladores de código cerrado como MSVC o ICC.

clang version 10.0.0
clang version 7.0.1 (ssh://git@github.com/flang-compiler/flang-driver.git
24bd54da5c41af04838bbe7b68f830840d47fc03)

-Ofast -fomit-frame-pointer
-march=x86-64
-mtune=core-avx2
-mfma -mavx -mavx2

Nuestros indicadores del compilador son sencillos, con conmutadores ISA básicos, rápidos y relevantes para permitir instrucciones AVX2. Decidimos construir nuestros binarios SPEC en AVX2, lo que pone un límite a Haswell en cuanto a la edad que podemos tener antes de que caigan las pruebas. Esto también significa que no tenemos archivos binarios AVX512, principalmente porque para obtener el mejor rendimiento, el intrínseco AVX-512 debe ser empaquetado por un experto adecuado, como con nuestro punto de referencia AVX-512.

Cabe señalar que los requisitos para la licencia SPEC establecen que cualquier resultado de referencia de SPEC debe etiquetarse como “estimado” hasta que se verifique en el sitio web de SPEC como una representación significativa del rendimiento esperado. Esto lo hacen con mayor frecuencia las grandes empresas y los OEM para mostrar el rendimiento a los clientes, sin embargo, es bastante exagerado para lo que hacemos como revisores.

Comenzando con nuestro análisis SPEC2006 para Tiger Lake, dado que estamos muy familiarizados con las características de microarquitectura de estas cargas de trabajo:

Como nota, las cifras de Tiger Lake publicadas en las subpuntuaciones detalladas representan la opción de configuración TDP de 28W de la plataforma, con el núcleo en su mayoría sincronizando a 4800MHz y todos los demás aspectos del dispositivo permitiendo la máxima velocidad. Esto nos permite un análisis de microarquitectura puro.

Las mejoras generacionales del nuevo diseño de Sunny Cove aquí están mostrando en gran medida sus características publicitarias de la microarquitectura.

Comenzando con cargas de trabajo de alto IPC y backend vinculadas a la ejecución, como 456.hmmer, estamos viendo un aumento de rendimiento casi lineal con la frecuencia de reloj. Sunny Cove aquí tuvo mejoras de IPC más grandes, pero el diseño de Ice Lake era bastante limitado en su frecuencia de reloj, la mayor parte del tiempo aún perdía frente a los diseños de Skylake de mayor frecuencia.

Esta vez, con el mayor aumento de frecuencia, el chip Tiger Lake es capaz de superar incluso al i7-10900K de escritorio a 5.3GHz, siempre que la memoria no se convierta en un cuello de botella.

IPC / rendimiento por reloj, las cosas son en su mayoría planas entre generaciones en + -2% dependiendo de las cargas de trabajo, pero a 473.astar parece gustarle la arquitectura de Willow Cove ya que estamos viendo un aumento del + 10%. La mejora del 4% en el IPC de 403.gcc también se aprovecha de la caché L2 más grande del diseño, mientras que la naturaleza muy sensible a la latencia de 429.mcf ve un enorme aumento del 23% en el IPC gracias a los sólidos controladores de memoria de Tiger Lake.

A 462.libquantum no le va nada bien, ya que no solo estamos viendo una reducción del 30% en el IPC, sino que el rendimiento absoluto es en realidad peor que Ice Lake. Esta carga de trabajo consume mucho ancho de banda. La teoría es que si tiene una huella de carga de trabajo principalmente residente en caché, entonces generalmente tendría sentido ver tal degradación de rendimiento debido al rendimiento generacional degradado general de L3. Es un aspecto interesante que también veremos en 470.lbm.

En las cargas de trabajo de punto flotante, nuevamente vemos que el chip Tiger Lake funciona extremadamente bien, pero hay algunos valores atípicos. Como se mencionó, 470.lbm es que también está extremadamente hambriento de ancho de banda y experimenta una degradación generacional, que nuevamente podría estar relacionada con L3, o algo más específico del subsistema de memoria.

En realidad, hay una degradación de IPC más amplia en este conjunto, con 482.sphinx siendo la única carga de trabajo positiva con un aumento de + 2%, mientras que el resto cae en un -12%, -7%, -14%, -3% y ese enorme -31% de degradación por 470.lbm. Esencialmente, todas las cargas de trabajo que tienen características de presión de memoria más fuertes.

El rendimiento general de la puntuación SPEC2006 para Tiger Lake es extremadamente bueno. Aquí también presentamos las cifras de configuración de 15 W frente a 28 W para las cargas de trabajo de un solo subproceso, que sí ven un salto en el rendimiento al pasar a la configuración de TDP más alta, lo que significa que el diseño está limitado térmicamente a 15 W incluso en cargas de trabajo ST. Por cierto, esta es una limitación de consumo de energía central, ya que incluso las cargas de trabajo de pequeña huella de memoria experimentan un salto en el rendimiento.

El i7-1185G7 está detrás del i9-10900K de escritorio, solo por unos pocos puntos porcentuales.

Contra la competencia x86, Tiger Lake deja a Renoir basado en Zen2 de AMD en el polvo cuando se trata de rendimiento de un solo subproceso. Comparándolo con el A13 de Apple, las cosas no se ven tan optimistas ya que la CPU Intel apenas la supera a pesar de que usa varias veces más energía, lo que no es un buen augurio para Intel una vez que Apple lance sus Macbooks “Apple Silicon”.

Incluso contra Arm’s Cortex-A77, las cosas no se ven optimistas, ya que la multitud x86 está mucho más adelante considerando que el diseño de Arm solo usa 2W.

Pasando a la nueva suite SPEC2017, estamos viendo una historia bastante similar en la escala entre las plataformas. Tiger Lake y sus núcleos Willow Cove están mostrando un rendimiento sobresaliente siempre que las cosas estén limitadas a la ejecución, sin embargo, se atrasan un poco en el sistema de escritorio cuando la memoria entra en juego. Aquí hay dos conjuntos de resultados, cargas de trabajo que tienen requisitos de latencia o ancho de banda altos, o aquellas que tienen requisitos de huella de memoria grandes.

523.xalancbmk_r parece ser de este último, ya que está publicando un salto de IPC bastante bueno del 10% para Willow Cove, mientras que el resto generalmente se encuentra entre regresiones de -4% o mejoras de + 3-5%.

En la suite FP, en su mayoría vemos nuevamente el mismo tipo de características, con el rendimiento la mayor parte del tiempo escalando en línea con la frecuencia de reloj de Tiger Lake, con algunos valores atípicos aquí y allá en términos de IPC, como 544.nab_r ganando + 9%, o 549.fotonik3d_r retrocediendo en un 12%.

Al igual que en la suite de 2006, el 519.lbm_r, hambriento de ancho de banda de memoria, ve una regresión de IPC del 23%, que también retrocede su rendimiento absoluto por debajo del de Ice Lake.

En general, en los puntajes de 2017, Tiger Lake en realidad aparece como la microarquitectura de CPU líder si se tienen en cuenta los puntajes enteros y de punto flotante juntos.

Aunque el rendimiento absoluto del diseño aquí es ejemplar, me siento un poco decepcionado de que, en general, la mayoría de las ganancias de rendimiento vistas hoy se debieran a las frecuencias de reloj más altas del nuevo diseño.

Las mejoras de IPC de Willow Cove son bastante variadas. En algunas cargas de trabajo raras que pueden aprovechar al máximo los aumentos de caché, estamos viendo mejoras del 9-10%, pero estas son más una excepción que la regla. En otras cargas de trabajo vimos algunas regresiones de rendimiento bastante extrañas, especialmente en pruebas con alta presión de memoria donde el diseño vio regresiones de ~ 5-12%. Como media geométrica en todas las cargas de trabajo de SPEC y normalizada por frecuencia, Tiger Lake mostró el 97% del rendimiento por reloj de Ice Lake.

En un panorama competitivo en el que AMD está configurado para realizar mejoras generacionales de IPC de + 15% y Arm ahora tiene una hoja de ruta agresiva con actualizaciones de IPC anuales de + 30%, Willow Cove de Intel, aunque ofrece un gran rendimiento, parece ser una microarquitectura bastante aburrida. .

Rendimiento de CPU MT: SPEC 2006, SPEC 2017

Hemos notado las discusiones anteriores sobre el manejo de TDP de Intel y cómo Tiger Lake tiene modos de operación de 15W y 28W, y donde esto entra en juego más es en escenarios de subprocesos múltiples donde la plataforma generalmente tiene una envolvente de potencia limitada, teniendo que reducir el reloj de lo contrario. .

Estamos mostrando el rendimiento de MT en SPEC para ambos modos de Tiger Lake, comparándolo con los chips de 15W Ice Lake y AMD Renoir. Como nota, la plataforma Ice Lake de 15W tenía un consumo de energía sostenido de 18W, lo que hace que las cosas no sean tan sencillas. También como recordatorio, los sistemas Intel tienen 4 núcleos y ejecutan 8 instancias de subprocesos, mientras que el sistema AMD tiene 8 núcleos y ejecuta 16 subprocesos.

A primera vista, el sistema Tiger Lake funciona bastante bien en comparación con su predecesor, pero eso es principalmente solo en el modo 28W. A 15W, el impulso generacional, mientras está ahí, no es tan significativo. Esto podría indicar que la eficiencia no es mucho mejor en esta generación.

La plataforma de AMD se escala increíblemente bien en cargas de trabajo vinculadas a la ejecución, ya que aprovecha al máximo el doble del número de núcleos. En cargas de trabajo con más memoria, los núcleos Zen2 aquí parecen carecer de recursos suficientes y escalan por debajo del rendimiento de los diseños de 4 núcleos de Intel en algunas cargas de trabajo.

En los resultados de punto flotante, nuevamente se trata de un margen de TDP y de escalabilidad del rendimiento de la memoria. En los resultados de 15W, el chip Tiger Lake presenta mejoras bastante pequeñas sobre su contraparte de Ice Lake, mientras que en el modo de 28W las ganancias son más considerables e incluso logra superar al sistema AMD la mayoría de las veces.

En las puntuaciones generales, el veredicto sobre Tiger Lake depende de cómo evalúe las ganancias de rendimiento de Intel. A un nivel de TDP (semi) igual entre Tiger Lake y Ice Lake, las mejoras en el rendimiento son del 17%. Intel alcanza un aumento de rendimiento generacional mayor del 51% en su configuración de 28 W, pero en ese momento estamos hablando de soluciones de enfriamiento bastante diferentes dentro de una computadora portátil, lo que ya no hace que esta sea una comparación válida de manzanas con manzanas.

Todavía no hemos tenido la oportunidad de probar el modelo TDP -HS más alto de Renoir, pero con el 15W 4800U ya en su mayoría vinculado al 28W i7-1185G7, esperaríamos que supere notablemente al chip Tiger Lake.

En general, Tiger Lake parece ofrecer aproximadamente un 20% más de rendimiento por vatio en comparación con su predecesor, con un mayor rendimiento más allá de eso a un costo de mayor consumo de energía.

Rendimiento de la CPU: Office y Web

Nuestro conjunto anterior de puntos de referencia de ‘oficina’ a menudo ha sido una mezcla de ciencia y sintéticos, por lo que esta vez queríamos mantener nuestra sección de oficina exclusivamente en el rendimiento del mundo real.

Agisoft Photoscan 1.3.3

Photoscan permanece en nuestro paquete de referencia de los scripts de referencia anteriores, pero se actualiza a la versión 1.3.3 Pro. A medida que este punto de referencia ha evolucionado, entran en juego características como Speed ​​Shift o XFR en los últimos procesadores, ya que tiene muchos segmentos en una carga de trabajo de subprocesos variable.

El concepto de Photoscan consiste en traducir muchas imágenes 2D a un modelo 3D, por lo que cuanto más detalladas sean las imágenes y cuanto más tenga, mejor será el modelo 3D final tanto en precisión espacial como en precisión de textura. El algoritmo tiene cuatro etapas, con algunas partes de las etapas de un solo subproceso y otras de múltiples subprocesos, junto con cierta dependencia de memoria caché / allí también. Para algunas de las cargas de trabajo con subprocesos más variables, características como Speed ​​Shift y XFR podrán aprovechar las paradas de la CPU o el tiempo de inactividad, lo que brindará aceleraciones considerables en microarquitecturas más nuevas.

Para la actualización a la versión 1.3.3, el software Agisoft ahora admite la operación de línea de comandos. Agisoft nos proporcionó un conjunto de imágenes nuevas para esta versión de la prueba y un script de Python para ejecutarlo. Hemos modificado ligeramente la secuencia de comandos cambiando algunas configuraciones de calidad en aras de la duración de la suite de referencia, así como también ajustando cómo se registran los datos de tiempo finales. La secuencia de comandos de Python vuelca el archivo de resultados en el formato que elijamos. Para nuestra prueba obtenemos el tiempo de cada etapa del benchmark, así como el tiempo total.

El resultado final es una tabla que se ve así:

Como se explicó en las pruebas de potencia, el 4800U con el doble de núcleos gana aquí, y debido a la presión vectorial también gana en eficiencia energética. Todavía hay un aumento considerable de Ice Lake a Tiger Lake a 15 W, aunque se necesitan 28 W para obtener algo considerable.

Mozilla Kraken 1.1

Kraken es un punto de referencia de 2010 de Mozilla y realiza una serie de pruebas de JavaScript. Estas pruebas son un poco más complicadas que las pruebas anteriores, y analizan la inteligencia artificial, la manipulación de audio, la manipulación de imágenes, el análisis json y las funciones criptográficas. El punto de referencia comienza con una descarga inicial de datos para el audio y las imágenes, y luego se ejecuta 10 veces dando un resultado cronometrado.

La automatización implica cargar la página web directa donde se ejecuta la prueba y pasarla. Todas las CPU terminan la prueba en menos de un par de minutos, así que lo ponemos como punto final y copiamos el contenido de la página en el portapapeles antes de analizar el resultado. Cada ejecución de la prueba en la mayoría de las CPU toma de medio segundo a unos pocos segundos.

Ambos resultados de Tiger Lake son muy rápidos, sin mostrar mucha diferencia entre los modos de potencia. Intel se adelanta a AMD aquí y, en última instancia, da un salto considerable sobre Ice Lake.

Google Octane 2.0

Nuestra segunda prueba también está basada en JavaScript, pero utiliza mucha más variación de las técnicas JS más nuevas, como la programación orientada a objetos, la simulación del kernel, la creación / destrucción de objetos, la recolección de basura, la manipulación de matrices, la latencia del compilador y la ejecución de código.

Octane se desarrolló después de la interrupción de otras pruebas, con el objetivo de ser más similar a una web que las pruebas anteriores. Ha sido un punto de referencia popular, lo que lo convierte en un objetivo obvio para las optimizaciones en los motores de JavaScript. En última instancia, se retiró a principios de 2017 debido a esto, aunque todavía se usa ampliamente como una herramienta para determinar el rendimiento general de la CPU en una serie de tareas web.

La automatización de Octane es un poco diferente a las demás: no hay un sitio web directo al que ir para ejecutar el punto de referencia. Se abre la página de referencia, pero el usuario tiene que navegar hasta el botón “Inicio” o abrir la consola e iniciar el JavaScript necesario para ejecutar la prueba. La prueba tampoco muestra un punto final obvio, pero afortunadamente intenta apuntar a un tiempo fijo para cada procesador. Esto es similar a algunas de nuestras otras pruebas, que giran alrededor de un tiempo fijo antes de finalizar. Desafortunadamente, esto no funciona si el primer ciclo va más allá de ese tiempo fijo, ya que el ciclo todavía tiene que terminar. Para Octane, lo hemos establecido en 75 segundos por ejecución y repetimos la prueba completa cuatro veces.

El sistema de Tiger Lake alcanza nuevos récords en Optane. Si hay algo en lo que este sistema es rápido, son las cargas de trabajo web.

Speedometer 2: marcos de JavaScript

Nuestra prueba web más reciente es el Velocímetro 2 , que es una prueba sobre una serie de marcos de JavaScript para hacer tres cosas simples: crear una lista, habilitar cada elemento de la lista y eliminar la lista. Todos los marcos implementan las mismas señales visuales, pero obviamente las aplican desde diferentes ángulos de codificación.

Nuestra prueba pasa por la lista de marcos y produce una puntuación final indicativa de ‘rpm’, una de las métricas internas de referencia. En lugar de usar la interfaz principal, vamos a la interfaz de administración a través de la página Acerca de y administramos los resultados allí. Implica guardar la página web cuando se completa la prueba y analizar el resultado final.

Repetimos sobre el punto de referencia durante una docena de bucles, tomando el promedio de los últimos cinco.

Una vez más, otra buena victoria para Tiger Lake.

Rendimiento de la CPU: simulación y ciencia

La simulación y la ciencia se superponen mucho en el mundo de la evaluación comparativa, sin embargo, para esta distinción, nos estamos separando en dos segmentos principalmente en función de la utilidad de los datos resultantes. Los puntos de referencia que se incluyen en Ciencia tienen un uso distinto para los datos que generan; en nuestra sección de Simulación, estos actúan más como sintéticos, pero en algún nivel todavía intentan simular un entorno determinado.

DigiCortex v1.35

DigiCortex es un proyecto favorito para la visualización de la actividad neuronal y sinapsis en el cerebro. El software viene con una variedad de modos de referencia, y tomamos la pequeña referencia que ejecuta una simulación de sinapsis de neuronas 32k / 1.8B, similar a una pequeña babosa.

Los resultados de la salida se dan como una fracción de si el sistema puede simular en tiempo real, por lo que cualquier valor superior a uno es adecuado para el trabajo en tiempo real. El punto de referencia ofrece un modo ‘sin sinapsis sin disparo’, que en esencia detecta la DRAM y la velocidad del bus, sin embargo, tomamos el modo de disparo que agrega trabajo de CPU con cada disparo.

Me comuniqué con el autor del software, quien ha agregado varias funciones para que el software sea propicio para la evaluación comparativa. El software viene con una serie de archivos por lotes para realizar pruebas, y ejecutamos la versión ‘pequeña nogui de 64 bits’ con una línea de comando modificada para permitir el ‘calentamiento de referencia’ y luego realizar la prueba real.

El software se envió originalmente con un punto de referencia que registraba los primeros ciclos y generaba un resultado. Entonces, mientras que los procesadores rápidos de múltiples subprocesos hicieron que el punto de referencia durara menos de unos pocos segundos, los procesadores lentos de doble núcleo podrían funcionar durante casi una hora. También existe el problema de que DigiCortex comience con un mapa de neurona / sinapsis base en ‘modo apagado’, lo que da un resultado alto en los primeros ciclos, ya que ninguno de los nodos está activo actualmente. Descubrimos que el rendimiento se estabiliza después de un tiempo (cuando el modelo está en uso activo), por lo que le pedimos al autor que permitiera una fase de “ calentamiento ” y que el punto de referencia fuera el promedio durante un segundo. tiempo de muestra.

Para nuestra prueba, le damos al punto de referencia 20000 ciclos para calentar y luego tomamos los datos durante los siguientes 10000 ciclos segundos para la prueba; en un procesador moderno, esto toma 30 segundos y 150 segundos respectivamente. A continuación, se repite un mínimo de 10 veces y se rechazan los tres primeros resultados.

También tenemos una bandera adicional en el software para hacer que la prueba de rendimiento finalice cuando se complete (que no es el comportamiento predeterminado). Los resultados finales se envían a un archivo predefinido, que se puede analizar para obtener el resultado. El número que nos interesa es la capacidad de simular este sistema en tiempo real, y los resultados se dan como factor de esto: al hardware que puede simular el doble en tiempo real se le da el valor de 2.0, por ejemplo.

A DigiCortex le gustan los procesadores AMD de 8 núcleos, pero no parece que le gusten la memoria LPDDR4 sobre la DDR4 estándar.

Fortaleza enana 0.44.12

Otra solicitud de larga data para nuestra suite de referencia ha sido Dwarf Fortress, un popular videojuego indie de gestión / roguelike, lanzado por primera vez en 2006 y que todavía se actualiza regularmente hoy, con el objetivo de un lanzamiento de Steam en algún momento en el futuro.

Emulando las interfaces ASCII de antaño, este título es una bestia bastante compleja, que puede generar entornos sujetos a milenios de gobierno, rostros famosos, campesinos y personajes y eventos históricos clave. Cuanto más te adentras en el juego, dependiendo del tamaño del mundo, más lento se vuelve, ya que tiene que simular más personajes famosos, más eventos mundiales y la forma natural en que las criaturas humanoides se apoderan de un entorno. Como una especie de virus.

Para nuestra prueba usamos DFMark. DFMark es un punto de referencia creado por vorsgren en los Bay12Forums que ofrece dos modos diferentes basados ​​en DFHack: generación mundial y embarque. Estas pruebas se pueden configurar, pero oscilan entre 3 minutos y varias horas. Hemos probado un escenario de gran generación mundial:

Grande, un mundo de 257×257 con 550 años, 40 civilizaciones y 10 megabeasts

DFMark genera el tiempo para ejecutar una prueba determinada, por lo que esto es lo que usamos para la salida. Repetimos la prueba grande tantas veces en una hora.

Al hardware de Intel le gusta Dwarf Fortress. Es principalmente de un solo subproceso, por lo que lo que importa aquí es un IPC alto y una frecuencia alta.

Emulación Dolphin v5.0

Muchos emuladores a menudo están sujetos al rendimiento de la CPU de un solo subproceso, y los informes generales tienden a sugerir que Haswell proporcionó un impulso significativo al rendimiento del emulador. Este punto de referencia ejecuta un programa de Wii que traza una compleja escena 3D dentro del emulador Dolphin Wii. El rendimiento en este punto de referencia es un buen indicador de la velocidad de la emulación de la CPU Dolphin, que es una tarea intensiva de un solo núcleo que utiliza la mayoría de los aspectos de una CPU. Los resultados se dan en segundos, donde la propia Wii puntúa 1051 segundos.

El software Dolphin tiene la capacidad de generar un registro, y obtuvimos una versión del punto de referencia de un desarrollador de Dolphin que genera la pantalla en ese archivo de registro. El punto de referencia cuando finalice intentará cerrar automáticamente el software Dolphin (lo que no es un comportamiento normal) y mostrará una ventana emergente para confirmar, que nuestro script de referencia puede detectar y eliminar. El archivo de registro es bastante detallado, por lo que el script de referencia se repite línea por línea en busca de una coincidencia de expresiones regulares en línea con el tiempo final para completar.

La mayoría de las veces, los procesadores de Intel son los que se deben elegir para este tipo de emulación: AMD se puso al día con Zen 2, pero parece que Tiger Lake da otro salto adelante.

Pruebas de CPU: ciencia

En esta versión de nuestro conjunto de pruebas, todas las pruebas centradas en la ciencia que no son trabajos de “simulación” están ahora en nuestra sección de ciencias. Esto incluye el movimiento browniano, el cálculo de los dígitos de Pi, la dinámica molecular y, por primera vez, estamos probando un punto de referencia de inteligencia artificial, tanto de inferencia como de entrenamiento, que funciona en Windows usando python y TensorFlow. Siempre que ha sido posible, estos puntos de referencia se han optimizado con lo último en instrucciones vectoriales, a excepción de la prueba de inteligencia artificial: nos dijeron que, si bien utiliza las bibliotecas de kernel de matemáticas de Intel, están optimizadas más para Linux que para Windows, por lo que da un resultado interesante. cuando se utiliza software no optimizado.

Movimiento de partículas 3D v2.1: No AVX y AVX2 / AVX512

Esta es la última versión del benchmark diseñada para simular algoritmos científicos semi-optimizados tomados directamente de mi tesis de doctorado. Esto implica el movimiento aleatorio de partículas en un espacio 3D utilizando un conjunto de algoritmos que definen el movimiento aleatorio. La versión 2.1 mejora sobre la 2.0 al pasar las estructuras de partículas principales por referencia en lugar de por valor, y disminuyendo la cantidad de double-> float-> double recasts que el compilador estaba agregando.

La versión inicial de v2.1 es un binario C ++ personalizado de mi propio código, los indicadores están en su lugar para permitir múltiples bucles del código con una longitud de referencia personalizada. De forma predeterminada, esta versión se ejecuta seis veces y envía la puntuación media a la consola, que capturamos con un operador de redirección que escribe en el archivo.

Para v2.1, también tenemos una versión AVX2 / AVX512 totalmente optimizada, que utiliza elementos intrínsecos para obtener el mejor rendimiento del software. Esto lo hizo un ex ingeniero de Intel AVX-512 que ahora trabaja en otro lugar. Según Jim Keller , solo hay un par de docenas de personas que entienden cómo extraer el mejor rendimiento de una CPU, y este tipo es uno de ellos. Para ser honesto, AMD también tiene una copia del código, pero no ha propuesto ningún cambio.

Para la computación que no es AVX, los ocho núcleos de los procesadores AMD están por delante, sin embargo, AVX-512 es una herramienta poderosa en las manos adecuadas, con el 1185G7 que ofrece un rendimiento de 2x-3x por la misma potencia que AMD.

y-Cruncher 0.78.9506

Si le pregunta a alguien qué tipo de computadora tiene el récord mundial para calcular la mayor cantidad de dígitos de pi, puedo garantizar que una buena parte de esas respuestas podrían apuntar a una supercomputadora colosa construida en una montaña por un supervillano. Afortunadamente, nada podría estar más lejos de la verdad: la computadora con el registro es un servidor Ivy Bridge de cuatro sockets con 300 TB de almacenamiento. El software que se ejecutó para conseguirlo fue y-cruncher.

Construido por Alex Yee durante la última parte de una década y algo más, y-Cruncher es el software de elección para calcular miles de millones y billones de dígitos de las constantes matemáticas más populares. El software ha tenido el récord mundial de Pi desde agosto de 2010, y ha batido el récord un total de 7 veces desde entonces. También tiene registros de e , la proporción áurea y otros. Según Alex, el programa ejecuta alrededor de 500,000 líneas de código, y tiene múltiples binarios, cada uno optimizado para diferentes familias de procesadores, como Zen, Ice Lake, Sky Lake, todo el camino de regreso a Nehalem, utilizando el último SSE / AVX2 / Instrucciones de AVX512 donde encajan y luego optimizadas aún más para la forma en que se construye cada núcleo.

Para nuestros propósitos, estamos calculando Pi, ya que está más limitado al cálculo que a la memoria.

y-Cruncher aprovecha la potencia adicional disponible en el modo TDP de 28 W, utilizando AVX-512 mejor que AMD con ocho núcleos en AVX2 a 65 W.

NAMD 2.13 (ApoA1): Dinámica molecular

Uno de los campos de la divulgación científica es el modelado de la dinámica de las proteínas. Al observar cómo la energía de los sitios activos dentro de una gran estructura de proteínas a lo largo del tiempo, los científicos detrás de la investigación pueden calcular las energías de activación necesarias para las posibles interacciones. Esto se vuelve muy importante en el descubrimiento de fármacos. La dinámica molecular también juega un papel importante en el plegamiento de proteínas y en la comprensión de lo que sucede cuando las proteínas se pliegan mal y qué se puede hacer para prevenirlo. Dos de los paquetes de dinámica molecular más populares que se utilizan en la actualidad son NAMD y GROMACS.

NAMD, o Dinámica molecular a nanoescala, ya se ha utilizado en una extensa investigación sobre el coronavirus en la supercomputadora Frontier. Las simulaciones típicas que utilizan el paquete se miden en cuántos nanosegundos por día se pueden calcular con el hardware dado, y la proteína ApoA1 (92,224 átomos) ha sido el modelo estándar para la simulación de dinámica molecular.

Afortunadamente, la computación puede ubicarse en una tasa típica de ‘nanosegundos por día’ después de solo 60 segundos de simulación, sin embargo, lo ampliamos a 10 minutos para tomar un valor más sostenido, ya que para ese momento la mayoría de los límites de turbo deberían superarse. La simulación en sí funciona con pasos de tiempo de 2 femtosegundos.

NAMD escala bien con núcleos.

AI Benchmark 0.1.2 con TensorFlow

Encontrar un punto de referencia de inteligencia artificial apropiado para Windows ha sido mi santo grial durante bastante tiempo. El problema es que la IA es una palabra de ritmo tan rápido y rápido que cualquier cosa que calcule este trimestre ya no será relevante en el próximo, y una de las métricas clave en este conjunto de evaluaciones comparativas es poder mantener los datos durante un largo período de tiempo. hora. Hemos tenido pruebas de referencia de IA en teléfonos inteligentes durante un tiempo, dado que los teléfonos inteligentes son un mejor objetivo para las cargas de trabajo de IA, pero también tiene sentido que todo en la PC también esté orientado a Linux.

Afortunadamente, sin embargo, la buena gente de ETH Zurich en Suiza ha convertido el punto de referencia de inteligencia artificial de su teléfono inteligente en algo que se puede usar en Windows. Utiliza TensorFlow, y para nuestros propósitos de referencia, hemos bloqueado nuestras pruebas en TensorFlow 2.10, AI Benchmark 0.1.2, mientras usamos Python 3.7.6; esta fue la única combinación de versiones que pudimos poner a trabajar, porque Python 3.8 tiene algunas peculiaridades.

El punto de referencia se ejecuta a través de 19 redes diferentes, incluidas MobileNet-V2, ResNet-V2, VGG-19 Super-Res, NVIDIA-SPADE, PSPNet, DeepLab, Pixel-RNN y GNMT-Translation. Todas las pruebas sondean tanto la inferencia como el entrenamiento en varios tamaños de entrada y de lote, excepto la traducción que solo hace inferencia. Mide el tiempo necesario para realizar una determinada cantidad de trabajo y, al final, escupe un valor.

Intel tiene actualmente las herramientas más sencillas para la aceleración de IA, y los desarrolladores aquí utilizan las bibliotecas Intel Math Kernel. A estas bibliotecas no les gusta escalar en Windows en comparación con Linux, pero aún vemos un aumento considerable para Tiger Lake de Ice Lake.

Rendimiento de la CPU: codificación

Uno de los elementos interesantes de los procesadores modernos es el rendimiento de la codificación. Esto cubre dos áreas principales: cifrado / descifrado para la transferencia segura de datos y transcodificación de video de un formato de video a otro.

En el escenario de cifrado / descifrado, cómo se transfieren los datos y por qué mecanismo es pertinente para el cifrado sobre la marcha de datos confidenciales, un proceso mediante el cual los dispositivos más modernos se inclinan por la seguridad del software.

La transcodificación de video como herramienta para ajustar la calidad, el tamaño de archivo y la resolución de un archivo de video se ha disparado en los últimos años, como por ejemplo, para proporcionar el video óptimo para los dispositivos antes del consumo o para los transmisores de juegos que desean cargar la salida de su cámara de video. en tiempo real. A medida que avanzamos hacia el video 3D en vivo, esta tarea solo se volverá más extenuante y resulta que el rendimiento de ciertos algoritmos es una función de la entrada / salida del contenido.

HandBrake 1.32

La transcodificación de video (codificación y decodificación) es un tema candente en las métricas de rendimiento a medida que se crea más y más contenido. La primera consideración es el estándar en el que se codifica el video, que puede ser sin pérdida o con pérdida, cambiar el rendimiento por el tamaño del archivo, cambiar la calidad por el tamaño del archivo, o todo lo anterior puede aumentar las tasas de codificación para ayudar a acelerar las tasas de decodificación. Junto a los códecs favoritos de Google, VP9 y AV1, hay otros que destacan: H264, el códec más antiguo, está prácticamente en todas partes y está diseñado para optimizarse para video de 1080p, y HEVC (o H.265) que tiene como objetivo proporcionar lo mismo. calidad como H264 pero con un tamaño de archivo menor (o mejor calidad para el mismo tamaño). HEVC es importante ya que 4K se transmite por aire, lo que significa que se deben transferir menos bits para obtener el mismo contenido de calidad.Hay otros códecs que llegan al mercado diseñados para casos de uso específicos todo el tiempo.

Handbrake es una herramienta preferida para la transcodificación, y las versiones posteriores utilizan grandes cantidades de API más nuevas para aprovechar los coprocesadores, como las GPU. Está disponible en Windows a través de una interfaz o se puede acceder a través de la línea de comandos, esta última facilita nuestras pruebas, con un operador de redirección para la salida de la consola.

Encontrar la combinación correcta de pruebas para usar en nuestra referencia de freno de mano a menudo es difícil. No hay una prueba que cubra todos los escenarios: los streamers tienen diferentes demandas a las casas de producción, luego hay una transcodificación de videollamadas que también requiere alguna medida del rendimiento de la CPU.

Esta vez, estamos probando una variedad de configuraciones de calidad que parecen encajar en varios escenarios. Tomamos la versión compilada de este video de YouTube de 16 minutos sobre CPU rusas a 1080p30 h264 y lo convertimos en dos archivos diferentes:

• 1080p30 a 480p30 ‘Discord’: x264, velocidad máxima 2100 kbps, perfil alto 4.0, preajuste medio, 30 picos de FPS
• 1080p30 a 720p30 ‘YouTube’: x264, velocidad máxima 25000 kbps, perfil alto 3.2, preajuste medio, 30 fps pico

Esperamos ver que la mayoría de las CPU móviles pueden administrar (1) en tiempo real, pero (2) podría ser un desafío.

Los núcleos adicionales del procesador AMD se muestran, con un pequeño salto del 12% de Ice a Tiger a 15W y un salto más grande moviéndose al modo de 28 W.

WinRAR 5.90

Para el conjunto de pruebas de 2020, pasamos a la última versión de WinRAR en nuestra prueba de compresión. WinRAR en algunos sectores es más fácil de usar que 7-Zip, de ahí su inclusión. En lugar de utilizar un modo de referencia como hicimos con 7-Zip, aquí tomamos un conjunto de archivos representativos de una pila genérica

• 33 archivos de video, cada 30 segundos, en 1.37 GB,
• 2834 archivos de sitios web más pequeños en 370 carpetas en 150 MB,
• 100 pistas de música Beat Sabre y archivos de entrada, para 451 MB

Se trata de una mezcla de formatos comprimibles e incompresibles. Los resultados que se muestran son el tiempo necesario para codificar el archivo. Debido al almacenamiento en caché de DRAM, ejecutamos la prueba durante 20 minutos y tomamos el promedio de las últimas cinco ejecuciones cuando el punto de referencia está en un estado estable.

Para la automatización, utilizamos las herramientas de temporización internas de AHK desde el inicio de la carga de trabajo hasta que la ventana se cierra, lo que significa el final. Esto significa que los resultados están contenidos en AHK, con un promedio de los últimos 5 resultados que es bastante fácil de calcular.

Junto con la frecuencia de un solo núcleo, WinRAR se beneficia mucho del ancho de banda de la memoria y del tipo de caché. Hemos visto en el pasado que los procesadores habilitados para eDRAM brindan un buen beneficio a software como WinRAR, y generalmente es donde vemos las mayores diferencias de DRAM. El Tiger Lake y el 4800U usan LPDDR4X-4266, con el Ice en LPDDR4X-3733. El presupuesto de energía adicional del Tiger Lake móvil de 28 W parece ofrecer el mayor beneficio.

Pruebas de CPU: renderizado

Las pruebas de renderizado, en comparación con otras, suelen ser un poco más sencillas de digerir y automatizar. Todas las pruebas arrojan algún tipo de puntaje o tiempo, generalmente de una manera obtenible que hace que sea bastante fácil de extraer. Estas pruebas son algunas de las más extenuantes de nuestra lista, debido a la naturaleza altamente enhebrada del renderizado y el trazado de rayos, y pueden consumir mucha energía. Si un sistema no está configurado correctamente para hacer frente a los requisitos térmicos del procesador, los puntos de referencia de renderizado es donde se mostrarían más fácilmente a medida que la frecuencia cae durante un período de tiempo prolongado. La mayoría de los puntos de referencia en este caso se vuelven a ejecutar varias veces, y la clave para esto es tener un tiempo de inactividad / espera adecuado entre los puntos de referencia para permitir que las temperaturas se normalicen desde la última prueba.

Blender 2.83 LTS

Una de las herramientas más populares para renderizar es Blender, ya que es un proyecto público de código abierto en el que cualquier persona en la industria de la animación puede participar. Esto se extiende a conferencias, uso en películas y realidad virtual, con un Blender Institute dedicado y todo lo que pueda esperar de un paquete de software profesional (excepto quizás un paquete de soporte de grado profesional). Al ser de código abierto, los estudios pueden personalizarlo de tantas formas como necesiten para obtener los resultados que necesitan. Termina siendo un gran objetivo de optimización tanto para Intel como para AMD en este sentido.

Para fines de evaluación comparativa, Blender ofrece un conjunto de pruebas de referencia: seis pruebas que varían en complejidad y dificultad para que cualquier sistema de CPU y GPU procese hasta varias horas de tiempo de cómputo, incluso en GPU comúnmente asociadas con herramientas de procesamiento. Desafortunadamente, lo que se envió a la comunidad no fue amigable para fines de automatización, ya que no había línea de comando, no había forma de aislar una de las pruebas y no había forma de obtener los datos de manera suficiente.

Con ese fin, recurrimos a una representación de un fotograma de un proyecto detallado. La mayoría de las reseñas, como hemos hecho en el pasado, se centran en uno de los renders clásicos de Blender, conocido como BMW_27. Puede llevar desde unos pocos minutos hasta casi una hora en un sistema normal. Sin embargo, ahora que Blender ha pasado a un modelo de soporte a largo plazo (LTS) con la última versión 2.83, decidimos optar por algo diferente.

Usamos esta escena, llamada PartyTug at 6AM por Ian Hubert , que es la imagen oficial de Blender 2.83. Tiene un tamaño de 44,3 MB y utiliza algunas de las propiedades informáticas más modernas de Blender. Como es más complejo que el escenario de BMW, pero utiliza diferentes aspectos del modelo de cálculo, el tiempo de procesamiento es aproximadamente similar al anterior. Repetimos la escena durante 10 minutos, tomando el tiempo promedio de las terminaciones realizadas. Blender ofrece una herramienta de línea de comandos para comandos por lotes y redirigimos la salida a un archivo de texto.

Blender aprovecha los más núcleos y los límites de potencia más altos.

Corona 1.3

Corona se anuncia como un popular motor de renderizado fotorrealista de alto rendimiento para 3ds Max, con desarrollo también para compatibilidad con Cinema 4D. Para promocionar el software, los desarrolladores produjeron un punto de referencia descargable en la versión 1.3 del software, con una escena trazada por rayos que involucra un vehículo militar y mucho follaje. El software hace múltiples pasadas, calculando la escena, la geometría, el preacondicionamiento y el renderizado, con el rendimiento medido en el tiempo para terminar el benchmark (la métrica oficial utilizada en su sitio web) o en rayos por segundo (la métrica que usamos para ofrecer un resultado más lineal escala).

El punto de referencia estándar proporcionado por Corona se basa en la interfaz: la escena se calcula y se muestra frente al usuario, con la capacidad de cargar el resultado en su base de datos en línea. Nos pusimos en contacto con los desarrolladores, quienes nos proporcionaron una versión sin interfaz que permitió la entrada de la línea de comandos y la recuperación de los resultados con mucha facilidad. Damos la vuelta al punto de referencia cinco veces, esperando 60 segundos entre cada una y tomando un promedio general. El tiempo para ejecutar este punto de referencia puede ser de alrededor de 10 minutos en un Core i9, hasta más de una hora en un procesador AMD 2014 de cuatro núcleos o Pentium de doble núcleo.

Una pequeña advertencia con este punto de referencia es que necesita acceso en línea para ejecutarse, ya que el motor solo funcionará con una licencia de los servidores de licencias. Tanto para la GUI como para la versión de línea de comandos, lo hace automáticamente, pero arroja un error si no puede obtener una licencia. Lo bueno es que la licencia tiene una validez de una semana, por lo que no necesita más comunicaciones hasta que se agote el tiempo.

Corona es muy similar a Blender en la escala de rendimiento.

Jugabilidad de Crysis solo para CPU

Uno de los memes más utilizados en los juegos de ordenador es “Can It Run Crysis?”. El juego original de 2007, construido en el motor Crytek por Crytek, fue anunciado como un título computacionalmente complejo para el hardware en ese momento y varios años después, lo que sugiere que un usuario necesitaba hardware gráfico del futuro para ejecutarlo. Avance rápido durante una década y el juego se ejecuta con bastante facilidad en las GPU modernas.

Pero, ¿podemos también aplicar el mismo concepto al renderizado puro de CPU? ¿Puede una CPU, por sí sola, renderizar Crysis? Desde que los procesadores de 64 núcleos ingresaron al mercado, uno puede soñar. Así que creamos un punto de referencia para ver si el hardware puede hacerlo.

Para esta prueba, estamos ejecutando el punto de referencia de la GPU de Crysis, pero en modo de procesamiento de CPU. Esta es una prueba de 2000 cuadros, con ajustes bajos. Inicialmente planeamos ejecutar la prueba en varias resoluciones, sin embargo, hablando de manera realista, solo 1920×1080 importa en este punto.

Este punto de referencia siempre es divertido.

Rendimiento de la GPU X e -LP: Civilization VI

Originalmente escrita por Sid Meier y su equipo, la serie Civilization de juegos de estrategia por turnos es un clásico de culto y muchas excusas para pasar la noche intentando que Gandhi te declare la guerra debido a un desbordamiento de enteros. A decir verdad, nunca jugué la primera versión, pero he jugado todas las ediciones desde la segunda hasta la sexta, incluida la cuarta con la voz del difunto Leonard Nimoy, y es un juego fácil de aprender, pero difícil de dominar.

Benchmarking Civilization siempre ha sido una especie de oxímoron: para un juego de estrategia por turnos, la velocidad de fotogramas no es necesariamente lo importante aquí e incluso en el estado de ánimo adecuado, algo tan bajo como 5 fotogramas por segundo puede ser suficiente. Sin embargo, con Civilization 6, Firaxis se volvió incondicional en la fidelidad visual, tratando de llevarte al juego. Como resultado, Civilization puede gravar los gráficos y las CPU a medida que aumentamos los detalles, especialmente en DirectX 12.

Civ6 es un juego que disfruta de un gran rendimiento de CPU, por lo que podemos ver la APU de escritorio al frente aquí. Los ocho núcleos del 4800U se adelantan a la versión de 15 W de Tiger Lake en nuestras dos pruebas, aunque el modo de potencia de 28 W obtiene una ventaja del 8% en la prueba de CPU limitada.

Rendimiento de la GPU X e -LP: Deus Ex Mankind Divided

Deus Ex es una franquicia con un amplio nivel de popularidad. A pesar de que la versión Deus Ex: Mankind Divided (DEMD) se lanzó en 2016, a menudo se ha anunciado como un juego que grava la CPU. Utiliza Dawn Engine para crear un juego de acción en primera persona muy complejo con armas e interfaces basadas en la ciencia ficción. El juego combina elementos de primera persona, sigilo y juegos de rol, con el juego ambientado en Praga, que trata temas de transhumanismo, teorías de conspiración y un futuro cyberpunk. El juego permite al jugador seleccionar su propio camino (sigilo, maníaco armado) y ofrece múltiples soluciones a sus acertijos.

DEMD tiene un punto de referencia en el juego, una mirada sobre rieles alrededor de un entorno que muestra algunos de los efectos más impresionantes del juego, como iluminación, texturas y otros. Incluso en 2020, sigue siendo un escaparate gráfico impresionante cuando todo se eleva al máximo.

En la configuración mínima, todos los gráficos integrados se pueden reproducir fácilmente, con AMD ganando con 15 W, pero el Tiger Lake de 28 W va un poco por encima de eso, dentro de la distancia de alcance de la APU de escritorio. A un máximo de 1080p más regular, el 20 FPS es quizás un poco demasiado lento para un juego normal.

Rendimiento de la GPU X e -LP: Final Fantasy XIV

A pesar de ser un número menos que Final Fantasy 15, debido a que FF14 es un título en línea multijugador masivo, siempre hay paquetes de actualización anual que también brindan la oportunidad de actualizaciones gráficas. En 2019, FFXIV lanzó su expansión Shadowbringers y, al mismo tiempo, se lanzó un punto de referencia independiente oficial para que los usuarios comprendan qué nivel de rendimiento pueden esperar. Al igual que el punto de referencia FF15 que hemos estado usando durante un tiempo, esta prueba es una escena larga de 7 minutos de juego simulado dentro del título. Hay una serie de características gráficas interesantes, y ciertamente se parece más a un título de 2019 que a una versión de 2010, que es cuando salió por primera vez FF14.

Dado que se trata de un punto de referencia independiente, no tenemos que preocuparnos por las actualizaciones, y la idea de este tipo de pruebas para los usuarios finales es mantener la coherencia de la base del código.

Esta es una victoria fácil para Intel.

Rendimiento de la GPU X e -LP: Final Fantasy XV

Al llegar a la PC, Final Fantasy XV: Windows Edition recibió una revisión gráfica ya que se transfirió desde la consola. Como un juego de rol de fantasía con una larga historia, se muestran los frutos de la exitosa asociación de Square-Enix con NVIDIA. El juego utiliza el motor luminoso interno y, al igual que con otros juegos de Final Fantasy, impulsa la imaginación de lo que podemos hacer con el hardware que tenemos debajo. Con ese fin, FFXV fue uno de los primeros juegos en promover el uso de la ‘fotografía de paisajes de videojuegos’, debido en parte al gran detalle incluso a largo alcance, pero también con la integración del software Ansel de NVIDIA, que permitió una superresolución. imágenes y efectos de posprocesamiento que se aplicarán.

En preparación para el lanzamiento del juego, Square Enix optó por lanzar un punto de referencia independiente. El uso del punto de referencia independiente de Final Fantasy XV nos brinda una secuencia estandarizada larga para grabar, aunque debe tenerse en cuenta que su uso intensivo de la tecnología NVIDIA significa que la configuración Máxima tiene problemas: muestra los elementos fuera de la pantalla. Para solucionar esto, usamos el ajuste preestablecido estándar que no tiene estos problemas. Usamos la configuración de calidad estándar.

Bien, probar en 8K fue un completo accidente. En ese escenario puro de GPU limitado, Intel está por delante. Cuando está a 720p en una combinación más estándar de configuraciones, los 28 W de Intel superan los gráficos integrados de escritorio de 65 W, pero quedan atrás cuando se atascan en el modo de 15 W.

Rendimiento de la GPU Xe-LP: World of Tanks

Aunque es diferente a la mayoría de los otros MMO o juegos en línea multijugador masivo que se juegan comúnmente, World of Tanks se desarrolla a mediados del siglo XX y permite a los jugadores tomar el control de una variedad de vehículos blindados de base militar. World of Tanks (WoT) es desarrollado y publicado por Wargaming, que tiene su sede en Bielorrusia, y la banda sonora del juego está compuesta principalmente por el compositor bielorruso Sergey Khmelevsky. El juego ofrece múltiples puntos de entrada, incluido un elemento de juego gratuito, además de permitir a los jugadores pagar una tarifa para abrir más funciones. Una de las cosas más interesantes de este MMO basado en tanques es que alcanzó el estado de eSports cuando debutó en los World Cyber ​​Games en 2012.

World of Tanks enCore es una aplicación de demostración para su nuevo motor gráfico escrito por el equipo de desarrollo de Wargaming. Con el tiempo, el nuevo motor principal se ha implementado en el juego completo mejorando las imágenes del juego con elementos clave como agua mejorada, flora, sombras, iluminación y otros objetos como edificios. La aplicación de demostración World of Tanks enCore no solo ofrece información sobre los cambios inminentes en el motor del juego, sino que también permite a los usuarios verificar el rendimiento del sistema para ver si el nuevo motor funciona de manera óptima en su sistema. Técnicamente, ahora hay disponible una versión de Ray Tracing del punto de referencia enCore, sin embargo, debido a que no se puede implementar de forma independiente sin el instalador, decidimos no usarla. Si eso se arregla, entonces podemos investigarlo.

WoT es una victoria fácil para Intel.

Rendimiento de la GPU Xe-LP: F1 2019

Los juegos de carreras de F1 de Codemasters han sido puntos de referencia populares en la comunidad tecnológica, principalmente por su facilidad de uso y porque parecen aprovechar cualquier área de una máquina que podría ser mejor que otra. La edición 2019 del juego presenta los 21 circuitos del calendario e incluye una gama de modelos retro y DLC centrados en las carreras de Alain Prost y Ayrton Senna. Construido sobre EGO Engine 3.0, el juego ha sido criticado de manera similar a la mayoría de los juegos deportivos anuales, al no ofrecer suficientes actualizaciones de fidelidad gráfica temporada a temporada para que la inversión en el último título valga la pena, sin embargo, la edición 2019 renueva el modo Carrera. , con características como cambios de conductor durante la temporada que entran en la mezcla. La calidad de los gráficos esta vez también es excelente, incluso a 4K bajo o 1080p Ultra.

Para ser honesto, la evaluación comparativa de la F1 ha subido y bajado en un año determinado. Desde al menos 2014, el punto de referencia ha girado en torno a un ‘archivo de prueba’, que le permite establecer qué pista desea, qué conductor controlar, qué clima desea y qué autos están en el campo. En años anteriores siempre he disfrutado poniendo el punto de referencia en mojado en Spa-Francorchamps, arrancando el coche más rápido en la parte trasera con 19 Vitantonio Liuzzis en una carrera de 2 vueltas y viendo volar chispas. En algunos años, el archivo de prueba no ha funcionado correctamente, y la pista no se puede cambiar.

Para nuestra prueba, colocamos a Alex Albon en el Red Bull en la posición # 20, para una carrera seca de dos vueltas alrededor de Austin.

En este caso, a 1080p Ultra, AMD e Intel (28W) coinciden. Desafortunadamente, al revisar los datos, la prueba de 15 W falló y solo lo notamos después de que devolvimos el sistema.

Conclusión: ¿Intel está sofocando a AMD con aceite de sardina?

Siempre que se revisa una nueva familia de procesadores, es fácil quedar atrapado en las métricas. ¡Más rendimiento! ¡Mejor consumo de energía! ¡Eficiencia incrementada! ¡Mejores ganancias de reloj por reloj! ¡Increíble precio! Cualquier revisión a través de una lente singular puede caer en la trampa de enfocarse solo en esa métrica específica. Entonces, ¿qué métricas importan más que otras? Eso depende de quién eres y para qué es el producto.

Tiger Lake es un procesador móvil que presenta los núcleos más rápidos de Intel y nuevos gráficos integrados creados con un proceso de fabricación actualizado. Este procesador se lanzará al mercado de portátiles ultra premium, ya que soporta el peso de lo mejor que Intel tiene para ofrecer en varios de sus grupos de ingeniería. Intel está trabajando activamente con sus socios para crear productos que ofrezcan el mejor rendimiento para este segmento justo antes de que sea absolutamente necesaria una GPU discreta.

Como guerrero de la carretera, es imprescindible combinar el rendimiento adecuado con la eficiencia energética. En nuestros puntos de referencia, debido a la nueva tecnología de nodo de proceso, así como al escalado de voltaje / frecuencia actualizado, podemos ver que Tiger Lake ofrece un mejor rendimiento a la misma potencia en comparación con Ice Lake, pero también extiende el rango de rendimiento sobre Ice Lake, asistido por esa frecuencia de turbo boost mucho más alta de 4.8 GHz. Cuando Tiger Lake ingrese a los sistemas minoristas, particularmente en el nivel de 15 W, será divertido ver qué tipo de mejoras en la duración de la batería se observan durante los flujos de trabajo del mundo real.

Como ingeniero, las ganancias genuinas en el rendimiento de reloj por reloj me emocionan. Desafortunadamente, Tiger Lake no ofrece mucho en este frente y, en algunos casos, vemos regresiones debido a la caché reorganizada según la carga de trabajo utilizada. Esta métrica ignora la potencia, pero la potencia es la métrica en la que gana Tiger Lake. Intel realmente no ha querido hablar sobre el rendimiento bruto de reloj por reloj, y tal vez sea comprensible (desde el punto de vista del producto del usuario final puro, en cualquier caso).

Tiger Lake tiene actualizaciones para la seguridad, así como para la tecnología Control-Flow Enforcement, lo cual es bueno; sin embargo, estas se mantienen detrás de las versiones vPro, creando una segmentación adicional en la pila de productos sobre la base de las características de seguridad. No estoy seguro de aprobar esto, ya que podría dejar inseguro a los usuarios que no son vPro y tratar de aumentar las ventas a los clientes comerciales para obtener el beneficio.

Los nuevos alambiques de Tiger Lake caen en contra de la competencia cuando comenzamos a discutir las pruebas de rendimiento en bruto. Intel deseaba promover flujos de trabajo profesionales con Tiger Lake, o flujos de trabajo de juegos como la transmisión, particularmente a 28 W en lugar de 15 W. A pesar de esto, podemos ver fácilmente que las opciones de Renoir de 15 W con ocho núcleos pueden superar a Tiger Lake en un escenario similar en nuestras pruebas de renderizado y nuestras cargas de trabajo escalables. Las únicas veces que Intel obtiene una victoria se debe al soporte del acelerador (AVX-512, DP4a, DL Boost). Además de eso, es probable que las computadoras portátiles Renoir en el mercado estén en un rango de precios más barato de lo que parece apuntar Intel.

Si Intel puede convencer a los desarrolladores de software para que se unan al uso de sus aceleradores, entonces ambos clientes se beneficiarán al igual que las métricas de Intel. El santo grial puede ser cuando se trata de OneAPI, que permite a los programadores enfocarse en diferentes aspectos del ecosistema de Intel bajo el mismo conjunto de herramientas. Sin embargo, OneAPI acaba de ingresar a la v1.0, y cualquier construcción de base de proyecto de software como ese requiere algunos años para despegar.

Para el rendimiento del usuario final, Tiger Lake ofrecerá una buena mejora de rendimiento sobre Ice Lake, o el mismo rendimiento con menos potencia. Es difícil de ignorar. Si los socios de Intel pueden colocar versiones de 28 W del silicio en el chasis de 15 W que estaban usando para Ice Lake, entonces debería proporcionar un buen producto.

No tuvimos demasiado tiempo para analizar el rendimiento de los nuevos gráficos Xe-LP, aunque quedó claro que el modo de 28 W obtiene un buen aumento de rendimiento sobre el modo de 15 W, lo que tal vez indica que DG1 (el gráficos discretos que vendrán más adelante) vale la pena estar atento. Contra el mejor procesador móvil de 15 W y los gráficos integrados de AMD, nuestros resultados quizás en las resoluciones más bajas se inclinaron hacia AMD, pero las resoluciones más altas fueron en su mayoría victorias para Intel: parecía variar mucho según el motor del juego.

Como concepto, el marketing de Tiger Lake me frustra. No ofrecer puntos de datos de manzanas con manzanas y afirmar que no vale la pena definir el TDP como un punto singular es demostrar los extremos que Intel cree que debe hacer para redefinir su mercado y ofuscar las comparaciones directas. Hubo un tiempo y un lugar donde Intel sintió la necesidad de compartir todo, tanto como fuera posible, con nosotros. Nos permitió esculpir la historia de hacia dónde imaginamos que se dirigía el mercado, y los OEM / clientes estuvieron disponibles para agregar sus comentarios sobre los puntos de vista de la base de clientes desde su perspectiva. Nos permitió, como prensa, volver a filtrar comentarios, críticas y sugerencias. El nuevo giro de la división de clientes de Intel, uno que en realidad ha estado avanzando a lo largo de este atolladero, solo servirá para confundir a su apasionada base de clientes, sus entusiastas,y quizás incluso los analistas financieros.

Sin embargo, si solo estamos hablando del producto, estoy en dos mentes por Tiger Lake. No da esas ganancias de rendimiento de reloj por reloj sin procesar que me gustaría, principalmente porque es casi el mismo diseño que Ice Lake para los núcleos de CPU, pero la expansión del rango de rendimiento junto con las mejoras de eficiencia energética lo harán hazlo un mejor producto en general. Al principio no creía en las cifras de eficiencia, pero las pruebas sucesivas mostraron buenas ganancias tanto del lado de fabricación de Intel como del diseño de silicio y la gestión del flujo de energía. No solo eso, los nuevos gráficos X e -LP parecen emocionantes y merecen una inspección más cercana.

Tiger Lake todavía no está rociando aceite de sardina con AMD, pero puede competir bien en varios mercados clave.

5 respuestas a «Revisión y análisis profundo de Intel Tiger Lake 11th Gen Core i7-1185G7»

  1. buenas taardes quiciera q subieran informacion sobre las placas x79 y x99 chinas q crearon pra reutilizar los xeon e5 16xx – 46xx de v1 – v4 y las ram ecc d servidor … por todo eso configurciones con 32 gb d ram y micros con 8 nucleos 16 hilos c pueden topr en aliexpres por menos d 180 usd y e visto videos moviendo la 3080 con menos d 10 siento d cuelo d botella a 4k .
    Quiciera leer mas sobre el tema q m parec una obcion muy econimica y con rendimientos muy altos pra ser del 2012 los xeon
    garcias

    1. ten cuidado si tienes planeado comprar alguna, pueden parecer un buen trato pero hay veces que la placa y el cpu no son compatibles entre sí (aunque dicen que lo son) y otros casos en los que solo puedes usar la ram en sngle channel, para más info mira los videos de linus tech tips “pc master race tries to beat consoles” y el de low spec gamer “These Recycled CPUs are amazing AND terrible”

  2. Buenos días hago está pregunta por aquí porque me sale load commnets hace días en la sección de preguntas, es que mi pc tenía w10 1903, me salían muchos carteles uno superpuesto sobre otro que dicen que no se puede localizar el archivo spoolsv.exe , y otro que dice que no se encuentran los recursos necesarios para ejecutar spoolssv, entonces estuve mirando y es un .exe con el icono de una impresora , y a la vez q me sale los carteles no los puedo quitar aunque si minimizar , entonces reintale la misma versión de Windows y me pasa lo mismo (antes no me pasaba) y puse la 1703 ahora y lo mismo , y cuando aparece el cartel comienza a hacer un ruido mi pc como un toquesillo a intervalos muy bajito , y quitó los sonidos del sistema en el mezclador de sonidos y se va , funcionan perfectamente el resto de los sonidos .Que podría ser esto ???

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *